问题——新技术进医院,准确率之外更需“临床可靠性”; 近年来,大语言模型病历整理、文献检索、问诊辅助和规范化建议各上显示出潜力,一些测试场景中甚至拿到接近“满分”的成绩。但它能否接入医院电子病历系统、是否适合嵌入核心诊疗流程,医疗界与产业界仍存明显分歧。部分临床专家认为,诊疗并非简单“答题”:临床推理、体征判断、风险权衡以及医患沟通都难以用单一指标衡量;也有产业人士指出,在医生短缺、基层能力差异较大的现实下,智能系统更深度参与有望提升效率与服务可及性。分歧背后指向同一核心:医疗容错率极低,任何技术应用都必须经受真实世界的检验。 原因——性别偏差等系统性问题,暴露数据与机制短板。 在自然语言处理领域的一项国际会议研究中,团队对模型在多类疾病识别上的表现进行对照评估,发现其在心肌梗死判断上对女性存在明显漏判倾向:女性被识别数量显著低于实际病例,而男性则相对过判。国内高校与研究机构的涉及的工作也提示,大语言模型在性别、年龄等维度可能出现一致性偏差。 偏差成因较为复杂:其一,训练数据可能存在结构性不均衡,女性在某些疾病的就诊记录、典型症状描述和确诊路径在数据中呈现不足;其二,临床文本本身存在“书写差异”,不同科室、不同医生的描述颗粒度不一,模型容易把“常见写法”误当作“唯一写法”;其三,模型输出具有概率性与可变性,同样信息在不同提示和语境下可能给出不同结论——影响临床稳定性;其四——不少评测仍偏向知识问答或标准化题库,与真实诊疗中常见的多病共存、信息缺失和时间压力并不一致。 影响——若缺乏边界与校验,可能放大误诊风险并冲击信任。 性别偏差首先影响诊疗安全:心肌梗死等急危重症争分夺秒,漏判可能导致检查延误,错过溶栓、介入等关键决策窗口。其次影响医疗公平:弱势群体更依赖标准化流程,一旦技术偏差叠加资源不足,可能形成新的不平等。再次带来责任与合规难题:当系统建议与医生判断不一致时,后果由谁承担、如何留痕追溯、如何界定“辅助”与“决策”,都需要制度明确。最后还可能影响青年医生培养:若将核心推理过度交由系统,临床思维训练与经验积累可能被削弱。 对策——坚持“医生负责、技术辅助”,用制度把风险关进笼子。 业内专家建议,将智能系统定位为诊疗辅助工具而非替代者,明确医疗行为的责任主体,确立“医生对诊疗负全责、系统提供参考”的基本原则,并通过法律与行业规范固化。 在技术与管理层面,可从五上推进: 一是准入评估前置化,建立覆盖不同性别、年龄、地区及合并症人群的测试集,重点考核急危重症与高风险场景,避免“题库里优秀、临床里失灵”。 二是强化数据治理,推动高质量、多样化临床数据的合规汇聚与标注,补齐结构性缺口,并建立持续更新机制。 三是实施偏差审计与可解释性要求,对关键疾病输出提供依据来源、置信区间与不确定性提示,便于医生复核。 四是明确临床使用边界,分诊、随访、用药提醒等低风险环节先行试点,在核心决策环节设置强制复核与二次确认。 五是完善监测与追责,建立上线后的不良事件报告、回滚机制与第三方评估,形成闭环管理。 前景——审慎推进有序落地,走向“可验证、可追溯、可监管”。 随着标准体系逐步完善、临床验证不断深入,大语言模型有望在医疗服务中承担更多事务性、规范性工作,帮助医生减少重复劳动,把时间投入到更需要人类判断与关怀的环节。但在急危重症识别、复杂合并症决策等上仍需长期验证,尤其要对潜在偏差保持敏感。未来的重点不是“用不用”,而是“如何安全、公平、合规地用”。
医疗领域的技术进步,必须以患者安全与诊疗公平为前提。面对大模型带来的新能力与新风险,关键不在于简单“信或不信”,而在于用制度明确边界、用证据验证效果、用责任约束行为。只有让技术回归辅助工具定位,并在可评估、可追溯、可问责的框架内运行,才能在守住底线的基础上释放创新红利。