医疗AI诊断现性别差异引争议专家呼吁建立人机协同责任机制

问题——新技术进医院，准确率之外更需“临床可靠性”；近年来，大语言模型病历整理、文献检索、问诊辅助和规范化建议各上显示出潜力，一些测试场景中甚至拿到接近“满分”的成绩。但它能否接入医院电子病历系统、是否适合嵌入核心诊疗流程，医疗界与产业界仍存明显分歧。部分临床专家认为，诊疗并非简单“答题”：临床推理、体征判断、风险权衡以及医患沟通都难以用单一指标衡量；也有产业人士指出，在医生短缺、基层能力差异较大的现实下，智能系统更深度参与有望提升效率与服务可及性。分歧背后指向同一核心：医疗容错率极低，任何技术应用都必须经受真实世界的检验。原因——性别偏差等系统性问题，暴露数据与机制短板。在自然语言处理领域的一项国际会议研究中，团队对模型在多类疾病识别上的表现进行对照评估，发现其在心肌梗死判断上对女性存在明显漏判倾向：女性被识别数量显著低于实际病例，而男性则相对过判。国内高校与研究机构的涉及的工作也提示，大语言模型在性别、年龄等维度可能出现一致性偏差。偏差成因较为复杂：其一，训练数据可能存在结构性不均衡，女性在某些疾病的就诊记录、典型症状描述和确诊路径在数据中呈现不足；其二，临床文本本身存在“书写差异”，不同科室、不同医生的描述颗粒度不一，模型容易把“常见写法”误当作“唯一写法”；其三，模型输出具有概率性与可变性，同样信息在不同提示和语境下可能给出不同结论——影响临床稳定性；其四——不少评测仍偏向知识问答或标准化题库，与真实诊疗中常见的多病共存、信息缺失和时间压力并不一致。影响——若缺乏边界与校验，可能放大误诊风险并冲击信任。性别偏差首先影响诊疗安全：心肌梗死等急危重症争分夺秒，漏判可能导致检查延误，错过溶栓、介入等关键决策窗口。其次影响医疗公平：弱势群体更依赖标准化流程，一旦技术偏差叠加资源不足，可能形成新的不平等。再次带来责任与合规难题：当系统建议与医生判断不一致时，后果由谁承担、如何留痕追溯、如何界定“辅助”与“决策”，都需要制度明确。最后还可能影响青年医生培养：若将核心推理过度交由系统，临床思维训练与经验积累可能被削弱。对策——坚持“医生负责、技术辅助”，用制度把风险关进笼子。业内专家建议，将智能系统定位为诊疗辅助工具而非替代者，明确医疗行为的责任主体，确立“医生对诊疗负全责、系统提供参考”的基本原则，并通过法律与行业规范固化。在技术与管理层面，可从五上推进：一是准入评估前置化，建立覆盖不同性别、年龄、地区及合并症人群的测试集，重点考核急危重症与高风险场景，避免“题库里优秀、临床里失灵”。二是强化数据治理，推动高质量、多样化临床数据的合规汇聚与标注，补齐结构性缺口，并建立持续更新机制。三是实施偏差审计与可解释性要求，对关键疾病输出提供依据来源、置信区间与不确定性提示，便于医生复核。四是明确临床使用边界，分诊、随访、用药提醒等低风险环节先行试点，在核心决策环节设置强制复核与二次确认。五是完善监测与追责，建立上线后的不良事件报告、回滚机制与第三方评估，形成闭环管理。前景——审慎推进有序落地，走向“可验证、可追溯、可监管”。随着标准体系逐步完善、临床验证不断深入，大语言模型有望在医疗服务中承担更多事务性、规范性工作，帮助医生减少重复劳动，把时间投入到更需要人类判断与关怀的环节。但在急危重症识别、复杂合并症决策等上仍需长期验证，尤其要对潜在偏差保持敏感。未来的重点不是“用不用”，而是“如何安全、公平、合规地用”。

医疗领域的技术进步，必须以患者安全与诊疗公平为前提。面对大模型带来的新能力与新风险，关键不在于简单“信或不信”，而在于用制度明确边界、用证据验证效果、用责任约束行为。只有让技术回归辅助工具定位，并在可评估、可追溯、可问责的框架内运行，才能在守住底线的基础上释放创新红利。

医疗AI诊断现性别差异引争议 专家呼吁建立人机协同责任机制

医疗AI诊断现性别差异引争议专家呼吁建立人机协同责任机制