问题——“实验室优等生”遇到真实求助为何失灵 随着多款大模型在医师资格类考试中取得高分,公众对其充当“随身健康助手”的期待不断升温。
现实应用中,不少机构也尝试将其用于就诊前自评、健康咨询分诊等环节,期望缓解医疗资源紧张、提升信息可及性。
然而,英国团队在真实用户参与的实验中发现:模型在“纸面能力”与“真实使用效果”之间存在明显落差。
研究邀请近1300名参与者,围绕感冒、贫血、胆结石等10种常见健康情境做决策,选择拨打急救电话、预约家庭医生或采取其他行动。
参与者随机使用三种主流大模型之一,或使用搜索引擎作为对照。
结果显示,在无需真人参与的评测中,模型平均可识别约94.9%的疾病,并在过半情形给出恰当建议;但当由普通人实际与模型互动后,疾病识别率降至不足35%,行动建议准确率也低于45%,且并未显著优于搜索引擎。
原因——信息表达与模型生成的“双向偏差”叠加放大 为何同一模型在不同评测方式下差异巨大?
研究对对话记录的进一步分析指出,两类沟通盲区相互叠加:一方面,普通人在焦虑或缺乏医学知识时,往往难以完整、准确描述症状与病史要点,关键细节缺失、表述模糊、时间线混乱较为常见;另一方面,模型在面对不完整信息时,可能生成逻辑连贯、措辞自信但存在误导风险的回答,使用户误以为结论可靠,从而影响下一步行动选择。
换言之,真实场景中并非单纯比拼模型“会不会诊断”,更考验“能否把问题问对、把信息补齐、把风险讲清”。
标准化题目强调结构化输入与明确选项,而公众咨询往往是非结构化、碎片化叙述,二者差异决定了性能表现会被显著拉开。
影响——若直接承担“第一道防线”,风险与责任边界需正视 这一发现对当前快速扩张的健康咨询类应用提出现实提醒。
首先,若用户依据不充分或误导性建议延误就医,可能带来个体健康风险,尤其在急症识别、用药与就诊时机判断上后果更为严重。
其次,若系统在不同人群、不同表达能力、不同健康素养条件下表现差异明显,可能加剧健康信息不平等:更会提问、能描述清楚的人获益更多,而弱势群体反而更易被误导。
再次,医疗建议牵涉隐私与合规,产品若将“辅助”包装为“替代”,容易引发责任归属不清、纠纷处置困难等问题。
更重要的是,若社会对技术能力产生过高预期,反而可能削弱对基层医疗体系与健康教育的投入,造成治理方向偏移。
对策——以循证评估、产品约束与人机协同降低落差 应对这一落差,关键不在于简单否定技术价值,而在于用医疗级标准重塑评估与应用边界。
第一,评测体系要从“考试分数”转向“真实用户任务”。
对公众分诊、风险提示、就医路径建议等功能,应开展贴近生活的随机对照研究与人群分层测试,覆盖不同年龄、教育水平、语言表达能力及常见共病情况,并将可解释性、误导性输出概率、紧急情形识别等纳入核心指标。
第二,产品设计要强化“提问与澄清”的能力,建立结构化引导:通过逐步询问症状起始时间、严重程度、伴随症状、既往史与用药史等,减少信息缺口;同时对不确定情形明确提示风险与建议就医阈值,避免以确定语气输出推断性结论。
第三,应用场景要坚持“辅助而非替代”,将其定位为健康教育与就医导航工具,重要决策环节应引入医务人员审核或与成熟的分诊规范联动,并建立可追溯的记录机制。
第四,监管与行业标准需同步完善,明确宣传边界、数据安全要求、临床风险分级与不良事件上报机制,推动形成可执行的准入与持续评估框架。
前景——从“能回答”走向“能服务”,仍需跨越多重门槛 从全球趋势看,智能化工具进入医疗服务体系是大方向,其价值也不仅限于答疑,还可能在健康科普、慢病随访、资源分流等方面发挥作用。
但要成为可靠的公共健康工具,必须经历从实验室到真实世界的严格验证,建立对不同场景、不同人群的适配策略。
技术进步固然重要,更关键的是把“真实沟通”作为核心能力建设:让系统更善于发现信息缺口、提示不确定性、识别高危信号,并与线下医疗资源形成顺畅衔接。
只有当评估方法、产品形态与治理体系同步升级,公众的期待才能转化为安全可控的实际收益。
这项研究提醒我们,技术进步与实际应用之间往往存在巨大鸿沟。
大语言模型的出现为医疗健康领域带来了新的可能性,但其真正价值的实现,需要在尊重科学规律、理解人性复杂性的基础上稳步推进。
盲目乐观和过度应用同样危险,唯有保持科学态度、坚持循证评估、不断完善人机协作机制,才能让这一新兴技术真正造福公众健康。