研究显示智能诊疗系统在实际应用中面临效能瓶颈人机交互难题亟待破解

问题——“实验室优等生”遇到真实求助为何失灵随着多款大模型在医师资格类考试中取得高分，公众对其充当“随身健康助手”的期待不断升温。

现实应用中，不少机构也尝试将其用于就诊前自评、健康咨询分诊等环节，期望缓解医疗资源紧张、提升信息可及性。

然而，英国团队在真实用户参与的实验中发现：模型在“纸面能力”与“真实使用效果”之间存在明显落差。

研究邀请近1300名参与者，围绕感冒、贫血、胆结石等10种常见健康情境做决策，选择拨打急救电话、预约家庭医生或采取其他行动。

参与者随机使用三种主流大模型之一，或使用搜索引擎作为对照。

结果显示，在无需真人参与的评测中，模型平均可识别约94.9%的疾病，并在过半情形给出恰当建议；但当由普通人实际与模型互动后，疾病识别率降至不足35%，行动建议准确率也低于45%，且并未显著优于搜索引擎。

原因——信息表达与模型生成的“双向偏差”叠加放大为何同一模型在不同评测方式下差异巨大？

研究对对话记录的进一步分析指出，两类沟通盲区相互叠加：一方面，普通人在焦虑或缺乏医学知识时，往往难以完整、准确描述症状与病史要点，关键细节缺失、表述模糊、时间线混乱较为常见；另一方面，模型在面对不完整信息时，可能生成逻辑连贯、措辞自信但存在误导风险的回答，使用户误以为结论可靠，从而影响下一步行动选择。

换言之，真实场景中并非单纯比拼模型“会不会诊断”，更考验“能否把问题问对、把信息补齐、把风险讲清”。

标准化题目强调结构化输入与明确选项，而公众咨询往往是非结构化、碎片化叙述，二者差异决定了性能表现会被显著拉开。

影响——若直接承担“第一道防线”，风险与责任边界需正视这一发现对当前快速扩张的健康咨询类应用提出现实提醒。

首先，若用户依据不充分或误导性建议延误就医，可能带来个体健康风险，尤其在急症识别、用药与就诊时机判断上后果更为严重。

其次，若系统在不同人群、不同表达能力、不同健康素养条件下表现差异明显，可能加剧健康信息不平等：更会提问、能描述清楚的人获益更多，而弱势群体反而更易被误导。

再次，医疗建议牵涉隐私与合规，产品若将“辅助”包装为“替代”，容易引发责任归属不清、纠纷处置困难等问题。

更重要的是，若社会对技术能力产生过高预期，反而可能削弱对基层医疗体系与健康教育的投入，造成治理方向偏移。

对策——以循证评估、产品约束与人机协同降低落差应对这一落差，关键不在于简单否定技术价值，而在于用医疗级标准重塑评估与应用边界。

第一，评测体系要从“考试分数”转向“真实用户任务”。

对公众分诊、风险提示、就医路径建议等功能，应开展贴近生活的随机对照研究与人群分层测试，覆盖不同年龄、教育水平、语言表达能力及常见共病情况，并将可解释性、误导性输出概率、紧急情形识别等纳入核心指标。

第二，产品设计要强化“提问与澄清”的能力，建立结构化引导：通过逐步询问症状起始时间、严重程度、伴随症状、既往史与用药史等，减少信息缺口；同时对不确定情形明确提示风险与建议就医阈值，避免以确定语气输出推断性结论。

第三，应用场景要坚持“辅助而非替代”，将其定位为健康教育与就医导航工具，重要决策环节应引入医务人员审核或与成熟的分诊规范联动，并建立可追溯的记录机制。

第四，监管与行业标准需同步完善，明确宣传边界、数据安全要求、临床风险分级与不良事件上报机制，推动形成可执行的准入与持续评估框架。

前景——从“能回答”走向“能服务”，仍需跨越多重门槛从全球趋势看，智能化工具进入医疗服务体系是大方向，其价值也不仅限于答疑，还可能在健康科普、慢病随访、资源分流等方面发挥作用。

但要成为可靠的公共健康工具，必须经历从实验室到真实世界的严格验证，建立对不同场景、不同人群的适配策略。

技术进步固然重要，更关键的是把“真实沟通”作为核心能力建设：让系统更善于发现信息缺口、提示不确定性、识别高危信号，并与线下医疗资源形成顺畅衔接。

只有当评估方法、产品形态与治理体系同步升级，公众的期待才能转化为安全可控的实际收益。

这项研究提醒我们，技术进步与实际应用之间往往存在巨大鸿沟。

大语言模型的出现为医疗健康领域带来了新的可能性，但其真正价值的实现，需要在尊重科学规律、理解人性复杂性的基础上稳步推进。

盲目乐观和过度应用同样危险，唯有保持科学态度、坚持循证评估、不断完善人机协作机制，才能让这一新兴技术真正造福公众健康。

研究显示智能诊疗系统在实际应用中面临效能瓶颈 人机交互难题亟待破解

研究显示智能诊疗系统在实际应用中面临效能瓶颈人机交互难题亟待破解