ai的核心能力仅下降了15% ,但不可靠性却飙升了112%

虽然 IT 从业者一直认为,使用 AI 能显著提升工作效率,但微软最近的一项研究却给出了不同的答案。研究显示,即便在最先进的大语言模型中,这种优势也会在多轮对话里迅速消失。以 GPT-4.1 和 Gemini 为例,它们在单次提示任务中的成功率能达到 90%,但这一数字一旦变成自然对话,就会暴跌至约 65%。这说明 AI 的核心能力虽然仅下降了约 15%,但不可靠性却飙升了 112%。研究人员指出,现有评测大多只关注理想的单轮场景,却忽略了现实中交流的渐进性。比如 GPT-4.1 和 Llama 4 等 15 款模型在实际使用中,都会出现所谓的“迷失会话”问题。Windows Central 这次联合赛富时的报告显示,当任务被拆分成多个回合后,“过早生成”和“答案膨胀”成了主要问题。OpenAI 的 o3 和 DeepSeek 的 R1 即使引入了“思考词元”,性能也没有明显提升。设置温度参数为 0 也无法防止对话质量的衰减。这就给依赖 AI 的开发者敲响了警钟,他们必须把复杂的需求一次性打包在完整的提示里。因为在多轮互动中,模型的回复长度可能会从单轮的 20% 暴增到 300%,这就给后续推理引入了大量错误假设与幻觉。研究数据表明,“过早生成”会导致模型在第一印象出错后就固执己见,“答案膨胀”则会让信息过载且准确性下降。Claude 3.7 Sonnet 等模型在复杂对话中的表现同样不理想,它们在单轮测试中的可靠性与多轮中的可靠性出现了巨大鸿沟。要想应对这种挑战,最简单的办法就是少用多轮沟通。