ai的核心能力仅下降了15% ，但不可靠性却飙升了112%

虽然 IT 从业者一直认为，使用 AI 能显著提升工作效率，但微软最近的一项研究却给出了不同的答案。研究显示，即便在最先进的大语言模型中，这种优势也会在多轮对话里迅速消失。以 GPT-4.1 和 Gemini 为例，它们在单次提示任务中的成功率能达到 90%，但这一数字一旦变成自然对话，就会暴跌至约 65%。这说明 AI 的核心能力虽然仅下降了约 15%，但不可靠性却飙升了 112%。研究人员指出，现有评测大多只关注理想的单轮场景，却忽略了现实中交流的渐进性。比如 GPT-4.1 和 Llama 4 等 15 款模型在实际使用中，都会出现所谓的“迷失会话”问题。Windows Central 这次联合赛富时的报告显示，当任务被拆分成多个回合后，“过早生成”和“答案膨胀”成了主要问题。OpenAI 的 o3 和 DeepSeek 的 R1 即使引入了“思考词元”，性能也没有明显提升。设置温度参数为 0 也无法防止对话质量的衰减。这就给依赖 AI 的开发者敲响了警钟，他们必须把复杂的需求一次性打包在完整的提示里。因为在多轮互动中，模型的回复长度可能会从单轮的 20% 暴增到 300%，这就给后续推理引入了大量错误假设与幻觉。研究数据表明，“过早生成”会导致模型在第一印象出错后就固执己见，“答案膨胀”则会让信息过载且准确性下降。Claude 3.7 Sonnet 等模型在复杂对话中的表现同样不理想，它们在单轮测试中的可靠性与多轮中的可靠性出现了巨大鸿沟。要想应对这种挑战，最简单的办法就是少用多轮沟通。