ai大模型为啥越聊越傻？其实大家都有过这种感受

AI大模型为啥越聊越傻？其实大家都有过这种感受：跟它说两句话还行，再聊深点就前言不搭后语、逻辑也断掉了。这感觉可不是错觉，大语言模型在多轮聊天的时候就是会遇到这样的难题。最近微软做了个大测试，给15款顶级模型，像GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1、Llama 4这些，弄了0220万次模拟对话。结果发现有个大家说的“迷失会话”的问题。一次回答成功率能到90%，但拆成好几轮后就掉到了65%，可靠性一下子掉了112%。这就是说，模型虽然还是能答题，但没法稳定记住上下文，聊久了就容易“飘”。研究人员觉得这主要是两个机制搞的鬼：一个是过早生成，用户话还没说完呢，模型就急着给出最终答案。要是一开始假设错了，后面再怎么改都没戏；还有个是答案膨胀，回复长度一下子比单轮多了20%到300%，里面全是各种假设和“瞎编”。这些废话也会被当成后续聊天的背景，像滚雪球一样让错误越滚越大。就算用了那种专门想提高逻辑推理的“思考词元”，也没什么用。因为现在的测试主要还是盯着单轮对话的理想状态看，完全没考虑到真实聊天里的复杂性。对那些想靠AI处理复杂流程的开发者来说，这真是个坏消息。最后再提一下微软的小更新——Windows 11里那个老画图软件现在能自由旋转了。选中图形或者文字框就能看到一个旋转手柄，随便拖就能调整角度。要是想精确点的话直接输度数也行。别看功能不大，让这老软件又找回了点灵活劲儿。