ai大模型为啥越聊越傻?其实大家都有过这种感受

AI大模型为啥越聊越傻?其实大家都有过这种感受:跟它说两句话还行,再聊深点就前言不搭后语、逻辑也断掉了。这感觉可不是错觉,大语言模型在多轮聊天的时候就是会遇到这样的难题。最近微软做了个大测试,给15款顶级模型,像GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1、Llama 4这些,弄了0220万次模拟对话。结果发现有个大家说的“迷失会话”的问题。一次回答成功率能到90%,但拆成好几轮后就掉到了65%,可靠性一下子掉了112%。这就是说,模型虽然还是能答题,但没法稳定记住上下文,聊久了就容易“飘”。研究人员觉得这主要是两个机制搞的鬼:一个是过早生成,用户话还没说完呢,模型就急着给出最终答案。要是一开始假设错了,后面再怎么改都没戏;还有个是答案膨胀,回复长度一下子比单轮多了20%到300%,里面全是各种假设和“瞎编”。这些废话也会被当成后续聊天的背景,像滚雪球一样让错误越滚越大。就算用了那种专门想提高逻辑推理的“思考词元”,也没什么用。因为现在的测试主要还是盯着单轮对话的理想状态看,完全没考虑到真实聊天里的复杂性。对那些想靠AI处理复杂流程的开发者来说,这真是个坏消息。最后再提一下微软的小更新——Windows 11里那个老画图软件现在能自由旋转了。选中图形或者文字框就能看到一个旋转手柄,随便拖就能调整角度。要是想精确点的话直接输度数也行。别看功能不大,让这老软件又找回了点灵活劲儿。