微软：“迷失会话”的系统性问题

其实这事儿还挺蹊跷的，咱们平常和AI聊天，要是聊短了还行，时间一长总觉得它变傻了。难道是错觉？最近微软公布的研究正好解释了这一点，哪怕是像GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1或者Llama 4这种顶尖大模型，在多轮对话里也不太行。研究人员把这些模型拉出来做了超过20万次模拟对话分析，发现了一个叫作“迷失会话”的系统性问题。数据挺扎心的，单次提示任务成功率能有90%，一旦拆分成多轮对话，这数字直接掉到65%左右。这里头有个让人意外的地方：核心能力其实只掉了15%，“不靠谱”的程度却飙了112%。说白了就是AI还是会解决问题，就是容易飘，没法好好盯着上下文聊天。研究人员也琢磨出了为啥会这样。首先就是“抢答”，还没听明白需求呢，模型就开始抢答了。一旦前期下了个错误的判断，后面的推理就全在这个错的基础上走下去了，根本改不了错。还有就是“话痨症”，多轮对话里回复的长度比单轮增加了20%到300%。说得越多越爱脑补，这些脑补的内容又被塞进上下文里继续影响推理。哪怕是给了额外思考词元的新模型，像OpenAI o3和DeepSeek R1，也没能好多少。现在的基准测试太理想主义了，全是按单轮来的。所以对那些搞复杂聊天流程或者智能体的开发者来说，这消息就像当头一棒。除了这个，微软最近还在测试Windows 11的新画图应用Paint，重点就是加了“自由旋转”功能。微软说用户现在可以随便调形状、文本框或者选好的图像区域了。只要点中对象，上面就会有个旋转手柄，随便拖就能转向各个方向。对于要搞高精度编辑的人，菜单里也加了“自定义旋转”，能输入具体角度数值来微调。