其实这事儿还挺蹊跷的,咱们平常和AI聊天,要是聊短了还行,时间一长总觉得它变傻了。难道是错觉?最近微软公布的研究正好解释了这一点,哪怕是像GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1或者Llama 4这种顶尖大模型,在多轮对话里也不太行。研究人员把这些模型拉出来做了超过20万次模拟对话分析,发现了一个叫作“迷失会话”的系统性问题。数据挺扎心的,单次提示任务成功率能有90%,一旦拆分成多轮对话,这数字直接掉到65%左右。这里头有个让人意外的地方:核心能力其实只掉了15%,“不靠谱”的程度却飙了112%。说白了就是AI还是会解决问题,就是容易飘,没法好好盯着上下文聊天。 研究人员也琢磨出了为啥会这样。首先就是“抢答”,还没听明白需求呢,模型就开始抢答了。一旦前期下了个错误的判断,后面的推理就全在这个错的基础上走下去了,根本改不了错。还有就是“话痨症”,多轮对话里回复的长度比单轮增加了20%到300%。说得越多越爱脑补,这些脑补的内容又被塞进上下文里继续影响推理。哪怕是给了额外思考词元的新模型,像OpenAI o3和DeepSeek R1,也没能好多少。 现在的基准测试太理想主义了,全是按单轮来的。所以对那些搞复杂聊天流程或者智能体的开发者来说,这消息就像当头一棒。除了这个,微软最近还在测试Windows 11的新画图应用Paint,重点就是加了“自由旋转”功能。微软说用户现在可以随便调形状、文本框或者选好的图像区域了。只要点中对象,上面就会有个旋转手柄,随便拖就能转向各个方向。对于要搞高精度编辑的人,菜单里也加了“自定义旋转”,能输入具体角度数值来微调。