深潜入人工智能领域的林俊旸从阿里巴巴辞职后的第一篇长文。这篇文章不聊个人职业去向,只谈大模型技术

3月26日,深潜入人工智能领域的林俊旸在网络平台发布了他从阿里巴巴辞职后的第一篇长文。这篇文章不聊个人职业去向,只谈大模型技术下一步的方向。3月4日凌晨,他在社交媒体宣布离职,当天同属千问团队的郁博文也透露了辞职的消息。公开资料显示,这次变动与公司内部组织架构调整有直接关系。3月5日,阿里巴巴CEO吴泳铭批准了林俊旸的辞呈。虽然林俊旸走了,但公司表示会继续走开源路线,并成立基础模型支持小组统筹资源。 林俊旸在文中回顾说,以OpenAI的o1和DeepSeek-R1为代表的第一代推理模型让行业的重心从单纯扩大预训练规模转移到了扩大强化学习后训练规模上。数学和代码这些容易验证的领域成了提升模型正确性的主要战场。不过在2025年上半年大家都铆足劲投入了一轮后,行业必须思考下一步该往哪走。他觉得答案就在智能体思考上,也就是模型不能只靠内部逻辑推演,而得在跟环境打交道的过程中不断调整计划、使用工具并修正自己的行为。 文章里详细说了千问团队在技术路线上的摸索经历。林俊旸承认以前没全对过。2025年初团队想把Qwen3打造成既能思考又能接受指令的混合系统。可实际操作中发现这两种模式在数据分布和行为目标上根本不对付。指令模型追求简单快、延迟低、吞吐量高;思考模型却要吃很多token去搞复杂演算。如果数据筛选不仔细强行混在一起,往往导致两边表现都不好。后来在2507版本里推出了分开的30B和235B的指令与思考版本。 他认为真正成功的合并得是推理力度的平滑过渡,而不是把两种人格硬塞一个模型里。针对未来的技术发展,他判断单纯延长内部推理链条的时代马上就要过去了。核心问题从“模型能不能想得久”变成了“模型能不能用有效行动来思考”。智能体思考必须解决推理模型以前可以躲开的几个难题:比如知道什么时候该停住去行动、选择先调用哪个工具、消化噪音和部分观察结果、失败了怎么改计划以及维持多轮对话的连贯性。 智能体强化学习会彻底改变现有的技术架构要求,训练和推理得彻底分开。随着模型能使用搜索、执行代码等工具权限,防止奖励作弊就成了关键挑战。未来的行业壁垒更多集中在高质量环境设计、防作弊协议以及多个智能体协同编排等系统工程能力上。这次发文距离他公开宣布卸任大约三周时间。