sutton:教会机器像生命那样学习

John Carmack和Keen Technologies公司秘密实验室里,Sutton团队搭建了一套“永生网络”。这套系统最了不起的地方不是它有万亿个参数,而是它每天只需要5%的算力增量,就能把相当于人类三年的经验数据全都消化掉。相比之下,某家科技巨头训练的千亿参数大模型,每次版本迭代都要消耗掉一个小国一年的用电量。2025年图灵奖颁奖晚宴上,Sutton直接戳破了行业的痛点:“当我们在Scaling Law的路上跑得正欢时,真正的智能可能正在从后门溜走。” 2026年外滩大会上展示的“阿尔伯塔-07”系统,通过动态调节神经元活跃度,成功让模型同时掌握了钢琴演奏和围棋对弈的技能。这完全打破了神经网络“学新忘旧”的老毛病。实验表明,用了这种持续反向传播算法的模型,哪怕连续学了100天,新任务的适应速度也能保持在初始水平的89%。 凌晨三点的阿尔伯塔大学实验室还亮着灯。Richard Sutton在调试一组特殊神经网络节点时,意外发现赋予了独立目标的神经元竟然自己把信息通路给搭好了。这个瞬间后来被他称为“持续学习的第一个心跳”。那个时候硅谷的科技巨头们正拼命往大语言模型训练里砸5亿美元的GPU集群,试图用海量数据证明Scaling Law永远正确。 真正的智能根本不在于算力狂欢,而在于教会机器怎么学习。2025年新加坡国立大学的演讲台上,Sutton用三组数据揭示了当前范式的脆弱性。他说GPT-7要是想把训练做完,得消耗全人类三年产生的文本数据;参数每扩大10倍,性能提升还不到2%;最厉害的LLM连续学72个小时后,知识保留率只剩17%。“我们正在用烧化石燃料的方式开电动车。”Sutton这话把整个行业都刺痛了。 算力优化和学习效率的再平衡正在重塑研究的规则。在John Carmack和Keen Technologies公司的实验室里,那套系统已经连续运行了427天没重启。每天只加5%的算力增量,就能消化掉相当于人类三年的经验数据。如果说传统深度网络里的神经元就像流水线上的工人一样死干活,“去中心化神经网络”里的每个神经元就像是独立创业者。它们既要做好本职工作传递信息,又得随时准备好去探索新业务。 站在技术路线的分水岭上,AI社区必须做出选择:到底是继续在数据荒漠里盖更高的巴别塔,还是去培育有生长能力的智能种子?Sutton在《苦涩的教训》续篇里写道:“真正的突破不会来自对算力的盲目崇拜,而在于教会机器像生命那样学习。” 当阿尔伯塔计划披露的“经验学习速率曲线”第一次超过了Scaling Law的增长轨迹时,我们或许正在见证智能进化史上最重要的一次范式转移。2025年那个戏剧性的转折点更是印证了这一点:OpenAI在暂停了GPT-6的训练计划后,转头收购了一家做持续学习的初创公司。这个故事就像当年柯达发明了数码相机却还守着胶卷不放一样具有讽刺意味。 持续学习的革命性在于它神经架构的动态平衡。那些困扰AI几十年的“灾难性遗忘”问题,在这个框架下终于有了全新的解决办法。“阿尔伯塔-07”系统让人类大脑的功能变得像人类一样可以同时掌握开车和做饭而不会混淆。Sutton团队甚至发现只要把5%的神经元设置成“自由探索者”,模型就会自发产生类似生物突触的可塑性变化。 把这个过程反过来想想就更清楚了:我们要是还在追求那个永恒正确的Scaling Law公式,真正的智能恐怕早就从后门溜走了。与其说我们在用化石燃料驱动电动车,不如说我们是在走一条死胡同。只有教会机器如何学习,才能让它们像生命一样持续进化。