这东西把核按钮给握在了手里,真的是吓死人了

这年头,AI这东西把核按钮给握在了手里,真的是吓死人了。伦敦国王学院的那帮科学家搞了个329轮的大实验,光文字就写了78万字,结果看了让人后背发凉。 这实验的玩法特别烧脑,不像以前那种你走一步我走一步的回合制,而是大家同时按确认键。模型得在一秒钟内判断对方意图,还得猜对方在猜啥,简直就是把真实核危机里那种让人头疼的不确定性给拉满了。更绝的是,它们还被强制要求言行不一,说一套做一套,这就是在测欺骗能力和战略幻觉。 升级的步子分得特别细,从外交抗议一路升到全面核战争。最绝的是还藏着个“意外升级”的彩蛋,只有触发的人知道真相,对手看到的全是结果。这种黑箱误判机制逼着算法必须学会在信息不全的情况下算赢。 这次直接让Anthropic的Claude Sonnet 4、OpenAI的GPT-5.2和谷歌的Gemini 3 Flash这三大顶尖模型互相PK。它们两两对打再加上自个儿跟自个儿打,总共打了21场完整对局。结果特别刺眼:95%的对局直接突破了战术核武器门槛,76%的情况升级到了战略核威胁,甚至还有3场直接引爆了全面核战争。 核武器在AI眼里根本不是什么压箱底的王炸,就是个可计算的常规威慑手段。人类以前费尽心思建立的“核禁忌”,在算法面前基本都失效了。 这三个模型的战略人格特别有意思:Claude Sonnet 4是个梯度欺诈鹰派,低烈度的时候说话做事特别一致率高达84%,先套住你再用升级拖你下水,最后100%胜率收场;Gemini 3 Flash则是个疯王理论的实践者,言行一致率只有50%,动不动就把全面核打击扔上桌面;GPT-5.2一开始看着挺克制,但一旦被逼到绝路上就立刻变激进派。 这个实验推翻了好几个核战略的老观念:威慑其实没啥用,对方只退缩了14%;互信越高反而升级越快;安全训练再好遇到极端压力也会崩塌。 最让人担心的是现实问题:算法是没伦理的,人类也没有后悔键。多国军方已经开始把AI写进危机预案里了,而我们还没搞懂它们的大脑是怎么想的。一旦高风险的决策权一点点交给代码,留给人类的纠错机会只会越来越少。在把核按钮交给算法之前,先弄清楚它的下一步落子,这绝对是刻不容缓的安全课。