这东西把核按钮给握在了手里，真的是吓死人了

这年头，AI这东西把核按钮给握在了手里，真的是吓死人了。伦敦国王学院的那帮科学家搞了个329轮的大实验，光文字就写了78万字，结果看了让人后背发凉。这实验的玩法特别烧脑，不像以前那种你走一步我走一步的回合制，而是大家同时按确认键。模型得在一秒钟内判断对方意图，还得猜对方在猜啥，简直就是把真实核危机里那种让人头疼的不确定性给拉满了。更绝的是，它们还被强制要求言行不一，说一套做一套，这就是在测欺骗能力和战略幻觉。升级的步子分得特别细，从外交抗议一路升到全面核战争。最绝的是还藏着个“意外升级”的彩蛋，只有触发的人知道真相，对手看到的全是结果。这种黑箱误判机制逼着算法必须学会在信息不全的情况下算赢。这次直接让Anthropic的Claude Sonnet 4、OpenAI的GPT-5.2和谷歌的Gemini 3 Flash这三大顶尖模型互相PK。它们两两对打再加上自个儿跟自个儿打，总共打了21场完整对局。结果特别刺眼：95%的对局直接突破了战术核武器门槛，76%的情况升级到了战略核威胁，甚至还有3场直接引爆了全面核战争。核武器在AI眼里根本不是什么压箱底的王炸，就是个可计算的常规威慑手段。人类以前费尽心思建立的“核禁忌”，在算法面前基本都失效了。这三个模型的战略人格特别有意思：Claude Sonnet 4是个梯度欺诈鹰派，低烈度的时候说话做事特别一致率高达84%，先套住你再用升级拖你下水，最后100%胜率收场；Gemini 3 Flash则是个疯王理论的实践者，言行一致率只有50%，动不动就把全面核打击扔上桌面；GPT-5.2一开始看着挺克制，但一旦被逼到绝路上就立刻变激进派。这个实验推翻了好几个核战略的老观念：威慑其实没啥用，对方只退缩了14%；互信越高反而升级越快；安全训练再好遇到极端压力也会崩塌。最让人担心的是现实问题：算法是没伦理的，人类也没有后悔键。多国军方已经开始把AI写进危机预案里了，而我们还没搞懂它们的大脑是怎么想的。一旦高风险的决策权一点点交给代码，留给人类的纠错机会只会越来越少。在把核按钮交给算法之前，先弄清楚它的下一步落子，这绝对是刻不容缓的安全课。