Anthropic这回算是给Claude Opus 4.6的用户放了个大招,直接把上下文窗口从20万拉满到100万token,价格居然还没涨。我当时正坐在咖啡店里,对着笔记本里的Claude Opus 4.6发愁,手里堆着一摞代码和文档。结果刚准备点开项目文件夹,系统就跳出来个提示框,说上下文已经到顶了。那种感觉真的太糟心了,就像拼图玩得好好的,非要把边角硬撕掉一样。 本来以为这次升级是捡到宝了,终于能把整个仓库都扔进去了,可转念一想又有点怕。之前在实验室试过类似的扩展,根本不像多加点内存那么简单。模型的注意力机制有点像大脑里的海绵,token一多它就吸水吸满了,细节反而容易漏掉。以前下的命令很容易被后面的内容挤到角落里去。 你要是试过丢个100万token进去,就知道它可能早就忘了开头那句要严格遵守风格指南的话。我上个月测了五个案例,感觉超过30万准确率就会掉10-15%。这事儿也挺巧的,去年我跟一个搞后端的朋友聊天,他当时在重构一个电商平台,塞了50万token的日志进去让AI出主意。结果本来应该优化数据库查询的建议,最后莫名其妙多了一层无关的缓存。 他当时吐槽说这AI像喝醉了似的,脸都记得就是事儿忘了。我当时笑出声来,但也觉得挺麻烦的。其实说白了就是窗口大不代表就聪明。你看GPT-4o虽然只有128k窗口,但平时用着挺顺手。Claude在处理长文档上确实连贯些,但一旦超过40万它就容易跑偏。 这主要是因为Anthropic训练数据偏向对话式,扩展时注意力分配得像散沙一样。就好比厨师做大锅汤材料太多味道就淡了。我翻了翻去年的测试截图发现挺有意思的:20万token的法律合同处理得很完美,加到50万细节就漏了三处。 这个升级说到底还是个双刃剑。开发者如果滥用这个百万窗口token烧钱速度肯定翻倍。粗略算一下一个小时的交互成本就从5美元跳到20美元了。聪明人都知道要用它当缓冲区把核心任务拆成块来处理。否则这就好比给AI戴了顶大帽子最后却把脖子压弯了。 至于产业链那边的博弈也挺有趣的。Anthropic这次升级像是在回应OpenAI的军备竞赛。价格没涨到底是自信还是压力?我猜他们可能是优化了Transformer的稀疏注意力机制吧。 说到真实痛点就是怎么喂数据而不是塞多少进去。我上次试了一下主动把压缩阈值设到25万效果好多了。不过说实话我心里还是有点怀疑这到底是个大礼还是个陷阱? 你看那个实验室场景:我让小李把专利库全导入Claude分析创新点。他兴奋地说100万够了!结果输出里创新点倒是列出来了但混进了不少无关的专利。我们俩对视一眼只能耸耸肩下次还是分批弄吧。 另外有个数据点挺值得注意的:同行反馈说40万以后幻觉率就升了20%。你拿手机打个比方:窗口就像RAM token多了RAM大了但CPU(推理核心)跟不上自然就卡顿了。Anthropic迭代是挺快的但用户得学着调教才行。 至于API响应时间也有变化:旧版20万平均2秒新版超过50万就跳到8秒了。就像老电脑重启一样画面感很强。最后一个猜测就是窗口会不会标准化到千万?不过如果推理瓶颈不解决这些都是没用的。 最后回归最佳实践还是模块化处理别一口气全塞进去为妙。昨晚我试着扔了个80万token的项目草稿进去Claude开头还好到了最后建议就偏了轨道日志显示注意力峰值在中间。悬而未决的问题是Anthropic下一步打算怎么补上这个坑呢?