刚看完Anthropic的Claude代码产品负责人猫吴发的博客,她讲Claude这16个月的能力增长了41倍,这让我觉得,我们好多人其实还困在稳定世界的幻想里。这就好比她用的那个例子,开发工具原本以为要花两周才能完成迭代,结果模型一更新,原型半天就搞定了。以前开发就像推着石头上山,现在这石头自己就滚上去了。 比如NVIDIA的GPU库存,本来按年份供货,现在必须得按月跟进训练需求,不然一夜之间就会变成烫手山芋。Anthropic和OpenAI之间的竞争也很激烈,OpenAI靠拉投资,Anthropic则是靠着亚马逊云撑腰。每个更新其实都是在赌下一次计算力的边界在哪里。 对于用户来说,这种迭代速度太快了,用户场景真的能跟得上吗?比如企业级代码审查本来要人工过一遍,现在AI自动扫了。但万一模型产生幻觉漏掉了安全漏洞怎么办?我问了一个字节跳动的前工程师,他说大家排期还是按老黄历走,结果上线后功能过时了,用户还吐槽说这东西像奶奶的打字机。 但是这种变化也带来了效率的提升。我在测试Claude 3.5和之前的Opus时发现差异很大。以前生成一个REST API需要一步步喂参数,成功率才七成左右,现在Claude直接理解上下文,代码风格还很贴合项目。实际用下来我感觉效率翻了三倍。在这个过程中Cat Wu提到他们砍掉了20%的系统提示,因为新模型更懂事儿了。 当然了这种快速迭代也带来了一些挑战。比如价格方面GitHub Copilot和Claude差不多强,但Claude在处理复杂逻辑时更少乱发神经。还有提示词工程这块儿本来以为是艺术现在反倒成了负担。 回想我在实验室的时候帮一个初创团队搞语音识别原型的经历就很有意思。下午三点小王盯着屏幕咖啡凉了还在发愁模型训练卡在95%准确率上。我说试试调整batch size结果到了晚上十点准确率就蹿到98%。 现在手机上的AI助手生成文本还慢吞吞的等Claude级别的下放到端侧续航得掉一半吧。这种变化对于个人开发者来说影响很大我有时候自我调侃活得像个科技考古学家旧工具扔了新东西追不上。 所以下次排期我打算多留10%的缓冲不是怕变而是怕跟不上环境的变化速度太快了。我也建议你试试Claude的数据在那博客链接我也发你去看看真实的场景吧。