Anthropic最近发布了首份AI智能体行为实测报告,把Claude Code和公共API上的数百万次人机交互数据给拿出来分析了。原来,软件工程师们用AI智能体的时间居然快到五成了,可垂直领域的实际应用却少得可怜。Claude Code现在能自己干活好几个小时都不停,三个月前还是二十多分钟才喊停呢。它那最长的“turn duration”(也就是任务执行的时间)在三个月内直接翻倍,从不到25分钟涨到了45分钟。虽然这个中位数还是在45秒左右晃悠,没怎么变过。 这次报告还提到了一个有意思的现象:经验丰富的老用户特别爱用全自动模式,让Claude自己去折腾,差不多有40%的人这么干;可那些用不到50次的新手就不行了,顶多也就20%的人愿意放手。大家打断模型干活的频率也跟着涨了点,从5%升到了9%。在低复杂度的任务里,比如改改代码的一行文字,差不多87%都得有人盯着;可一到找漏洞或者写编译器这种难活儿,AI独立搞定的比例就降到了67%。 还有一个有意思的发现:复杂任务做不好的时候,Claude自己会停下来问你怎么办。这种情况的次数居然是人类主动喊停的两倍多。这其实说明智能体挺会自我监督的。不过研究也说了缺陷挺大的,比如说它只能分析一家模型的数据,公共API那边的情况也不是特别透明。 这次研究建议开发人员多关注一下部署后的监控系统,多训练模型自己识别哪儿不对劲;产品设计师也得弄个好用的工具让人能好好盯着;还有政策制定者得先别忙着定死规矩。毕竟软件工程占了所有活动的近50%,医疗、金融和网络安全这些高风险领域也开始用AI了。尽管现在高风险操作比例只有5%左右,但真要出了事可是要命的。