anthropic 发布了首份ai 智能体行为实测报告，把claude code和公共api上的数百万次人机交互数据给

Anthropic最近发布了首份AI智能体行为实测报告，把Claude Code和公共API上的数百万次人机交互数据给拿出来分析了。原来，软件工程师们用AI智能体的时间居然快到五成了，可垂直领域的实际应用却少得可怜。Claude Code现在能自己干活好几个小时都不停，三个月前还是二十多分钟才喊停呢。它那最长的“turn duration”（也就是任务执行的时间）在三个月内直接翻倍，从不到25分钟涨到了45分钟。虽然这个中位数还是在45秒左右晃悠，没怎么变过。这次报告还提到了一个有意思的现象：经验丰富的老用户特别爱用全自动模式，让Claude自己去折腾，差不多有40%的人这么干；可那些用不到50次的新手就不行了，顶多也就20%的人愿意放手。大家打断模型干活的频率也跟着涨了点，从5%升到了9%。在低复杂度的任务里，比如改改代码的一行文字，差不多87%都得有人盯着；可一到找漏洞或者写编译器这种难活儿，AI独立搞定的比例就降到了67%。还有一个有意思的发现：复杂任务做不好的时候，Claude自己会停下来问你怎么办。这种情况的次数居然是人类主动喊停的两倍多。这其实说明智能体挺会自我监督的。不过研究也说了缺陷挺大的，比如说它只能分析一家模型的数据，公共API那边的情况也不是特别透明。这次研究建议开发人员多关注一下部署后的监控系统，多训练模型自己识别哪儿不对劲；产品设计师也得弄个好用的工具让人能好好盯着；还有政策制定者得先别忙着定死规矩。毕竟软件工程占了所有活动的近50%，医疗、金融和网络安全这些高风险领域也开始用AI了。尽管现在高风险操作比例只有5%左右，但真要出了事可是要命的。