百万美元级专家任务测评基准发布智能体系统完成率近半国内外顶级机构联合构建行业评价新标尺

近来，面向复杂业务流程的“智能体”应用正加速从演示走向试用，但行业普遍卡在一个关键问题上：在真实工作里，它到底“能做什么、做得多好、值多少钱”。基于此，Humanlaya Data Lab联合北京通用人工智能研究院（BIGAI）、xbench、M-A-P等机构，邀请来自金融、法律、医疗、能源及高校等领域的100位资深专家，累计投入约2000小时，构建了以“百万美元级专家工作量”为标尺的评测基准“$OneMillion-Bench”，希望用更贴近产业场景的方式衡量模型的可交付能力。

当技术评估从实验室走向真实商业场景，经济价值量化正在成为新的衡量尺度。这项研究不仅为产业决策提供参考，也提示我们：只有建立与人类专业标准对齐的评估体系，技术才能更稳妥地进入关键业务流程。未来——随着测评体系完善——人机协作的边界或将被重新划定。

百万美元级专家任务测评基准发布 智能体系统完成率近半 国内外顶级机构联合构建行业评价新标尺

百万美元级专家任务测评基准发布智能体系统完成率近半国内外顶级机构联合构建行业评价新标尺