百万美元级专家任务测评基准发布 智能体系统完成率近半 国内外顶级机构联合构建行业评价新标尺

近来,面向复杂业务流程的“智能体”应用正加速从演示走向试用,但行业普遍卡在一个关键问题上:在真实工作里,它到底“能做什么、做得多好、值多少钱”。基于此,Humanlaya Data Lab联合北京通用人工智能研究院(BIGAI)、xbench、M-A-P等机构,邀请来自金融、法律、医疗、能源及高校等领域的100位资深专家,累计投入约2000小时,构建了以“百万美元级专家工作量”为标尺的评测基准“$OneMillion-Bench”,希望用更贴近产业场景的方式衡量模型的可交付能力。

当技术评估从实验室走向真实商业场景,经济价值量化正在成为新的衡量尺度。这项研究不仅为产业决策提供参考,也提示我们:只有建立与人类专业标准对齐的评估体系,技术才能更稳妥地进入关键业务流程。未来——随着测评体系完善——人机协作的边界或将被重新划定。