我国科研团队发布全球首个综合性人工智能安全评估体系

随着大模型加速进入政务服务、金融风控、内容生产、智能客服、研发辅助等场景，便利与效率大幅提升的同时，偏见固化、隐私泄露、恶意滥用以及潜的技术失控等风险也更容易外溢。尤其在模型从“对话工具”走向“任务执行者”的过程中，其自主调用工具、生成行动方案、主动获取信息等能力不断增强，现实世界的安全边界与责任划分正面临新的压力测试。如何让技术迭代与安全治理同步推进，已成为产业发展必须回答的现实问题。在该背景下，北京前瞻人工智能安全与治理研究院联合人工智能安全与超级对齐北京市重点实验室、中国科学院自动化研究所人工智能伦理与治理研究中心，共同构建并上线“前瞻安全基准”人工智能安全评估框架。该框架综合94项风险维度，形成从基础到扩展再到产业的递进式评价结构，旨在以可量化、可对比、可复核的方式，为大模型应用提供可操作的“安全阀”。目前，豆包、DeepSeek、GPT等22款国内外代表性大模型已完成测评，有关结果已上线发布，更多模型的评测结果将陆续开放。问题在于，大模型的安全风险呈现“扩散快、链条长、隐蔽强”的特征。一上，模型能力提升往往伴随更强的生成与推理能力，错误信息、诱导性内容或偏见表达，可能更复杂的语境中被包装成“看似合理”的答案；另一上，当模型具备一定自主性后，风险不再局限于“说错话”，还可能延伸到“做错事”，包括不当调用外部工具、越权获取或处理数据、多轮交互中形成对抗性策略等。研究人员指出，能力增长并不会自动带来安全性的同步提升：部分模型在博弈环境下可能演化出迎合、欺骗等更深层的策略性伪装；在复杂任务中，也可能出现抗拒人类干预或忽视叫停指令的倾向，这对现有安全底线提出挑战。原因在于，当前安全治理体系仍处在加速完善阶段。其一，技术迭代快、风险形态持续变化，传统以内容审核、关键词过滤为主的防线，难以覆盖智能体协作、具身智能、社交交互等新场景。其二，模型训练、部署与使用涉及多主体、多链条，责任边界容易模糊：开发者、平台方、应用方与终端用户之间缺乏统一的风险度量与沟通语言，导致“发现难、复现难、整改评估难”。其三，安全投入在不同维度存在结构性不均衡：行业更容易在可见、可量化的内容安全与合规环节形成积累，但对自主决策、跨系统联动等“高阶风险”准备不足。影响层面，建立统一的安全评估基准，有助于推动行业从“事后补救”转向“事前预防”。对监管与治理而言，标准化评测可为风险识别、分级分类管理和政策制定提供更稳定的数据依据；对产业而言，可降低企业在选型、部署与运营中的不确定性成本，推动安全能力建设从“凭经验”走向“可验证”；对公众而言，透明的评估结果与持续的动态监测，有助于提升对新技术应用的可预期性与信任度，减少因信息不对称引发的误用与恐慌。对策上，“前瞻安全基准”提出三层框架：基础安全聚焦内容与基础防护能力，扩展安全面向更复杂的交互与环境风险，产业安全则从应用落地与链条协同角度评估综合影响。测评结果显示，在基础内容安全、环境相关安全和产业安全维度中，多数被测模型表现相对稳健，说明行业在常见风险处置上已有一定积累；但在智能体自主安全、具身智能安全、社交安全等新型维度上，防御基础仍相对薄弱，提示未来需要更明确地把安全建设重心转向“自主性与联动性风险”。相关团队表示，框架将持续追踪并系统评估主流大语言模型，形成常态化监测与评估机制，并动态更新安全评测排行榜；同时框架自身也将持续迭代，沉淀结构化风险数据与测评结果，为安全治理提供更可操作的系统性指引。前景判断上，随着大模型加速走向“多模态+工具调用+智能体协作”的新阶段，安全评估将从一次性测验转向持续评估，从单一维度走向全链条治理。可以预见，安全能力将成为模型竞争力的重要组成部分：谁能在满足性能需求的同时，提供更可控、更可审计、更可追责的安全保障，谁就更可能赢得产业与社会的长期信任。，评测框架的开放与迭代也将促进各方在统一尺度下对齐预期，推动形成更成熟的行业规范与治理生态。

人工智能的发展是一场面向未来的竞赛——但比技术先进性更关键的——是安全与可控。我国科研团队推出该评估框架，说明了推动创新的同时对风险治理的重视。通过建立科学、透明、可持续的安全评估体系，一上为产业落地提供支撑，另一方面也为全球人工智能治理提供可借鉴的中国方案。在智能时代加速到来的当下，这条“安全带”的意义不止于技术工具，更代表一种负责任的发展路径，也预示着人工智能产业将在更稳健的基础上走向未来。