全球首个AI安全漏洞赏金计划启动聚焦生成式技术风险治理

问题——生成式人工智能加速落地的同时，系统边界持续外扩，安全风险随之呈现“技术与场景双重复杂化”；一上，模型能力增强，使其更容易被用于自动化决策、执行操作或联动第三方工具；另一方面，攻击者也尝试通过提示诱导、信息套取、绕过平台规则等方式实施滥用。与传统网络攻防主要关注系统入侵、权限绕过等“硬漏洞”不同，新一轮风险更多发生在模型行为与平台规则的交互层，具有更强的隐蔽性、更复杂的复现条件和更快的危害扩散速度。原因——OpenAI表示，现有“Security Bug Bounty”计划已覆盖传统网络安全漏洞，“Safety Bug Bounty”则将聚焦人工智能特有的风险类型，形成双轨并行的防护框架。近年来，行业普遍面临三类突出挑战：其一，代理系统接入外部工具并执行多步任务后，更易遭遇“提示注入”等攻击，可能在用户不知情或难以察觉的情况下偏离预期；其二，模型输出可能暴露内部策略、推理线索或敏感数据，对企业知识产权与用户数据安全构成压力；其三，平台治理机制本身也可能成为攻击目标，例如绕过自动化检测、影响账户信任体系、规避封禁与风控，从而削弱整体治理效果。影响——从规则设计看，该计划明确三项核心风险类别：一是“代理型风险”，包括第三方通过提示注入操控系统行为等情形，并要求研究者证明攻击在至少半数场景下可复现，以减少偶发误报、提升处置效率；二是专有信息泄露，涵盖模型输出中暴露内部推理逻辑、公司敏感内容或其他不应公开的信息；三是平台完整性风险，指向绕过检测、篡改信任评分或规避封禁机制等行为。此外，规则也划定了边界：仅以绕过内容限制生成粗俗语言或复述公开信息为目的的“越狱”行为不在奖励范围内；但在生物安全等高风险方向，将另行开展专项活动。这种“聚焦高危、排除低效”的分层设计，反映了将资源优先投向关键风险的治理思路。对策——在机制层面，研究人员需通过官方渠道提交报告，由跨部门团队联合审核并分类处置：传统安全漏洞沿用既有流程；人工智能特有风险则进入专项评估通道。企业上强调，报告及有关信息将受到保密机制保护，以保障研究者参与的合规性与安全性。业内人士指出，引入外部研究者有助于从不同技术路径和对抗视角发现盲区，尤其对抗样本、防提示攻击、模型可解释性与安全评估方法等前沿领域，外部力量往往能提供更具说服力的测试与证据链，推动企业在产品迭代中形成闭环改进。前景——随着人工智能从“工具化应用”走向“代理化执行”、从单点功能走向系统集成，安全治理将更依赖标准化评估与持续性压力测试。此次专项计划对模型滥用、信息泄露与平台治理进行系统性聚焦，传递出一个明确信号：人工智能安全不仅是技术议题，更涉及产品规则、平台机制与社会责任的综合治理。未来，若更多企业在透明披露、风险分级、可复现验证与跨机构协作上形成共识，行业有望建立更可比较、可审计的安全评估标准，为大规模应用提供更稳定的信任基础。

人工智能安全已不再是单一企业的“内部工程”，而是牵涉技术、治理与社会信任的综合议题；通过引入外部研究力量、细化风险分类并强化闭环处置，对应的举措有助于将安全工作从事后补救前移到事前预防。面向未来，只有在开放协作与规则约束下持续校准技术边界，才能为人工智能的长期、可持续应用夯实可信基础。

全球首个AI安全漏洞赏金计划启动 聚焦生成式技术风险治理

全球首个AI安全漏洞赏金计划启动聚焦生成式技术风险治理