港科大等提出B-STAR自训练新方法 破解大模型推理“自我提升”早停难题

记者从香港科技大学获悉,由该校牵头、联合北京人工智能研究院和腾讯公司开展的一项研究取得重要进展。研究团队针对人工智能系统自主训练过程中普遍面临的性能瓶颈,提出了名为B-STAR的创新训练方法,涉及的成果已被2025年国际学习表征会议接收发表。 当前,大型语言模型在处理复杂推理任务时,主要依靠自我生成的数据进行迭代优化。此方式能够有效降低对人工标注数据的依赖,但实践中却暴露出明显的局限性。研究团队通过系统分析发现,现有自主改进方法通常在3至5轮训练后便陷入停滞,无法实现性能的持续提升。 问题的症结在于训练过程中两个关键要素的失衡。一上,模型需要具备生成多样化正确答案的"探索"能力;另一方面,外部评估机制必须准确识别高质量结果的"利用"能力。研究团队的深入分析表明,随着训练推进,模型的探索能力会出现显著衰减,生成答案的多样性大幅降低,同时评估机制的有效性也随模型状态变化而波动。 更为关键的是,探索与利用之间存复杂的动态关联。在训练初期,模型能力有限,需要采取相对保守的探索策略和严格的筛选标准;而在训练后期,随着模型能力增强,则需要更积极的探索和适度宽松的评估。这种最优平衡点的持续变化,正是导致传统方法失效的根本原因。 针对这一难题,研究团队开发了B-STAR系统。该系统的核心创新在于引入了"平衡分数"机制,能够实时监测训练状态并自动调节探索与利用的配比。具体而言,平衡分数综合考量了高质量答案的绝对数量与相对比例两个维度,通过动态优化确保训练过程始终处于最佳状态。 为验证方法的有效性,团队建立了一套完整的评估体系。在探索能力上,采用"Pass@K"及其改进指标"Pass@K-S"来衡量模型生成正确且多样化答案的能力;利用能力上,则通过"Best-of-K"准确率和"Reward@K-S"指标评估评估机制的精准度。实验结果显示,B-STAR系统能够有效突破传统方法的性能上限,实现训练效果的持续改善。 业内专家认为,这项研究不仅为解决人工智能自主学习中的技术瓶颈提供了新思路,也为大型语言模型的工程化应用开辟了新路径。在人工标注数据成本高昂的背景下,提升模型的自主学习能力具有重要的现实意义。同时,该方法所体现的动态平衡理念,对其他机器学习领域也具有借鉴价值。

这项研究解决了自主智能系统的关键技术瓶颈,揭示了机器学习中探索与利用的内在规律。B-STAR系统的设计表明,有效的学习既需要开拓视野的勇气,也需要精准筛选的智慧。这项工作或将成为AI自主学习发展中的重要一步。