开源ai 模型deepseek-r1 获得国际期刊《自然》

DeepSeek,这家专注大语言模型(LLM)和通用人工智能(AGI)的中国公司,把今年早些时候发布的开源AI模型DeepSeek-R1所采用的大规模推理训练方法拿到了国际期刊《自然》上发表。论文通讯作者梁文锋领导的DeepSeek-AI团队展示了让AI模型像人类一样推理的科学原理,他们发现这种纯强化学习方式能提升大模型的推理能力,还能减少人工输入的工作量。中国方面的记者也提到,北京时间9月17日晚间,这一训练方法正式登上了学术舞台。论文数据显示,在数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1分别达到了77.9%和79.8%的得分。这意味着这两个版本的模型在STEM领域的研究生水平问题上比传统模型表现更好。 不过同行专家也指出,DeepSeek-R1目前还存在一些局限。比如它有时会混淆中英文,只对这两种语言做了优化;对提示词的敏感度也很高,软件工程任务上的表现没有明显提升。DeepSeek-AI团队认为未来的研究可以把重点放在优化奖励过程上,以确保推理结果更可靠。在梁文锋看来,虽然大模型已显示出一定的推理能力,但训练过程需要大量计算资源。过去的方法常通过人工提示来引导模型生成中间步骤,虽然能增强表现但成本过高且扩展性受限。这次他们给DeepSeek-R1设计了一个在人类监督下的深入训练阶段,让它在获得优质案例模板后通过解决问题获得奖励来强化学习效果。 这次训练方法的突破在于使用强化学习而非人类示例来开发推理步骤。这一创新大大降低了训练成本和复杂性。DeepSeek-R1通过解决问题获得奖励从而强化效果,这套方法在编程竞赛以及研究生水平的生物学、物理和化学问题上同样展现出优异表现。在9月18日中新网北京发回的报道中提到,这次国际期刊的发表揭示了AI背后的科学研究细节。由于采取了这种新的训练方式,DeepSeek-R1在面对复杂任务时显示出更强的竞争力。