腾讯实验室与清华联合研究揭示：大模型数学推理易受“关键词”牵引，训练方法迎新突破

一、问题：一个词汇引发的推理崩溃大语言模型的数学推理能力一直是学界和产业界关注的焦点。腾讯AI实验室与清华大学的一项联合研究发现了一个此前被忽视的现象：在模型推理过程中，某些看似普通的词汇，一旦出现在特定位置，就能以高度确定且可重复的方式，将整个推理链条带向错误结果。研究团队用一道数学应用题来说明该点。题目描述一名女性偿还欠款，首付125美元，尚余75%未还，要求计算原始欠款总额。当模型在推理中将"已支付"的行为表述为"欠款"时，对题意的理解就发生了根本偏差，将125美元误判为总欠款额，最终得出93.75美元的错误答案。而当模型使用"已支付"这一表述时，则能准确理解题意，得出正确答案500美元。两种结果的差异，仅仅来自推理链条中一个词的不同选择。二、原因：传统认知存在盲区过去，学界普遍认为大语言模型在数学推理中出错，主要是因为数值计算失误或逻辑链条某一环节断裂。但这项研究表明，这种认知存在明显局限。研究团队通过系统性实验发现，推理失败的根源往往不在错误最终显现的位置，而是更早地埋伏在推理链条的上游。某些词汇一旦被模型生成，就会对后续推理方向产生强烈的"锚定效应"，驱使模型沿着错误的语义路径一路推进，直到得出错误结论。研究团队将这类词汇定义为"关键令牌"。不容忽视的是，关键令牌与人工标注的"错误词汇"并不完全重合。在GSM8K数学题库的测试样本中，约65%的关键令牌与人工标注的错误词汇存在差异；在难度更高的MATH500题库中，这一比例上升至87%。这意味着，依赖人工标注来定位推理错误的传统方法，存在相当程度的遗漏，难以全面捕捉推理失败的真实根源。三、影响：现象普遍，不容忽视为验证关键令牌现象的普遍性，研究团队采用大规模"推演采样"方法，对每个候选位置进行64次独立推演，统计各类表述的成功率，从而精确识别出导致推理失败的关键词汇。结果表明，关键令牌现象并非个例。在GSM8K题库的100个错误推理案例中，研究团队识别出99个关键令牌；在MATH500题库的100个错误案例中，识别率达到100%。这说明关键令牌是大语言模型数学推理中意义在于普遍性的内在规律，而非偶发的异常现象。这一发现对现有模型评估体系也有重要启示。当前的评测方法多以最终答案的正确率为核心指标，对推理过程中的中间状态关注不足。关键令牌的存在表明，推理链条的质量评估需要深入到词汇层面，才能真正反映模型的推理能力与潜在风险。四、对策：针对性训练方法取得突破基于上述发现，研究团队提出了一种名为cDPO的新型训练方法。其核心思路是在训练阶段专门针对关键令牌位置施加优化，引导模型在这些关键节点上生成更准确的词汇表述，从源头降低推理失败的概率。与现有方法相比，cDPO的创新在于对推理过程的精细化干预。传统偏好优化方法通常以完整推理链条为优化单元，难以对关键节点进行定向强化。cDPO通过关键令牌识别机制，将优化资源集中于影响最大的词汇位置，实现了更高效的训练干预。实验数据显示，经cDPO训练的模型在多项主流数学推理基准测试中均取得了明显提高，验证了这一方法的有效性与可推广性。五、前景：推理机制研究开辟新方向这项研究不只在于提出了一种有效的训练方法，更在于它为理解大语言模型的推理机制提供了新的分析视角。将推理过程分解至词汇层面、识别并干预关键节点的思路，有望延伸到数学推理之外的其他复杂推理任务中。随着大语言模型在教育、科研、工程等领域的应用持续深入，推理可靠性的重要性愈发突出。如何系统性地识别并消除推理链条中的潜在风险点，将成为未来模型研究与工程实践的重要课题。

这项研究揭示了当前大语言模型推理机制中一个被长期忽视的薄弱环节，也为改进模型训练提供了切实可行的方向。随着AI在各领域的应用不断深化，对推理过程的精细理解和干预，将是提升模型可靠性的关键所在。