人工智能“自我教学”在数学推理中出现突发“倒退”,暴露训练盲点

近年来,为降低训练成本、提升模型输出质量,“自我蒸馏”广泛应用于大模型能力增强中。具体做法是让同一模型扮演“教师”和“学生”:教师在已知标准答案的情况下生成示范性解答——学生则模仿学习。理论上——这种“以优促优”的方式应当提高推理效率和答案质量。然而,2026年3月,微软研究院联合韩国科学技术院和首尔国立大学发布的研究(arXiv:2603.24472v1)显示,将该方法应用于数学推理任务时,模型在面对未见新题时表现反而下降,部分模型的整体表现下滑幅度甚至达40%。此矛盾现象引发业内关注:为何在科学问答和编程等任务中行之有效的方法,在数学推理中会“失灵”或“拖后腿”。

从“更会回答”到“更有信心”——再到“知道何时不确定”——可靠的推理能力离不开对不确定性的重视。这次研究提醒我们:技术进步不仅在于答案的速度和标准化,更在于确保推理过程的可检验、可追溯和可纠错。只有将稳健性和可信度与准确率同等看重,才能让大模型真正成为值得依赖的工具。