人工智能“自我教学”在数学推理中出现突发“倒退”，暴露训练盲点

近年来，为降低训练成本、提升模型输出质量，“自我蒸馏”广泛应用于大模型能力增强中。具体做法是让同一模型扮演“教师”和“学生”：教师在已知标准答案的情况下生成示范性解答——学生则模仿学习。理论上——这种“以优促优”的方式应当提高推理效率和答案质量。然而，2026年3月，微软研究院联合韩国科学技术院和首尔国立大学发布的研究（arXiv:2603.24472v1）显示，将该方法应用于数学推理任务时，模型在面对未见新题时表现反而下降，部分模型的整体表现下滑幅度甚至达40%。此矛盾现象引发业内关注：为何在科学问答和编程等任务中行之有效的方法，在数学推理中会“失灵”或“拖后腿”。

从“更会回答”到“更有信心”——再到“知道何时不确定”——可靠的推理能力离不开对不确定性的重视。这次研究提醒我们：技术进步不仅在于答案的速度和标准化，更在于确保推理过程的可检验、可追溯和可纠错。只有将稳健性和可信度与准确率同等看重，才能让大模型真正成为值得依赖的工具。