清华姚班的学生和AI进行了一次关于高考压轴题的对决,这是一个由网易有道发布的视频中出现的一幕。姚班是由图灵奖得主姚期智院士创办的,聚集了许多数学、物理和信息学竞赛的金牌得主。这次对决中,他们挑战的是2023年高考数学全国一卷的压轴题和2021年高考物理江苏卷的压轴题。姚班学生给他们10分钟的时间解答问题,结果只有一位同学做错了。AI则是在几秒内就给出了解答。一位学生认为AI解题的思路和他们一致,但步骤更清晰,更有利于理解解题过程。 去年高考结束后,有机构给9家大模型(包括GPT-4o、豆包、文心4.0)出了河南的高考题,并以河南省的一本线来评判成绩。结果只有4家大模型在文科方面达到了一本线,但没有一家大模型在理科方面达到这个标准。今年以来AI进展迅速,尤其是DeepSeek-R1给推理模型带来了巨大突破。网易有道相关负责人表示AI推理能力和交互能力非常适合教育场景。 这次测试选择的是高难度理科压轴题,因为大家都知道高考难度很大,而且这样的题目更容易引起关注。前段时间还有一个北京最新高考二模题目的挑战,在这个测试中AI答题后由老师批改,得到了697分(满分750分),达到“清北”水平。 过去一年时间里,许多公司都把数学能力作为展示自己模型能力的重要指标。OpenAI o3-mini在FrontierMath上表现优异,这个基准由Epoch AI联合全球60多位数学家共同推出。o3-mini第一次尝试就能解决超过32%的问题,其中包括超过28%的挑战性问题(T3)。FrontierMath是专门用来测试数学推理能力的,问题难度极高。谷歌推出了AlphaProof和AlphaGeometry 2两款系统,在解决2024年IMO六道题目中有四道题目表现出色。 2023年到2027年间在线教育市场的AI贡献率预计从7%提升到16%左右。阿里巴巴最近发布了新一代通义千问模型Qwen3,在AIME25测评中获得81.5分,刷新了开源纪录。 总的来说,这次清华学霸和AI在高考压轴题上的对决展示了AI在教育领域中的进步和潜力。他们都展现出强大的解题能力和清晰的步骤。未来几年在线教育市场中AI的贡献将逐渐增加。