北大发布全球首个化学智能评测体系人类高阶认知能力仍具优势

人工智能技术在各领域的应用日益广泛,但其在自然科学特别是需要深度推理的专业领域的实际能力边界,仍缺乏系统性评估标准。

北京大学近期发布的一项研究成果,为认识这一问题提供了新的观察窗口。

1月5日,北京大学化学与分子工程学院联合该校计算中心、计算机学院、元培学院等科研力量,正式对外公布化学领域人工智能评测基准SUPERChem。

这一评测体系包含500道专业题目,涵盖晶体结构解析、反应机理推演、物化性质定量计算等化学学科核心内容。

项目组织174名大学二年级学生与包括GPT、Gemini、DeepSeek在内的多个国际主流大语言模型进行同题测试,测试结果显示,学生群体平均准确率为40.3%,而参测的各类模型表现与低年级本科生水平相当,未能展现出预期的技术优势。

该项目主要负责人之一、北京大学化学与分子工程学院博士研究生黄志贤介绍,题库建设过程严格遵循学术规范。

近百名师生组成出题团队,其中包括多名化学奥林匹克竞赛金牌获得者。

每道题目均需经历初稿撰写、解析说明、初审、终审等多个环节,由不同审核人员把关,部分题目修改迭代达15个版本。

这种严格的质量控制机制,确保了题目的原创性和专业深度,有效避免了模型通过记忆已有数据库内容获得答案的可能性。

博士研究生赵泽华进一步说明了审核流程的设计逻辑。

他表示,每道题目至少经过出题人、评审人、终审人三层把关,这种机制既保证了题目的科学严谨性,也确保了难度梯度的合理分布。

从测试结果看,即便是参与编写题目的北大学生,平均准确率也仅达到四成左右,这从侧面印证了题目设置的专业水准。

测试结果所反映的深层问题,指向了当前人工智能技术发展的结构性短板。

黄志贤分析指出,现有主流大语言模型主要基于一维文本信息进行训练和推理,而化学学科的本质特征在于分子结构和物质世界呈现二维乃至三维的空间特性。

这种维度差异导致模型在处理需要空间想象和立体信息理解的化学问题时,难以建立有效的认知框架。

他说,团队在前期调研中已经观察到这一现象,多模态处理能力的不足制约了模型在自然科学领域的应用深度。

值得注意的是,研究团队开展这项工作的初衷,并非简单证明人类智能相对于机器的优越性,而是致力于为人工智能发展提供明确的改进方向。

黄志贤强调,北京大学作为国内化学学科的重要研究力量,有责任在这一交叉领域发挥引导作用。

虽然团队目前阶段不直接从事模型训练工作,但通过构建高质量评测基准,可以为计算机科学研究者指明技术攻关的重点领域,促进人工智能更好地服务于自然科学的理论突破和实践创新。

从更广阔的视角观察,SUPERChem项目的意义超越了单次测试本身。

它标志着学科交叉融合正在向纵深发展,也体现了基础科学研究对新兴技术发展的能动作用。

当前,人工智能技术在语言理解、图像识别等领域已取得显著进展,但在需要抽象思维、空间推理、因果分析的科学问题上,仍存在明显能力缺口。

这一评测体系的建立,为量化评估这种差距提供了可靠工具,也为后续技术改进树立了清晰的标杆。

业内人士指出,随着人工智能向专业化、精细化方向演进,建立分领域、分层次的评测标准体系愈发重要。

不同学科具有各自的知识结构和思维特点,通用评测难以准确反映模型在特定领域的真实水平。

北京大学此次发布的化学领域评测基准,为其他自然科学和工程技术学科提供了可借鉴的经验。

在技术快速演进的当下，比“谁更聪明”更重要的是“如何更可靠”。

以学科需求为牵引、以严格评测为标尺、以跨学科协同为路径，既能帮助模型找准改进方向，也能促使教育与科研回到科学训练的本质：尊重证据、重视过程、追求可验证的结论。

这样的“对测”，最终检验的不是某一次比分，而是面向未来的科学能力建设。

北大发布全球首个化学智能评测体系 人类高阶认知能力仍具优势