问题——科研信息爆炸加剧,可靠整合成为痛点;近年来,学术论文发表量持续增长,研究主题愈发细分,跨学科合作也更常见。对科研人员而言,及时掌握最新证据链、追溯关键论断的原始来源,是开展研究与撰写论文的基础能力。然而,通用生成式系统虽然能快速汇总文本,却长期存“引用幻觉”等风险:看似完整的参考文献可能并不存在,或与论断关联不足,进而影响科研判断。此前有团队在评测部分新模型时发现,其在研究引用中出现较高比例的伪造与不准确现象,凸显科研场景对可验证引用的刚性需求。 原因——训练数据时效与学术语料结构差异叠加,导致引用易失真。一上,许多通用模型的训练数据存时间边界,难以覆盖训练完成后发表的新论文,天然存在“无法直接获取最新研究”的缺口;另一上,互联网信息噪声较大,博客、新闻、二次解读与学术原文混杂,若缺少面向学术的检索与过滤机制,模型容易从不严谨的来源中“拼接”出看似合理的引用。此外,科研写作强调可追溯、可复核与规范引用,要求模型不仅能给出答案,还要清晰、准确地说明依据来自哪里。 影响——可信引用能力成为科研类应用的分水岭。引用不准确会引发多重后果:其一,误导研究者对证据强度的判断,增加重复核验与决策成本;其二,降低学术沟通效率,使同行评议与复现实验承担额外核查负担;其三,科研管理与科技政策制定中,若参考依据失真,可能影响资源配置与议题研判。随着科研人员对自动化工具的依赖加深,“回答是否可信”正从技术细节变成科研流程中的基础问题。 对策——以“检索增强+学术库”重塑工作流,并用专门基准评测。为回应上述挑战,华盛顿大学与艾伦人工智能研究所团队研发了开源学术研究整合模型OpenScholar。其核心思路是:在完成模型训练后接入规模化学术检索库,让生成内容尽可能建立在可检索的论文证据之上。据团队介绍,其检索库覆盖约4500万篇学术论文,并通过检索增强生成技术,使系统在训练完成后仍能检索新文献、汇总关键结论并提供规范引用,从机制上压缩“凭空编造”的空间。 为检验科研场景下的真实性与可用性,研究团队同时构建ScholarQABench评测基准,面向学术搜索与长文问答任务,覆盖计算机科学、物理学、生物医学、神经科学等领域。该基准包含3000条检索查询,以及由领域专家撰写的250篇长文答复,用于从准确性、撰写质量、内容对应的性等维度评估系统表现。结果显示,OpenScholar在多项指标上优于对比模型;在16位科学家的盲评中,约51%的情况下评审更偏好OpenScholar生成的答复。研究还显示,将其引用机制与既有模型工作流结合后,评审对系统答复的偏好率可深入提升。 前景——开源与透明或推动科研工具生态加速迭代。研究成果发表于《自然》,并开放代码、数据集与演示版本。通讯作者表示,演示上线后收到远超预期的访问请求,反馈显示科研人员对开放、可核验的学术整合工具存在明确需求。业内人士认为,开源模式有助于沉淀可复用的技术底座与评测共识:一上,科研机构可结合自身领域数据库与合规要求进行本地化部署;另一方面,统一的评测基准与可追溯的引用机制,有望推动科研类工具从“能写”转向“能证”,从而提升学术搜索、文献综述、选题调研等环节的效率与质量。 同时也需看到,学术整合系统的可靠性不仅取决于模型本身,还受检索库覆盖范围、文献版权与访问权限、不同学科引用规范差异等因素影响。如何在提升可用性的同时,建立更严格的引用校验、冲突证据提示与不确定性表达机制,仍是未来的重要方向。团队表示将持续迭代,探索多步骤检索与信息聚合,以提升生成更全面研究综述的能力。
OpenScholar的进展不仅为人工智能在学术领域的应用提供了新的参考,也深入凸显开源协作与技术透明的重要性。在信息爆炸的背景下,如何让技术更可靠地服务知识生产,或许正是此类探索的价值所在。