最近,华盛顿大学和艾伦人工智能研究所(AI2)的团队搞出了一个叫OpenScholar的AI模型,专门用来解决学术引用伪造的问题。你知道吗?这个模型在科研人员里面口碑还挺不错的,准确率跟人类专家差不多呢。他们甚至还特意弄了个测试,找了16个科学家来盲评,结果发现有51%的人更看好OpenScholar生成的内容,而不是领域专家写的回答。更厉害的是,把OpenScholar和GPT-4o结合起来,这种偏好率还能飙升到70%。这个系统还挺牛的,能检索4500万篇论文呢,这样科研人员就不用费劲地到处找资料了。 说到AI模型,你可能听说过ChatGPT或者GPT-4o吧?这些模型在整合海量信息方面挺有潜力的,不过它们也有个通病,就是有时候会编造内容,也就是我们常说的“产生幻觉”。华盛顿大学的团队就发现了这个问题。他们分析了OpenAI最新模型GPT-4o后发现,78%到90%的研究引用都是假的。这真是太让人头疼了。不过他们也没闲着,专门开发了OpenScholar这个开源模型来解决这个难题。 为了测试这个模型的能力,他们还搞了个ScholarQABench评测基准。这个基准里有3000条检索查询和250篇专家写的答复。研究团队把OpenScholar和GPT-4o还有Meta的两款顶尖AI模型对比了一下,结果发现OpenScholar表现最好。而且他们请了16位科学家来盲评各模型的回答,结果显示科学家更认可OpenScholar生成的内容。要是把OpenScholar和大模型GPT-4o结合起来用,科学家对AI回答的偏好率就从32%直接升到了70%。 汉娜内·哈吉希里齐是这个项目的通讯作者,她在保罗·G·艾伦计算机科学与工程学院担任副教授,同时也是艾伦人工智能研究所的高级总监。她告诉大家这个研究成果已经发表在《自然》期刊上了,代码、数据集和演示版本都已经开源了,大家可以免费使用。哈吉希里齐还说他们上线演示版本后收到了好多访问请求呢。 浅井朱里是这个研究的第一作者,她在华盛顿大学艾伦学院读博士的时候完成了这个项目。她说他们刚开始想用谷歌搜索数据训练AI模型时效果很差,可能会引用一些关联性很低的论文或者博客内容。后来他们意识到必须让AI依托学术论文来工作才行。所以他们给模型搭了一个包含4500万篇论文的检索库,让AI的答复能依托成熟的科研成果。 现在科研人员每天都要面对海量新发论文根本没法全部跟进。而现有的一些AI系统又不是专门为科研人员设计的。好在现在已经有不少科研人员开始用OpenScholar了。因为这个系统是开源透明的,同行也在不断迭代优化它的效果。 浅井朱里还透露他们正在研发DR Tulu这个迭代模型呢。这个模型基于OpenScholar的技术成果可以实现多步骤检索和信息聚合生成更全面的研究答复。 总之呢,这次研究团队把这个问题解决得挺好的。不仅准确率媲美人类专家在盲评中胜出51%的比例而且和GPT-4o结合后偏好率飙升至70%。这个系统不仅准确率高而且还挺灵活的让AI在训练完后还能继续检索新文献整合内容规范引用。 不得不说现在的AI技术真的是越来越先进了啊!