ai的ai 模型，准确率媲美人类专家在盲评中胜出51% 的比例

最近，华盛顿大学和艾伦人工智能研究所（AI2）的团队搞出了一个叫OpenScholar的AI模型，专门用来解决学术引用伪造的问题。你知道吗？这个模型在科研人员里面口碑还挺不错的，准确率跟人类专家差不多呢。他们甚至还特意弄了个测试，找了16个科学家来盲评，结果发现有51%的人更看好OpenScholar生成的内容，而不是领域专家写的回答。更厉害的是，把OpenScholar和GPT-4o结合起来，这种偏好率还能飙升到70%。这个系统还挺牛的，能检索4500万篇论文呢，这样科研人员就不用费劲地到处找资料了。说到AI模型，你可能听说过ChatGPT或者GPT-4o吧？这些模型在整合海量信息方面挺有潜力的，不过它们也有个通病，就是有时候会编造内容，也就是我们常说的“产生幻觉”。华盛顿大学的团队就发现了这个问题。他们分析了OpenAI最新模型GPT-4o后发现，78%到90%的研究引用都是假的。这真是太让人头疼了。不过他们也没闲着，专门开发了OpenScholar这个开源模型来解决这个难题。为了测试这个模型的能力，他们还搞了个ScholarQABench评测基准。这个基准里有3000条检索查询和250篇专家写的答复。研究团队把OpenScholar和GPT-4o还有Meta的两款顶尖AI模型对比了一下，结果发现OpenScholar表现最好。而且他们请了16位科学家来盲评各模型的回答，结果显示科学家更认可OpenScholar生成的内容。要是把OpenScholar和大模型GPT-4o结合起来用，科学家对AI回答的偏好率就从32%直接升到了70%。汉娜内·哈吉希里齐是这个项目的通讯作者，她在保罗·G·艾伦计算机科学与工程学院担任副教授，同时也是艾伦人工智能研究所的高级总监。她告诉大家这个研究成果已经发表在《自然》期刊上了，代码、数据集和演示版本都已经开源了，大家可以免费使用。哈吉希里齐还说他们上线演示版本后收到了好多访问请求呢。浅井朱里是这个研究的第一作者，她在华盛顿大学艾伦学院读博士的时候完成了这个项目。她说他们刚开始想用谷歌搜索数据训练AI模型时效果很差，可能会引用一些关联性很低的论文或者博客内容。后来他们意识到必须让AI依托学术论文来工作才行。所以他们给模型搭了一个包含4500万篇论文的检索库，让AI的答复能依托成熟的科研成果。现在科研人员每天都要面对海量新发论文根本没法全部跟进。而现有的一些AI系统又不是专门为科研人员设计的。好在现在已经有不少科研人员开始用OpenScholar了。因为这个系统是开源透明的，同行也在不断迭代优化它的效果。浅井朱里还透露他们正在研发DR Tulu这个迭代模型呢。这个模型基于OpenScholar的技术成果可以实现多步骤检索和信息聚合生成更全面的研究答复。总之呢，这次研究团队把这个问题解决得挺好的。不仅准确率媲美人类专家在盲评中胜出51%的比例而且和GPT-4o结合后偏好率飙升至70%。这个系统不仅准确率高而且还挺灵活的让AI在训练完后还能继续检索新文献整合内容规范引用。不得不说现在的AI技术真的是越来越先进了啊！