ai 模型能把畅销书内容给原本地复现出来吗?

最近有个挺让人吃惊的发现,好几家搞人工智能的大公司,他们的模型居然能把一些畅销书的内容给原原本本地复现出来。这就好像它们把书都记在心里一样。这个研究是斯坦福大学和耶鲁大学的专家做的,他们发现像 OpenAI、谷歌、Meta、Anthropic 和 xAI 这些公司的大语言模型,它们记住的内容比我们以前想象的要多得多。 有个研究显示,谷歌的 Gemini 2.5 模型居然把《哈利波特》的内容还原了76.8%。还有 xAI 的 Grok 3 也复制了70.3%。最吓人的是,研究人员甚至通过一些技术手段(越狱),从Anthropic的Claude模型里把一整本书都给弄出来了。Meta的Llama模型也有类似情况,会把训练数据里的书给记住。 这个发现让大家对AI模型有了新的看法。以前大家觉得AI模型只是学习一下,并不存储原书内容。现在看来好像不太对劲儿。这对全球的AI公司来说是个大麻烦,因为它们一直用这个说法来抗辩版权诉讼。如果它们真的把书都记住了,那这官司可就不好打了。 伦敦帝国理工学院有个教授叫伊夫-亚历山大·德蒙茹瓦就说:“越来越多证据表明,模型记忆现象比以前认为的更普遍。”其实这些公司以前一直否认存在记忆行为。谷歌在2023年还说模型本身并不存储训练数据副本呢。 但现在的事实摆在眼前,AI企业可能得重新考虑他们的法律策略了。美国一家法院之前裁定Anthropic用受版权内容训练模型是合理使用,但也说存储盗版作品就是侵权。最后Anthropic赔了15亿美元才了事。德国那边也有个判决认定OpenAI侵犯了版权。 伦敦的Husch Blackwell律师事务所合伙人鲁迪·特尔舍觉得:“不用越狱就能复制整本书显然是侵权”,但问题是这事儿会不会普遍到让AI公司担责? 英国品诚梅森律师事务所的塞里斯·温·戴维斯也说:“这些发现可能挑战那些主张AI不存储、不复制版权作品的观点。”现在看来,“学习不存储”这个核心抗辩理由好像站不住脚了。 其实不管是闭源模型还是开源模型,都有记忆现象。耶鲁大学的A·费德·库珀就说:“虽然有防护机制,模型还是能记住整段文本,挺让人意外的。” 这事儿对医疗、教育等领域也有影响。训练数据泄露可能引发隐私和保密问题。法律专家表示这可能让AI企业面临重大责任和成本问题。Anthropic说他们的模型不存储数据集副本只是学习模式关系,但事实证明这些防护机制并不能完全阻止记忆行为。 所以现在的情况是:多家巨头AI模型被指存储版权作品,包括Anthropic、Llama、Meta等公司的产品。有13部作品被完整复现出来了,包括《权力的游戏》《饥饿游戏》《霍比特人》等畅销书。研究人员还通过提示词让OpenAI、谷歌、Anthropic和xAI的大语言模型输出了这些作品的数千字内容。GEMA协会提起了诉讼认为模型记忆歌词侵犯版权。 总之这个情况让人挺意外的。AI和法律专家都在讨论这个问题会给行业带来多大影响呢?接下来还要看各家公司怎么应对了吧?