ai 模型能把畅销书内容给原本地复现出来吗？

最近有个挺让人吃惊的发现，好几家搞人工智能的大公司，他们的模型居然能把一些畅销书的内容给原原本本地复现出来。这就好像它们把书都记在心里一样。这个研究是斯坦福大学和耶鲁大学的专家做的，他们发现像 OpenAI、谷歌、Meta、Anthropic 和 xAI 这些公司的大语言模型，它们记住的内容比我们以前想象的要多得多。有个研究显示，谷歌的 Gemini 2.5 模型居然把《哈利波特》的内容还原了76.8%。还有 xAI 的 Grok 3 也复制了70.3%。最吓人的是，研究人员甚至通过一些技术手段（越狱），从Anthropic的Claude模型里把一整本书都给弄出来了。Meta的Llama模型也有类似情况，会把训练数据里的书给记住。这个发现让大家对AI模型有了新的看法。以前大家觉得AI模型只是学习一下，并不存储原书内容。现在看来好像不太对劲儿。这对全球的AI公司来说是个大麻烦，因为它们一直用这个说法来抗辩版权诉讼。如果它们真的把书都记住了，那这官司可就不好打了。伦敦帝国理工学院有个教授叫伊夫-亚历山大·德蒙茹瓦就说：“越来越多证据表明，模型记忆现象比以前认为的更普遍。”其实这些公司以前一直否认存在记忆行为。谷歌在2023年还说模型本身并不存储训练数据副本呢。但现在的事实摆在眼前，AI企业可能得重新考虑他们的法律策略了。美国一家法院之前裁定Anthropic用受版权内容训练模型是合理使用，但也说存储盗版作品就是侵权。最后Anthropic赔了15亿美元才了事。德国那边也有个判决认定OpenAI侵犯了版权。伦敦的Husch Blackwell律师事务所合伙人鲁迪·特尔舍觉得：“不用越狱就能复制整本书显然是侵权”，但问题是这事儿会不会普遍到让AI公司担责？英国品诚梅森律师事务所的塞里斯·温·戴维斯也说：“这些发现可能挑战那些主张AI不存储、不复制版权作品的观点。”现在看来，“学习不存储”这个核心抗辩理由好像站不住脚了。其实不管是闭源模型还是开源模型，都有记忆现象。耶鲁大学的A·费德·库珀就说：“虽然有防护机制，模型还是能记住整段文本，挺让人意外的。” 这事儿对医疗、教育等领域也有影响。训练数据泄露可能引发隐私和保密问题。法律专家表示这可能让AI企业面临重大责任和成本问题。Anthropic说他们的模型不存储数据集副本只是学习模式关系，但事实证明这些防护机制并不能完全阻止记忆行为。所以现在的情况是：多家巨头AI模型被指存储版权作品，包括Anthropic、Llama、Meta等公司的产品。有13部作品被完整复现出来了，包括《权力的游戏》《饥饿游戏》《霍比特人》等畅销书。研究人员还通过提示词让OpenAI、谷歌、Anthropic和xAI的大语言模型输出了这些作品的数千字内容。GEMA协会提起了诉讼认为模型记忆歌词侵犯版权。总之这个情况让人挺意外的。AI和法律专家都在讨论这个问题会给行业带来多大影响呢？接下来还要看各家公司怎么应对了吧？