2024年初,多名作家联合向加州北区联邦法院提起诉讼,指控英伟达公司训练人工智能模型过程中非法使用受版权保护的书籍作品。今年1月29日,英伟达正式向法院提交驳回动议,要求法院终止这起集体诉讼。 据了解,原告方在起诉书中主张,英伟达开发的人工智能工具及参考模型在训练阶段使用了来自所谓"影子图书馆"的版权书籍,包括Anna's Archive和Books3等数据源;在修订版起诉书中,原告继续援引英伟达内部讨论记录,称公司员工曾就访问Anna's Archive的可行性进行确认,试图以此证明英伟达存在非法获取版权内容的行为。 英伟达在驳回动议中明确表示,修订后的起诉书仍未满足版权侵权诉讼的基本法律要件。公司上指出,原告未能提供任何实质性证据证明具体作品被复制或下载,也未说明侵权行为发生的时间、方式以及涉及的具体模型。英伟达强调,缺乏这些关键事实细节的情况下,原告的主张只能被视为缺乏依据的推测性指控。 针对原告重点提及的Anna's Archive争议,英伟达辩称,即便内部存在对应的讨论或对该网站访问可能性的询问,也不能等同于公司实际下载或获取了原告作品。公司法务团队强调,讨论或评估潜在数据来源并不构成版权法意义上的复制行为。根据版权法规定,侵权诉讼要求原告必须在起诉阶段就提出足以支持"复制受保护作品"这个核心主张的事实依据。 英伟达还批评原告在起诉书中大量使用"基于信息与信念"的表述方式,认为这种做法试图以证据开示程序替代起诉阶段应完成的事实陈述义务。公司上提醒法院,版权原告必须进入证据开示程序前就明确提出侵权事实,而不能通过提起诉讼先行启动开示程序,再借此确认是否存在侵权行为。 除Anna's Archive相关争议外,英伟达还试图缩小案件审理范围。公司反对原告在修订起诉书中新增的多个数据集与模型指控,包括对Megatron 345M等内容的讨论。英伟达认为,原告采取"打包式"指控策略,将多个模型与工具混为一谈,却未能解释任何特定模型如何使用原告作品进行训练。 英伟达在动议中还援引其公开发布的技术文档,指出原告对训练数据来源的推断与公开资料存在明显矛盾。公司上表示,在现有指控条件下,合理的解释应当是英伟达并未获取原告作品。 该案目前由加州北区联邦法院法官Jon Tigar审理。根据诉讼程序安排,法院将于2026年4月2日就英伟达提交的驳回动议举行听证。届时,法院将对原告提供的证据充分性、指控的法律依据以及案件是否应当继续审理等关键问题作出裁决。 这起诉讼是近年来人工智能产业面临的众多版权争议案件之一。随着生成式人工智能技术快速发展,训练数据的来源合法性问题日益受到关注。多家科技企业因类似问题面临法律挑战,行业内对于如何平衡技术创新与知识产权保护的讨论持续升温。
模型训练的版权争议反映了技术创新与制度完善之间的平衡需求。司法审查有助于明确责任边界,推动建立规范的行业合作机制。对AI企业而言,合规能力和知识产权管理将成为持续发展的关键因素。