在最近的一场诉讼中,Meta 被指控使用盗版书籍来训练其人工智能模型,并得到了首席执行官马克·扎克伯格的批准。据Ars Technica报道,Ta-Nehisi Coates 和 Sarah Silverman 等作者向加州联邦法院提起的诉讼引用了内部 Meta 通信,表明该公司使用了 Library Genesis (LibGen) 数据集(一个以托管盗版图书而闻名的大型在线存储库),尽管内部对使用此类材料的合法性存在担忧。
作者认为 Meta 的行为侵犯了他们的版权,并可能损害该公司在监管机构中的地位。他们声称,包括 Llama 在内的 Meta 的人工智能模型是在未经许可的情况下使用他们的作品进行训练的,这可能会损害他们的生计。 Meta 通过援引“合理使用”原则为其做法辩护,声称使用公开材料来训练人工智能工具在某些情况下是合法的,例如“使用文本对语言进行统计建模并生成原创表达”。
2024 年 2 月 5 日开封的 Kadrey 诉 Meta 案中的法庭文件显示,Meta(前身为 Facebook)从“影子库”非法下载了 81.7TB 的数据。例如 Anna’s Archive、Z-Library 和 LibGen 来训练 Meta 人工智能。
亮点包括:
– 高级人工智能…… pic.twitter.com/Bqf60Hhbb6— vx-underground (@vxunderground) 2025 年 2 月 8 日
诉讼中强调的一条内部消息引用了一名员工的不满,他表示:“从公司笔记本电脑下载种子感觉不太对劲。”
作为对诉讼的回应,美国地区法官文斯·查布里亚(Vince Chhabria)驳回了一些指控,但允许作者修改其诉状以纳入新的指控,包括与删除版权管理信息相关的指控。此案是针对 Meta、 OpenAI和 Anthropic 等科技公司的更广泛法律挑战浪潮的一部分,面对快速发展的人工智能技术,作者和创作者正在寻求保护自己的知识产权。
该诉讼的结果可能会对科技行业产生重大影响,特别是在人工智能培训中使用受版权保护的材料方面。它提出了有关技术创新与创作者权利保护之间平衡的重要问题。