苹果是一长串生成式人工智能开发者中最新的一个——这一名单几乎与整个行业一样悠久——被发现从社交媒体上窃取受版权保护的内容,以训练其人工智能系统。
根据Proof News 的一份新报告,苹果一直在使用包含 173,536 个 YouTube 视频字幕的数据集来训练其人工智能。然而,尽管 YouTube 有具体规则禁止未经许可利用此类数据,但苹果并不是唯一一家犯下这种违规行为的公司。其他人工智能巨头也被发现在使用它,包括Anthropic 、 Nvidia和Salesforce 。
该数据集被称为 YouTube 字幕,包含来自 48,000 多个 YouTube 频道的视频文字记录,从可汗学院、麻省理工学院和哈佛大学到《华尔街日报》、NPR 和 BBC。甚至深夜综艺节目(如《史蒂芬·科尔伯特深夜秀》、《约翰·奥利弗上周今夜秀》和《吉米金梅尔现场秀》)的文字记录也是 YouTube 字幕数据库的一部分。 Marques Brownlee 和 MrBeast 等 YouTube 影响者以及一些阴谋论者的视频也未经许可被删除。
该数据集本身由初创公司 EleutherAI 编译,不包含任何视频文件,尽管它确实包含许多其他语言的翻译,包括日语、德语和阿拉伯语。据报道,EleutherAI 从一个名为 Pile 的更大数据集获取数据,该数据集本身是由一家非营利组织创建的,该非营利组织不仅从 YouTube 上获取数据,还从欧洲议会记录和维基百科中获取数据。
据公司的相关出版物显示, Bloomberg 、 Anthropic和Databricks也在 Pile 上训练了模型。 Anthropic 发言人 Jennifer Martinez 在给 Proof News 的一份声明中表示:“The Pile 包含 YouTube 字幕的一小部分。” “YouTube 的条款涵盖了对其平台的直接使用,这与 The Pile 数据集的使用不同。关于可能违反 YouTube 服务条款的问题,我们必须向您推荐 The Pile 的作者。”
抛开技术问题不谈,自ChatGPT首次亮相以来,人工智能初创公司帮助自己获取开放互联网的内容一直是一个问题。 Stability AI 和 Midjourney 目前正面临内容创作者的诉讼,指控他们未经许可抄袭其受版权保护的作品。运营 YouTube 的谷歌本身去年 7 月遭遇集体诉讼, 9 月又遭遇集体诉讼,该公司认为,这“不仅会打击谷歌的服务,还会打击生成式人工智能的理念”。
我:用什么数据来训练Sora? YouTube视频?
OpenAI 首席技术官:我实际上不确定……(我真的鼓励你观看完整的@WSJ采访,Murati 确实回答了很多关于 Sora 的最大问题。具有讽刺意味的是,完整采访在 YouTube 上:… pic.twitter.com/51O8Wyt53c
—乔安娜·斯特恩 (@JoannaStern) 2024 年 3 月 14 日
今年 7 月,微软 AI 首席执行官穆斯塔法·苏莱曼 (Mustafa Suleyman) 提出,空灵的“社会契约”意味着在网络上找到的任何东西都是公平的游戏。
“我认为,对于已经存在于开放网络上的内容,自 90 年代以来,该内容的社会契约就是合理使用,”Suleyman 告诉CNBC 。 “任何人都可以复制它,用它重新创建,用它复制。如果你愿意的话,那是免费软件,这就是我们的理解。”