苹果刚刚被发现在未经同意的情况下在 YouTube 视频上训练人工智能

苹果是一长串生成式人工智能开发者中最新的一个——这一名单几乎与整个行业一样悠久——被发现从社交媒体上窃取受版权保护的内容，以训练其人工智能系统。

根据Proof News 的一份新报告，苹果一直在使用包含 173,536 个 YouTube 视频字幕的数据集来训练其人工智能。然而，尽管 YouTube 有具体规则禁止未经许可利用此类数据，但苹果并不是唯一一家犯下这种违规行为的公司。其他人工智能巨头也被发现在使用它，包括Anthropic 、 Nvidia和Salesforce 。

该数据集被称为 YouTube 字幕，包含来自 48,000 多个 YouTube 频道的视频文字记录，从可汗学院、麻省理工学院和哈佛大学到《华尔街日报》、NPR 和 BBC。甚至深夜综艺节目（如《史蒂芬·科尔伯特深夜秀》、《约翰·奥利弗上周今夜秀》和《吉米金梅尔现场秀》）的文字记录也是 YouTube 字幕数据库的一部分。 Marques Brownlee 和 MrBeast 等 YouTube 影响者以及一些阴谋论者的视频也未经许可被删除。

该数据集本身由初创公司 EleutherAI 编译，不包含任何视频文件，尽管它确实包含许多其他语言的翻译，包括日语、德语和阿拉伯语。据报道，EleutherAI 从一个名为 Pile 的更大数据集获取数据，该数据集本身是由一家非营利组织创建的，该非营利组织不仅从 YouTube 上获取数据，还从欧洲议会记录和维基百科中获取数据。

据公司的相关出版物显示， Bloomberg 、 Anthropic和Databricks也在 Pile 上训练了模型。 Anthropic 发言人 Jennifer Martinez 在给 Proof News 的一份声明中表示：“The Pile 包含 YouTube 字幕的一小部分。” “YouTube 的条款涵盖了对其平台的直接使用，这与 The Pile 数据集的使用不同。关于可能违反 YouTube 服务条款的问题，我们必须向您推荐 The Pile 的作者。”

抛开技术问题不谈，自ChatGPT首次亮相以来，人工智能初创公司帮助自己获取开放互联网的内容一直是一个问题。 Stability AI 和 Midjourney 目前正面临内容创作者的诉讼，指控他们未经许可抄袭其受版权保护的作品。运营 YouTube 的谷歌本身去年 7 月遭遇集体诉讼， 9 月又遭遇集体诉讼，该公司认为，这“不仅会打击谷歌的服务，还会打击生成式人工智能的理念”。

我：用什么数据来训练Sora？ YouTube视频？
OpenAI 首席技术官：我实际上不确定……
（我真的鼓励你观看完整的@WSJ采访，Murati 确实回答了很多关于 Sora 的最大问题。具有讽刺意味的是，完整采访在 YouTube 上：… pic.twitter.com/51O8Wyt53c
—乔安娜·斯特恩 (@JoannaStern) 2024 年 3 月 14 日

更重要的是，这些人工智能公司实际上很难引用他们从哪里获得训练数据。在 2024 年 3 月接受《华尔街日报》乔安娜·斯特恩 (Joanna Stern) 采访时，当被问及她的公司是否利用 YouTube、Facebook 和其他社交媒体平台的视频来训练模型时，OpenAI 首席技术官 Mira Murati 多次结结巴巴。 “我只是不打算详细介绍所使用的数据，”穆拉蒂说。

今年 7 月，微软 AI 首席执行官穆斯塔法·苏莱曼 (Mustafa Suleyman) 提出，空灵的“社会契约”意味着在网络上找到的任何东西都是公平的游戏。

“我认为，对于已经存在于开放网络上的内容，自 90 年代以来，该内容的社会契约就是合理使用，”Suleyman 告诉CNBC 。 “任何人都可以复制它，用它重新创建，用它复制。如果你愿意的话，那是免费软件，这就是我们的理解。”