苹果刚刚被发现在未经同意的情况下在 YouTube 视频上训练人工智能

苹果是一长串生成式人工智能开发者中最新的一个——这一名单几乎与整个行业一样悠久——被发现从社交媒体上窃取受版权保护的内容,以训练其人工智能系统。

根据Proof News 的一份新报告,苹果一直在使用包含 173,536 个 YouTube 视频字幕的数据集来训练其人工智能。然而,尽管 YouTube 有具体规则禁止未经许可利用此类数据,但苹果并不是唯一一家犯下这种违规行为的公司。其他人工智能巨头也被发现在使用它,包括AnthropicNvidiaSalesforce

该数据集被称为 YouTube 字幕,包含来自 48,000 多个 YouTube 频道的视频文字记录,从可汗学院、麻省理工学院和哈佛大学到《华尔街日报》、NPR 和 BBC。甚至深夜综艺节目(如《史蒂芬·科尔伯特深夜秀》、《约翰·奥利弗上周今夜秀》和《吉米金梅尔现场秀》)的文字记录也是 YouTube 字幕数据库的一部分。 Marques Brownlee 和 MrBeast 等 YouTube 影响者以及一些阴谋论者的视频也未经许可被删除。

该数据集本身由初创公司 EleutherAI 编译,不包含任何视频文件,尽管它确实包含许多其他语言的翻译,包括日语、德语和阿拉伯语。据报道,EleutherAI 从一个名为 Pile 的更大数据集获取数据,该数据集本身是由一家非营利组织创建的,该非营利组织不仅从 YouTube 上获取数据,还从欧洲议会记录和维基百科中获取数据。

据公司的相关出版物显示, BloombergAnthropicDatabricks也在 Pile 上训练了模型。 Anthropic 发言人 Jennifer Martinez 在给 Proof News 的一份声明中表示:“The Pile 包含 YouTube 字幕的一小部分。” “YouTube 的条款涵盖了对其平台的直接使用,这与 The Pile 数据集的使用不同。关于可能违反 YouTube 服务条款的问题,我们必须向您推荐 The Pile 的作者。”

抛开技术问题不谈,自ChatGPT首次亮相以来,人工智能初创公司帮助自己获取开放互联网的内容一直是​​一个问题。 Stability AI 和 Midjourney 目前正面临内容创作者的诉讼,指控他们未经许可抄袭其受版权保护的作品。运营 YouTube 的谷歌本身去年 7 月遭遇集体诉讼9 月又遭遇集体诉讼,该公司认为,这“不仅会打击谷歌的服务,还会打击生成式人工智能的理念”。

更重要的是,这些人工智能公司实际上很难引用他们从哪里获得训练数据。在 2024 年 3 月接受《华尔街日报》乔安娜·斯特恩 (Joanna Stern) 采访时,当被问及她的公司是否利用 YouTube、Facebook 和其他社交媒体平台的视频来训练模型时,OpenAI 首席技术官 Mira Murati 多次结结巴巴。 “我只是不打算详细介绍所使用的数据,”穆拉蒂说。

今年 7 月,微软 AI 首席执行官穆斯塔法·苏莱曼 (Mustafa Suleyman) 提出,空灵的“社会契约”意味着在网络上找到的任何东西都是公平的游戏。

“我认为,对于已经存在于开放网络上的内容,自 90 年代以来,该内容的社会契约就是合理使用,”Suleyman 告诉CNBC 。 “任何人都可以复制它,用它重新创建,用它复制。如果你愿意的话,那是免费软件,这就是我们的理解。”


Posted

in

by

Tags: