据报道 Nvidia 再次从 Netflix 和 YouTube 窃取人工智能数据

根据404 Media 的一份令人震惊的报告，以内部 Slack 聊天记录、电子邮件和该机构获得的文件为依据，Nvidia 帮助自己“每天获得了值得人类一生的视觉体验的训练数据”，Nvidia 副总裁 Ming-Yu Liu 表示。 Nvidia 的研究和 Cosmos 项目负责人在 5 月份的一封电子邮件中承认。

不愿透露姓名的前 Nvidia 员工告诉 404，他们被要求从 Netflix、YouTube 和其他在线来源抓取视频内容，以获得用于该公司各种人工智能产品的训练数据。其中包括 Nvidia 的 Omniverse 3D 世界生成器、自动驾驶汽车系统和“数字人类”。

当这些员工询问该项目（内部名为 Cosmos）的合法性时，管理层向他们保证，公司最高层已批准他们使用该内容。

该项目试图建立一个类似于Gemini 1.5 、 GPT-4或Llama 3.1的基础模型，“将光传输、物理和智能的模拟封装在一个地方，以解锁对 Nvidia 至关重要的各种下游应用程序。”

为此，Cosmos 项目据称使用了开源视频下载器，并利用机器学习进行 IP 跳跃，从而避免了 YouTube 的阻止尝试。根据 404 查看的电子邮件，项目经理讨论了使用在 Amazon Web Services 上运行的多达 30 个虚拟机每天下载 80 年的完整长度和剪辑长度视频。

英伟达则声称没有任何不当行为。 Nvidia 发言人通过电子邮件告诉 404 Media：“我们尊重所有内容创作者的权利，并相信我们的模型和研究工作完全符合版权法的文字和精神。” “版权法保护特定的表达方式，但不保护事实、想法、数据或信息。任何人都可以自由地从其他来源学习事实、想法、数据或信息，并用它来表达自己的观点。合理使用还保护将作品用于变革目的的能力，例如模型培训。”

这远非英伟达（更不用说人工智能领域的绝大多数其他公司）第一次在其人工智能训练工作中采取“先刮掉，也许稍后请求宽恕”的方法。 7 月，Nvidia 与 Anthropic 和 Salesforce 一起在另一份关于非法盗取受版权保护视频的报告中被点名。

在 CES 2024 上，该公司对其新的游戏引擎生成 AI 的训练方式给出了模棱两可的答案，引发了网络风暴。作为回应，英伟达重申其工具是“商业安全的”。