根据404 Media 的一份令人震惊的报告,以内部 Slack 聊天记录、电子邮件和该机构获得的文件为依据,Nvidia 帮助自己“每天获得了值得人类一生的视觉体验的训练数据”,Nvidia 副总裁 Ming-Yu Liu 表示。 Nvidia 的研究和 Cosmos 项目负责人在 5 月份的一封电子邮件中承认。
不愿透露姓名的前 Nvidia 员工告诉 404,他们被要求从 Netflix、YouTube 和其他在线来源抓取视频内容,以获得用于该公司各种人工智能产品的训练数据。其中包括 Nvidia 的 Omniverse 3D 世界生成器、自动驾驶汽车系统和“数字人类”。
当这些员工询问该项目(内部名为 Cosmos)的合法性时,管理层向他们保证,公司最高层已批准他们使用该内容。
该项目试图建立一个类似于Gemini 1.5 、 GPT-4或Llama 3.1的基础模型,“将光传输、物理和智能的模拟封装在一个地方,以解锁对 Nvidia 至关重要的各种下游应用程序。”
为此,Cosmos 项目据称使用了开源视频下载器,并利用机器学习进行 IP 跳跃,从而避免了 YouTube 的阻止尝试。根据 404 查看的电子邮件,项目经理讨论了使用在 Amazon Web Services 上运行的多达 30 个虚拟机每天下载 80 年的完整长度和剪辑长度视频。
英伟达则声称没有任何不当行为。 Nvidia 发言人通过电子邮件告诉 404 Media:“我们尊重所有内容创作者的权利,并相信我们的模型和研究工作完全符合版权法的文字和精神。” “版权法保护特定的表达方式,但不保护事实、想法、数据或信息。任何人都可以自由地从其他来源学习事实、想法、数据或信息,并用它来表达自己的观点。合理使用还保护将作品用于变革目的的能力,例如模型培训。”
这远非英伟达(更不用说人工智能领域的绝大多数其他公司)第一次在其人工智能训练工作中采取“先刮掉,也许稍后请求宽恕”的方法。 7 月,Nvidia 与 Anthropic 和 Salesforce 一起在另一份关于非法盗取受版权保护视频的报告中被点名。
在 CES 2024 上,该公司对其新的游戏引擎生成 AI 的训练方式给出了模棱两可的答案,引发了网络风暴。作为回应,英伟达重申其工具是“商业安全的”。