57% 的互联网可能已经是 AI 污泥

一个cgi单词气泡
谷歌 Deepmind / Pexels

不仅仅是你——搜索结果确实变得越来越糟糕。 Amazon Web Services (AWS) 研究人员进行的一项研究表明,当今互联网上 57% 的内容要么是 AI 生成的,要么是使用 AI 算法翻译的。

这项题为“机器翻译的网络数量令人震惊:多路并行的见解”的研究认为,低成本机器翻译 (MT) 可以获取给定的内容并以多种语言进行复述,这是罪魁祸首。 “机器生成的多路并行翻译不仅主导着网络上可用机器翻译的低资源语言的翻译内容总量,它也占这些语言的网络内容总量的很大一部分,”研究人员在研究中写道。

他们还发现,与以单一语言发布的内容相比,机器翻译成多种语言的内容存在选择偏差的证据。研究人员写道:“与翻译成单一语言的内容相比,这些内容更短、更可预测,并且具有不同的主题分布。”

更重要的是,互联网上人工智能生成的内容数量不断增加,加上人们越来越依赖人工智能工具来编辑和操作这些内容,可能会导致一种称为模型崩溃的现象,并且已经降低了整个网络搜索结果的质量。鉴于像ChatGPTGeminiClaude这样的前沿人工智能模型依赖于大量的训练数据,而这些数据只能通过抓取公共网络(无论是否侵犯版权)来获取,让公共网络充满人工智能生成的数据,并且内容通常不准确,可能会严重降低他们的表现。

牛津大学的伊利亚·舒迈洛夫 (Ilia Shumailov) 博士对Windows Central表示:“模型崩溃发生的速度如此之快且难以捉摸,令人惊讶。” “首先,它会影响少数数据——表现不佳的数据。然后它会影响输出的多样性并且方差减少。有时,您会观察到大多数数据的微小改进,这掩盖了少数数据的性能下降。模型崩溃可能会产生严重后果。”

研究人员通过让专业语言学家从 20 个类别之一中随机选择 10,000 个英语句子进行分类,证明了这些后果。研究人员观察到“在比较 2 路到 8 路以上并行数据(即语言翻译数量)时,主题分布发生了巨大变化,‘对话和意见’主题从 22.5% 增加到 40.1%”。 。

这表明翻译成多种语言的数据类型存在选择偏差,“更可能”来自“对话和观点”主题。

此外,研究人员发现“高度多路并行翻译的质量明显低于 2 路并行翻译(彗星质量估计差 6.2 分)”。当研究人员审核了 100 个高度多向平行句子(这些句子被翻译成八种以上语言)时,他们发现“绝大多数”来自内容农场,其中的文章“我们认为质量低下,需要很少或根本不需要专业知识” ,或推进创造的努力。”

这当然有助于解释为什么 OpenAI 的首席执行官 Sam Altman 一直热衷于“不可能”在不免费访问受版权保护的作品的情况下制造出像 ChatGPT 这样的工具


Posted

in

by

Tags: