不,ChatGPT 不会导致另一次 GPU 短缺

ChatGPT正在爆炸式增长,其 AI 模型的支柱依赖于 Nvidia 显卡。 一位分析师表示,大约有 10,000 个 Nvidia GPU 用于训练 ChatGPT,随着服务的不断扩展,对 GPU 的需求也在不断扩大。任何经历过 2021 年加密货币兴起的人都能嗅到即将到来的GPU 短缺

我见过一些记者建立了这种确切的联系,但这是错误的。加密驱动型 GPU 短缺的日子已经过去。尽管随着 AI 的持续繁荣,我们可能会看到对显卡的需求激增,但这种需求并不是针对安装在游戏平台上的最佳显卡

为什么 Nvidia GPU 是为 AI 打造的

Nvidia 的 RTX A6000 GPU 渲染图。

首先,我们将解释为什么 Nvidia 显卡对 AI 如此出色。 Nvidia 在过去几年一直押注于 AI,并在 ChatGPT 崛起后公司股价飙升得到了回报。您将 Nvidia 视为 AI 培训核心的原因有两个:张量核心和 CUDA。

CUDA 是 Nvidia 的应用程序编程接口 (API),用于从最昂贵的数据中心 GPU 到最便宜的游戏 GPU 的所有产品。 TensorFlow 等机器学习库支持 CUDA 加速,大大加快了训练和推理速度。与 Nvidia 相比,CUDA 是AMD 在 AI 领域远远落后的驱动力。

但是,不要将 CUDA 与 Nvidia 的 CUDA 内核混淆。 CUDA 是运行大量 AI 应用程序的平台,而 CUDA 内核只是 Nvidia GPU 中的内核。它们共享一个名称,并且 CUDA 核心经过更好的优化以运行 CUDA 应用程序。 Nvidia 的游戏 GPU 具有 CUDA 内核,它们支持 CUDA 应用程序。

Tensor 核心基本上是专用的 AI 核心。他们处理矩阵乘法,这是加速 AI 训练的秘诀。这里的想法很简单。一次乘以多组数据,并通过生成可能的结果以指数方式更快地训练 AI 模型。大多数处理器以线性方式处理任务,而 Tensor 内核可以在单个时钟周期内快速生成场景。

同样,Nvidia 的游戏 GPU(如RTX 4080)具有 Tensor 内核(有时甚至比昂贵的数据中心 GPU 还要多)。然而,对于 Nvidia 卡必须加速 AI 模型的所有规格,它们都没有内存重要。 Nvidia 的游戏 GPU 没有很多内存。

这一切都归结为记忆

一堆 HBM 内存。

“内存大小是最重要的,”杰弗里希顿说,他是几本人工智能书籍的作者,也是圣路易斯华盛顿大学的教授。 “如果你没有足够的 GPU RAM,你的模型拟合/推理就会停止。”

Heaton 拥有一个专门介绍 AI 模型在某些 GPU 上运行情况的 YouTube 频道,他指出 CUDA 内核也很重要,但内存容量是 GPU 如何为 AI 运行的主要因素。按照游戏标准, RTX 4090拥有大量内存——24GB 的 GDDR6X——但与数据中心级 GPU 相比却非常少。例如,Nvidia 最新的 H100 GPU 拥有 80GB 的 HBM3 内存,以及一个巨大的 5,120 位内存总线。

你可以用更少的东西,但你仍然需要大量的内存。 Heaton 建议初学者至少拥有 12GB,而典型的机器学习工程师将拥有一个或两个 48GB 的​​专业 Nvidia GPU。根据希顿的说法,“大多数工作负载将更多地落在单个 A100 到八个 A100 范围内。” Nvidia 的 A100 GPU 具有 40GB 内存。

您也可以看到这种缩放的作用。 Puget Systems展示了具有 40GB 内存的单个 A100 的性能大约是具有 24GB 内存的单个 RTX 3090 的两倍。尽管事实上 RTX 3090 的 CUDA 内核数量几乎是它的两倍,Tensor 内核数量几乎是它的两倍。

内存是瓶颈,而不是原始处理能力。这是因为训练 AI 模型依赖于大型数据集,而您可以在内存中存储的数据越多,您训练模型的速度就越快(也更准确)。

不同的需求,不同的模具

Hopper H100 显卡。

Nvidia 的游戏 GPU 通常不适合 AI,因为与企业级硬件相比,它们的视频内存太少,但这里也有一个单独的问题。 Nvidia 的工作站 GPU 通常不会与其游戏卡共享一个 GPU 芯片。

例如,Heaton 引用的 A100 使用 GA100 GPU,这是 Nvidia Ampere 系列的芯片,从未用于游戏显卡(包括高端RTX 3090 Ti )。同样,Nvidia 最新的 H100 使用与 RTX 40 系列完全不同的架构,这意味着它也使用不同的芯片。

也有例外。 RTX 4090 和 RTX 4080 内部的 Nvidia AD102 GPU 也用于小范围的 Ada Lovelace 企业级 GPU(L40 和 RTX 6000)。不过,在大多数情况下,Nvidia 不能只是将游戏 GPU 裸片重新用于数据中心卡。他们是不同的世界。

我们看到的由于加密货币挖矿导致的 GPU 短缺与 AI 模型的普及之间存在一些根本差异。根据 Heaton 的说法,GPT-3 模型需要超过 1,000 个 A100 Nvidia GPU 来训练,大约需要 8 个来运行。这些 GPU 也可以访问高带宽 NVLink 互连,而 Nvidia 的 RTX 40 系列 GPU 则不能。它将 Nvidia 游戏卡上的最大 24GB 内存与带有 NVLink 的 A100 等 GPU 上的数百内存进行了比较。

还有一些其他问题,例如内存芯片被分配给专业 GPU 而不是游戏 GPU,但是赶往当地的 Micro Center 或 Best Buy 寻找库存 GPU 的日子已经一去不复返了。 Heaton 很好地总结了这一点:“ChatGPT 等大型语言模型估计至少需要八个 GPU 才能运行。这样的估计假设高端 A100 GPU。我的猜测是,这可能会导致高端 GPU 短缺,但可能不会影响 RAM 较少的游戏级 GPU。”


Posted

in

by

Tags: