据The Information报道,Nvidia 最新的 Blackwell GPU 在数据中心遇到了问题。报告称,英伟达的客户担心人工智能加速器的性能如何,因为过热问题导致用于人工智能训练的服务器机架部署延迟。
Blackwell 架构是 Nvidia 下一代 AI 加速器及其即将推出的RTX 50 系列显卡的核心。在数据中心,该架构此前因“设计缺陷”而被推迟,导致 B100 和 B200 GPU 的部署被推迟。尽管 Meta、微软和谷歌等人工智能公司接到了大笔订单,但情况仍然如此。
报告称,数据中心的大问题源于将 72 个人工智能加速器挤在一个服务器机架中,导致过热问题。 路透社报道称,英伟达已“多次”要求供应商重新设计服务器机架,以解决过热问题。
Blackwell 对 Nvidia 来说是重要的一步。它是下一代 GPU 的核心,可以跻身最佳显卡之列。 Blackwell 也是 Nvidia 巩固领先 AMD 领先优势的一个点。 Team Red 已在数据中心部署了 MI300X AI 加速器,目前正在推出 MI325X 加速器,以准备下一代 AI 芯片。
Nvidia 声称,与上一代 Hopper 架构相比,Blackwell 能够以低 25 倍的成本和能耗来训练大型语言模型,或者训练这些模型的速度提高 30 倍。这种加速对热量影响很大,这已经是数据中心在人工智能加速器方面需要解决的问题。
它也可能对 RTX 50 系列 GPU 产生影响。尽管我们知道像RTX 4090这样的显卡在游戏方面非常高效,但 Nvidia 之前的旗舰产品仍然遇到了高功耗和熔化电源连接器的问题。最新的猜测是,像 RTX 5090 这样的卡可能会进一步提高功率要求,高达 600 瓦。 Corsair 还确认Nvidia 的下一代显卡将继续使用 12V-2×6 连接器,该连接器一直是 RTX 4090 熔化问题的核心。
游戏玩家不会将 72 个 RTX 5090 塞进 PC 中,但数据中心和台式 PC 之间的过热问题程度有所不同。如果 Blackwell 架构在数据中心遇到这些问题,可能会给 Nvidia 的桌面系列带来麻烦。
目前,我们能做的就是等待。 Nvidia 预计将于 1 月份在 CES 2025 上展示其 RTX 50 系列 GPU。最近的报告显示Nvidia 正在逐步减少 RTX 40 系列卡的生产,很可能为下一代选项扫清道路。