
为当今 ChatGPT、Gemini 和Claude等聊天机器人提供支持的大型语言模型是非常强大的生成式人工智能系统,而且是非常耗电的系统。
他们显然不需要这样做,因为加州大学圣克鲁斯分校最近的研究表明,运行数十亿参数的现代法学硕士只需 13 瓦功率即可运行,而不会损失性能。这大约相当于 100W 灯泡的功耗,比Nvidia H100 GPU 的 700W 功耗提高了 50 倍。
“我们以更低的成本获得了相同的性能——我们所要做的就是从根本上改变神经网络的工作方式,”该论文的主要作者 Jason Eshraghian 说。 “然后我们更进一步,构建了定制硬件。”他们通过取消神经网络的乘法矩阵来做到这一点。
矩阵乘法是当今法学硕士算法的基石。单词被表示为数字,然后组织成矩阵,在矩阵中,它们被加权并相互相乘,根据某些单词的重要性及其与句子或段落中其他单词的关系产生语言输出。
这些矩阵存储在数百个物理上独立的 GPU 上,并通过每个新查询或操作进行提取。在多个矩阵之间传输需要相乘的数据的过程需要消耗大量的电力,因此也需要金钱。
为了解决这个问题,加州大学圣克鲁斯分校的团队将矩阵中的数字强制转换为三元状态——每个数字都带有负一、零或正一的值。这允许处理器简单地将数字相加而不是相乘,这种调整对算法没有影响,但在硬件方面节省了大量成本。为了在操作数量减少的情况下保持性能,该团队向系统引入了基于时间的计算,有效地为网络创建了“内存”,提高了处理减少的操作的速度。
“从电路设计者的角度来看,你不需要乘法的开销,这会带来大量的成本,”Eshraghian 说。尽管该团队确实在定制 FGPA 硬件上实施了新网络,但他们仍然相信,可以使用开源软件和较小的硬件调整对现有模型进行许多效率改进。即使在标准 GPU 上,该团队也发现内存消耗减少了 10 倍,同时运行速度提高了 25%。
随着 Nvidia 和 AMD 等芯片制造商不断突破 GPU 处理器性能的界限,近年来,容纳这些系统的数据中心的电力需求(及其相关的财务成本)猛增。随着计算能力的提高,芯片产生的废热量也相应增加——这些废热现在需要资源密集型液体冷却系统才能完全消散。
Arm 首席执行官雷内·哈斯 (Rene Haas) 在 4 月份警告 The Register ,如果不尽快采取纠正措施,到本世纪末,人工智能数据中心可能会消耗美国全部电力输出的 20-25%。