Nvidia 刚刚发布了一个开源 LLM 来与 GPT-4 竞争

Nvidia 是人工智能行业中一些最受欢迎的 GPU制造商，该公司宣布发布了一种开源大型语言模型，据报道该模型的性能可与OpenAI 、 Anthropic 、 Meta和Google的领先专有模型相媲美。

该公司在最近发布的白皮书中介绍了其新的 NVLM 1.0 系列，其中以 720 亿参数的 NVLM-D-72B 模型为主导。 “我们推出了 NVLM 1.0，这是一系列前沿级多模态大语言模型，可在视觉语言任务上取得最先进的结果，可与领先的专有模型（例如 GPT-4o）和开放访问模型相媲美， “研究人员写道。

介绍 NVLM 1.0，这是一系列前沿级多模式法学硕士，可在视觉语言任务上取得最先进的结果，可与领先的专有模型（例如 GPT-4o）和开放获取模型（例如 InternVL 2）相媲美）。
值得注意的是，NVLM 1.0 显示了改进的纯文本… pic.twitter.com/yKGyOqHnsp
—卫平 (@_weiping) 2024 年 9 月 18 日

据报道，新模型系列已经能够实现“生产级多模态”，在各种视觉和语言任务中具有出色的性能，此外，与 NVLM 系列所基于的基础 LLM 相比，还改进了基于文本的响应。研究人员解释说：“为了实现这一目标，我们精心制作了高质量的纯文本数据集，并将其与大量多模态数学和推理数据一起集成到多模态训练中，从而增强了跨模态的数学和编码能力。”

其结果是，法学硕士可以轻松地解释为什么一个模因很有趣，就像它可以一步一步解决复杂的数学方程一样。得益于其多模式训练方式，Nvidia 还成功地将模型的纯文本准确度在常见行业基准中平均提高了 4.3 个点。

Nvidia 似乎很认真地确保该模型符合开源倡议对“开源”的最新定义，不仅将其训练权重可供公众审查，而且还承诺在不久的将来发布该模型的源代码。这与OpenAI和谷歌等竞争对手的行为明显不同，后者小心翼翼地保护着法学硕士的权重和源代码的细节。在此过程中，Nvidia 将 NVLM 系列定位为不一定直接与ChatGPT-4o和Gemini 1.5 Pro竞争，而是作为第三方开发人员构建自己的聊天机器人和 AI 应用程序的基础。

Posted

2 10 月, 2024

blog

技術新聞普遍器

Tags: