Nvidia 是人工智能行业中一些最受欢迎的 GPU制造商,该公司宣布发布了一种开源大型语言模型,据报道该模型的性能可与OpenAI 、 Anthropic 、 Meta和Google的领先专有模型相媲美。
该公司在最近发布的白皮书中介绍了其新的 NVLM 1.0 系列,其中以 720 亿参数的 NVLM-D-72B 模型为主导。 “我们推出了 NVLM 1.0,这是一系列前沿级多模态大语言模型,可在视觉语言任务上取得最先进的结果,可与领先的专有模型(例如 GPT-4o)和开放访问模型相媲美, “研究人员写道。
介绍 NVLM 1.0,这是一系列前沿级多模式法学硕士,可在视觉语言任务上取得最先进的结果,可与领先的专有模型(例如 GPT-4o)和开放获取模型(例如 InternVL 2)相媲美)。
值得注意的是,NVLM 1.0 显示了改进的纯文本… pic.twitter.com/yKGyOqHnsp—卫平 (@_weiping) 2024 年 9 月 18 日
据报道,新模型系列已经能够实现“生产级多模态”,在各种视觉和语言任务中具有出色的性能,此外,与 NVLM 系列所基于的基础 LLM 相比,还改进了基于文本的响应。研究人员解释说:“为了实现这一目标,我们精心制作了高质量的纯文本数据集,并将其与大量多模态数学和推理数据一起集成到多模态训练中,从而增强了跨模态的数学和编码能力。”
其结果是,法学硕士可以轻松地解释为什么一个模因很有趣,就像它可以一步一步解决复杂的数学方程一样。得益于其多模式训练方式,Nvidia 还成功地将模型的纯文本准确度在常见行业基准中平均提高了 4.3 个点。
Nvidia 似乎很认真地确保该模型符合开源倡议对“开源”的最新定义,不仅将其训练权重可供公众审查,而且还承诺在不久的将来发布该模型的源代码。这与OpenAI和谷歌等竞争对手的行为明显不同,后者小心翼翼地保护着法学硕士的权重和源代码的细节。在此过程中,Nvidia 将 NVLM 系列定位为不一定直接与ChatGPT-4o和Gemini 1.5 Pro竞争,而是作为第三方开发人员构建自己的聊天机器人和 AI 应用程序的基础。