谷歌的人工智能刚刚竖起耳朵

谷歌

人工智能聊天机器人已经能够通过图像和视频“看”世界。但现在，谷歌宣布了音频转语音功能，作为Gemini Pro最新更新的一部分。在 Gemini 1.5 Pro 中，聊天机器人现在可以“听到”上传到其系统中的音频文件，然后提取文本信息。

该公司已将该 LLM 版本作为其 Vertex AI 开发平台的公共预览版提供。这将使更多以企业为中心的用户能够尝试该功能，并在 2 月份首次宣布该模型时以更加私密的方式推出后扩大其基础。最初仅向有限的开发人员和企业客户提供此服务。

1. 分解+理解长视频
我上传了昨晚的整个NBA扣篮大赛，问哪一个扣篮得分最高。
Gemini 1.5 非常能够从其长上下文视频理解中找到特定的完美 50 扣篮和细节！ pic.twitter.com/01iUfqfiAO
—罗文·张 (@rowancheung) 2024 年 2 月 18 日

谷歌在目前正在拉斯维加斯举行的Cloud Next 会议上分享了有关更新的详细信息。在将为其Gemini Advanced 聊天机器人提供支持的 Gemini Ultra LLM 称为 Gemini 系列中最强大的模型之后，谷歌现在将 Gemini 1.5 Pro 称为其最强大的生成模型。该公司补充说，该版本的学习能力更好，无需对模型进行额外调整。

Gemini 1.5 Pro 是多模式的，它可以将不同类型的音频解释为文本，包括电视节目、电影、广播和电话会议录音。它甚至是多语言的，因为它可以处理多种不同语言的音频。法学硕士还可以从视频中创建文字记录；然而，正如 TechCrunch 所提到的，其质量可能不可靠。

在首次宣布时，谷歌解释说 Gemini 1.5 Pro 使用令牌系统来处理原始数据。一百万个令牌相当于大约 700,000 个单词或 30,000 行代码。以媒体形式来说，它相当于一小时的视频或大约 11 小时的音频。

Gemini 1.5 Pro 已经有一些私人预览演示，演示了法学硕士如何能够在视频记录中找到特定时刻。例如，人工智能爱好者 Rowan Cheung获得了抢先体验，并详细介绍了他的演示如何在体育比赛中找到准确的动作镜头并总结了该事件，如上面嵌入的推文所示。

然而，谷歌指出，其他早期采用者，包括 United Wholesale Mortgage、TBS 和 Replit，正在选择更多以企业为中心的用例，例如抵押贷款承销、自动化元数据标记以及生成、解释和更新代码。