ChatGPT 已经可以听和说。很快它也可能会看到

ChatGPT 遇见一只狗
开放人工智能

根据该平台最新测试版本中发现的代码,ChatGPT 的高级语音模式允许用户与聊天机器人实时对话,很快就会获得视觉天赋。虽然 OpenAI 尚未确认新功能的具体发布,但Android Authority发现的 ChatGPT v1.2024.317 beta 版本中的代码表明,所谓的“实时摄像头”可能即将推出。

OpenAI 于 5 月份首次展示了ChatGPT的高级语音模式视觉功能,当时该功能首次在 alpha 版本中推出。在当时发布的演示中,系统能够通过手机的摄像头识别出它正在看一只狗,根据过去的互动识别狗,识别狗的球,并将狗与球的关系关联起来(即玩取球)。

该功能也立即受到了 alpha 测试人员的欢迎。 X 用户曼努埃尔·塞恩斯利 (Manuel Sainsily) 根据摄像机的视频输入,使用它来回答有关他的新小猫的口头问题,效果非常好。

高级语音模式随后于 9 月份向 Plus 和 Enterprise 订阅者发布了测试版,尽管没有附加的视觉功能。当然,这并没有阻止用户 疯狂地测试该功能的声音限制。该公司表示,高级语音“提供更自然、实时的对话,允许您随时打断,并感知和响应您的情绪”。

数字眼睛的加入肯定会让高级语音模式与 OpenAI 的主要竞争对手谷歌和 Meta 区分开来,这两家公司最近几个月都推出了自己的对话功能。

Gemini Live 可能能够说 40 多种语言,但它无法看到周围的世界(至少在Project Astra 启动之前)——Meta 的自然语音交互(在 9 月份的 Connect 2024 活动上首次亮相)也无法使用相机输入。

OpenAI今天还宣布高级语音模式现在也可用于桌面上的付费ChatGPT Plus帐户。它曾一度只能在移动设备上使用,但现在也可以在笔记本电脑或 PC 上直接访问。


Posted

in

by

Tags: