
OpenAI 首席执行官兼联合创始人 Sam Altman 周四在 X(前身为 Twitter)上透露,其高级语音功能将于“下周”开始推出,不过仅针对少数选定的 ChatGPT-Plus 订阅者。
该公司计划“与一小群用户一起启动 alpha 测试,以收集反馈并根据我们所学到的知识进行扩展。”
Alpha 版将于下周开始增加订阅者!
—萨姆·奥尔特曼 (@sama) 2024 年 7 月 25 日
高级语音 (Advanced Voice) 取消了文本提示,使用户能够像与另一个人一样直接与人工智能对话,该功能最初于 5 月份在公司春季更新活动期间与 GPT-4o 一起发布。与 Siri 和 Google Assistant 等现有数字助理仅提供用户查询的预设答案不同,ChatGPT 的高级语音可提供类似人类的响应,几乎无延迟,并且支持多种语言。
GPT-4o 模型能够在平均 320 毫秒内响应音频输入,这与人类对正常对话的反应速度相当。正如您在下面的演示视频中看到的,该模型可以同时与多个用户交谈,用英语和葡萄牙语即兴表达谈话要点和问题,并用人类的情感来表达,包括“笑声”。
除了每月 20 美元的 ChatGPT Plus 级别订阅者之外,目前还没有关于该公司将如何选择 alpha 试用参与者的消息。 alpha 版本原定于 6 月发布,但该日期被推迟“以达到我们的发布标准”,并提高其检测和拒绝违禁内容形式的能力,以及支持公司的 IT 基础设施以适应预期的用户负载增加。
正如该公司 在 6 月份宣布的那样,该功能至少要到今年秋天才会全面推出,其确切时间将再次取决于它“满足我们的高安全性和可靠性标准”。
让 ChatGPT 能够与用户自然地交谈是一个巨大的进步。消除对上下文窗口的需求可以降低用户硬件要求,并扩展人工智能的潜在集成和用例(例如增加对身体移动性或灵活性受限的用户的访问)。
它还可以帮助加速该技术被公众采用,因为它可以降低不太懂技术的用户的进入门槛,这些用户习惯于通过“嘿 Siri”与计算机进行交互,但对快速工程的前景感到恐惧。