ChatGPT 备受期待的高级语音可能会在“下周”推出

屏幕截图。两个人坐在办公桌前通过手机使用 OpenAI 的高级语音模式交谈 — 开放人工智能

OpenAI 首席执行官兼联合创始人 Sam Altman 周四在 X（前身为 Twitter）上透露，其高级语音功能将于“下周”开始推出，不过仅针对少数选定的 ChatGPT-Plus 订阅者。

该公司计划“与一小群用户一起启动 alpha 测试，以收集反馈并根据我们所学到的知识进行扩展。”

Alpha 版将于下周开始增加订阅者！
—萨姆·奥尔特曼 (@sama) 2024 年 7 月 25 日

高级语音 (Advanced Voice) 取消了文本提示，使用户能够像与另一个人一样直接与人工智能对话，该功能最初于 5 月份在公司春季更新活动期间与 GPT-4o 一起发布。与 Siri 和 Google Assistant 等现有数字助理仅提供用户查询的预设答案不同，ChatGPT 的高级语音可提供类似人类的响应，几乎无延迟，并且支持多种语言。

GPT-4o 模型能够在平均 320 毫秒内响应音频输入，这与人类对正常对话的反应速度相当。正如您在下面的演示视频中看到的，该模型可以同时与多个用户交谈，用英语和葡萄牙语即兴表达谈话要点和问题，并用人类的情感来表达，包括“笑声”。

除了每月 20 美元的 ChatGPT Plus 级别订阅者之外，目前还没有关于该公司将如何选择 alpha 试用参与者的消息。 alpha 版本原定于 6 月发布，但该日期被推迟“以达到我们的发布标准”，并提高其检测和拒绝违禁内容形式的能力，以及支持公司的 IT 基础设施以适应预期的用户负载增加。

正如该公司在 6 月份宣布的那样，该功能至少要到今年秋天才会全面推出，其确切时间将再次取决于它“满足我们的高安全性和可靠性标准”。

让 ChatGPT 能够与用户自然地交谈是一个巨大的进步。消除对上下文窗口的需求可以降低用户硬件要求，并扩展人工智能的潜在集成和用例（例如增加对身体移动性或灵活性受限的用户的访问）。

它还可以帮助加速该技术被公众采用，因为它可以降低不太懂技术的用户的进入门槛，这些用户习惯于通过“嘿 Siri”与计算机进行交互，但对快速工程的前景感到恐惧。