人们用 ChatGPT 的新语音模式做的所有疯狂的事情

ChatGPT的高级语音模式于周二面向少数 OpenAI 订阅者推出,这些订阅者被选为这一备受期待的功能 alpha 版本的一部分。

该功能于五月份首次宣布。它的设计目的是消除传统的基于文本的上下文窗口,而是使用自然的口语单词进行对话,并以逼真的方式进行传递。它适用于各种地区口音和语言。根据 OpenAI 的说法,高级语音“提供更自然、实时的对话,允许您随时打断,并感知和响应您的情绪。

用户可以要求语音模式执行的操作有一些限制。该系统将以四种预设声音之一说话,并且无法模仿其他人的声音——无论是个人还是公众人物。

事实上,该功能将彻底阻止与四个预设不同的输出。此外,该系统不会生成受版权保护的音频或音乐。所以当然,有人做的第一件事就是拥有beatbox。

作为 B-boy 的高级声音

Alpha 用户 Ethan Sutin 在 X(以前称为 Twitter)上发布了一条帖子,展示了 Advanced Voice 的一些回复,包括上面的一条,其中 AI 朗诵了一段简短的“生日说唱”,然后继续进行口技表演。你实际上可以听到人工智能在节拍之间进行数字呼吸。

高级语音作为讲故事的人

虽然高级语音被禁止批量创作歌曲,但它可以为其朗诵的睡前故事生成背景音效。

在上面来自 Kesku 的示例中,人工智能在被要求“给我讲一个带有科幻元素的激动人心的动作惊悚片故事,并通过对物体发出适当的声音来营造气氛”后,在其机器人机器人的故事中添加了适时的碰撞和猛烈撞击。正在发生(例如:一场大声呼啸的风暴)”。

正如 Sutin 上面的例子所示,人工智能还能够当场创建逼真的角色。

Advanced Voice 作为情感演讲者

这个新功能听起来如此逼真,部分原因是它能够像人类一样表达情感。在上面的示例中,Ethan Sutin 重现了著名的《星际迷航 II》场景。在下面的两个示例中,用户 Cristiano Giardina 迫使人工智能以不同的语气和不同的语言说话。

作为动物爱好者的高级声音

人工智能的声音天赋并不仅仅停留在人类语言上。在上面的示例中,高级语音被告知发出猫的声音,并且准确无误地发出声音。

除了听起来像猫之外,用户还可以向人工智能提出有关其生物猫科动物朋友的问题,并实时收到个性化的提示和建议。

高级语音作为实时翻译

高级语音还可以利用您设备的摄像头来帮助翻译工作。在上面的示例中,用户 Manuel Sainsily 将手机指向运行日语版本 Pokémon 游戏的 GameBoy Advanced,并让 AI 在他玩游戏时读取屏幕上的对话框。

该公司指出,视频和屏幕共享不会成为 Alpha 版本的一部分,但将在稍后提供。 OpenAI 计划“在未来几周内”将 alpha 版本扩展到更多 Plus 用户,并将在“秋季”将其提供给所有 Plus 用户。


Posted

in

by

Tags: