Meta 在 Connect 2024 上推出自己版本的高级语音模式

在周三的 Meta Connect 2024 大会上，首席执行官马克·扎克伯格上台讨论了公司在人工智能方面的最新进展。扎克伯格在他所描述的“可能是我们拥有的最大的人工智能新闻”中推出了自然语音交互，这是谷歌Gemini Live和 OpenAI 高级语音模式的直接竞争对手。

“我认为语音将成为一种比文本更自然的与人工智能交互的方式，”扎克伯格评论道。 “我认为它有潜力成为我们与人工智能互动的最常见方式之一。”扎克伯格还宣布，这项新功能将于今天开始向 Meta 的所有主要应用程序（包括 Instagram、WhatsApp、Messenger 和 Facebook）的用户推出。

扎克伯格表示：“Meta AI 在这一类别中脱颖而出，不仅提供最先进的人工智能模型，而且还可以无限制地访问这些模型，以便轻松地免费集成到我们不同的产品和应用程序中。” “Meta AI 有望成为世界上最常用的人工智能助手。我们的月活跃用户数接近 5 亿，而且我们甚至还没有在一些较大的国家/地区推出。”

与Gemini Live和高级语音模式一样，自然语音交互允许用户放弃文本提示并直接与聊天机器人交谈。用户可以口吃、纠正自己、打断人工智能，并且通常可以像与另一个人一样说话，并且仍然让聊天机器人跟踪对话。新功能还允许用户选择人工智能的声音，并可以从约翰·塞纳、朱迪·丹奇夫人、克里斯汀·贝尔、基根·迈克尔·基和奥卡菲娜等众多名人中进行选择。您可能还记得Meta 之前涉足自然语言聊天的阵容，该阵容于 8 月份被关闭，因为用户发现交互“令人毛骨悚然”和“超现实”。

扎克伯格在台上现场演示了该功能，向聊天机器人提出了一系列垒球问题，人工智能给出了令人满意的回答。与我们在高级语音模式中看到的相比，它的说话节奏显得有点生硬，对话性也更少，但仍然比你从 Siri 响应中得到的单调语调要好得多。然而，直到扎克伯格将人工智能称为奥卡菲娜（Awkwafina）时，记者才发现这个角色的声音应该是这样的。

自然语音交互可能是周三宣布的“最大的”人工智能新闻，但它远不是唯一的新闻。扎克伯格还透露，鉴于系统已经实现多模式，Meta 的 Llama 模型已经达到 3.2 版本。 Llama 3.2 11B 和 90B（指每个训练的参数数量）现在都可以解释图表和图形，识别图像中的资产以及生成图像说明。

不幸的是，这些新型号将不会在欧洲上市。这是由于 Meta 认为欧盟“不可预测”的监管环境导致该公司无法使用欧洲人的数据来训练其人工智能模型。该公司正在欧洲推出两款极其轻量的模型，名为 Llama 3.2 1B 和 3B，这两个模型都没有接受过欧洲数据的训练。这些模型是为智能手机和其他边缘设备构建的。

出于看似难以理解的原因，Meta 还宣布它正在试验一项新功能，该功能将把人工智能生成的图像（其中一些可能包括您的肖像）直接注入您的 Facebook 和 Instagram 动态中。这些“为您想象”的图像将提示用户按原样共享图像或在应用程序内实时迭代图像。

扎克伯格在最近的一次采访中告诉The Verge ：“我认为随着时间的推移，出现了这样的趋势，即推送最初主要是专门为你关注的人、你的朋友提供的内容。” “你只需添加一层，‘好吧，我们还将向你展示由人工智能系统生成的内容，这可能是你感兴趣的东西’……它能有多大是很重要的。”取决于执行力以及它有多好。”