使 2024 年成为人工智能里程碑式一年的 10 项公告

我们已经正式度过了人工智能热潮开始两周年，但事情并没有放缓。恰恰相反。生成式人工智能正在以一种几乎令人难以承受的速度崛起，并以无情的速度扩展到新的平台、媒介甚至设备。

以下 10 项公告使 2024 年成为人工智能领域具有里程碑意义的一年。

OpenAI 发布 GPT-4o

当ChatGPT （运行GPT-3.5 ）于 2022 年 11 月首次推出时，它基本上是一款奇特的计算机控制的 Mad Libs 游戏。不要误会我的意思，即使这种能力在当时是革命性的，但直到 2024 年 5 月GPT-4o发布，生成式 AI 系统才真正发挥作用。

GPT-4o以其前身分析和生成文本和图像的能力为基础，与单独的GPT-4相比，GPT-4o 提供了更全面的上下文理解。这意味着从图像字幕和视觉分析到生成图形、图表和图像等创意和分析内容的各个方面都有更好的性能。

高级语音模式帮助计算机像人类一样说话

9 月，OpenAI 向 ChatGPT 订阅者发布了高级语音模式，再次展示了其作为领先人工智能公司的地位。此功能消除了用户在提示窗口中输入问题的需要，而是使他们能够像与其他人一样与人工智能交谈。

利用 GPT-4o 与人类相当的响应时间，高级语音模式从根本上改变了人们与机器智能交互的方式，并帮助用户释放人工智能的全部创造力。

生成式人工智能走到了边缘

在 iPhone 16 Pro 上使用 Visual Intelligence 显示 ChatGPT 答案。 — iPhone 上的视觉智能依靠摄像头来理解周围的世界。 Christine Romero-Chan / 数字趋势

当ChatGPT于 2022 年首次亮相时，它是城里唯一的人工智能，并且可以在一个地方使用：ChatGPT.com。哦，两年有多大的不同。如今，从智能手机和智能家居设备到自动驾驶汽车和健康监测设备，生成式人工智能无处不在。例如，ChatGPT 可以作为桌面应用程序、API、移动应用程序甚至通过800 号码使用。微软则将人工智能直接集成到其Copilot+ 笔记本电脑系列中。

当然，也许最重要的例子是Apple Intelligence 。它可能不是最成功的发布（许多功能我们仍在等待），但在使生成式人工智能的力量尽可能可用方面，没有什么比 Apple Intelligence 更重要的了。

现在，Copilot+ PC 或 Apple Intelligence 都没有弄清楚相关公司可能想要的方式（尤其是微软），但众所周知，这只是一个开始。

核电生产的复苏

今年之前，核电在美国被视为一个失败的提议。被认为不可靠和不安全，这在很大程度上是由于 1979 年的三哩岛事件，当时该工厂的一个主反应堆部分熔化，并向大气中排放有毒放射性物质。然而，随着现代大型语言模型所需电力的迅速增加，以及它们给区域电网带来的巨大压力，许多领先的人工智能公司正在仔细考虑使用原子能来运行他们的数据中心。

例如，亚马逊于 3 月份从 Talen 购买了一个核动力人工智能数据中心，然后于 10 月份签署了一项协议，从 Energy Northwest 收购小型独立小型模块化反应堆(SMR)。微软也不甘示弱，购买了三哩岛本身的生产能力，目前正在努力让反应堆一号重新上线并发电。

代理有望成为生成人工智能的下一个重大事件

事实证明，在发展大型语言模型的任务中，您只能投入这么多的训练数据、电力和水，直到遇到收益递减的问题。人工智能行业在 2024 年亲身经历了这一点，并作为回应，开始放弃最初定义生成式人工智能体验的大规模法学硕士，转而支持代理；更小、响应速度更快的模型旨在执行特定任务，而不是尝试执行用户可能要求的所有操作。

Anthropic 于 10 月份推出了名为Computer Use的代理。微软紧随其后，于 11 月推出了Copilot Actions ，而据报道 OpenAI将于 1 月发布其代理功能。

推理模型的兴起

当今的许多大型语言模型更倾向于尽快生成响应，但通常会牺牲准确性和正确性。 OpenAI 的 o1 推理模型（该公司于 9 月份作为预览版发布，并于 12 月份作为全功能模型发布）采用了相反的方法：它牺牲响应速度来内部验证给定答案的基本原理，确保其准确和完整尽可能。

虽然这项技术尚未被公众完全接受（o1 目前仅适用于 Plus 和 Pro 级别的订阅者），但领先的人工智能公司正在推进自己的版本。谷歌于 12 月 19 日宣布了对 o1 的回答，称为Gemini 2.0 Flash Thinking Experimental ，而 OpenAI 在 12 月 20 日的 12 天 OpenAI 直播活动中透露，它已经在开发 o1 的继任者，称为 o3 。

人工智能驱动的搜索在互联网上传播

在 iPhone 14 Pro 上运行的 Perplexity AI 应用程序。 — 乔·马林/数字趋势

如今，生成式人工智能似乎无处不在，那么为什么不将其集成到互联网最基本的功能之一中呢？过去两年，谷歌一直在研究这项技术，首先于 2023 年 5 月发布了搜索生成体验，然后在今年 5 月推出了人工智能概览功能。AI Overview会在搜索结果页面顶部生成用户请求的信息摘要。

Perplexity AI 使该技术更进一步。它的“答案引擎”在互联网上搜索用户请求的信息，然后将这些数据合成为连贯的、对话式的（和引用的）响应，从而有效地消除了点击链接列表的需要。 OpenAI 一直是创新者，为其聊天机器人开发了一个几乎相同的系统，称为ChatGPT Search ，并于 10 月份首次亮相。

Anthropic 的 Artifact 开启了一场协作革命

尝试直接在聊天流中生成、分析和编辑大型文件（无论是长篇创意论文还是计算机代码片段）可能会让人不知所措，需要您不断地来回滚动才能查看整个文档。

Anthropic 于 6 月推出的 Artifacts功能通过为用户提供单独的预览窗口来帮助缓解该问题，用户可以在该窗口中查看主对话之外的 AI 制作的文本。事实证明，该功能非常受欢迎， OpenAI 很快也推出了自己的版本。

Anthropic 的最新模型和功能已使其成为今年 OpenAI 和 Google 的强大对手，仅这一点就让人感觉意义重大。

图像和视频生成器终于弄清楚了手指

使用相机控制来有意识地引导每一个镜头。
通过今天的跑道学院了解如何操作。 pic.twitter.com/vCGMkkhKds
—跑道 (@runwayml) 2024 年 11 月 2 日

过去，发现人工智能生成的图像或视频就像计算对象显示的附肢数量一样简单——显然生成了两条手臂、两条腿和 10 个手指以上的任何东西，正如稳定扩散 3 的柯南伯格式图像所展示的那样。六月。然而，随着 2024 年即将结束，区分人类和机器制作的内容变得更加困难，因为图像和视频生成器迅速提高了其输出的质量和生理准确性。

Kling 、 Gen 3 Alpha和Movie Gen等 AI 视频系统现在能够生成具有最小失真和细粒度相机控制的逼真剪辑，而Midjourney 、 Dall-E 3和Imagen 3等 AI 视频系统可以制作具有最小失真和细粒度相机控制的静态图像。无数艺术风格中令人惊叹的现实主义程度（以及最少的幻觉文物）。

哦，是的， OpenAI 的 Sora终于在12 月发布的公告中首次亮相。人工智能生成视频模型的争夺战正在升温，它们在 2024 年的表现令人震惊。

埃隆·马斯克斥资100亿美元打造全球最大人工智能训练集群

埃隆·马斯克 (Elon Musk) 在 Tesla Cyber Rodeo 上。 — 数字趋势

xAI 今年推出了 Grok 2.0，这是 X 中内置的最新模型。但围绕埃隆·马斯克 (Elon Musk) 人工智能项目的更大新闻是它的未来发展方向。 2024 年，埃隆·马斯克着手在田纳西州孟菲斯郊外建造“世界上最大的超级计算机”，该计算机于 7 月 22 日凌晨 4:20 上线。该超级集群由 100,000 个 Nvidia H100 GPU 驱动，负责训练新版本的 xAI Grok 生成式人工智能模型，马斯克声称该模型将成为“世界上最强大的人工智能”。

预计马斯克仅在 2024 年就将花费约 100 亿美元的资本和推理成本，但据报道，他正在努力在新的一年将超级计算机的 GPU 数量增加一倍。