人工智能图像生成向前迈出了一大步

我们已经使用人工智能生成的图像有一段时间了，但本周，一些主要参与者向前迈出了一些重大一步。我特别谈论的是Midjourney 、Google 的新模型和Grok的重大更新。

每家公司都展示了技术以不同的步伐和不同的方向发展。这仍然是一个非常开放的竞争环境，每家公司都展示了所取得的进步。

中途登陆网络

韦斯·安德森的《哈利·波特》中邓布利多教授在泳池边。 — 在 Midjourney 中生成的 AI 图像。频道/中途

让我们从 Midjourney 开始，该公司于周四晚些时候悄然推出了一款新的网页编辑器，它将许多有用的图像处理工具组装到一个用户界面中。

以前，诸如重新构图、重新绘制（将 AI 生成的资产添加到或修改现有图像）、平移、画布扩展（扩展图像的边界并生成要填充的内容）和缩放等功能都需要使用自己的特定工具，并且位于多个菜单中，需要创作者不断地来回切换。这个新的用户界面提供了更加连贯和简化的编辑过程，与该程序在 Discord 上的启动方式明显不同。

Midjourney 刚刚发布了他们的网页编辑器！
这实际上是他们一段时间以来放弃的最酷的功能之一
基本上可以让您一步完成修复、平移、缩放等操作
真的真的很强大pic.twitter.com/Wgyi9ElE5N
—尼克·圣皮埃尔 (@nickfloats) 2024 年 8 月 16 日

Midjourney 首席执行官 David Holz最近在 Discord 上表示，新的网页编辑器旨在使编辑人工智能生成的图像变得更容易、更无缝。 “我们认为这使得编辑 MJ 图像比以前更加无缝，这是一个巨大的进步，”他写道。

尽管 Midjourney 继续从 Discord 转向基于 Web 的应用程序，但该公司还宣布，它将在其 Web 之间镜像来自“daily-theme”、“prompt-craft”和“general-1”等流行频道的消息。 rooms 和 Discord 频道，以便人们可以从他们喜欢的任何平台关注这些线程。该公司还推出了一种新的选择工具，其工作原理类似于数字画笔，并且取代了方形选择和套索工具。

新的编辑器可供所有已在平台上生成了 10 张以上图像的 Midjourney 用户使用。创作者社区的初步反应基本上是积极的。

该编辑器是在Midjourney 6.1 发布两周后推出的，它提高了图像质量和连贯性（例如正确的手指数量），并显着缩短了处理时间并提高了图像提示中文本理解的准确性。

Grok-2 释放怪物

Midjourney 更新也是在 Elon Musk 的 xAI 初创公司发布 Grok-2 两天后发布的，这是本周发生的下一件大事。

Grok 的图像生成功能由 Black Forrest Lab 的 Flux.1 模型提供支持，该模型由于其令人印象深刻的图像质量和免费使用而迅速流行起来。

Grok 2.0 及其图像创建功能推出 24 小时了！
我为您准备了这 9 个示例，以便您充分利用它 + 访问 enless 提示库！
（将此添加为书签以供稍后使用） pic.twitter.com/7EDYSogfV2
— TechHalla (@techhalla) 2024 年 8 月 15 日

Grok-2 最大的争议不仅在于其质量（相当不错），还在于其看似未定义的指导方针。与许多其他人工智能图像生成器不同，Grok-2 在知识产权、暴力和其他露骨内容方面的指导方针似乎很少。这并不是人工智能图像生成器第一次出现这种类型的错误，但对于 Grok，感觉是故意的，马斯克称其为“世界上最有趣的人工智能”。

人们已经测试了它的极限，并创造了各种可怕和怪异的图像，让人想起人工智能图像生成的早期阶段。但如果你相信马斯克的言论，Grok-2 缺乏指导方针似乎是有目的的，并且最终可能会影响这项技术未来的发展方式。

谷歌与 Imagen 3 展开竞争

人工智能图像生成向前迈出了一大步 — 由 Google Imagen-3 模型生成的 AI 图像。谷歌

最后，谷歌宣布了新的Imagen 3 AI 模型，该模型于周四向所有美国用户发布。谷歌称其为“最高质量的文本到图像模型”，现在能够产生“比我们以前的模型更好的细节、更丰富的灯光和更少的干扰因素”。谷歌还表示，Imagen-3 更擅长渲染文本，现在有不同的版本，专为手头的任务而构建，例如快速草图之类的轻量级内容或更详细和高分辨率的内容。

目前，Imagen 3 只能通过 Google 的 AI Test Kitchen 获得，作为 ImageFX 的一部分。目前该活动处于封闭测试阶段，这意味着如果您还不是参与者，则必须加入候补名单。