人工智能图像生成向前迈出了一大步

我们已经使用人工智能生成的图像有一段时间了,但本周,一些主要参与者向前迈出了一些重大一步。我特别谈论的是Midjourney 、Google 的新模型和Grok的重大更新。

每家公司都展示了技术以不同的步伐和不同的方向发展。这仍然是一个非常开放的竞争环境,每家公司都展示了所取得的进步。

中途登陆网络

韦斯·安德森的《哈利·波特》中邓布利多教授在泳池边。
在 Midjourney 中生成的 AI 图像。频道/中途

让我们从 Midjourney 开始,该公司于周四晚些时候悄然推出了一款新的网页编辑器,它将许多有用的图像处理工具组装到一个用户界面中。

以前,诸如重新构图、重新绘制(将 AI 生成的资产添加到或修改现有图像)、平移、画布扩展(扩展图像的边界并生成要填充的内容)和缩放等功能都需要使用自己的特定工具,并且位于多个菜单中,需要创作者不断地来回切换。这个新的用户界面提供了更加连贯和简化的编辑过程,与该程序在 Discord 上的启动方式明显不同。

Midjourney 首席执行官 David Holz最近在 Discord 上表示,新的网页编辑器旨在使编辑人工智能生成的图像变得更容易、更无缝。 “我们认为这使得编辑 MJ 图像比以前更加无缝,这是一个巨大的进步,”他写道。

尽管 Midjourney 继续从 Discord 转向基于 Web 的应用程序,但该公司还宣布,它将在其 Web 之间镜像来自“daily-theme”、“prompt-craft”和“general-1”等流行频道的消息。 rooms 和 Discord 频道,以便人们可以从他们喜欢的任何平台关注这些线程。该公司还推出了一种新的选择工具,其工作原理类似于数字画笔,并且取代了方形选择和套索工具。

新的编辑器可供所有已在平台上生成了 10 张以上图像的 Midjourney 用户使用。创作者社区的初步反应基本上是积极的。

该编辑器是在Midjourney 6.1 发布两周后推出的,它提高了图像质量和连贯性(例如正确的手指数量),并显着缩短了处理时间并提高了图像提示中文本理解的准确性。

Grok-2 释放怪物

Midjourney 更新也是在 Elon Musk 的 xAI 初创公司发布 Grok-2 两天后发布的,这是本周发生的下一件大事。

Grok 的图像生成功能由 Black Forrest Lab 的 Flux.1 模型提供支持,该模型由于其令人印象深刻的图像质量和免费使用而迅速流行起来。

Grok-2 最大的争议不仅在于其质量(相当不错),还在于其看似未定义的指导方针。与许多其他人工智能图像生成器不同,Grok-2 在知识产权、暴力和其他露骨内容方面的指导方针似乎很少。这并不是人工智能图像生成器第一次出现这种类型的错误,但对于 Grok,感觉是故意的,马斯克称其为“世界上最有趣的人工智能”。

人们已经测试了它的极限,并创造了各种可怕和怪异的图像,让人想起人工智能图像生成的早期阶段。但如果你相信马斯克的言论,Grok-2 缺乏指导方针似乎是有目的的,并且最终可能会影响这项技术未来的发展方式。

谷歌与 Imagen 3 展开竞争

人工智能图像生成向前迈出了一大步
由 Google Imagen-3 模型生成的 AI 图像。谷歌

最后,谷歌宣布了新的Imagen 3 AI 模型,该模型于周四向所有美国用户发布。谷歌称其为“最高质量的文本到图像模型”,现在能够产生“比我们以前的模型更好的细节、更丰富的灯光和更少的干扰因素”。谷歌还表示,Imagen-3 更擅长渲染文本,现在有不同的版本,专为手头的任务而构建,例如快速草图之类的轻量级内容或更详细和高分辨率的内容。

目前,Imagen 3 只能通过 Google 的 AI Test Kitchen 获得,作为 ImageFX 的一部分。目前该活动处于封闭测试阶段,这意味着如果您还不是参与者,则必须加入候补名单。


Posted

in

by

Tags: