我们已经使用人工智能生成的图像有一段时间了,但本周,一些主要参与者向前迈出了一些重大一步。我特别谈论的是Midjourney 、Google 的新模型和Grok的重大更新。
每家公司都展示了技术以不同的步伐和不同的方向发展。这仍然是一个非常开放的竞争环境,每家公司都展示了所取得的进步。
中途登陆网络
让我们从 Midjourney 开始,该公司于周四晚些时候悄然推出了一款新的网页编辑器,它将许多有用的图像处理工具组装到一个用户界面中。
以前,诸如重新构图、重新绘制(将 AI 生成的资产添加到或修改现有图像)、平移、画布扩展(扩展图像的边界并生成要填充的内容)和缩放等功能都需要使用自己的特定工具,并且位于多个菜单中,需要创作者不断地来回切换。这个新的用户界面提供了更加连贯和简化的编辑过程,与该程序在 Discord 上的启动方式明显不同。
Midjourney 刚刚发布了他们的网页编辑器!
这实际上是他们一段时间以来放弃的最酷的功能之一
基本上可以让您一步完成修复、平移、缩放等操作
真的真的很强大pic.twitter.com/Wgyi9ElE5N
—尼克·圣皮埃尔 (@nickfloats) 2024 年 8 月 16 日
Midjourney 首席执行官 David Holz最近在 Discord 上表示,新的网页编辑器旨在使编辑人工智能生成的图像变得更容易、更无缝。 “我们认为这使得编辑 MJ 图像比以前更加无缝,这是一个巨大的进步,”他写道。
尽管 Midjourney 继续从 Discord 转向基于 Web 的应用程序,但该公司还宣布,它将在其 Web 之间镜像来自“daily-theme”、“prompt-craft”和“general-1”等流行频道的消息。 rooms 和 Discord 频道,以便人们可以从他们喜欢的任何平台关注这些线程。该公司还推出了一种新的选择工具,其工作原理类似于数字画笔,并且取代了方形选择和套索工具。
新的编辑器可供所有已在平台上生成了 10 张以上图像的 Midjourney 用户使用。创作者社区的初步反应基本上是积极的。
该编辑器是在Midjourney 6.1 发布两周后推出的,它提高了图像质量和连贯性(例如正确的手指数量),并显着缩短了处理时间并提高了图像提示中文本理解的准确性。
Grok-2 释放怪物
Midjourney 更新也是在 Elon Musk 的 xAI 初创公司发布 Grok-2 两天后发布的,这是本周发生的下一件大事。
Grok 的图像生成功能由 Black Forrest Lab 的 Flux.1 模型提供支持,该模型由于其令人印象深刻的图像质量和免费使用而迅速流行起来。
Grok 2.0 及其图像创建功能推出 24 小时了!
我为您准备了这 9 个示例,以便您充分利用它 + 访问 enless 提示库!
(将此添加为书签以供稍后使用) pic.twitter.com/7EDYSogfV2
— TechHalla (@techhalla) 2024 年 8 月 15 日
Grok-2 最大的争议不仅在于其质量(相当不错),还在于其看似未定义的指导方针。与许多其他人工智能图像生成器不同,Grok-2 在知识产权、暴力和其他露骨内容方面的指导方针似乎很少。这并不是人工智能图像生成器第一次出现这种类型的错误,但对于 Grok,感觉是故意的,马斯克称其为“世界上最有趣的人工智能”。
人们已经测试了它的极限,并创造了各种可怕和怪异的图像,让人想起人工智能图像生成的早期阶段。但如果你相信马斯克的言论,Grok-2 缺乏指导方针似乎是有目的的,并且最终可能会影响这项技术未来的发展方式。
谷歌与 Imagen 3 展开竞争
最后,谷歌宣布了新的Imagen 3 AI 模型,该模型于周四向所有美国用户发布。谷歌称其为“最高质量的文本到图像模型”,现在能够产生“比我们以前的模型更好的细节、更丰富的灯光和更少的干扰因素”。谷歌还表示,Imagen-3 更擅长渲染文本,现在有不同的版本,专为手头的任务而构建,例如快速草图之类的轻量级内容或更详细和高分辨率的内容。
目前,Imagen 3 只能通过 Google 的 AI Test Kitchen 获得,作为 ImageFX 的一部分。目前该活动处于封闭测试阶段,这意味着如果您还不是参与者,则必须加入候补名单。