Meta 的新 AI 模型可以在一分钟内将文本转换为 3D 图像

Meta 对人工智能图像生成的最新尝试是快速的。该公司周二推出了新的“3D Gen”模型，这是一种“最先进的快速管道”，用于将输入文本转换为高保真 3D 图像，并在一分钟内输出。

此外，据报道，该系统能够使用文本提示将新的纹理和皮肤应用于生成的图像和艺术家制作的图像。

根据 Meta Gen AI 研究团队最近的一项研究，3D Gen 不仅提供高分辨率纹理和材质贴图，还支持基于物理的渲染 (PBR) 和生成重新纹理功能。

📣 GenAI 在 Meta 上的新研究，介绍了 Meta 3D Gen：一种可在 1 分钟内从文本端到端生成 3D 资产的新系统。
Meta 3D Gen 是一种新的组合人工智能系统，可以生成高质量的 3D 资产，具有端到端的高分辨率纹理和材质贴图，… pic.twitter.com/rDD5GzNinY
— Meta 上的人工智能 (@AIatMeta) 2024 年 7 月 2 日

该团队估计使用 Meta 的 3D AssetGen 模型创建初始 3D 模型的平均推理时间仅为 30 秒。然后，用户可以返回并使用 Meta 3D TextureGen 通过文本提示来细化现有模型纹理或将其替换为新的纹理，该公司认为这一过程最多需要不超过 20 秒的额外推理时间。

“通过结合他们的优势，”该团队在其研究摘要中写道，“3DGen 以三种方式同时表示 3D 对象：在视图空间、体积空间和 UV（或纹理）空间。” Meta 团队根据多个行业基准设置 3D Gen 模型，并根据文本提示保真度、视觉质量、纹理细节和伪影等各种因素进行比较。通过结合这两个模型的功能，注释者在 68% 的时间里比单阶段过程生成的图像更容易被注释者挑选。

诚然，本文讨论的系统仍在开发中，尚未准备好供公众使用，但本研究所阐述的技术进步可能会在从游戏和电影效果到 VR 应用等许多创意学科中带来变革。

让用户不仅能够快速直观地创建而且编辑 3D 生成的内容，可以大大降低此类追求的进入门槛。例如，不难想象这可能对游戏开发产生的影响。