Meshy胡渊鸣：AI生成3D模型发展到哪了？

AI应用信息1年前 (2024)发布 XIAOT

01 Meshy-2 Text to 3D

更好的几何、贴图、风格控制

Meshy-2 最主要的更新在于 Text to 3D，也就是从提示词直接生成 3D 模型。Meshy-2 的 Text to 3D 功能带来了在造型设计感、模型细节、贴图质量和风格方面控制的显著改进。相比 Meshy-1，Meshy-2 的模型比例更加自然、模型结构更精准，细节更丰富、清晰。

提示词：prehistoric winter boots with wool, realistic, 4K, high quality

提示词：royal armor set, gold, iron, highly detailed, medieval, knight armor, leather

Meshy-2 在文本到 3D 中提供了四种风格的选择：写实、卡通、低多边形和体素。我们希望这些选项能满足用户广泛的艺术风格偏好，并激发新的创意方向。

从左至右的风格分别是：低多边形、写实、体素、卡通

效率至关重要，我们设法在不影响质量的情况下提高了速度。Meshy-2 现在仅需 20 多秒就可获得预览，从输入提示词到细化结果，在 5 分钟内可端到端完成。（*运行时间为服务器低负载时测量，高峰期可能会有排队、减速。）

我们在 Meshy-2 中引入了一个方便的网格转换系统，可以让用户一键实现减面、转四边面等常见操作。这可以一定程度上解决网格面数、AI 生成的模型拓扑不好（布线乱）的问题。

关于我们的用户比较期待的自动展 UV 方面的优化，这次没有更新。坦率地说，考虑到目前 AI 还不能按部件清晰地生成各种模块，更好的 UV 暂时在 AI 生成 3D 的管线中的价值还不太大。但是我们已经开始思考这个问题。

Meshy-2 重点更新的内容就是上面这些了，主要是 Text to 3D。另外，不少用户已经融入到工作流程中的 Meshy Text to Texture 功能，我们也有小更新：速度更快、并且贴图细节丰富程度在同样的分辨率下更加清楚了。

Image to 3D 不是我们最近开发的重点，但是也有个小更新，优化了一些几何造型能力。

随着我们将重点从 Discord 转移到 Web App，Discord 社区将不再提供生成服务，转变为一个分享想法和经验的平台。这让我们能够更好地将有限的研发资源聚焦到 Web App 上，提供更完善的功能。欢迎加入我们的 Discord 和 WebApp 社区展示，探索和分享 AI 生成的 3D 艺术。

Meshy Web App 社区作品展示

Meshy-2 功能更新汇总

*Meshy-2 支持中文提示词和中文界面。如果你的系统语言是中文，Meshy-2 会自动显示中文页面。你也可以在左下角的 Settings -> Preference -> Language 中选择 “简体中文”。在提示词框中输入中文提示词会自动翻译。

02 Meshy-2 有哪些不足？

在质量方面，Meshy-2 的 Text to 3D 是领先的：整体模型精度高、贴图细节和质量丰富、支持多种风格的模型生成、内容理解能力强。速度方面我们也很有优势：从发送提示词开始，我们的用户可以在 4~5 分钟内获得最终的模型，大大加速了创作过程。

我想，Meshy-2 已经走在 3D AI 行业最前列了，但是整个 3D AI 行业还是有很多问题没有解决，比如：

可控性依然不足。可控性不足一方面来自于 AI 对于 prompt 的理解不到位，另一方面来自于用户不知道咋写提示词。
部分模型写实感不足。
贴图需要去光。如果要得到引擎内动态光影下可用的模型，需要对贴图进行进一步的处理。
贴图正确性。我们对于 Meshy-2 的贴图细节丰富程度很有信心，但 AI 的自由发挥也导致了一些地方会出错。
硬表面模型的棱角不够锐利。
拓扑、UV 与人类作品质量有较大差距。
……

Meshy 团队任重道远。但是无论如何。Meshy-2 的 Text to 3D 把 AI 生成 3D 这个事情又往前推进了一步，我们还是为这次更新取得的进展感到开心的。

03 Meshy-2 有什么用？

首先要明确，目前 AI 生成的 3D 资产质量，即使是最新的 Meshy-2，距离人类艺术家的最高标准，还有相当远的距离，所有尝试用 AI 解决 3D 资产生成的科研工作者和产品经理都应该对这个事情保持敬畏。我们希望能够客观、谨慎地看待这项技术。

示意图：真正高质量的 3D 模型应该是什么样的。（这是全文唯一一个不是 Meshy-2 生成的 3D 模型。）

AI 生成 3D 很难，这是众所周知的，但是我们还是会不懈地朝这个方向努力。我想至少两点观察可以带给我们信心：

一是总是能找到细分场景。3D 资产在各种使用场景下的质量要求，从最低到最高，本身是一个丰富的频谱。即使现在没法生成最高质量的模型，也总能找到要求不那么高的细分场景作为切入点，先把产品小范围落地，然后逐渐跨越质量和可控性的鸿沟。
二是技术发展很快。我自己作为在图形行业摸爬滚打了十余年的研究人员，不得不承认 AI 生成 3D 相关的进展在过去一年间进展的速度是突飞猛进的，在图形学领域很少能看到一个问题被如此集中地讨论。即使我觉得 Meshy-2 只解决了 “3D 版 Midjourney v6” 质量水准的 20% 的问题，我想剩下的 80% 会很快被解决。

我想上面的讨论基本比较客观地介绍了 Meshy-2 的已经做到的和没有做到事情。基于这些讨论，我想展开聊一聊 Meshy-2 目前的市场定位和使用场景。目前的几类专业使用场景如下。

第一类：直接使用

工作流程为 “想好提示词，生成，下载，直接导入到 Unity/ UE/ Blender/ Maya/ Max 等等引擎或者 DCC 使用”。比如说影视行业，在一些要求不是很高的影片中，Meshy-2 生成的模型作为中远景、次要资产，有的时候不需要修改就可以直接使用了。在角色方面，群众、远景角色，只要相机不太近，Meshy-2 生成的角色也是可以发挥用处的。这类资产质量要求不高，但是数量需求很多。

游戏行业里，虽然 AAA 级别的游戏肯定是达不到标准的，但是游戏关卡的白盒搭建，AI 生成的资产还是有价值的。用 Meshy 生成的资产代替白盒，可以让制作人更好地判断关卡是否吸引人。当然，如果你是独立 3D 游戏开发者，也可以很好地利用 Meshy 的 3D 模型生成填充你的游戏世界。

提示词：a full boy lion, highly detailed, high resolution, highest quality, best quality, 4K, 8K, HDR, studio quality beautiful, elegant, realistic, ultra realistic

第二类：辅助生产

虽然不直接使用，但是基于 AI 生成的模型，到 ZB、Maya、Blender、SP 等工具进行少量修改、加工，然后使用。相比于 2D 的概念设计（原画）参考，3D 的参考有更大的价值。目前 Meshy-2 Text to 3D 生成的模型，从人体的结构和造型看起来，相对还是很准确的。这也意味着建模师可以用我们生成的模型作为依据：要么导进 ZBrush 再雕，或者放到 Maya 里面对着 AI 出的模型拉 polygon，省时省力。Meshy-2 出色的贴图能力，能够大幅减低美术人员绘制贴图的成本。在手工的贴图绘制过程中，比如说基于 Substance Painter、Body painter 等工具的流程，需要美术人员自己理解 2D 参考图和 3D 贴图之间的区别（如光影等），这是一个费心费力的创作过程，绝非易事。

比如说下面这个卡通风格的模型，稍微修一下可能就在一些场合生产可用了。至于 UV，除非要极致节约 UV 资源，不然现在 AI 自动搞出来的 UV 也是可用的。

提示词：a high detailed t-posed dwarf character from world of warcraft, hand painted texture

实际上，在过去一年，AI 生成的 3D 模型，是用户根本不愿意去修的，因为修的工作量太大，还不如重做。但是我个人感觉 Meshy-2 跨过了这个坎，至少有人愿意修一修了。