LATTE3D – 英伟达推出的文本快速生成3D对象的模型-六六导航站

LATTE3D – 英伟达推出的文本快速生成3D对象的模型

2025-05-08 11:15:54 小编：六六导航站

LATTE3D是什么

LATTE3D是由英伟达的多伦多AI实验室的研究人员推出的一个文本生成3D对象的模型，能够从文本提示描述快速生成高质量的3D内容（仅需400毫秒）。该技术的核心在于采用了一种称为“摊销优化（amortized）”的方法，即在大量文本提示上同时优化一个共享的文本条件模型，以此提高模型对新提示的泛化能力，从而减少了生成每个3D对象所需的时间。

LATTE3D的官网入口

官方项目主页：https://research.nvidia.com/labs/toronto-ai/LATTE3D/研究论文：https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view

LATTE3D的主要功能

文本到3D合成：能够根据文本描述生成相应的三维模型。用户可以通过输入文本提示，如“一只穿着礼帽的阿米巴绒绒玩偶螃蟹”，来生成具有特定特征和风格的3D对象。快速生成： LATTE3D可以在大约400毫秒内生成3D对象，这使得它能够实时地响应用户的输入，为用户提供即时的视觉反馈。高质量渲染：通过结合神经场和纹理表面生成，LATTE3D能够产生具有高细节水平的纹理网格，提供视觉上令人信服的3D渲染结果。3D风格化： LATTE3D还可以作为3D风格化工具，允许用户在现有的3D资产上应用新的风格或主题，从而创造出多样化的视觉表现。

LATTE3D的架构方法

LATTE3D 的训练包含两个阶段：首先，使用体积渲染来训练纹理和几何形状。为了增强提示的稳健性，训练目标包括来自 3D 感知图像先验的 SDS 梯度以及将预测形状的掩模与库中的 3D 资产进行比较的正则化损失。然后，使用基于表面的渲染并仅训练纹理以提高质量。两个阶段都对一组提示使用摊销优化来保持快速生成。