清华与微软团队推出了TRELLIS 2系统。
通过全新的O-Voxel(全体素)表示法,实现了在1分钟内生成具有极高几何精度的1536³分辨率(三维分辨率)、包含复杂物理材质属性的3D资产。
核心突破在于解决长期困扰3D生成领域的拓扑灵活性与存储效率之间的矛盾。
传统方法如SDF(Signed Distance Function,有向距离函数)在处理开放表面、非流形几何或嵌套结构时力不从心,而3D高斯泼溅等点云表示法则缺乏结构化的规律性,难以进行深度学习压缩。
TRELLIS 2引入的O-Voxel采用双格点结构,既保留了像素级的处理便利,又能精准还原锐利的边缘与复杂的内部构造。
结合拥有16倍空间压缩能力的SC-VAE(Sparse Compression VAE,稀疏压缩变分自编码器)以及规模达40亿参数的流匹配模型,该系统在保证资产质量远超现有模型的同时,将潜变量令牌数量压缩至极致。
三维表示法在神经网络时代的进化史
三维世界的数字化建模经历了几十年的演变。从最初的网格建模到后来的体素化表达,再到近年来风靡学术界的内隐函数。每一步都在试图寻找计算机视觉与图形学之间的最优平衡点。
在生成式AI爆发的背景下,如何让神经网络理解并创造出符合物理规律且细节丰富的3D模型成为行业难题。
目前的解决方案主要分为两类。
第一类是非结构化潜变量,通常基于Perceiver(感知器)架构,将3D数据编码为无序的特征向量。这种方式虽然压缩率高,但往往会牺牲重建的保真度,生成的模型在细节处容易模糊。
第二类是基于稀疏先验的结构化潜变量。虽然这种方法能够提供更高的几何准确性,但它对存储空间和计算资源的要求极高。早期的结构化潜变量方法需要大量的令牌来描述一个复杂的3D物体,这直接限制了生成模型的分辨率。
TRELLIS 2提出的O-Voxel,不仅是一种几何表示,更是一个集成了材质、透明度、金属度等全方位信息的存储载体。
其设计的灵感来源于Dual Contouring(双重等值面提取)算法,通过在每个体素单元中定义一个双重顶点,并利用QEF(Quadratic Error Function,二次误差函数)来优化顶点位置。
这种设计巧妙地解决了传统体素表示中锯齿感严重、无法表达锐利边缘的问题。
相比于只能处理封闭水密模型的Iso-surface(等值面)方法,O-Voxel能够稳健地处理自相交表面和完全封闭的内部结构。意味着无论是机械零件的精密内腔,还是植物花瓣的轻薄边缘,都能在同一个框架下得到完美重现。
稀疏压缩架构下的潜空间革命
为了让40亿参数规模的大模型能够高效处理这些高分辨率的3D数据,团队研发了SC-VAE(Sparse Compression VAE,稀疏压缩变分自编码器)。
这是目前3D领域空间压缩率最高的架构之一。
在2D图像处理中,16倍的降采样已经非常普遍,但在离散且稀疏的3D空间中实现这一目标极具挑战。
SC-VAE采用了残差自编码设计,通过非参数化的残差捷径解决了高倍压缩下的优化难题。
在编码过程中,系统将8个子节点的特征聚合到父节点的通道维度中,从而在减少空间占用的一同增加了特征深度。
为了进一步榨干性能,研究人员在解码器中引入了早期剪枝上采样机制。
在上采样步骤开始前,模块会预先预测一个二进制掩码,识别出哪些区域是真正包含物体的活跃节点,从而跳过对空白区域的计算。这种设计不仅大幅降低了内存消耗,还将推理速度提升到了新的层次。
在这种极致压缩下,一个1024分辨率的全贴图资产仅需9.6K个潜变量令牌即可完成编码,且几乎没有视觉感知上的退化。
相比之下,之前的顶级模型在同等质量下需要的令牌数量是其数倍甚至数十倍。这种紧凑性为后续的大规模训练提供了可能。
在残差块的设计上,团队摒弃了传统的卷积堆叠,转而采用一种更高效的混合结构。通过将单个卷积层与点对点的MLP(Multi-Layer Perceptron,多层感知器)结合,增强了模型的非线性表达能力。
这种改进被证明在处理3D数据的稀疏特性时表现更佳,能够捕捉到更细微的纹理变化。
从生成结构到赋予灵魂的材质合成
生成过程被划分为三个阶段,分别是稀疏结构生成、几何生成和材质生成。
结构生成阶段负责预测物体的总体布局,确定哪些体素是活跃的。几何生成阶段则在活跃体素内填充具体的几何细节潜变量。最令人兴奋的是第三阶段:材质生成。
不同于以往只给模型上色的做法,TRELLIS 2直接在3D空间中建模PBR(Physically Based Rendering,基于物理的渲染)参数。
模型会生成包括Base Color(基础颜色)、Metallic(金属度)、Roughness(粗糙度)和Alpha(透明度)在内的六个通道信息。
这种原生的3D材质推理避免了多视角渲染合成时常出现的色彩不一致和接缝问题。
这意味着生成的资产可以直接放入虚幻引擎或Unity中,在不同的光照条件下表现出真实的物理反馈。例如,金属表面的高光会随着光源移动而自然流转,半透明的玻璃杯能正确地折射光线。
在模型训练方面,团队使用了包含80万个高质量资产的数据集,并利用Flow-matching(流量匹配)范式进行训练。相比于传统的扩散模型,流量匹配在处理这种超大规模潜变量空间时表现出更好的收敛性和生成稳定性。
在NVIDIA H100显卡上,生成一个512分辨率的完整模型仅需3秒,1024分辨率需要17秒,而代表行业顶尖水平的1536³分辨率资产也只需一分钟左右。这种效率让实时3D创作从梦想走进了现实。
将本文方法生成的法线图及最终渲染效果与其他主流模型对比,在几何细节和材质表现上顶尖。
数据见证3D生成的代际跨越
实验数据直观地揭示了TRELLIS 2的统治力。
在Toys4K和Sketchfab等权威测试集上,该方法在Mesh Distance(网格距离)和PSNR(峰值信噪比)等关键指标上全面超越了Dora、Trellis 1和SparseFlex等强劲对手。
在用户主观评价实验中,TRELLIS 2生成的模型在提示词匹配度和视觉质量上获得了近70%的偏好率,远高于第二名的Hunyuan3D 2.1。
这证明了模型不仅在数学指标上占优,在审美和实用性上也更符合人类直觉。
此外,研究团队还展示了测试时计算量缩放的潜力。
通过一种级联推理机制,模型可以在推理阶段通过增加计算开销来获得比训练阶段更高的分辨率。例如,从一个生成的1024分辨率O-Voxel结构下采样,再重新应用几何生成阶段,可以修正局部误差并产生更清晰的布局。
这种灵活的缩放能力使得TRELLIS 2能够适应从移动端预览到影视级资产制作等多种场景需求。
TRELLIS 2通过对底层表示法的深层重构,成功将3D生成带入了原生、紧凑且全能的新阶段。O-Voxel与SC-VAE的组合,不仅大幅降低了高精度3D资产的门槛,更为未来的大规模三维世界自动化构建奠定了技术基石。
当3D资产的生成速度和质量逐渐追平2D图像时,互联网的内容形态或许将迎来新一轮重塑。
免费试玩:
https://huggingface.co/spaces/microsoft/TRELLIS.2
参考资料:
https://arxiv.org/pdf/2512.14692
https://github.com/microsoft/TRELLIS.2
https://microsoft.github.io/TRELLIS.2/