清华联合字节刷新 3D 头像技术！FlexAvatar 实现 “少图输入 + 高保真动态” 双重突破

论文标题：FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation

作者团队：清华大学、字节跳动

发布时间：2025年12月19日

论文链接

大模型实验室链接Lab4AI论文阅读

🔍背景

以前做 3D 头像，要么得用专业设备拍几十上百张不同角度的照片，普通人搞不定；要么做出来的头像假，侧面看变形，做表情时没细节；要么动起来卡顿，或者只能做几种固定表情，没法自然还原复杂动作；要么得花几小时甚至几天调教模型，没法快速得到自己的头像。

本研究旨在构建一个无需相机位姿与表情标注、支持单张或稀疏输入的高保真可驱动3D头部虚拟人生成框架。

无需相机姿态和表情标签，仅从单张或稀疏图像中生成高保真、几何一致的可动画 3D 头部头像，同时兼顾实时渲染效率与动态细节真实性，填补现有技术在灵活性、保真度与实时性之间的平衡缺口。

1️⃣灵活的重建模型：提出首个免相机位姿、免表情标签、支持任意数量输入的3D高斯虚拟人框架，基于结构化头部查询令牌（Head Query Tokens）实现特征聚合；

2️⃣动态高斯变形解码：设计以UV位置图为条件的UNet解码器，在UV空间生成表情相关的高斯属性变化，实现实时高保真驱动；

3️⃣数据分布调整策略：通过锚点表情筛选与相似帧检索，平衡训练集表情分布，提升动态细节学习效率；

4️⃣高效微调机制：10秒级的测试时优化可增强身份细节，且不影响实时驱动性能。

您可能感兴趣的其他内容