点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【顶会/顶刊】投稿交流群
添加微信号:CVer2233,小助手拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!
论文:https://arxiv.org/abs/2512.04534
随着扩散模型(Diffusion Models)的快速发展,图像和视频编辑领域取得了显著的进步,但仍有部分任务尚未得到充分研究。本文提出了一项新的任务——对象重纹理(Object Retexture),旨在将参考对象的局部纹理迁移到目标对象的图像或视频上。
一个直接的解决方案是采用以源结构和参考纹理为条件的 ControlNet。然而,这种方法存在两个主要问题:
① 直接使用参考图像进行条件输入会引入不必要的结构信息;
② 该方法无法有效解耦源对象的外观纹理与结构信息,导致可控性受限。
为解决上述问题,团队提出了一种新方法——Refaçade,其包含两个核心设计,用于实现图像与视频中更加精准和可控的纹理迁移。首先,团队训练了一个纹理移除模块,该模块基于配对的有纹理/无纹理的3D网格渲染数据进行训练,能够移除源视频中的外观信息,同时保留其几何与运动特征。其次,团队采用拼图式扰动策略打散参考图像的整体布局,引导模型关注局部纹理统计特征,而非对象的整体结构。
大量实验结果表明,本文提出的方法在视觉质量、编辑精度和可控性方面均显著优于现有基线方法,并在定量结果与用户研究中取得领先表现。
1. 方法
数据集构建需要严格配对的三元组:原视频、参考图和目标视频。其中原视频和目标视频需要拥有相同背景、相同的物体3D结构,但是物体表面材质不同;参考图和目标视频的物体需要拥有相同的材质和主题颜色。最大的困难在于没有这种数据集。
团队认为,由于掩码可以轻松获取,可以利用掩码处理原视频,把背景作为真正的source,而完整原视频作为target,绕开显式目标视频的获取。
(1)拼图法解耦形状信息
使用视频第一帧作为参考图的好处是,材质和目标视频严格相符,但是模型会利用参考图里外形信息学会走捷径,只能做到简单的复制粘贴,并非真正的Retexture。
作者也尝试使用Image to Image模型Flux Kontext生成参考图,但这种方式成功率低,并且合成的参考图通常会和原始物体有明显颜色差异,后续模型会把色差继承,输出结果不理想。
以上实验进一步明确了参考图需要满足两个性质:
① 材质、颜色和视频物体严格相符;
② 参考图外形轮廓和视频物体必须不一样。
作者提出使用拼图法预处理视频第一帧,在掩码前景区域将物体切成小块,把众多小块顺序打乱、随机翻转,重新拼成一个矩形,如下图所示。
这样做的好处是参考图材质自然和视频完全一致,并且人工卷积预处理解耦了形状信息,模型被强迫学会Retexture而非复制粘贴。
(2)结构信息的补充
由于使用背景视频作为source,前景区域的物体3D结构信息被完全抹除,需要添加额外补偿以恢复物体立体结构。实验发现,常规的信号不能很好地胜任:
① Canny/Hed图对边缘、细节保留较好,但是输出结果趋于平面化,丧失立体感;
② Depth虽然保留大致的立体结构,但是对物体细节损失严重,和物体原始结构依旧有较大差距。
③ Gray灰度图,简单地把原始物体从彩色转化为灰度,这样做确实解决了颜色泄露问题,并且没有破坏掉物体3D结构,但是表面纹理没法去除,纹理信息泄露给后续模型。
除此之外,现有常规信号通常是逐帧抽取,在面对视频时通常不具备很好的时间一致性,会发生抖动。
针对上述传统信号的优势和问题,作者结合3D领域内知识,训练了Texture Remover,能够把物体表面材质、颜色剥离,但是能很好地保留物体原始结构细节。训练Texture Remover的数据集构建如下:
准备一张图,利用Hunyuan3D的Image to Mesh功能获取物体3D mesh,接下来将mesh渲染成视频。在每一次渲染过程中,保持相机参数以及物体运动方式不变,依次以有材质、无材质方式渲染出一对视频,这样获取的数据集是严格成对的。Texture Remover基于Wan2.1-VACE,以有材质视频作为输入,无材质白模视频作为输出。
Texture Remover本质上是一个多步去噪扩散模型,为了进一步加快推理、整合到后续Retexture模型训练过程里面,作者抛弃了它的Classifier-free Guidance,并且使用DMD2蒸馏为3步去噪,在尽可能少的能力损失前提下,加快了去材质速度。
2. 训练及模型架构
本方法采用Controlnet架构,以WAN2.1-1.3B作为主干,MMDiT作为支路。使用如下的Flow Matching训练方式。
作者将参考图、无材质白模视频、掩码以及背景作为条件注入支路,支路Transformer Block产生的hidden states加入主路,主路则负责Flow Matching去噪。
训练分为两阶段。第一阶段采用大规模数据集、大batch size进行训练,数据集分为三部分(180万WebVid视频、90万Wan合成视频以及80万Stable Diffusion合成图片),训练时随机缩放、改变帧数,以适应不同分辨率,拥有很好的背景保持能力。第二阶段使用高质量的18万Pexels视频进行微调,训练过程中加入抽帧使模型增强应对快速运动视频的能力。
推理阶段为了和训练保持一致,用户提供的参考图也需要经过拼图法预处理。除此之外可以采用Classifier-free Guidance增强参考图控制能力。作者在huggingface上搭建了在线推理dem供大家参考使用:https://huggingface.co/spaces/Ryan-PR/Refacade。
VACE也支持传入参考图,做法是把参考图在帧维度上贴在背景视频前,从而把参考图当作视频第一帧。本文中作者使用MMDiT架构把参考图和视频Token分离开,各自经过投影以后再联合做注意力计算,这有助于避免参考图背景扩散到后续背景视频Token上,有助于原始背景保持。
3. 实验
作者基于现有图片、视频数据集构建Benchmark,利用QWen-VL标注,每一组测试集包含原图/视频、掩码、文本指令、参考图。团队从多个维度评估结果:
(1)背景贴合度;
(2)前景材质相似度;
(3)视频物体动作流畅度;
(4)大语言模型评测;
(5)用户偏好。
结果表明,本文提出方法优于现有基线,无论图片还是视频,都能得到最自然、最稳定、最一致的结果。
消融实验进一步证明了拼图法处理第一帧的有效性,以及Texture Remover产生的白模信号相对于传统结构信号的优越性。
4. 小结
相较于现有大多数方法使用文本作为条件信息,本文使用图片来控制。正所谓“一图胜千言”,图片控制可以更好地满足用户对颜色、纹理的需求,避免使用文字描述精准的RGB值(这种精准数字是目前绝大多数模型难以理解的)。另外,拼图法和Texture Remover设计,使得此任务不再需要严格配对的三元组数据集,构建数据集时只需要原视频就可以设法变换出另外两元,数据集规模可以很轻松地扩大。
本文系学术转载,如有侵权,请联系CVer小助手删文
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ICCV 2025 论文和代码下载
在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群 CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作! ▲扫码加入星球学习▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看