彰化县网站建设_网站建设公司_Linux_seo优化-运城市网站建设公司

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

论文：https://arxiv.org/abs/2512.04534

随着扩散模型（Diffusion Models）的快速发展，图像和视频编辑领域取得了显著的进步，但仍有部分任务尚未得到充分研究。本文提出了一项新的任务——对象重纹理（Object Retexture），旨在将参考对象的局部纹理迁移到目标对象的图像或视频上。

一个直接的解决方案是采用以源结构和参考纹理为条件的 ControlNet。然而，这种方法存在两个主要问题：

① 直接使用参考图像进行条件输入会引入不必要的结构信息；

② 该方法无法有效解耦源对象的外观纹理与结构信息，导致可控性受限。

为解决上述问题，团队提出了一种新方法——Refaçade，其包含两个核心设计，用于实现图像与视频中更加精准和可控的纹理迁移。首先，团队训练了一个纹理移除模块，该模块基于配对的有纹理/无纹理的3D网格渲染数据进行训练，能够移除源视频中的外观信息，同时保留其几何与运动特征。其次，团队采用拼图式扰动策略打散参考图像的整体布局，引导模型关注局部纹理统计特征，而非对象的整体结构。

大量实验结果表明，本文提出的方法在视觉质量、编辑精度和可控性方面均显著优于现有基线方法，并在定量结果与用户研究中取得领先表现。

1. 方法

数据集构建需要严格配对的三元组：原视频、参考图和目标视频。其中原视频和目标视频需要拥有相同背景、相同的物体3D结构，但是物体表面材质不同；参考图和目标视频的物体需要拥有相同的材质和主题颜色。最大的困难在于没有这种数据集。

团队认为，由于掩码可以轻松获取，可以利用掩码处理原视频，把背景作为真正的source，而完整原视频作为target，绕开显式目标视频的获取。

（1）拼图法解耦形状信息

使用视频第一帧作为参考图的好处是，材质和目标视频严格相符，但是模型会利用参考图里外形信息学会走捷径，只能做到简单的复制粘贴，并非真正的Retexture。

作者也尝试使用Image to Image模型Flux Kontext生成参考图，但这种方式成功率低，并且合成的参考图通常会和原始物体有明显颜色差异，后续模型会把色差继承，输出结果不理想。

以上实验进一步明确了参考图需要满足两个性质：

① 材质、颜色和视频物体严格相符；

② 参考图外形轮廓和视频物体必须不一样。

作者提出使用拼图法预处理视频第一帧，在掩码前景区域将物体切成小块，把众多小块顺序打乱、随机翻转，重新拼成一个矩形，如下图所示。

这样做的好处是参考图材质自然和视频完全一致，并且人工卷积预处理解耦了形状信息，模型被强迫学会Retexture而非复制粘贴。

（2）结构信息的补充

由于使用背景视频作为source，前景区域的物体3D结构信息被完全抹除，需要添加额外补偿以恢复物体立体结构。实验发现，常规的信号不能很好地胜任：

① Canny/Hed图对边缘、细节保留较好，但是输出结果趋于平面化，丧失立体感；

② Depth虽然保留大致的立体结构，但是对物体细节损失严重，和物体原始结构依旧有较大差距。

③ Gray灰度图，简单地把原始物体从彩色转化为灰度，这样做确实解决了颜色泄露问题，并且没有破坏掉物体3D结构，但是表面纹理没法去除，纹理信息泄露给后续模型。

除此之外，现有常规信号通常是逐帧抽取，在面对视频时通常不具备很好的时间一致性，会发生抖动。

针对上述传统信号的优势和问题，作者结合3D领域内知识，训练了Texture Remover，能够把物体表面材质、颜色剥离，但是能很好地保留物体原始结构细节。训练Texture Remover的数据集构建如下：

准备一张图，利用Hunyuan3D的Image to Mesh功能获取物体3D mesh，接下来将mesh渲染成视频。在每一次渲染过程中，保持相机参数以及物体运动方式不变，依次以有材质、无材质方式渲染出一对视频，这样获取的数据集是严格成对的。Texture Remover基于Wan2.1-VACE，以有材质视频作为输入，无材质白模视频作为输出。

Texture Remover本质上是一个多步去噪扩散模型，为了进一步加快推理、整合到后续Retexture模型训练过程里面，作者抛弃了它的Classifier-free Guidance，并且使用DMD2蒸馏为3步去噪，在尽可能少的能力损失前提下，加快了去材质速度。

2. 训练及模型架构

本方法采用Controlnet架构，以WAN2.1-1.3B作为主干，MMDiT作为支路。使用如下的Flow Matching训练方式。

作者将参考图、无材质白模视频、掩码以及背景作为条件注入支路，支路Transformer Block产生的hidden states加入主路，主路则负责Flow Matching去噪。

训练分为两阶段。第一阶段采用大规模数据集、大batch size进行训练，数据集分为三部分（180万WebVid视频、90万Wan合成视频以及80万Stable Diffusion合成图片），训练时随机缩放、改变帧数，以适应不同分辨率，拥有很好的背景保持能力。第二阶段使用高质量的18万Pexels视频进行微调，训练过程中加入抽帧使模型增强应对快速运动视频的能力。

推理阶段为了和训练保持一致，用户提供的参考图也需要经过拼图法预处理。除此之外可以采用Classifier-free Guidance增强参考图控制能力。作者在huggingface上搭建了在线推理dem供大家参考使用：https://huggingface.co/spaces/Ryan-PR/Refacade。

VACE也支持传入参考图，做法是把参考图在帧维度上贴在背景视频前，从而把参考图当作视频第一帧。本文中作者使用MMDiT架构把参考图和视频Token分离开，各自经过投影以后再联合做注意力计算，这有助于避免参考图背景扩散到后续背景视频Token上，有助于原始背景保持。

3. 实验

作者基于现有图片、视频数据集构建Benchmark，利用QWen-VL标注，每一组测试集包含原图/视频、掩码、文本指令、参考图。团队从多个维度评估结果：

（1）背景贴合度；

（2）前景材质相似度；

（3）视频物体动作流畅度；

（4）大语言模型评测；

（5）用户偏好。

结果表明，本文提出方法优于现有基线，无论图片还是视频，都能得到最自然、最稳定、最一致的结果。

消融实验进一步证明了拼图法处理第一帧的有效性，以及Texture Remover产生的白模信号相对于传统结构信号的优越性。

4. 小结

相较于现有大多数方法使用文本作为条件信息，本文使用图片来控制。正所谓“一图胜千言”，图片控制可以更好地满足用户对颜色、纹理的需求，避免使用文字描述精准的RGB值（这种精准数字是目前绝大多数模型难以理解的）。另外，拼图法和Texture Remover设计，使得此任务不再需要严格配对的三元组数据集，构建数据集时只需要原视频就可以设法变换出另外两元，数据集规模可以很轻松地扩大。

本文系学术转载，如有侵权，请联系CVer小助手删文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ICCV 2025 论文和代码下载
在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群 CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！ ▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号 整理不易，请点赞和在看

彰化县网站建设_网站建设公司_Linux_seo优化

热门文章

文章分类

标签云

需要专业的网站建设服务？

彰化县网站建设_网站建设公司_Linux_seo优化

热门文章

文章分类

标签云

相关文章

本地运行LangChain Agent用于开发调试

Inventor 二次开发从入门到精通（10）

情感语音合成新突破：EmotiVoice实现喜怒哀乐全表达

需要专业的网站建设服务？