在遥感图像分析中,目标计数是一项关键任务,广泛应用于交通管理、环境监测和城市规划等领域。然而,不同数据集之间的拍摄高度、地理背景和天气条件差异,往往导致深度模型性能大幅下降。近日,Jiayi Wang等人提出的"跨域计数(CBD)"框架为解决这一难题提供了全新思路,该框架通过多维度对齐策略,实现了从有标签源域到无标签目标域的可靠知识迁移。
论文信息
题目: Counting Beyond Domains: Toward Alignment in Unsupervised Domain Adaptation in Remote Sensing Object Counting
跨域计数:面向遥感目标计数中无监督域对齐的探索
作者:Jiayi Wang, Guanchen Ding, Daiqin Yang, Zhenzhong Chen, Chang Wen Chen
源码:https://github.com/jwang-rs/CBD-pytorch
为何需要跨域对齐?
遥感图像的域差异主要体现在三个方面:
尺度差异:不同空间分辨率导致目标大小悬殊(如同一车辆在高分辨率图像中占200像素,在低分辨率中仅占20像素)
风格差异:光照、天气、传感器类型等造成的外观变化
伪标签噪声:无监督适应中生成的伪标签存在不可避免的误差
传统方法往往只关注单一维度的对齐,而CBD框架创新性地将三者统一考虑,通过三个协同模块实现全面域适应。
CBD框架的核心创新
整体架构设计
CBD框架采用模块化串联设计,三个核心模块依次作用:文本引导的尺度对齐(TGSA)→ 鲁棒语义对齐(RSA)→ 基于AdaIN的风格对齐(ASA)。这种顺序设计确保每个步骤为后续处理奠定基础,避免误差累积。
1. 文本引导的尺度对齐(TGSA)
尺度差异是遥感图像最显著的域偏移之一。TGSA模块通过两步策略解决这一问题:
区域级候选感知(RCP):利用CLIP模型生成文本-图像相似性图,通过Otsu二值化定位目标可能区域,减少复杂背景干扰
目标级尺度估计(OSE):结合OWLv2目标定位模型,经非极大值抑制(NMS)优化边界框,计算目标平均大小并确定缩放因子
通过对齐地面采样距离(GSD),使源域和目标域的目标在物理尺寸上具有可比性,大幅降低后续对齐难度。
2. 鲁棒语义对齐(RSA)
为解决伪标签噪声问题,RSA采用由粗到精的两阶段检索:
粗粒度语义检索(CSR):利用DINOv2提取鲁棒语义特征,通过扩散检索算法(而非简单KNN)找到语义相似的候选图像块,利用数据内在流形结构提升匹配可靠性
细粒度分布检索(FDR):基于结构相似性指数(SSIM)比对伪标签分布,筛选出最匹配的源-目标块对
这种双重过滤机制显著提升了配对质量,有效抑制了伪标签噪声。
3. 基于AdaIN的风格对齐(ASA)
在完成尺度和语义对齐后,ASA模块通过自适应实例归一化技术:
保留源域图像块的内容特征(确保计数准确性)
融合目标域图像块的风格特征(匹配光照、天气等属性)
使生成的密度图既保持内容真实性,又具备目标域的风格一致性,进一步缩小域间差距。
实验验证:全面超越现有方法
研究团队在5个遥感数据集(PUCPR+、CARPK、COWC、RSOC船只、NWPU船只)上进行了大量实验,结果表明:
定量性能领先
在车辆计数任务的四组跨域实验中,CBD框架的平均绝对误差(MAE)和均方根误差(RMSE)均显著低于现有方法。以CARPK→PUCPR+为例,CBD的MAE为15.2,远低于DAOT的28.7和FIDTM的34.9。
在船只计数任务中,CBD同样表现最佳,尤其在RSOC→NWPU设置下,MAE比MPCount降低23.6%。
消融实验验证各模块价值
通过逐一移除模块的对比实验发现:
TGSA模块贡献最大性能提升(MAE降低约30%),证明尺度对齐的重要性
三个模块协同作用时效果最佳,验证了整体框架设计的合理性
定性结果直观展示
可视化结果显示,CBD生成的密度图在复杂场景中仍能准确捕捉目标分布:
在尺度变化显著的CO2CA场景中,准确识别不同大小的车辆
在背景复杂的N2R场景中,有效区分船只与水面干扰
总结与展望
CBD框架通过创新的三阶段对齐策略,首次实现了遥感目标计数中尺度、语义和风格的全面协同对齐,为无监督域适应提供了新范式。其模块化设计不仅保证了各组件的独立优化,也通过合理的顺序安排实现了1+1>2的效果。
当然,该方法仍存在局限性:目前仅支持同类别跨域适应,在极端视角或微小目标场景下性能有待提升。未来研究可探索类别无关的适应策略,以及针对特殊场景的增强机制。
该研究为遥感图像分析提供了重要参考,其多维度对齐思路也可为其他视觉任务的域适应问题提供借鉴。代码已开源,感兴趣的读者可深入研究。