【2026】SARES-DEIM:稀疏混合专家与DETR结合的鲁棒SAR舰船检测

张开发
2026/4/20 5:24:45 15 分钟阅读

分享文章

【2026】SARES-DEIM:稀疏混合专家与DETR结合的鲁棒SAR舰船检测
SARES-DEIM稀疏混合专家与DETR结合的鲁棒SAR舰船检测论文基本信息英文标题SARES-DEIM: Sparse Mixture-of-Experts Meets DETR for Robust SAR Ship Detection中文标题SARES-DEIM稀疏混合专家与DETR结合的鲁棒SAR舰船检测论文链接https://arxiv.org/abs/2604.04127发表信息发表于IEEE Journal of Selected Topics in Applied Earth Observations and Remote SensingJSTARS10页4图作者信息Fenghao Song, Shaojing Yang, Xi Zhou云南师范大学摘要分析该论文针对合成孔径雷达SAR图像中的舰船检测问题提出了创新的解决方案。SAR图像检测面临三大核心挑战固有的相干散斑噪声、复杂的沿海杂波干扰以及大量小尺度目标的存在。传统检测器主要针对光学图像设计在面对SAR特有的图像退化时表现出较差的鲁棒性同时在空间下采样过程中容易丢失细粒度的舰船特征。针对上述问题论文提出了SARES-DEIM框架这是一个基于DEtection TRansformerDETR范式的领域感知检测框架。其核心创新包括两个关键技术模块SARESMoE模块SAR-aware Expert Selection Mixture-of-Experts利用稀疏门控机制将特征选择性路由到专业的频域和小波域专家实现了对散斑噪声和语义杂波的有效过滤同时保持了较高的计算效率。SDEP颈部结构Space-to-Depth Enhancement Pyramid通过Space-to-Depth卷积将浅层高分辨率空间信息无损注入检测金字塔显著提升了小目标的定位精度。在HRSID数据集上的实验结果表明该方法达到了mAP50:95为76.4%、mAP50为93.8%的优异性能超越了现有的YOLO系列和专用SAR检测器。研究现状YOLO系列与DETR风格检测器在SAR检测中的比较当前SAR舰船检测主要遵循两种技术范式YOLO系列检测器作为一阶段检测器的代表已被广泛应用于海上监视领域。这类方法通常依赖于预定义锚框和非极大值抑制NMS等密集先验来解析多个检测结果。虽然在某些场景下表现有效但这种人工程设计组件在面对异构SAR传感器时往往泛化能力有限在密集舰船聚集、散射信号重叠的复杂场景中可能导致严重的漏检问题。DETR系列检测器通过将检测任务形式化为二分图匹配问题消除了对锚框和NMS的依赖提供了端到端的简化框架。DEIM和D-FINE等框架进一步发展了密集一对一匹配机制和基于分布的定位细化为高精度目标检测建立了强有力的基线。然而这些通用的DETR变体主要针对光学图像设计对SAR目标的独特物理散射特性缺乏专门考虑。特征融合与条件计算有效的多尺度表示和自适应建模对于处理舰船的尺度变化和SAR背景的高度非均匀性至关重要。传统的特征金字塔结构如FPN虽然能有效聚合多尺度语义但往往因激进的步长下采样而遭受结构信息损失。自适应条件计算在图像编辑、布局一致性生成和细粒度服装合成等广泛视觉任务中展现了强大的有效性。混合专家MoE范式通过稀疏自适应路由为扩展模型容量提供了天然机制。然而传统MoE门控通常仅依赖空间特征可能忽略SAR目标独特的频域散射特性导致在复杂海上场景中产生次优的专家选择。创新点分析1. 领域感知的专家选择机制Domain-Aware Expert Selection论文指出SAR检测的主要挑战在于异构海上场景中不同的表示需求。离岸目标需要鲁棒的频域滤波来抑制散斑而近岸目标则需要高分辨率的空间辨识能力来区分船体与视觉上相似的港口基础设施。基于这一洞察论文采用分治策略通过MoE哲学实现特征的自适应分解。SARESMoE模块通过引入专门的频域、空间域和小波域专家配合稀疏路由机制使模型能够根据局部散射上下文自适应地分解特征。这种稀疏激活不仅最小化了冗余计算还通过领域特定的特征细化实现了对散斑噪声和语义杂波的同步抑制。2. 物理可解释的专家设计Physically-Explainable Expert Design论文设计了正交的专家架构通过尺度感知分配策略进行分配P3层小波与空间专家浅层包含对散斑高度敏感的小型舰船。采用WTConv作为小波专家执行可学习的软阈值去噪同时利用GhostNet模块作为空间专家来保留细粒度结构细节。P4/P5层频域与混合专家深层需要全局频域滤波来处理复杂海杂波。采用FADC的频域选择机制构建频域专家执行多尺度频域选择滤波来自适应抑制频谱杂波。混合专家则结合并行的频域和小波域分支来处理复杂多尺度散射场景。3. Space-to-Depth增强金字塔颈部SDEP Neck论文发现标准骨干网络的激进下采样通常会丢弃对小型舰船定位至关重要的细粒度线索。SDEP颈部通过Space-to-Depth卷积将高分辨率P2层1/4尺度的信息无损注入检测金字塔建立了一种理论上无损的细节传输机制确保了小目标结构完整性的保留。4. 双分支融合路由机制Dual-Branch Fusion Routing论文提出的SAR感知路由器采用双分支设计同时整合频域和空域分析。这种协同设计通过紧密整合频谱能量分布和空间对比度的同时提取显著抑制了误报在异构海上场景中实现了精确的专家分配。数据集分析HRSID数据集HRSID是高分辨率SAR舰船检测数据集包含5,604个图像切片和16,951个舰船实例。这些图像切片从Sentinel-1和TerraSAR-X全景图像中裁剪得到空间分辨率从1米到5米不等涵盖了离岸和近岸等多种场景为多尺度评估提供了丰富的测试条件。SAR-Ship-Dataset该数据集包含43,819个舰船切片从102幅高分三号Gaofen-3和108幅Sentinel-1图像中提取。分辨率跨度从3米到25米并包含多种极化模式使其成为评估跨传感器自适应表示能力的理想测试平台。两个数据集的对比分析特性HRSIDSAR-Ship-Dataset图像切片数量5,60443,819舰船实例数量16,951-数据来源Sentinel-1, TerraSAR-XGaofen-3, Sentinel-1分辨率范围1-5米3-25米极化模式多种多种场景类型近岸、离岸多传感器综合两个数据集各有侧重HRSID更适合评估高分辨率精细检测能力而SAR-Ship-Dataset更适合评估跨传感器泛化性能。SARES-DEIM在两个数据集上都展现了优异的性能表明其具有较强的领域适应能力。算法结构分析整体架构SARES-DEIM采用端到端集合预测范式。首先骨干网络提取多尺度特征图{F2, F3, F4, F5}其中Fℓ表示金字塔层级ℓ的特征空间步长为sℓ2^ℓ。为适应SAR图像独特的散射特性SARESMoE模块被集成到骨干网络的深层。该模块通过显著扩展模型处理非均匀背景的容量实现样本自适应的表示学习。随后SDEP颈部聚合这些多尺度特征特别地SDEP将高分辨率细粒度线索从F2显式注入检测金字塔以提升小型舰船的定位精度生成统一通道维度d的精炼特征集{P3, P4, P5}。最后DETR风格解码器处理N个目标查询针对这些金字塔特征产生预测集。SARESMoE模块详解SARESMoE包含一个共享专家用于维持一致的语义表示和一组由SAR感知路由器管理的稀疏专家。路由器机制路由器通过全局平均池化生成全局上下文描述符并将其投影到概率单纯形上。路由logits和概率的计算采用温度参数控制的Softmax函数并使用Top-k门控策略配合重新归一化。输出公式最终输出结合了共享路径和稀疏路径其中共享专家整合了受频域-空域注意力FSA启发的通道注意力机制用于抑制常见背景噪声。SDEP颈部详解SDEP的核心是Space-to-DepthSPD操作该操作将空间像素无损重排到通道维度。对于高分辨率骨干特征F2SPD变换将其reshape为4C2×(H2/2)×(W2/2)的张量其中每个2×2空间邻域被堆叠到通道轴上。该操作将空间分辨率减半以匹配P3步长同时在扩展的通道维度中严格保留所有空间信息避免了通常会破坏细粒度散射特征的损耗池化或步长卷积。变换后应用1×1卷积将扩展通道投影回目标维度d并与P3特征融合。丰富的P3随后参与标准双向融合路径产生最终金字塔{P3, P4, P5}。实验结果分析HRSID数据集上的性能对比SARES-DEIM在HRSID上建立了新的最优性能在所有评估指标上均排名第一。具体性能指标如下mAP50:95:76.4%mAP50:93.8%精确率:93.1%召回率:88.0%与各类检测器对比相比SAR专用方法SAR-D-FINEmAP50:95提升4.4%76.4% vs 72.0%相比CSCF-NetmAP50提升2.3%93.8% vs 91.5%相比DETR风格基线DEIMmAP50:95提升3.4%在所有YOLO系列检测器中也保持领先SAR-Ship-Dataset上的性能对比在高度多样化的SAR-Ship-Dataset上SARES-DEIM展现了出色的跨多传感器场景鲁棒性mAP50:95:71.7%mAP50:98.1%精确率:96.7%召回率:96.2%相比YOLOv8和YOLOv11mAP50:95分别提升5.5%和5.4%。与最强DETR风格基线DEIM相比mAP50:95提升0.4%表明SARESMoE和SDEP的改进可泛化到多传感器场景。消融实验分析模块级消融SDEP的有效性单独集成SDEP使mAP50:95提升1.9%74.9% vs 73.0%召回率提升2.9%APsmall提升2.7%证实了P2层高分辨率信息对小型舰船定位的关键作用。SARESMoE的分层放置在P3引入SARESMoE带来1.7%的mAP50:95提升74.7% vs 73.0%。仅在P3P4而不包含P5会导致性能略微下降只有当深层P5频域专家存在时mAP50:95才能达到75.3%。SDEP与SARESMoE的协同完整SARES-DEIM模型达到最优mAP50:9576.4%和最高APsmall77.0%证实了两个模块的互补关系。路由机制分析朴素路由的影响均匀门控无路由器仅获得75.0%的mAP50:95。标准MLP路由器虽将mAP50:95提升至75.2%但精确率严重下降至86.6%。单分支vs双分支仅使用频域分支或仅使用空间分支分别获得75.3%和75.7%的mAP50:95但精确率都约为87%。双分支融合的优势双分支融合实现93.1%的精确率和76.4%的mAP50:95证实了频域和空域分析的同步提取对于异构海上场景精确专家分配至关重要。SDEP融合策略分析有损下采样的影响使用标准步长下采样或条纹卷积时虽然召回率略微提升但精确率严重下降至86.3%和86.8%mAP50:95降至基线以下。SDEP的优越性Space-to-Depth变换完全恢复并超越了精确率达到93.1%的峰值同时获得最高的mAP50:9576.4%和召回率88.0%。专家组成分析均匀共享专家配置所有稀疏专家全局替换为共享专家时性能为74.5%虽优于基线但仍比完整SARESMoE低0.8%证实了专门异构专家的必要性。P3层专家专化仅使用空间专家导致mAP50:95下降1.5%而仅使用小波专家虽召回率更高但整体性能仍不及完整配置。P4/P5层专家专化P4层混合专家略优于频域专家P4: 74.2% vs 73.9%而P5层频域专家优于混合专家74.6% vs 73.8%表明深层全局频域滤波更为关键。可视化分析图1SARES-DEIM整体架构图1展示了SARES-DEIM的完整架构。架构的核心聚焦于领域特定的特征增强和高分辨率空间线索保留。从图中可以清晰看到SARESMoE模块如何集成到骨干网络的深层阶段以及SDEP颈部如何将P2层的高分辨率信息注入到检测金字塔中。架构流程概括如下SAR图像输入骨干网络提取多尺度特征{F2, F3, F4, F5}SARESMoE模块对深层特征进行领域感知的专家选择处理SDEP颈部通过Space-to-Depth变换将F2的细粒度信息注入P3精炼的特征金字塔{P3, P4, P5}送入DETR解码器最终输出舰船检测结果图2检测结果定性对比图2展示了在HRSID数据集上的定性检测对比采用3×6网格布局。行从上到下分别代表真值GT、DEIM基线和SARES-DEIM六列展示了不同复杂度的海上样本。观察到的关键现象标准海上场景在大多数孤立目标和高密度目标场景中基线和SARES-DEIM都展现出高召回率成功捕获所有目标而未出现明显误检或漏检。然而在定位精度上存在显著差异。得益于SDEP颈部保留高分辨率空间线索的能力SARES-DEIM产生的边界框与目标船体具有更紧密的贴合度。挑战性场景在最具挑战性的近岸强散射和多舰重叠场景中两个框架都遇到一定检测困难。SARES-DEIM虽在环境复杂性增加时出现个别目标漏检和误检但展现出明显更强的鲁棒性。基线预测表现为频繁的由沿海基础设施触发的冗余误报而SARES-DEIM有效抑制了这些杂波诱导误差。边界框质量SARES-DEIM的边界框与目标边界展现出更优的对齐度黄色椭圆标注的漏检和红色椭圆标注的误检明显减少。图3专家级激活分析图3展示了在HRSID上各专家配置的类激活映射CAM可视化。九种配置包括均匀共享专家、P3/P4/P5各层专门专家、均匀门控基线和完整SARESMoE。关键观察均匀共享专家提供广泛、中等强度的激活作为稳定的语义基础。然而在近岸区域响应不足在沿海结构上保留残余激活证实其作为基线语义提取器而非精确SAR感知滤波器的定位。P3层专家专化空间专家描绘目标边界但遭受散射高频噪声小波专家产生更清洁的热图有效抑制散斑P4层专家专化频域专家提供有效的中层频谱滤波混合专家保留更多结构细节P5层专家专化频域专家通过抽象全局频谱正则化展现最强的背景抑制能力优于更分散的混合专家。均匀门控vs完整SARESMoE均匀门控导致目标强度减弱和显著背景语义泄漏而完整SARESMoE产生集中在舰船目标上、高强度、彻底抑制背景噪声的激活。图4模块级消融可视化图4展示了对应关键配置的模块级消融可视化每列展示检测边界框顶部和对应CAM热图底部。四行配置对比基线Row a热图激活分散到周围海面和沿海背景边界框相对宽松未能紧密包裹舰船语义泄漏限制了mAP50:95性能。基线SARESMoERow b杂波诱导的误报显著减少热图显示更清洁的深蓝色海面。得益于纯化的特征表示检测框展现出改进的目标边界对齐。基线SDEPRow c目标相关激活变得更集中和结构化高分辨率空间细节被更精细地传递到解码器。边界框明显收紧虽然缺少专家过滤导致一些背景噪声但舰船目标定位明显细化。完整SARES-DEIMRow dCAM热图实现最大目标聚焦背景区域几乎零激活。检测输出获得最高IoU分数边界框精确包裹目标。这一结果量化证实了两个模块的互补关系SDEP确保精确结构基础的保留SARESMoE作为选择性过滤器保护这些线索免受SAR特定噪声影响。结论SARES-DEIM通过重新审视复杂SAR环境中的表示瓶颈提出了两个关键创新SARESMoE模块通过动态路由特征到专门的频域和小波域专家有效抑制相干散斑噪声和沿海杂波通过扩展的模型容量增强特征表示。SDEP颈部利用Space-to-Depth卷积将高分辨率空间细节无损传输到预测头克服了小目标普遍漏检的问题。在HRSID和SAR-Ship-Dataset上的广泛评估证明了SARES-DEIM的有效性。在HRSID上方法达到76.4%的mAP50:95和93.8%的mAP50超越现有YOLO系列、DETR变体和SAR专用检测器在所有评估指标上排名第一为高精度海上监视建立了新的性能基线。未来工作将把这种领域感知路由机制扩展到多模态SAR-光学融合场景并进一步研究平衡跨不同部署平台表示能力与计算需求的架构优化。技术细节汇总组件技术要点基础框架DETR端到端检测范式骨干网络多尺度特征提取F2-F5金字塔SARESMoE稀疏门控、频域/小波域专家、尺度感知分配SDEPSpace-to-Depth变换、无损下采样、P2→P3信息注入训练配置AdamW优化器、300 epochs、batch size 8、640×640输入评估指标mAP50:95, mAP50, Precision, Recall, APsmall

更多文章