两阶段目标检测:分两步:1. 第一步:生成候选区域(可能包含目标的框)2. 第二步:对候选区域做分类 + 边框回归。分类就是判断候选框是否包含目标,不包含就是背景。边框回归就是使得包含目标的边框靠近真实框。
一阶段目标检测一步到位:直接在特征图上的预设锚点(Anchor)/ 中心点上,同时预测目标类别 + 边框坐标,无候选区域生成步骤
两阶段目标检测中边框的回归问题:
边界框回归所要做的就是利用某种映射关系f,使得候选目标框的映射目标框也就是预测框,无限接近于真实目标框。
映射关系f就是一个小型神经网络,因此其中会有参数w,而输入就是提取候选框的特征+候选框的坐标(根据算法不同而不同),输出就是预测偏移量。根据真实框与候选框得出的真实偏移量,与预测偏移量进行损失函数计算,然后反向传播更新参数w,不断重复,最终得出接近真实偏移量的预测偏移量。
这个过程的核心是把 “特征(目标的语义 / 视觉信息)” 和 “候选框坐标(基准位置)” 结合起来,让模型学到 “不同特征对应的候选框该怎么调整”
上文的偏移量是指相对偏移量,为什么预测相对偏移量而不是绝对偏移量或者真实的目标框呢?
假设两张尺寸不同,但内容相同的图像,由于尺寸的变化,候选目标框和真实目标框坐标之间的偏移量也随着尺寸而成比例缩放,即这个比例值是恒定不变的。
真实相对偏移量计算公式如图:
x,y相对偏移量这样计算:先取绝对偏移,再除以候选框的高或宽,这样就相对于候选框尺寸偏移,不会受到图像尺寸改变的影响。
高和宽的相对偏移量,为什么要取对数呢?