论文原文
链接:链接,提取码:2skf
概述
背景 :因为CNN存在痛点,一张图片,进行变换之后,模型就认不出了。 以往的解决方法 :1、使用大规模数据集,并对数据进行增广;2、设计算法,使模型能够适应形变 存在问题 :1、训练代价大,数据增广方式单一,简单;2、无法对复杂的形变建模,算法只适用与简单的形变问题 本文做了什么 :提出了一种可变形卷积的结构,将固定形状的卷积过程改造成了能适应物体形状的可变的卷积过程。 怎么实现 :它对感受野上的每一个点加一个偏移量,偏移的大小是通过学习得来的,偏移后感受野不再是个正方形,而是和物体的实际形状相匹配。 什么作用 :无论物体怎么形变,卷积的区域始终覆盖在物体形状的周围。实践证明,对于目标检测和语义分割有很好的效果。并且它可以替换传统的卷积操作,并且不会增加过多的额外参数量 示意图 :
细节
Deformable Convolution
上面的卷积输出和input feature map同等尺寸的feature map,但是channel是2,表示x和y两个方向的偏移。 相关公式 : 这个公式描述的就是一次卷积运算得到下一层feature-map中的一个值的过程。 其中
P
0
P_0
P0?描述的是下一次feature map中对应的像素,也就是输入feature map的中心,
R
R
R是一组相对于
P
0
P_{0}
P0?的偏移,也就是能够根据
P
0
和
R
中
的
一
个
值
P_{0}和R中的一个值
P0?和R中的一个值定位感受野中的一个值。
P
n
P_n
Pn?就是R中的一个值。
W
W
W是权重。
X
X
X是输入的feature map
这个公式描述的就是一次可变卷积运算得到下一层feature-map中的一个值的过程。 其中,多个一个
Δ
P
n
\Delta P_n
ΔPn?这个是对应的偏移,是个小数。 所以,feature中其实是没有
X
(
p
0
+
p
n
+
Δ
P
n
)
X(p_{0}+p_{n}+\Delta P_n)
X(p0?+pn?+ΔPn?)的,需要适用双线性插值得到,但是这个过程吧,一言难尽,等待有缘人带带我…
Deformable ROI Pooling
鸽
|