引入
??题目:Spatial transformer networks ??代码: ??摘要:卷积神经网络定义了一类有力模型,但依然受到输入数据空间不变 (spatially invariant)的限制。本文引入一个新的可学习模块,即空间转换器 (spatial transformer),其明确允许在网络内对数据进行空间操作。该可微分模块可以应用到现有的卷积架构中,使得网络能够主动空间变换特征图,而无需额外的监督训练,或优化更改。本文验证了空间转换器的使用,可以使得模型习得平移、缩放、旋转和更通用变换的不变性 (invariance),且相较于其他变换器有优势。 ??Bib:
@article{Jaderberg:2015:20172025,
author = {Max Jaderberg and Karen Simonyan and Andrew Zisserman and Koray Kavukcuoglu},
title = {Spatial transformer networks},
journal = {Advances in Neural Information Processing Systems},
volume = {28},
year = {2015},
pages = {2017--2025}
}
1 空间转换器 (spatial transformer)
??空间转换器是一个可微分模块,可用于单次前向传递期间,对特征图的空间变换,其中变换以特定输入为条件,并产生单个特征图输出。对于多通道输入,每个通道应用相同的变换。本节仅考虑单个变换和每个变换器的单个输出,多个变换的推广则在实验进行。 ??空间转换器可分为三个部分,如图2: ??1)局部化网络 (localisation network):获取输入特征图,并通过多个隐藏层输出应该应用于特征图的空间变化参数; ??2)网格生成器 (grid generator):使用预测的空间变换参数创建采样网格,其是一组点的集合; ??3)采样器 (sampler):以特征图和采样网格作为输出,生成从网格点输入的采样输出图。
图2:空间转换器
1.1 局部化网络 (localisation network)
??输入:特征图
U
∈
R
H
×
W
×
C
U\in\mathbb{R}^{H\times W\times C}
U∈RH×W×C,其中
H
H
H、
W
W
W、
C
C
C分别对应高、宽、通道。 ??输出:变换
T
θ
\mathcal{T}_\theta
Tθ?的参数
θ
\theta
θ,其可用于特征图,即
θ
=
f
loc
(
U
)
\theta=f_\text{loc}(U)
θ=floc?(U),其大小根据变换的类型而变化。
f
loc
(
?
)
f_\text{loc}(\cdot)
floc?(?)是一个可以采用任何形式的局部化网络,例如一个全连接网络或者卷积网络,但应该包含一个最终的回归层 (regression layer),以生成变换参数
θ
\theta
θ。
1.2 参数化采样网格 (parameterised sampling grid)
??为了对输入特征图进行变换,每个像素都使用以输入特征图为中心的采样核的计算。在这里,像素作为通用特征图的元素而不一定是图像。通常,输出像素被定义为位于像素
G
i
=
(
x
i
t
,
y
i
t
)
G_i = (x_i^t,y_i^t)
Gi?=(xit?,yit?)上的规则网格
G
=
{
G
i
}
G=\{G_i\}
G={Gi?}。所有的网格构成输出特征图
V
∈
R
H
′
×
W
′
×
C
V\in\mathbb{R}^{H'\times W'\times C}
V∈RH′×W′×C。注意当前步骤的输入输出形状一致。 ??为了清楚描述,暂时假设
T
θ
\mathcal{T}_\theta
Tθ?是一个2D仿射变换
A
θ
A_\theta
Aθ?。此时的逐点变换 (pointwise transformation)为
(
x
i
s
y
i
s
)
=
T
θ
(
G
i
)
=
A
θ
(
x
i
s
y
i
s
1
)
=
(1)
\tag{1} \left(\begin{matrix} x_i^s\\ y_i^s \end{matrix}\right)=\mathcal{T}_\theta(G_i)=A_\theta \left(\begin{matrix} x_i^s\\ y_i^s\\ 1 \end{matrix}\right)=
(xis?yis??)=Tθ?(Gi?)=Aθ????xis?yis?1????=(1) ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ??
1.3 可微图像采样 (differentiable image sampling)
1.4 空间转换网络 (spatial transformer networks)
|