基本概念
- Permutation Invariant:指的是特征之间没有空间位置关系
- Pooling(池化):是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合
实例级别:
f
f
f是一个实例级别的分类器,返回值为每个实例的分数,
g
g
g则是判别函数。 嵌入级别:
f
f
f将实例映射为一个低维嵌入;MIL池化用于获取包的表示。
MIL池化
最大池化层:
?
m
=
1
,
?
?
,
M
:
z
m
=
max
?
k
=
1
,
?
?
,
K
{
h
k
m
}
\forall_{m=1, \cdots, M}: z_{m}=\max _{k=1, \cdots, K}\left\{\mathbf{h}_{k m}\right\}
?m=1,?,M?:zm?=k=1,?,Kmax?{hkm?}
最大池化层:
z
=
1
K
∑
k
=
1
K
h
k
\mathbf{z}=\frac{1}{K} \sum_{k=1}^{K} \mathbf{h}_{k}
z=K1?k=1∑K?hk?
注意力机制
H
=
{
h
1
,
?
?
,
h
K
}
H=\left\{\mathbf{h}_{1}, \cdots, \mathbf{h}_{K}\right\}
H={h1?,?,hK?}表示包的嵌入,MIL的嵌入为:
z
=
∑
k
=
1
K
a
k
h
k
\mathbf{z}=\sum_{k=1}^{K} a_{k} \mathbf{h}_{k}
z=k=1∑K?ak?hk? 其中:
a
k
=
exp
?
{
w
?
tanh
?
(
V
h
k
?
)
}
∑
j
=
1
K
exp
?
{
w
?
tanh
?
(
V
h
j
?
)
}
a_{k}=\frac{\exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{k}^{\top}\right)\right\}}{\sum_{j=1}^{K} \exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V h}_{j}^{\top}\right)\right\}}
ak?=∑j=1K?exp{w?tanh(Vhj??)}exp{w?tanh(Vhk??)}?
门控注意力机制:
a
k
=
exp
?
{
w
?
tanh
?
(
V
h
k
?
)
}
⊙
sigm
?
(
U
h
k
?
)
∑
j
=
1
K
exp
?
{
w
?
tanh
?
(
V
h
j
?
)
}
⊙
sigm
?
(
U
h
j
?
)
,
a_{k}=\frac{\exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{k}^{\top}\right)\right\} \odot \operatorname{sigm}\left(\mathbf{U h}_{k}^{\top}\right)}{\sum_{j=1}^{K} \exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{j}^{\top}\right)\right\} \odot \operatorname{sigm}\left(\mathbf{U h}_{j}^{\top}\right)},
ak?=∑j=1K?exp{w?tanh(Vhj??)}⊙sigm(Uhj??)exp{w?tanh(Vhk??)}⊙sigm(Uhk??)?,
|