[人工智能] 多示例论文泛读--Attention-based Deep Multiple Instance Learning

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 多示例论文泛读--Attention-based Deep Multiple Instance Learning -> 正文阅读

[人工智能]多示例论文泛读--Attention-based Deep Multiple Instance Learning

基本概念

Permutation Invariant：指的是特征之间没有空间位置关系
Pooling(池化):是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合

实例级别： $f$ 是一个实例级别的分类器，返回值为每个实例的分数， $g$ 则是判别函数。
嵌入级别： $f$ 将实例映射为一个低维嵌入；MIL池化用于获取包的表示。

MIL池化

最大池化层：
$\forall_{m=1, \cdots, M}: z_{m}=\max _{k=1, \cdots, K}\left\{\mathbf{h}_{k m}\right\}$

最大池化层：
$\mathbf{z}=\frac{1}{K} \sum_{k=1}^{K} \mathbf{h}_{k}$

注意力机制

$H=\left\{\mathbf{h}_{1}, \cdots, \mathbf{h}_{K}\right\}$ 表示包的嵌入，MIL的嵌入为：
$\mathbf{z}=\sum_{k=1}^{K} a_{k} \mathbf{h}_{k}$
其中：
$a_{k}=\frac{\exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{k}^{\top}\right)\right\}}{\sum_{j=1}^{K} \exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V h}_{j}^{\top}\right)\right\}}$

门控注意力机制：
$a_{k}=\frac{\exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{k}^{\top}\right)\right\} \odot \operatorname{sigm}\left(\mathbf{U h}_{k}^{\top}\right)}{\sum_{j=1}^{K} \exp \left\{\mathbf{w}^{\top} \tanh \left(\mathbf{V} \mathbf{h}_{j}^{\top}\right)\right\} \odot \operatorname{sigm}\left(\mathbf{U h}_{j}^{\top}\right)},$