引入

??题目：通过 $\ell_1$ 范数距离的非贪婪比最大化学习多实例图像表示 (Learning Multi-Instance Enriched Image Representations via Non-Greedy Ratio Maximization of the $\ell_1$ -Norm Distances)
??代码：
??摘要：近年来多示例 (MIL) 在图像应用领域效果显著。然而，两个关键挑战阻碍了MIL在图像中的有效应用：
??1）现有方法通常基于图像中的实例建模，而非完整图像。这可能丢失图像作为整体输入时所传达的信息；
??2）输入图像中的实例数量可变，导致传统单向量方法不适用。
??对此，本文提出一种新的图像表示学习方法，将输入图像 (包) 的局部块 (实例) 及其整体表示集成为一个单向量：
??1）首先学习投影以保持输入图像实例的全局和局部一致性；
??2）然后将同一图像的整体表示投影到所学习的子空间中，以丰富信息；
??3）考虑到自然场景和照片中内容和特征的变化，开发了优化目标，即使得许多 $\ell_1$ 范数之和的比例最大化；
??4）给出了一种新的有效的非贪婪迭代算法，并严格证明了算法的收敛性。一个示意如下图：

1 习得MIL图像的单向量表示

1.1 符号系统和问题声明

??符号表如下：

符号	含义
矩阵	粗体大写字母
向量	粗体小写字母
$\mathbf{tr(M)}=\sum_im_{ii}$	矩阵 $\mathbf{M}=[m_{ij}]$ 的迹
$\\|\mathbf{M}\\|_1=\sum_i\sum_j\mid m_{ij}\mid$	矩阵 $\mathbf{M}$ 的 $\ell_1$ 范数
$\mathbf{v}=\sum_i\mid v_i \mid$	向量 $\mathbf{v}$ 的 $\ell_1$ 范数
$\\|\mathbf{v}\\|_2=\sqrt{\sum_iv_i^2}$	向量 $\mathbf{v}$ 的 $\ell_2$ 范数
$\mathcal{X}=\{ \mathbf{x}, \mathbf{X}\}$	图像
$\mathbf{x}\in\mathbb{R}^d$	图像的整体表示
$\mathbf{X}=[\mathbf{x}_1,\dots,\mathbf{x}_n]\in\mathbb{R}^{d\times n}$	语义块的集合

??基于以上符号系统，每一个图像看作是包含实例 (语义块) 的包，且每个包中的实例数量通常不同。
??不同于以往的MIL，基于输入图像的实例建模，本文的目标为习得一个输入图像到单向量表示 $\mathbf{y}=f(\mathcal{X})$ 的函数，其用于捕捉图像的局部块及整体信息。由于图像的每一个单向量是等长的，则可以使用任意的单实例模型进行学习。简单来说，这是一个基于映射的MIL方法。