MixUp as Locally Linear Out-of-Manifold Regularization

问题

MixUp方法会对一对输入的图像和其标签分别进行混合
$\hat{x} = \lambda x+(1-\lambda)x'\\ \hat{y} = \lambda y+(1-\lambda)y'\\$
作者发现，有时混合数据 $\hat{x}$ 会与已存在的数据特别类似，但此时他的标签是混合标签 $\hat{y}$ ，由此就会造成分类器的混乱，从而让其性能下降，作者称该状况为’流形入侵(manifold intrusion)’。

解决方案

引入两个神经网络 $\pi(\cdot)$ 和 $\varphi(\cdot)$ 分别用来生成混合所用的系数 $\lambda$ 和判断新混合的数据是否造成流形入侵，因为其混合所用的系数是自适应生成的，故该方法称为AdaMix。

方法详解

符号

$\chi$ ：全部的数据空间

$\Upsilon$ ：全部的数据标签空间

$\Mu$ ：流形空间

$g (x)$ ：将 $\Mu$ 的 $x$ 映射到 $\Upsilon$ 空间的方程

$D$ ： $\Mu$ 的子集

$P(\Upsilon)$ ：标签的分布

$F(\chi,\Upsilon)$ ：映射方程组

$H$ ： $F(\chi,\Upsilon)$ 的子集

$\delta_{y}$ ：在y位置置1，即为one-hot-label

$\Lambda$ ：混合策略空间， $\Lambda\subseteq\mathbb{S}_{k}$

$\Omega^{(k)}$ ：定义了有 $k$ 个列数据的矩阵，同理 $M^{(k)},D^{(k)}$

Adaptive MixUp(AdaMixUp)

定义一个网络 $\pi_{k}(\cdot)$ 用来生成 $k$ 个输入的混合策略，并将其写为 $\Lambda^{*}(X)$ ，其中 $X$ 是输入的 $k$ 个数据组成的列矩阵，且 $\Lambda^{*}(X)\subseteq\mathbb{S}_{k}$

定义另一个网络 $\varphi(\cdot)$ 用来进行二分类，目的是预测混合后的数据是否属于流形入侵，若是则分为0类，否则为1，作者称其为入侵鉴别器

使用“intrusion loss”来训练鉴别器
$L_{intr}:=\frac{1}{k_{max}-1}\sum_{k=2}^{k_{max}}E_{X\sim D^{k},\lambda\sim\pi_{k}(X)}\log p(1|X\lambda;\varphi)+E_{x\sim D}\log p(0|x;\varphi)$
最后，全部的loss方程为：
$L_{total}:=L_{D}(H)+L_{D'}(H,\{\pi_{k}\})+L_{intr}(\{\pi_{k}\}, \varphi)$
其中 $L_{D}$ 和 $L_{D'}$ 分别是对原始数据和混合数据的交叉熵损失。