Pre-training without Natural Images

文中关于分形类别生成部分（2-（2））存在理解问题（标注红色问号的位置）

1 概览

（1）存在问题

使用自然图片及标签做预训练存在以下问题：

许多大型数据集均是以众包任务的形式创建的，参与标注的人员有可能缺乏专业性，导致标注信息存在不够精确、侵犯隐私、违背道德等问题
许多数据集存在侵权问题，而只能应用于非商业化用途

（2）研究内容

本文研究内容：使用公式驱动的监督学习及分形理论自动生成图片和标签数据：

没有自然图像的预训练，可通过公式驱动的图像投影来简化大规模数据库的构建，进而有效的进行预训练
公式驱动的图片数据集能够有效解决当前存在CNN预训练问题：无需人工标注、无需数据集下载

（3）本文贡献

本文提出公式驱动的监督学习（formula-driven supervised learning），可以实现对卷积神经网络不使用任何自然图片来进行预训练。

提供了一种使用分形理论自动生成大规模数据集的方法
使用随机搜索分形数据集生成了2个大型数据集：FractalDB-1k、FractalDB-10k
这种自动生成策略可以生成无限大的带标签数据集
使用该自动生成的数据集进行预训练，部分精度超越了在ImageNet/Places真实数据集上做预训练。

2 自动生成大型数据集

在这里插入图片描述

使用迭代函数系统（iterated function system (IFS)）生成无限多的分形图片I和对应的分形类别c

（1）分形图片的生成

迭代函数系统（IFS）：
$\operatorname{IFS}=\left\{\mathcal{X} ; w_{1}, w_{2}, \cdots, w_{N} ; p_{1}, p_{2}, \cdots, p_{N}\right\}$

$w_i: \mathcal{X} \to \mathcal{X}$ ：仿射变换方程，预先设定；
$p_i$ ：选择对应变换方程的概率值，和为1，预先设定
使用IFS，每个分形 $S=\left\{\boldsymbol{x}_{t}\right\}_{t=d}^{\infty} \in \mathcal{X}$ 是通过随机迭代算法（random iteration algorithm）构造出来的：
t：迭代序号；t=0, 1, 2, ...
第一步：按照概率 $p_i=p(w^*=w_i)$ 从集合 $\left\{w_{1}, w_{2}, ..., w_N\right\}$ 选择一个仿射变换方程 $w^*$
第二步：使用 $w^*$ 迭代出一个新点 $x_{t+1}=w^*(x_t)$
不断重复第一、二步，最终得到分形图像

（2）分形类别

分型类别与仿射变换方程中参数a, b, c, d, e, f的取值有关：
$w_{i}\left(\boldsymbol{x} ; \theta_{i}\right)=\left[\begin{array}{ll} a_{i} & b_{i} \\ c_{i} & d_{i} \end{array}\right] \boldsymbol{x}+\left[\begin{array}{l} e_{i} \\ f_{i} \end{array}\right]$
预先假定分型类别总数为1000或者10000
参数的生成步骤：

i) 确定N值：N为放射变换方程的数量，从离散均匀分布N={2, 3, 4, 5, 6, 7, 8}随机采样
ii) 确定 $\theta_i$ ，即第i个放射变换方程a, b, c, d, e, f：分别从均匀分布[-1, 1]中采样；重复N次，生成N组a-f
iii）确定 $p_i$ ， $p_{i}=\left(\operatorname{det} A_{i}\right) /\left(\sum_{i=1}^{N} \operatorname{det} A_{i}\right)$ ，其中 $A_i=(a_i, b_i; c_i, d_i)$ ，是放射变换的旋转矩阵
iv) 不同的参数 $\Theta_{i}=\left\{\left(\theta_{i}, p_{i}\right)\right\}_{i=1}^{N}$ 就是不同的类别 ??

（3）参数

#category和#instance：#category是类别标签数量，#instance是同一个类别中的实例数量；两者对预训练效果均有影响
Patch和Point：Point即为上述使用随机迭代逐个生成点的方法；Patch是重复进行以下步骤t次：
- 选择一个像素点(u, v)
- 使用一个3 * 3的随机点的patch插入到该位置
填充率filling rate r：取值{0.05, 0.10, 0.15, 0.20, 0.25}
a-f：取值：{0.8, 0.9, 1.0, 1.1, 1.2}
Dot(t)：一个分形图片中点的数量，即迭代的次数t，取值：{100K, 200K, 400K, 800K}
W, H：图像的宽、高，取值：{256, 362, 512, 764, 1024}

3 实验

实验设置：

网络：ResNet-50
优化器：SGD，momentum=0.9，learning_rate=0.01，学习率在30 epoch和60 epoch时均减小至原来的0.1倍
batch_size：256
epoch：90
数据增强：从256 * 256随机裁剪至224 * 224
fine-tuning数据集：CIFAR-10/100(C10, C100)、ImageNet-100(IN100)、Places-30(P30)