网络特点

? ? ? ? ?1. 将产生图像的任务分解为两个阶段，产生了更真实且更大的图像。

? ? ? ? 2. Conditioning Augmentation ,增强了鲁棒性，增大了训练集。

网络结构

Conditioning Augmentation

? ? ? ? 文字描述t被编码器编码为 $\phi(t)$ ? $\phi$ (t)，具体的编码方式参考GAN。latent variables(神经网络的输入之一) c从一个高斯分布 $N(u(\phi (t),\sigma(\phi (t)))))$ 中取样，此高斯分布的均值与方差都是编码 $\phi$ (t)的函数（理解为将编码输入神经网络，得到一个单值输出u 和delta）。此方式提高了鲁棒性，并且产生了更多的训练对。

Stage I GAN

? ? ? ? 从噪声序列中采样得到的z与上一步得到的c结合起来输入一个上采样的神经网络。为了防止过拟合，引入KL散度：

? ? ? ? 定义损失函数 $L_{D_0}$ :?

?在训练过程中，只需要依次缩小L_G0，增大L_D0。其中真实的图像标记为I_0，\lambda为一个调试用的参数，实验过程中设定为1.

? ? ? ? 在D中，当图像经过下采样与text信息连接之后，需要经过一个1*1的卷积层，使网络能够同时理解图像信息和文字信息。卷积的结果最后经过一层全连接层，输出一个一维向量表示D的判断。

Stage II GAN

? ? ? ? G输入低分辨率的图像s_0和经过conditioning augmentation的图像信息c。c(N_g维)需要首先在空间上被复制，成为一个M_g*M_g*N_g维的tensor，而与此同时，输入的图片首先经过下采样，之后在channel维度与c相连。这个tensor首先经过一系列的残差网络以连接图像和文字信息，最终经过一系列的上采样生成图片。

? ? ? ? D的结构与Stage-1相同。

? ? ? ? Stage- II的损失函数如下所定义：