解决问题

尽管vid2vid（参见上篇文章Video-to-Video论文解读）已经取得显著进步，但是存在两个主要限制；
1、需要大量数据。训练需要大量目标人体或目标场景数据；
2、模型泛化能力有限。只能生成训练集中存在人体，对于未见过人体泛化能力差；
为解决上述问题，作者提出few-shot vid2vid，在推理时利用几张目标域样例，学习生成之前未见过目标或场景视频。通过运用attention机制的网络权重生成模块提升模型泛化能力；

算法

在这里插入图片描述

vid2vid方案

vid2vid结构如图2a，公式如式1，
在这里插入图片描述
生成图像 $\tilde X_t$ ，基于过去的 $\tau+1$ 个分割图 $s^t_{t-\tau}$ 以及过去的 $\tau$ 个生成图 $\tilde X^ {t-1}_{t-\tau}$ 。生成器常规设计如式2，

$\tilde m_t,\tilde w_{t-1},\tilde h_t$ 学习过程如式3,4,5，

$\tilde m_t$ 为遮挡区域， $\tilde w_{t-1}$ 为光流， $\tilde h_t$ 为生成中间图像；

Few-shot vid2vid

但是vid2vid方法不能生成未见过域的视频，比如只能生成训练集中出现的人。为了使得 $F$ 适应于未见过域，增加额外输入，因此 $F$ 有两个输入：K个目标域样例图 $e_1, e_2, ..., e_K$ ，及对应语义图 $s_{e_1} , s_{e_2} , ..., s_{e_K}$ ，如式6
在这里插入图片描述模型允许 $F$ 使用输入样例模态生成视频，因此作者使用网络权重生成模块 $E$ 提取样例模态，利用样例模态信息计算网络参数 $\theta_H$ ，如式7。

$E$ 未用于 $\theta_M$ 及 $\theta_W$ ，是因为 $\theta_M$ 及 $\theta_W$ 基于过去生成图像缠身，本身已经跨域共享；
$E$ 仅为空间调节分支生成权重，该设计有两个优势：
1、减少 $E$ 生成参数量，避免过拟合；
2、避免样例与输出图像shotcut，因为生成参数仅用于空间调节模块

网络权重生成模块

$E$ 通过学习参数提取外观模态，引入视频生成分支；
考虑仅输入1个样例（k=1）及多个样例情况（k>1）；
当输入样例为1，即k=1时，（image animation任务） $E$ 解耦为两个子网络：特征提取器 $E_F$ 及多层感知机 $E_P$ 。
特征提取器 $E_F$ 包括几个卷积层，提取到外观表征 $q$ ，应用于多层感知机 $E_P$ 生成权重 $\theta_H$ ，用于中间图像生成网络 $H$ ， $H$ 有 $L$ 层， $E$ 同样有 $L$ 层，如图2c所示；

当输入样例多于1时，即K>1,想要 $E$ 能够提取任意数量样例的外观模态，由于不同输入样例有不同角度相关性，因此作者设计attention机制 $E_A$ ，聚合提取到的外观模态；
$E_A$ 应用于每个样例语义图 $s_{e_k}$ ，得到关键向量 $\alpha_k \in R^{C \times N}$ ，及当前输入语义图 $s_t$ ，得到关键向量 $\alpha_t \in R^{C \times N}$ ，进而通过 $\alpha_k = (\alpha_k)^T \bigotimes \alpha_t$ ，得到attention权重 $\alpha_k \in R^{N \times N}$ ，应用于外观表征 $q$ 。如图2b，在生成阶段attention map有助于捕获相关身体部件，如图7c。

为减轻图像生成网络负担，可以wrap样例，将其与生成中间图像 $\tilde h'_t$ 结合，如式11，
在这里插入图片描述
估计额外光流 $\tilde w_{e_t}$ 及mask $\tilde m_{e_t}$ ，当输入多个样例时, $e_1$ 为attention weight $\alpha_k$ 中与当前帧具有最大相似性的样例；实验发现，在背景区域不变时，对生成pose有帮助；