Abstract & Introduction & Related Work

研究任务
自动音频字幕
已有方法和相关工作
面临挑战
创新思路
1. 我们提出了第一个明确侧重于利用时间和局部时间频率信息的AAC方法
2. 为了生成字幕，我们采用了广泛使用的transformer解码器
实验结论
我们的结果将以前报告的最高SPIDEr从16.2提高到17.3

在这里插入图片描述

Encoder

一共有 $N_t$ 个 CNN块，每个wave-block里面还有七个一维CNN卷积

name	kernel_size	stride	dilation
$CNN_{t_1,t_4,t_7}^{n_t}$	0	0	0
$CNN_{t_2,t_3}^{n_t}$	1	1	1
$CNN_{t_5,t_6}^{n_t}$	3	2	2

在这里插入图片描述
BN是batch normalization

$H_t^0 = X_t$
在这里插入图片描述
所有的CNN都是在X上沿着时间顺序进行操作，使得其能学习到局部信息

每个二维卷积后都接上一个ReLU

$S-CNN^{n_{tf}}$ 有五个不同的5 * 5卷积核，步幅为1，填充为2，PCNN用来学习不同通道的SCNN卷积的输出
在这里插入图片描述

在这里插入图片描述

Decoder

在这里插入图片描述

Evaluation

在这里插入图片描述

Conclusion

在本文中，我们提出了一个新的AAC架构，基于卷积和前馈神经网络，称为WaveTransformer（WT）。WT专注于从音频中学习长时间和时间频率信息，并使用Transformer模型的解码器将其与文本表达出来。我们使用AAC DCASE挑战赛中采用的数据集和指标对WT进行了评估，并将我们的方法与以前的SOTA方法和DCASE AAC基线进行了比较。获得的结果表明，学习时间频率信息，结合良好的语言模型，可以导致良好的AAC性能，但纳入长的时间信息可以提高获得的分数