IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning -> 正文阅读

[人工智能]Raki的读paper小记:WaveTransformer: A Novel Architecture for Audio Captioning

Abstract & Introduction & Related Work

  • 研究任务
    自动音频字幕
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
    1. 我们提出了第一个明确侧重于利用时间和局部时间频率信息的AAC方法
    2. 为了生成字幕,我们采用了广泛使用的transformer解码器
  • 实验结论
    我们的结果将以前报告的最高SPIDEr从16.2提高到17.3

在这里插入图片描述

Encoder

一共有 N t N_t Nt? 个 CNN块,每个wave-block里面还有七个一维CNN卷积

namekernel_sizestridedilation
C N N t 1 , t 4 , t 7 n t CNN_{t_1,t_4,t_7}^{n_t} CNNt1?,t4?,t7?nt??000
C N N t 2 , t 3 n t CNN_{t_2,t_3}^{n_t} CNNt2?,t3?nt??111
C N N t 5 , t 6 n t CNN_{t_5,t_6}^{n_t} CNNt5?,t6?nt??322

在这里插入图片描述
BN是batch normalization

H t 0 = X t H_t^0 = X_t Ht0?=Xt?
在这里插入图片描述
所有的CNN都是在X上沿着时间顺序进行操作,使得其能学习到局部信息
在这里插入图片描述
在这里插入图片描述
每个二维卷积后都接上一个ReLU
在这里插入图片描述
S ? C N N n t f S-CNN^{n_{tf}} S?CNNntf?有五个不同的5 * 5卷积核,步幅为1,填充为2,PCNN用来学习不同通道的SCNN卷积的输出
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Decoder

在这里插入图片描述
在这里插入图片描述

Evaluation

在这里插入图片描述

Conclusion

在本文中,我们提出了一个新的AAC架构,基于卷积和前馈神经网络,称为WaveTransformer(WT)。WT专注于从音频中学习长时间和时间频率信息,并使用Transformer模型的解码器将其与文本表达出来。我们使用AAC DCASE挑战赛中采用的数据集和指标对WT进行了评估,并将我们的方法与以前的SOTA方法和DCASE AAC基线进行了比较。获得的结果表明,学习时间频率信息,结合良好的语言模型,可以导致良好的AAC性能,但纳入长的时间信息可以提高获得的分数

Remark

请问这篇在写什么玩意啊?您有事吗?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-06 13:02:47  更:2022-03-06 13:05:22 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 16:53:18-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码