IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文解读:HUBERT HOW MUCH CAN A BAD TEACHER BENEFIT ASR PRE-TRAINING -> 正文阅读

[人工智能]论文解读:HUBERT HOW MUCH CAN A BAD TEACHER BENEFIT ASR PRE-TRAINING

HUBERT HOW MUCH CAN A BAD TEACHER BENEFIT ASR PRE-TRAINING

文章来源:icassp2021

研究背景:

相比于CV和NLP领域,ASR领域中自监督预训练方法面临3个挑战。

  1. 一条语音句子中存在多个发音单元。
  2. 只进行audio-pretraining,没有发音单元的词典。
  3. 发音单元变长,没有清晰的段边界。

在这篇文章中,作者提出了HIdden-Unit BERT(HUBERT)模型,采用k-means聚类,为BERT预训练模型提供target label。**作者方法成功的关键因素是只在被masked的区域计算预测损失函数。**这使得模型在预训练阶段能够受益于无监督teacher的一致性,而不是teacher的质量。在初始阶段,只进行100类别的聚类,进行两次迭代的聚类,HUBERT模型的性能能够在低资源场景下,和最优的wav2vec2.0模型相当。

具体做法:

wav2vec2.0是怎么生成target

在讲解本文的做法之前,需要先了解预训练模型wav2vec2.0的做法。wav2vec2.0是一个很优秀的自监督预训练模型,在预训练阶段不需要语音-文本pair数据,但是预训练模型训练需要构建自监督任务所需要的target。

wav2vec2.0模型采用原始语音输入,然后进行features encoder学习类似于fbank的局部特征,然后features encoder的输出被多段mask后,进入transformer,通过transformer上下文预测被mask的表征,然后features encoder输出的被多段mask的真实特征进入VQ模块进行量化,这个VQ模块本质上是一个聚类器,是一个提供预训练target的模块,这里的VQ本身是随着训练进行参数更新,是一个在线聚类的过程。wav2vec2.0先了解到这里。

HUBERT是怎么生成target

HUERT是一个离线聚类获取target的过程,具体做法:

  1. 首先在39维的MFCC特征上进行k-means和GMM聚类,聚类中心数为{50,100,500}。聚类之后可以获取每一帧语音的聚类中心,此时的聚类中心为每一帧的target。
  2. 每一帧语音获取target后,进行类似于wav2vec2.0类似的pretraining,然后在mask位置和未被mask的位置计算损失函数, L = α L m + ( 1 ? α ) L u L=\alpha L_m+(1-\alpha)L_u L=αLm?+(1?α)Lu? L m L_m Lm?为mask位置产生的损失, L u L_u Lu?为未被mask位置产生的损失。
  3. 预训练完成后,可以在有标签数据上finetune。
  4. 进行迭代式的聚类。在预训练阶段2完成后,此时已经有比较好的预训练模型,可以将预训练模型当作teacher模型生成表征进行第二次k-means聚类,发现更有意义的聚类单元。

研究结果:

  1. 作者在实验中发现,只在被mask的位置计算损失函数性能最好。

  2. 可以看出,finetune性能与在预训练阶段teacher的质量有很好的相关性。而且在MFCC上k-means聚类中心数目对性能影响不大。

  3. 增大batch-size能够明显提升性能;训练更长时间性能会更好。另外这个结果优于DiscreteBERT中采用13.5k的聚类中心数目的结果,作者猜测HUBERT性能好的原因:使用了更合适的聚类中心数目并且将原始mfcc作为输入,不会丢弃信息。

  4. 无监督的teacher模型融合,可以带来比单个teacher更好的性能。

  5. 作者在采用预训练模型进行迭代式聚类时,采用不同层的输出进行聚类,发现中间层6层的表征产生target进行二次预训练对下游finetune任务帮助最大。

附录

文章链接:Hubert: How Much Can a Bad Teacher Benefit ASR Pre-Training? | IEEE Conference Publication | IEEE Xplore

幻灯片链接:Wei-Ning Hsu, Yao-Hung Hubert Tsai, Benjamin Bolte, Ruslan Salakhutdinov, Abdelrahman Mohamed · HUBERT: How much can a bad teacher benefit ASR pre-training? · SlidesLive

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-02 10:49:09  更:2021-08-02 10:50:07 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 15:08:27-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码