IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> ISCSLP论文介绍|利用BERT提高语种识别性能 -> 正文阅读

[人工智能]ISCSLP论文介绍|利用BERT提高语种识别性能

本文介绍清华大学语音与音频技术实验室(SATLab)ISCSLP 2022录用论文。BERT-LID: Leveraging BERT to Improve Spoken Language Identification。这篇文章将BERT模型引入到语种识别领域。利用BERT模型的优越性,再结合下游不同的神经网络模型,提升语种识别能力,尤其是在短语音的情况下识别性能有更为明显提升。

01?语种识别

语种识别是分析处理语音片段以判断其所属的语种。它对智能语音系统中的多语言模块有着深远的影响。目前语种识别技术在中长语音(>3s)上能够实现较高的准确率,但是在短语音(<=1s)上的表现并不能令人满意。由于短语音提供的数据信息较少,因此大大增加了识别难度。

我们尝试将在自然语言处理中表现甚好的BERT模型应用到语种识别任务中,旨在提升短语音情况下语种识别模型的性能。

语种识别(图片来自第五届东方语种识别竞赛)

02?BERT-LID

BERT的全称是:Bidirectional Encoder Representation from Transformers。该模型通过大规模无标注文本语料训练,获得包含丰富语义信息的表征,BERT具有强大的语义理解能力,是近年来自然语言处理领域公认的里程碑模型。

BERT模型(图片来自https://arxiv.org/pdf/1810.04805.pdf)

原始的BERT旨在处理基于文本的表示,而我们这里的输入是语音,因此需要对输入语音进行预处理以适应该模型。

方法一:提取语音的音素,作为BERT模型的输入。

方法二:提取语音的后验概率特征,替换原始的Token Embedding结果,作为输入。

将调整过后的BERT接不同的分类网络模型进行学习

我们通过对整体网络进行训练以获得最佳BERT-LID模型。

03?实验及结论

我们使用OLR20、TAL_ASR、TIMIT和THCHS30数据集来对BERT模型进行训练。对于音频数据我们使用BUT的开源代码来获得音素序列以及音素后验概率特征。

其中OLR20来自于2020年东方语种识别竞赛所提供的数据,包含6个语种;TAL_ASR为好未来英语课授课音频,每条音频只有一位说话人,包含中英文混合讲话的情况(对于这种情况,我们使用强制对齐的方法来获得中文与英文的标签信息);TIMIT为英文数据集;THCHS30为中文数据集。同时我们还对数据进行切分处理来获得时长为1s的短语音数据。数据集的具体情况如下图所示,其中T&T为TIMIT和THCHS30的切分短语音混合使用的情况。

数据集

下游神经网络模块,我们选择使用CNN、LSTM、RCNN、DPCNN分别进行实验。首先我们在OLR20和T&T数据上对BERT-LID模型进行测试,然后进行消融实验:a)BERT部分结合线性分类层来得到结果(称之为BERT);b)去掉BERT模块(称之为LID),直接将数据输入到对应的模型中来得到结果。可以看出,相比于BERT以及LID模块,BERT-LID模型在语种识别任务中准确率整体上有所提升

在OLR20和T&T数据集上进行消融实验

之后,我们在BERT-RCNN、x-vextor、n-gram-svm模型上进行对比实验(TAL_ASR和T&T数据集为短音频数据的集合),其中x-vextor、n-gram-svm为我们的基线系统。可以看出,BERT-LID模型在我们的不同数据集中都能有最优表现,尤其是在短语音情况下,我们所提出的方法有更为明显的提升

在不同的数据集上进行对比试验

我们的方法将BERT引入到语种识别领域,通过调整输入将语音数据顺利的输入BERT模型,再结合不同的神经网络来搭建BERT-LID系统。结果表明,所提出的BERT-LID系统提高了语种识别性能,尤其是在短语音上提升更为明显。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-12-25 11:10:19  更:2022-12-25 11:13:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 16:32:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码