Transfomer应用及改进系列文章目录
第一章 语音识别基础-梅尔谱图 第二章 李宏毅hw4语音识别数据集及需求详解 第三章 从rnn到gru、lstm及双向神经网络 第四章 编码器解码器架构、seq2seq、注意力机制及机器翻译应用代码实现 第五章 transfomer详解及代码实现 第六章 李宏毅hw4语音识别模型改进(conformer+amsoftmax)
前言
本系列文章围绕李宏毅课堂作业hw4,之前学习了tranfomer模型,但是感觉是勿囵吞枣,其中很多都理解的不是很透彻。故从rnn到transfomer的改进进行复习,旨在熟悉模型和改进模型的方法。其中该作业的要求就不详细说了,直接到官网看吧。
一、数据集
直接给出困惑我很久的疑问 当我打开metadata.json中feature_pathd的uttr0-XXXXXXXXXX.pt文件时 一堆16进制码让我摸不着头脑,直到我打开一个.wav的音频文件 才豁然开朗。我猜测 .pt 文件保存的就是音频文件。 但是把.pt文件改成.wav文件,播放器又不能播放…这就不懂了。
二、梅尔谱图
因为不是专门搞信号的,旨在了解,写一些科普性的理解,不做深入。
1.原理
人耳对低频段的变化敏感,对高频段的变化迟钝,即人耳对频率的感受是对数的(logarithmic) 但是传统的频谱图,像平时手机录音时的图像
此时高频数据因为人耳不敏感,放到深度学习中去一些高频特征用处不大,也就是说,在频域上a点和b点与c点的距离,在人耳能感受的实际距离并不是频谱图上所示的距离,可能a和b点就会离得更近了。这里使用梅尔谱图进行转换,按如下公式进行转化。 其中f代表原本的频率,m代表转换后的梅尔频率。这样,原本的频率越大,转换后就变得越平缓。也就更接近人耳的感受。
随意网上找个无损音乐.wav文件,画出频谱图 转换为梅尔谱图 有图可得,其y轴频率轴,从10000降到8192,有效降低了高频域。
总结
如果想要更深入,参考如下文章。
语音特征提取: 看懂梅尔语谱图(Mel-spectrogram)、梅尔倒频系数(MFCCs)的原理 语音合成基础(3)——关于梅尔频谱你想知道的都在这里 如何用python画出语谱图(spectrogram)和mel谱图(mel spectrogram)
|