IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 语音识别基础-梅尔谱图 -> 正文阅读

[人工智能]语音识别基础-梅尔谱图

Transfomer应用及改进系列文章目录

第一章 语音识别基础-梅尔谱图
第二章 李宏毅hw4语音识别数据集及需求详解
第三章 从rnn到gru、lstm及双向神经网络
第四章 编码器解码器架构、seq2seq、注意力机制及机器翻译应用代码实现
第五章 transfomer详解及代码实现
第六章 李宏毅hw4语音识别模型改进(conformer+amsoftmax)



前言

本系列文章围绕李宏毅课堂作业hw4,之前学习了tranfomer模型,但是感觉是勿囵吞枣,其中很多都理解的不是很透彻。故从rnn到transfomer的改进进行复习,旨在熟悉模型和改进模型的方法。其中该作业的要求就不详细说了,直接到官网看吧。


一、数据集

直接给出困惑我很久的疑问
当我打开metadata.json中feature_pathd的uttr0-XXXXXXXXXX.pt文件时
在这里插入图片描述一堆16进制码让我摸不着头脑,直到我打开一个.wav的音频文件
在这里插入图片描述
才豁然开朗。我猜测 .pt 文件保存的就是音频文件。
但是把.pt文件改成.wav文件,播放器又不能播放…这就不懂了。

二、梅尔谱图

因为不是专门搞信号的,旨在了解,写一些科普性的理解,不做深入。

1.原理

人耳对低频段的变化敏感,对高频段的变化迟钝,即人耳对频率的感受是对数的(logarithmic)
在这里插入图片描述
但是传统的频谱图,像平时手机录音时的图像
在这里插入图片描述

此时高频数据因为人耳不敏感,放到深度学习中去一些高频特征用处不大,也就是说,在频域上a点和b点与c点的距离,在人耳能感受的实际距离并不是频谱图上所示的距离,可能a和b点就会离得更近了。这里使用梅尔谱图进行转换,按如下公式进行转化。
在这里插入图片描述
其中f代表原本的频率,m代表转换后的梅尔频率。这样,原本的频率越大,转换后就变得越平缓。也就更接近人耳的感受。
lgX图像示例

随意网上找个无损音乐.wav文件,画出频谱图
在这里插入图片描述
转换为梅尔谱图
在这里插入图片描述
有图可得,其y轴频率轴,从10000降到8192,有效降低了高频域。

总结

如果想要更深入,参考如下文章。

语音特征提取: 看懂梅尔语谱图(Mel-spectrogram)、梅尔倒频系数(MFCCs)的原理
语音合成基础(3)——关于梅尔频谱你想知道的都在这里
如何用python画出语谱图(spectrogram)和mel谱图(mel spectrogram)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-16 21:42:28  更:2022-06-16 21:45:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/30 1:24:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码