| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 语音识别原理与应用 第二章 语音信号基础 -> 正文阅读 |
|
[人工智能]语音识别原理与应用 第二章 语音信号基础 |
目录 第二章 语音信号基础声波通过空气传播,被麦克风接收,再被转换成模拟的语音信号,这些信号经过采样,变成离散的时间信号,再进一步经过量化,被保存为数字信号,即波形文件。过程如下: 本章根据以上过程,分别对声波的特性、声音的采集装置(即麦克风)、声音的采样和量化加以介绍,最后介绍语音文件的格式和分析。 2.1 声波的特性声波在空气中是一种纵波,它的振动方向和传播方向是一致的。声音在空气中的振动形成压力波动,产生压强,在经过传感器接收转换,变成时变的电压信号。 声波的特性主要包括频率和声强。 频率是指在单位时间内声波的周期数。 而直接测量声强较为困难,故常用声压来衡量声音的强弱。 声压:某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为p(t),单位是Pa。 由于人耳感知的声压动态范围太大,加之人耳对声音大小的感觉近似地与声压、声强呈对数关系,所以常用对数值来度量声音。一般把很小的声压 p0=2x?Pa作为参考声压,把所要测量的声压p与参考声压p0的比值取常用对数后,乘以20得到的数值称为声压级(Sound Pressure Level,SPL),其单位为分贝(dB)。 注:衡量声音的信噪比(Signal to Noise Ratio,SNR)的单位也用分贝,其数值越高,表示声音越干净,噪音比例越小。 2.2 声音的接收装置麦克风主要包括以下的性能指标:
2.3 声音的采样声音的采样过程是把模拟信号转换成离散信号。采样的标准是能够重现声音,与原始语音尽量保持一致。采样率表示每秒采样点数,单位是赫兹(HZ)。 声音的采样需满足采样定理(奈奎斯特定理):当采样率大于信号最高频率的两倍时,采样数字信号能够完整保留原始信号中的信息。 采样率越高,采集的间隔就越短,对应的音频损失也就越小。 2.4声音的量化声音被采样后,摸你的电压信号变成离散的采样值。 声音的量化过程是指将每个采样值在幅度上再进行离散化处理,变成整形数值。 量化位数(编码位数),代表每次取样的信息量,量化会引入失真,并且量化失真是一种不可逆失真。量化位数可以是4位、8位、16位、32位,量化位数越多,失真越少,但占用存储空间越多,一般采用16位量化。 量化方法包括均匀量化和非均匀量化。 将声音的采样率和量化位数相乘得到比特率(bps: bits per second),其代表了每个音频样本每秒量化的比特位数。比如一段音频的采样率是16 kHz,量化位数是 16 位,那么该音频的比特率是 16 x 16 = 256 kb/s 。 2.5 语音的编码在语音的存储过程中也需要编码,常用的音频编码格式包括PCM,MP3,A-law等。
基于PCM编码的WAV格式常作为不同编码互相转化时的一种中介格式,以便于后续处理,如下所示: ?要实现更多音频格式的转换,可使用FFmpeg工具。FFmpeg是一个强大的专门用于处理音视频的开源库,可实现不同批量数据的快速转换,包括转成指定采样率的WAV格式。 2.6WAV文件格式2.7WAV文件分析?对WAV文件进行处理之前,我们要先了解其格式是否符合规范,如电话录音往往是8kHz,8bits格式,对应的比特率为64kb/s。如果不是所要求的的格式,则要先进行转换,才能做后续的处理或识别。打开WAV文件的属性可查看比特率。 根据生成波形的数量,WAV文件还可分成单声道语音文件和立体声道语音文件。单声道生成一个波形,立体声道一般是双声道,包含两个波形(如下图所示)。如果要进行语音识别,要先将立体声道语音转换为单声道语音。 ?要更详细地观察分析语音信号,推荐采用CoolEdit、Praat等专业音频处理工具。 时域图显示语音信号的时间-幅度关系,而语谱图是一种三维图,显示时间-频率-幅度关系,颜色越深表示幅度(能量)越大。详情点击时域图、频谱图等。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 8:03:58- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |