IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 语音识别原理与应用 第二章 语音信号基础 -> 正文阅读

[人工智能]语音识别原理与应用 第二章 语音信号基础

目录

第二章 语音信号基础

2.1 声波的特性

2.2 声音的接收装置

2.3 声音的采样

2.4声音的量化

2.5 语音的编码

2.6WAV文件格式

2.7WAV文件分析?


第二章 语音信号基础

声波通过空气传播,被麦克风接收,再被转换成模拟的语音信号,这些信号经过采样,变成离散的时间信号,再进一步经过量化,被保存为数字信号,即波形文件。过程如下:

本章根据以上过程,分别对声波的特性、声音的采集装置(即麦克风)、声音的采样和量化加以介绍,最后介绍语音文件的格式和分析。

2.1 声波的特性

声波在空气中是一种纵波,它的振动方向和传播方向是一致的。声音在空气中的振动形成压力波动,产生压强,在经过传感器接收转换,变成时变的电压信号。

声波的特性主要包括频率声强

频率是指在单位时间内声波的周期数。

而直接测量声强较为困难,故常用声压来衡量声音的强弱。

声压:某一瞬间介质中的压强相对于无声波时压强的改变量称为声压,记为p(t),单位是Pa。

由于人耳感知的声压动态范围太大,加之人耳对声音大小的感觉近似地与声压、声强呈对数关系,所以常用对数值来度量声音。一般把很小的声压 p0=2x10^{-5}?Pa作为参考声压,把所要测量的声压p与参考声压p0的比值取常用对数后,乘以20得到的数值称为声压级(Sound Pressure Level,SPL),其单位为分贝(dB)。

SPL= 20 \log ({\frac{p}{p0}}) dB

注:衡量声音的信噪比(Signal to Noise Ratio,SNR)的单位也用分贝,其数值越高,表示声音越干净,噪音比例越小。

2.2 声音的接收装置

麦克风主要包括以下的性能指标:

  1. 灵敏度? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 在单位声压激励下输出电压 与输入声压的比值,单位为 mV/Pa。实际衡量采用相对值,以分贝表示,并规定 1 V/Pa为 0 dB。因话筒输出一般为毫伏级,所以,其灵敏度的分贝值始终为负值。
  2. 频率响应? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表示麦克风拾音的频率范围,以及在此范围内对声音各频率的灵敏度。一般来说,频率范围越宽、频响曲线俞平直越好。
  3. 指向性? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 麦克风对于不同方向的声音灵敏度,称为麦克风的指向性。指向性用麦克风正面0度方向和背面180度方向上的灵敏度的差值来表示,差值大于15 dB 者称为强方向性麦克风。
  4. 输出阻抗? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??目前常见的麦克风有高阻抗和低阻抗之分。

2.3 声音的采样

声音的采样过程是把模拟信号转换成离散信号。采样的标准是能够重现声音,与原始语音尽量保持一致。采样率表示每秒采样点数,单位是赫兹(HZ)。

声音的采样需满足采样定理(奈奎斯特定理):当采样率大于信号最高频率的两倍时,采样数字信号能够完整保留原始信号中的信息。

采样率越高,采集的间隔就越短,对应的音频损失也就越小。

2.4声音的量化

声音被采样后,摸你的电压信号变成离散的采样值。

声音的量化过程是指将每个采样值在幅度上再进行离散化处理,变成整形数值。

量化位数(编码位数),代表每次取样的信息量,量化会引入失真,并且量化失真是一种不可逆失真。量化位数可以是4位、8位、16位、32位,量化位数越多,失真越少,但占用存储空间越多,一般采用16位量化。

量化方法包括均匀量化非均匀量化。

将声音的采样率和量化位数相乘得到比特率(bps: bits per second),其代表了每个音频样本每秒量化的比特位数。比如一段音频的采样率是16 kHz,量化位数是 16 位,那么该音频的比特率是

16 x 16 = 256 kb/s 。

2.5 语音的编码

在语音的存储过程中也需要编码,常用的音频编码格式包括PCM,MP3,A-law等。

  1. PCM编码? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??PCM(Pulse Code Modulation,脉冲编码调制)是对模拟信号进行采样、量化、编码的过程。它只保存编码后的数据,并不保存任何格式信息。PCM编码的最大优点是音质好,最大缺点是占用存储空间多。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 可保存为PCM raw data(.raw文件,无头部)或Microsoft PCM格式(.wav 文件)。? ? ? ? ? ? 还有一种编码是自适应差分PCM(ADPCM)。
  2. MP3编码? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??MP3编码对音频信号采用的是有损压缩方式,压缩率高达10:1--12:1 。编码模拟人耳听觉机制,采取“感知编码技术”,使压缩后的文件回放时能够达到比较接近原始音频数据的声音效果。
  3. A律编码? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?A律编码按下式确定输入信号值与量化输出值的关系:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?F_{A}(x)\left\{\begin{matrix} sgn(x)\frac{A|x|}{1+ln(A)} &0\leqslant |x|\leqslant 1/A & \\ sgn(x)\frac{1+ln(A|x|)}{1+ln(A)} &1/A< |x|\leq 1 & \end{matrix}\right.? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?其中,x 为输入信号值,规整为 -1<= x <= 1 ,sgn(x) 为 x 的符号。A为确定压缩量的参数,反应最大量化间隔和最小量化间隔之比。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?u律按下式确定输入信号值与量化输出值的关系:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?F_{u}(x)=sgn(x)\frac{ln(1+u|x|)}{ln(1+u)}? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?其中,u为确定压缩量的参数,反应最大量化间隔和最小量化间隔之比,取值范围为100<=u<=500 。

基于PCM编码的WAV格式常作为不同编码互相转化时的一种中介格式,以便于后续处理,如下所示:

?要实现更多音频格式的转换,可使用FFmpeg工具。FFmpeg是一个强大的专门用于处理音视频的开源库,可实现不同批量数据的快速转换,包括转成指定采样率的WAV格式。

2.6WAV文件格式

2.7WAV文件分析?

对WAV文件进行处理之前,我们要先了解其格式是否符合规范,如电话录音往往是8kHz,8bits格式,对应的比特率为64kb/s。如果不是所要求的的格式,则要先进行转换,才能做后续的处理或识别。打开WAV文件的属性可查看比特率。

根据生成波形的数量,WAV文件还可分成单声道语音文件和立体声道语音文件。单声道生成一个波形,立体声道一般是双声道,包含两个波形(如下图所示)。如果要进行语音识别,要先将立体声道语音转换为单声道语音。

?要更详细地观察分析语音信号,推荐采用CoolEdit、Praat等专业音频处理工具。

时域图显示语音信号的时间-幅度关系,而语谱图是一种三维图,显示时间-频率-幅度关系,颜色越深表示幅度(能量)越大。详情点击时域图、频谱图等

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-26 12:13:20  更:2021-10-26 12:15:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 8:35:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码