语音识别技术:也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
从开始研究语音识别技术至今,语音识别技术的发展已经有半个多世纪的历史。
1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,能够理解口头数字的机器Audrey。
1960年英国的Denes等人研究成功了第一个计算机语音识别系统。
大规模的语音识别研究是在进入了70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。1971年到1976年,DARPA投资了进行了五年的语音识别研究,目的是做成一台至少能理解1000个单词的机器。该计划使卡内基梅隆大学创造了一台能够理解1011个单词的机器
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。
进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。
2010年,机器学习算法和计算机性能的进步带来了更有效的训练深层神经网络(DNN)的方法。因此,语音识别系统开始使用DNNs,更具体地说,是使用一种DNNs的特殊变体,即循环神经网络(RNNs)。此后,基于RNNs的模型表现出比传统模型更好的精度和性能。2016年的语音识别准确度达到了90%,Google在2017年6月声称已达到95%的准确率。
目前MECOOL KA1内置Google Assistant 的智能音箱,内置两个线性麦克风阵列,支持远场语音。 这可以增强用户的声音,为所有单词和错误命令创建一个固定的过滤器。
https://detail.1688.com/offer/670183498250.html?spm=a26286.8251493.description.2.221425b2zsyoJb
|