Vosk是一个免费,开业,可商用,支持离线语音识别的东西,关键是可以在Unity中使用。
Vosk可以离线语音识别,也可以自建语音识别服务区,支持多种语言,还支持在Unity中使用。
整体而言,识别率还行,可以发布为windows,应该也能发布为安卓和苹果。性能还行,但是,只支持单一的中文。比如说,无法将12301识别为罗马数字而是识别成幺二三零幺。至于MP3,NBA就更无法识别了。
没找到添加新词的办法,也没找到识别音频文件办法,只能将麦克风录制的语音识别出来。
需要注意的几点
- 语音模型解压目录不能有特殊字符
- 第一次运行会闪退,大概是因为解压和目录
- 发布windows后要复制dll到运行根目录
代码简单说明
初始化语音识别
StartVoskStt();
开始语音识别
Task.Run(ThreadedWork).ConfigureAwait(false);
如果不用官方的麦克风录制,注释掉外面的循环和判断
_recognizer.AcceptWaveform(voiceResult, voiceResult.Length);
lock (_resultLock)
{
_threadedRecognitionResult = _recognizer.Result();
}
录制的语音转换大致代码
float[] fdata
_audioClip.GetData(fdata, 0);
......
short[] sdata
for (int i = 0; i < fdata.Length; i++)
{
sdata[i] = (short)Math.Floor(fdata[i] * short.MaxValue);
}
......
_recognizer.AcceptWaveform(sdata, sdata.Length);
......
演示和视频地址(https://www.bilibili.com/video/BV15Y4y1p7hT/)
|