1 安装PyTorch
写在前:之前用Anaconda安装过一个关于TensorFlow的环境,为了不同版本环境方便管理,这里先新建一个环境用来装这一次要安装的pytorch等其他配置。可以理解成Anaconda每次新建一个环境就是重新拿一个新的盒子来装要用到的各种工具、程序,工具盒与盒之间不会有交流,相当于新的。
1.1 新建环境
先用conda info --envs 看一下已经存在的环境(盒子): 可以看到除了base环境,之前还有一个TensorFlow的环境,然后我们生成一个名为“PyTorch”的环境,这里加什么都可以,只是“盒子”的名称罢了。实现看好自己的py版本号,配合这句语法conda create -n PyTorch python=3.7.7 ,创建一个新环境(如下图)。 能够看见新环境产生,但当前还在星号标记的base环境里,用conda activate PyTorch 进入刚才新建的环境,然后开始安装pytorch。
1.2 新环境中安装pytorch
接着去官网复制安装命令。window下的安装首推conda,接着按照实际情况选择需要安装的版本,直接复制回车即可。
2 安装FFmpeg
网上有好些打开FFmpeg的官方网站,安装下载的操作,其实conda环境自带了安装方式,可以自动帮你配好,接上面的命令窗口继续,逐一运行下面代码:
conda config --add channels conda-forge
conda install ffmpeg
pip install ffmpy
等待下载即可完成安装。
3 其他安装
- 在prompt中,输入
D: 即可切换盘符,然后在输入详细路径,不需要cd来跳转。其他文件的安装利用pip install -r requirements.txt 来实现,其中requirements.txt 内容包含如下:
umap-learn
visdom
librosa>=0.8.0
matplotlib>=3.3.0
numpy==1.19.3; platform_system == "Windows"
numpy==1.19.4; platform_system != "Windows"
scipy>=1.0.0
tqdm
sounddevice
SoundFile
Unidecode
inflect
PyQt5
multiprocess
numba
webrtcvad; platform_system != "Windows"
pypinyin
- 之后用
pip install webrtcvad-wheels 安装webrtcvad
4 语音数据集下载
费了九牛二虎之力,好不容易找到一个网站收录了比较全面的声音的镜像文件下载,撒花。 我个人选择还是用“aidatatang_200zh”这个数据集17个G大小,包含来自600位说话者的200小时语音数据。每个句子的转录准确率大于 98%。
爱数据堂_200zh是北京数据堂科技有限公司根据知识共享署名-非商业性-禁止衍生4.0国际公共许可协议提供的免费中文普通话语音语料库。 语料库的内容和对应的描述包括: 语料库包含 200 小时的声学数据,主要是移动记录数据。 邀请了来自中国不同口音地区的600名演讲者参与录音。 每个句子的转录准确率大于 98%。 录音是在安静的室内环境中进行的。 数据库按7:1:2的比例划分为训练集、验证集和测试集。 元数据文件中保留了语音数据编码和说话人信息等详细信息。 还提供分段成绩单。 该语料库旨在支持语音识别、机器翻译、声纹识别和其他语音相关领域的研究人员。因此,该语料库完全免费用于学术用途。 请引用语料为“aidatatang_200zh,北京数据堂科技有限公司(www.datatang.com)提供的免费中文普通话语音语料库”。 防止链接失效,我已经把这个数据集放到百度云里了,链接和密码[neqb]
|