IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 实时语音克隆-- 01 准备工作 -> 正文阅读

[人工智能]实时语音克隆-- 01 准备工作

1 安装PyTorch

写在前:之前用Anaconda安装过一个关于TensorFlow的环境,为了不同版本环境方便管理,这里先新建一个环境用来装这一次要安装的pytorch等其他配置。可以理解成Anaconda每次新建一个环境就是重新拿一个新的盒子来装要用到的各种工具、程序,工具盒与盒之间不会有交流,相当于新的。

1.1 新建环境

先用conda info --envs看一下已经存在的环境(盒子):
在这里插入图片描述
可以看到除了base环境,之前还有一个TensorFlow的环境,然后我们生成一个名为“PyTorch”的环境,这里加什么都可以,只是“盒子”的名称罢了。实现看好自己的py版本号,配合这句语法conda create -n PyTorch python=3.7.7,创建一个新环境(如下图)。
在这里插入图片描述
能够看见新环境产生,但当前还在星号标记的base环境里,用conda activate PyTorch进入刚才新建的环境,然后开始安装pytorch。
在这里插入图片描述

1.2 新环境中安装pytorch

接着去官网复制安装命令。window下的安装首推conda,接着按照实际情况选择需要安装的版本,直接复制回车即可。
在这里插入图片描述
在这里插入图片描述

2 安装FFmpeg

网上有好些打开FFmpeg的官方网站,安装下载的操作,其实conda环境自带了安装方式,可以自动帮你配好,接上面的命令窗口继续,逐一运行下面代码:

conda config --add channels conda-forge
conda install ffmpeg
pip install ffmpy

等待下载即可完成安装。

3 其他安装

  • 在prompt中,输入D:即可切换盘符,然后在输入详细路径,不需要cd来跳转。其他文件的安装利用pip install -r requirements.txt来实现,其中requirements.txt内容包含如下:
umap-learn
visdom
librosa>=0.8.0
matplotlib>=3.3.0
numpy==1.19.3; platform_system == "Windows"
numpy==1.19.4; platform_system != "Windows"
scipy>=1.0.0
tqdm
sounddevice
SoundFile
Unidecode
inflect
PyQt5
multiprocess
numba
webrtcvad; platform_system != "Windows"
pypinyin
  • 之后用pip install webrtcvad-wheels安装webrtcvad

在这里插入图片描述

4 语音数据集下载

费了九牛二虎之力,好不容易找到一个网站收录了比较全面的声音的镜像文件下载,撒花。
我个人选择还是用“aidatatang_200zh”这个数据集17个G大小,包含来自600位说话者的200小时语音数据。每个句子的转录准确率大于 98%。

爱数据堂_200zh是北京数据堂科技有限公司根据知识共享署名-非商业性-禁止衍生4.0国际公共许可协议提供的免费中文普通话语音语料库。
语料库的内容和对应的描述包括:
语料库包含 200 小时的声学数据,主要是移动记录数据。
邀请了来自中国不同口音地区的600名演讲者参与录音。
每个句子的转录准确率大于 98%。
录音是在安静的室内环境中进行的。
数据库按7:1:2的比例划分为训练集、验证集和测试集。
元数据文件中保留了语音数据编码和说话人信息等详细信息。
还提供分段成绩单。
该语料库旨在支持语音识别、机器翻译、声纹识别和其他语音相关领域的研究人员。因此,该语料库完全免费用于学术用途。
请引用语料为“aidatatang_200zh,北京数据堂科技有限公司(www.datatang.com)提供的免费中文普通话语音语料库”。
防止链接失效,我已经把这个数据集放到百度云里了,链接和密码[neqb]

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-27 11:51:08  更:2021-08-27 11:52:03 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 18:36:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码