IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 惊喜,我克隆了对象的的声音 -> 正文阅读

[人工智能]惊喜,我克隆了对象的的声音

以下文章来源于Jack Cui?,作者Jack Cui


今天,给大家介绍一个算法。

AI 算法 5 秒钟,就能克隆你的声音,你信吗?

听听这段音频,猜猜看是 AI 合成音,还是真人录音?

答案是:AI 合成。

这个人的原始声音在这里:

你给这个 AI 克隆声音的算法打几分?

上述两个音频,算法运行起来的效果:

录制一段音频,就可以根据输入的文字,5s 即可自动生成对应的合成音

突然有个大胆的想法,你说女朋友要是哪天突然不承认自己说过了某句话,我就给她造一份!

兄弟们,我做的对吗?

MockingBird

这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。

论文的名字是:

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下:

图片

算法分为三个模块:encoder模块、systhesis模块、vocoder模块。

  • encoder模块将说话人的声音转换成人声的数字编码(speaker embedding)

  • synthesis 模块将文本转换成梅尔频谱(mel-spectrogram)

  • vocoder模块将梅尔频谱(mel-spectrogram)转换成(波形)waveform

具体的算法原理,大家可以先看论文:

https://arxiv.org/pdf/1806.04558.pdf

今天主要聊聊,这个算法怎么玩。

项目地址:https://github.com/babysor/MockingBird

有深度学习基础的话,这个应该不难。

就是部署环境,分四步:

  • Anaconda 配置 Pytorch 开发环境

  • 根据项目 requirements.txt 安装第三方库依赖

  • 下载权重文件

  • 下载训练集,这个几十G,有点大

具体的配置方法,直接看这里:

https://github.com/babysor/MockingBird/blob/main/README-CN.md

环境搭建搞定后,就可以运行代码了。

有两种模式可以启动,Web 模式和工具箱模式。

在项目根目录运行:

python?web.py

即可开启 Web ,打开地址 http://localhost:8080 就能操作了。

图片

这个界面比较简陋,建议使用工具箱模式。

python?demo_toolbox.py?-d?<datasets_root>

datasets_root就是下载好的数据集的地址。

图片

Enjoy it!

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-18 11:11:49  更:2021-11-18 11:12:16 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:42:36-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码