开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【Vocoder】HifiGAN -> 正文阅读

[人工智能]【Vocoder】HifiGAN

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

1. Introduction
2. Generator
3. Discriminator
4. Training Loss Terms
5. Experiments

官方code： hifigan
基于GAN的声码器提升了合成效率降低了memory，但是合成的音质还没有做到像自回归的声码器和基于glow的声码器那么好。本文提出了一种高效率高保真的声码器，由于语音音频由具有不同周期的正弦信号组成，本文证明了对音频的周期性模式进行建模对于提高样本质量至关重要。在效率方面，在Tesla V100 GPU上，生成22.05k采样率的高保真音频的实时率达到了167.9，a small foot print版本，在CPU比自回归的声码器实现了13.4倍的加速。效果方面，在单说话人语料上，MOS得分达到和真实音频相同，更近一步地探索了HiFi-GAN的泛化性。

1. Introduction

随着神经网络的发展，语音合成技术得到了快速发展。大部分语音合成模块应用了两阶段的pipeline。第一阶段：从文本建模低分辨率的中间表示，如mel特征，即声学模型；第二阶段：应用中间表达重建音频，即声码器。本文的工作承担的是第二阶段的任务，即声码器。
声码器的研究主要围绕着两个方面：提升音质和提升合成的效率。WaveNet 可以生成超过传统方法音质的音频，但是由于自回归结构，效率不高；基于Flow生成模型的声码器意在提升声码器的效率如Parallel WaveNet、WaveGlow 等工作。Generative adversarial networks (GANs)也被应用到语音合成中，如MelGAN能够实现CPU实时合成。但是音质与WaveNet和基于flow的声码器相比还有一定的差距。本文提出了HiFi-GAN，有着高推理效率以及与WaveNet音质持平的声码器。
由于语音音频由具有不同周期的正弦信号组成，因此对周期模式进行建模对于生成逼真的语音音频很重要。因此，本文提出了一个由小的子鉴别器组成的鉴别器，每个子鉴别器只获得原始波形的特定周期部分。这种架构是本周模型成功合成逼真语音音频的基础。为鉴别器提取音频的不同部分时，本文还设计了一个模块，该模块放置多个残差块，每个残差块并行观察各种时长部分，并将其应用于生成器。
HiFi-GAN在MOS分上超过了WaveNet 和WaveGlow。合成音频demo链接，官方开源code。

2. Generator

是个全卷积的网络，输入是mel谱，通过反卷积(transposed conv)上采样，直到长度与音频采样点长度match。每层反卷积层后面跟着一个Multi-Receptive Field Fusion模块，Multi-Receptive Field Fusion模块是一组感受野不同的卷积层，能够并行地观察不同长度上下文。每组卷积层，层与层之间有残差链接。Generator结构和Multi-Receptive Field Fusion模块结构如下图所示。
在这里插入图片描述