PP-ASR

1. 简介

PP-ASR 是一个提供 ASR 功能的工具。其提供了多种中文和英文的模型，支持模型的训练，并且支持使用命令行的方式进行模型的推理。 PP-ASR 也支持流式模型的部署，以及个性化场景的部署。

2. 特点

语音识别的基本流程如下图所示：

PP-ASR 的主要特点如下：

提供在中/英文开源数据集 aishell （中文），wenetspeech（中文），librispeech （英文）上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。
支持中/英文的模型训练功能。
支持命令行方式的模型推理，可使用 paddlespeech asr --model xxx --input xxx.wav 方式调用各个预训练模型进行推理。
支持流式 ASR 的服务部署，也支持输出时间戳。
支持个性化场景的部署。

3. 使用教程

3.1 预训练模型

支持的预训练模型列表：released_model。
其中效果较好的模型为 Ds2 Online Wenetspeech ASR0 Model 以及 Conformer Online Wenetspeech ASR1 Model。两个模型都支持流式 ASR。
更多关于模型设计的部分，可以参考 AIStudio 教程：

3.2 模型训练

模型的训练的参考脚本存放在 examples 中，并按照 examples/数据集/模型 存放，数据集主要支持 aishell 和 librispeech，模型支持 deepspeech2 模型和 u2 (conformer/transformer) 模型。
具体的执行脚本的步骤记录在 run.sh 当中。具体可参考： asr1

3.3 模型推理

PP-ASR 支持在使用pip install paddlespeech后使用命令行的方式来使用预训练模型进行推理。

具体支持的功能包括：

对单条音频进行预测
使用管道的方式对多条音频进行预测
支持 RTF 的计算

具体的使用方式可以参考： speech_recognition

3.4 服务部署

PP-ASR 支持流式ASR的服务部署。支持语音识别 + 标点处理两个功能同时使用。

server 的 demo： streaming_asr_server

网页上使用 asr server 的效果展示：streaming_asr_demo_video

关于服务部署方面的更多资料，可以参考 AIStudio 教程：

3.5 支持个性化场景部署

针对个性化场景部署，提供了特征提取（fbank） => 推理模型（打分库）=> TLG（WFST， token, lexion, grammer）的 C++ 程序。具体参考 speechx。
如果想快速了解和使用，可以参考： custom_streaming_asr

关于支持个性化场景部署的更多资料，可以参考 AIStudio 教程：

定制化识别

4. 快速开始

关于如果使用 PP-ASR，可以看这里的 install，其中提供了简单、中等、困难三种安装方式。如果想体验 paddlespeech 的推理功能，可以用简单安装方式。

P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。