IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> PaddleSpeech 流式语音识别系统 PP-ASR -> 正文阅读

[人工智能]PaddleSpeech 流式语音识别系统 PP-ASR

(以下内容搬运自 PaddleSpeech)

PP-ASR

目录

1. 简介

PP-ASR 是一个 提供 ASR 功能的工具。其提供了多种中文和英文的模型,支持模型的训练,并且支持使用命令行的方式进行模型的推理。 PP-ASR 也支持流式模型的部署,以及个性化场景的部署。

2. 特点

语音识别的基本流程如下图所示:

PP-ASR 的主要特点如下:

  • 提供在中/英文开源数据集 aishell (中文),wenetspeech(中文),librispeech (英文)上的预训练模型。模型包含 deepspeech2 模型以及 conformer/transformer 模型。
  • 支持中/英文的模型训练功能。
  • 支持命令行方式的模型推理,可使用 paddlespeech asr --model xxx --input xxx.wav 方式调用各个预训练模型进行推理。
  • 支持流式 ASR 的服务部署,也支持输出时间戳。
  • 支持个性化场景的部署。

3. 使用教程

3.1 预训练模型

支持的预训练模型列表:released_model
其中效果较好的模型为 Ds2 Online Wenetspeech ASR0 Model 以及 Conformer Online Wenetspeech ASR1 Model。 两个模型都支持流式 ASR。
更多关于模型设计的部分,可以参考 AIStudio 教程:

3.2 模型训练

模型的训练的参考脚本存放在 examples 中,并按照 examples/数据集/模型 存放,数据集主要支持 aishell 和 librispeech,模型支持 deepspeech2 模型和 u2 (conformer/transformer) 模型。
具体的执行脚本的步骤记录在 run.sh 当中。具体可参考: asr1

3.3 模型推理

PP-ASR 支持在使用pip install paddlespeech后 使用命令行的方式来使用预训练模型进行推理。

具体支持的功能包括:

  • 对单条音频进行预测
  • 使用管道的方式对多条音频进行预测
  • 支持 RTF 的计算

具体的使用方式可以参考: speech_recognition

3.4 服务部署

PP-ASR 支持流式ASR的服务部署。支持 语音识别 + 标点处理两个功能同时使用。

server 的 demo: streaming_asr_server

image

网页上使用 asr server 的效果展示:streaming_asr_demo_video

关于服务部署方面的更多资料,可以参考 AIStudio 教程:

3.5 支持个性化场景部署

针对个性化场景部署,提供了特征提取(fbank) => 推理模型(打分库)=> TLG(WFST, token, lexion, grammer)的 C++ 程序。具体参考 speechx
如果想快速了解和使用,可以参考: custom_streaming_asr

关于支持个性化场景部署的更多资料,可以参考 AIStudio 教程:

4. 快速开始

关于如果使用 PP-ASR,可以看这里的 install,其中提供了 简单中等困难 三种安装方式。如果想体验 paddlespeech 的推理功能,可以用 简单 安装方式。


P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-10-31 11:56:46  更:2022-10-31 12:00:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 2:26:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计