IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 嵌入式 -> 启明云端分享|乐鑫ESP32-S3语音--文字转语音(TTS) -> 正文阅读

[嵌入式]启明云端分享|乐鑫ESP32-S3语音--文字转语音(TTS)

今天,我们来研究乐鑫的语音助手框架ESP-Skainet其中的中文语音合成的例程。

编译原例程

  1. 首先需要clone例程
git clone --recursive https://github.com/espressif/esp-skainet.git

该工程内部自带一个idf,是运行的最佳版本,不过你任然可以使用自己的idf。

  1. 进入例程中
cd  esp-skainet/examples/chinese_tts
  1. 理论上设置好了芯片型号为esp32s3后自动调用sdkconfig.defaults.esp32s3配置文件。
    但是实际上好像没有,所以这里加一个步骤确保能使用上默认配置。
cp sdkconfig.defaults.esp32s3 sdkconfig.defaults
  1. 设置芯片为esp32s3
idf.py set-target esp32s3
  1. 进入menuconfig
idf.py menuconfig

修改Audio Media Hal -> Audio Hardware board 改成ESP32-S3-Korvo-1

  1. 编译烧录程序
idf.py flash monitor -p /dev/ttyUSB0

运行原例程

运行后,可以看到如下打印

欢迎使用乐鑫语音合成
I (266) tts_parser: unicode:0x6b22 -> huan1
I (266) tts_parser: unicode:0x8fce -> ying2
I (276) tts_parser: unicode:0x4f7f -> shi3
I (276) tts_parser: unicode:0x7528 -> yong4
I (286) tts_parser: unicode:0x4e50 -> le4
I (286) tts_parser: unicode:0x946b -> xin1
I (296) tts_parser: unicode:0x8bed -> yu3
I (296) tts_parser: unicode:0x97f3 -> yin1
I (306) tts_parser: unicode:0x5408 -> he2
I (306) tts_parser: unicode:0x6210 -> cheng2

请输入短语:

简化原例程并分析

原例程大致分为两个功能,第一个功能是阅读“乐鑫语音合成”这句话,还有一个功能是朗读串口输入的文字。
第二部分经常会有bug,所以咱们简化例程,重心分析第一个功能。简化例程如下:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#include "freertos/FreeRTOS.h"
#include "freertos/task.h"
#include "esp_system.h"
#include "esp_tts.h"
#include "esp_tts_voice_xiaole.h"
#include "esp_board_init.h"

int app_main()
{

    ESP_ERROR_CHECK(esp_board_init(AUDIO_HAL_16K_SAMPLES, 1, 16));     // 初始化codec芯片,配置好采样率、声道数、采样大小
    esp_tts_voice_t *voice = (esp_tts_voice_t *)&esp_tts_voice_xiaole; // 配置tts的声音配置文件,来自libvoice_set_xiaole
    esp_tts_handle_t *tts_handle = esp_tts_create(voice);              // 创建tts对象
    char *prompt1 = "你好我是启明云端";                                // 需要转换的文字

    if (esp_tts_parse_chinese(tts_handle, prompt1)) // 文字解析成拼音
    {
        int len[1] = {0};
        do
        {
            short *pcm_data = esp_tts_stream_play(tts_handle, len, 3); // 拼音转换成pcm音频
            esp_audio_play(pcm_data, len[0] * 2, portMAX_DELAY);       //播放音频
        } while (len[0] > 0);
    }
    esp_tts_stream_reset(tts_handle); // 重置 tts 流并清除 TTS 实例的所有缓存

    return 0;
}



这里音频的tts来自静态库libvoice_set_xiaole中,目前也只有这一个音色可供使用,其余的tts相关函数则是属于静态库libesp_tts_chinese。

总结

tts过度封装化,一定程度上注定它的使用难度不高。但是依据已跑完的例程来看,音频任然有发音声音的问题,对于现在的一些成熟的tts方案,乐鑫的这个tts还有一定的差距,这个缺点可能导致无法应用于商业化项目中。项目中如果涉及到语音转文字的内容,一方面可以通过云平台的提供的API能力发送文字收取PCM音频来解决。另一方面如果是有限的词汇,也可以用语音拼接的方式,把相应的音频存到文件系统中,通过映射播放指定的内容并拼凑成一段完整的语句。例如:“支付宝收款”、“元”、“个”、“十”、“百”、“千”、“万”这几段文字的语音就基本可以通过拼凑音频达到支付宝语音播报功能。

作为Espressif(乐鑫科技)大中华区合作伙伴及sigmastar(厦门星宸)VAD合作伙伴,我们不仅用心整理了你在开发过程中可能会遇到的问题以及快速上手的简明教程供开发小伙伴参考。同时也用心整理了乐鑫及星宸科技的新产品、新方案的主要特点及应用!希望你能第一时间了解并快速用上好的方案和产品!
在这里插入图片描述
目前启明也推出了基于ESP32-S3的支持语音的开发板,可以关注我们CSDN相关技术信息!
在这里插入图片描述

  嵌入式 最新文章
基于高精度单片机开发红外测温仪方案
89C51单片机与DAC0832
基于51单片机宠物自动投料喂食器控制系统仿
《痞子衡嵌入式半月刊》 第 68 期
多思计组实验实验七 简单模型机实验
CSC7720
启明智显分享| ESP32学习笔记参考--PWM(脉冲
STM32初探
STM32 总结
【STM32】CubeMX例程四---定时器中断(附工
上一篇文章      下一篇文章      查看所有文章
加:2022-05-10 12:04:54  更:2022-05-10 12:05:13 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/18 16:02:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码