- 2024-11-04
-
回复了主题帖:
【2024 DigiKey 创意大赛】-
因为这段时间有别的事情要忙,没有对7月份报名的这个得捷比赛有很高的完成度,但是这段时间对语音合成感兴趣,用VITS语音合成库做了一些有意思的东西,并且由于VITS库目前只有Python代码,还顺带简单了解了下Python的一些机制以及学习如何将Python代码和C++工程相结合,也就是在C++ makefile工程里直接调用Python的工程。目前我在网上找到的容易入门且实用的VITS语音合成库是出自CjangCjengh这位B站UP主在github分享的MoeGoe应用代码库,以及,功能多样,代码使用Python搭建,可支持Windows和Linux多平台部署,所以可以部署在树莓派等ARM aarch64架构的单板计算机上面。如图所示:
左上角为MoeGoe源码,第二行第二列的MoeGoe_GUI是基于MoeGoe应用源码的C#上位机,可以直接在Windows上运行,这个上位机清楚演示了MoeGoe源码的基本功能,如选择VITS AI语音模型,语音配置,说话人语气配置,生成的mp3文件的存放目录等,比如我这里选择的是《碧蓝档案》手游天童爱丽丝的AI语音模型,以及(《赛马娘》手游日文名:ウマ娘)的草上飞语气:
Windows的部署和运行,UP主已经做好,要做的就是在报名参赛的物料树莓派5B单板计算机上部署,将源码拷到树莓派5B上:
需要留意树莓派最新版本镜像所选的Python版本,这是跟后续安装的wheel支持库紧密相关的,如图,这是3.11.2版本:
修改Python代码,将AI模型文件等参数以函数形参的方式传入,这样的话,给外部的C++工程调用就可以直接传参指定参数了:
Python是脚本语言,不需要编译,直接运行即可:
Python3 MoeGoe.py
在运行过程中需要安装非常多的支持库,Python可支持在线安装和离线安装,离线安装wheel文件的方式和在线安装是一样的,都是通过
pip3 install
指令进行:
并且由于树莓派环境的特殊性,安装的时候需要加入参数--break-system-packages来打破系统限制,不然装不了外部wheel文件:
pip3 install scipy --break-system-packages
pip3 install torch --break-system-packages
运行时指定输入的普通话语音(当然也支持日语),即可生成mp3文件,不过受限于树莓派5B的CPU和RAM限制,无法生成太长的语音,会中途闪退结束程序。
下面分享一下在C++工程中调用Python代码的方式:
void Python_Local_VITS_API(string str)
{
str = "\"[ZH]" + str + "[ZH]\"";
str = removeNewlines(str);
printf("str = %s.\n" , str.c_str());
Py_Initialize();
if (!Py_IsInitialized())
{
printf("ERROR:C++ Python API init fail.\n");
}
PyRun_SimpleString("import sys");
PyRun_SimpleString("sys.path.append('/home/MoeGoe-3.0.1/')");
PyObject *pModule = PyImport_ImportModule("MoeGoe");
if (pModule == NULL)
{
printf("ERROR:MoeGoe.py loaded failed!\n");
}
PyObject *pFunc = PyObject_GetAttrString(pModule , "moegoe_main");
if (!PyCallable_Check(pFunc))
{
printf("ERROR:Python fun moegoe_main load failed.\n");
}
PyObject* args = PyTuple_New(4);
PyTuple_SetItem(args , 0 , Py_BuildValue("s" , "/home/voice_model/alice.pth"));
PyTuple_SetItem(args , 1 , Py_BuildValue("s" , str.c_str()));
PyTuple_SetItem(args , 2 , Py_BuildValue("i" , 1));
PyTuple_SetItem(args , 3 , Py_BuildValue("s" , "/home/1.wav"));
if (!PyCallable_Check(pFunc))
{
printf("ERROR:Python fun args load failed.\n");
}
PyObject* ret = PyObject_CallObject(pFunc , args);
// PyArg_Parse(ret , "i" , &result);
// printf("result = %d.\n" , result);
printf("After PyObject_CallObject.\n");
Py_DECREF(pFunc);
Py_DECREF(pModule);
Py_Finalize();
printf("After Py_Finalize.\n");
}
Py_Initialize()和Py_Finalize()是搭建和解散Python运行环境的操作,PyImport_ImportModule()是加载py文件,也就是可以使用py文件里面的函数进行操作, PyTuple_SetItem()用于设置参数,s代表字符串,i代表整数,PyObject_CallObject()运行函数,可带参可无参,第二个参数填NULL就是无参,将函数运行之后,生成语音文件保存在本地目录/home/1.wav:
使用本地语音合成功能有两个好处,第一是语音生成的时间短,第二是可以很方便的合成各种数据检测数据,比如:
[localvideo]6cd6dff533f0412993606e56267b1f19[/localvideo]
这次比赛申请的雷达传感器物料没怎么研究,就接了个串口线跑了下:
非常平平无奇,但是非常好用。
- 2024-10-31
-
发表了主题帖:
【2024 DigiKey 创意大赛】-
打个草稿
- 2024-09-03
-
发表了主题帖:
【2024 DigiKey 创意大赛】物料开箱
在比赛中下单的树莓派5 8G、IPS25XX编码器、雷达模块收到了一段时间,因为忙于别的事情没法物料开箱,现分享,树莓派5 8G插卡通电测试无任何问题
另外得捷还送了好看的贴纸,非常好贴纸,使我树莓派风扇宣传
- 2024-06-16
-
发表了主题帖:
【2023 DigiKey大赛参与奖】开箱帖,晒照树莓派5 4G内存版本
- 2024-02-03
-
回复了主题帖:
基于STM32H747Disco和百度语音云的语音识别智能聊天机器人和信号采集系统
常见泽1 发表于 2024-1-31 15:09
STM32H7只负责显示吗 大佬
是的啊,本来想用来做网口控制的,启用网口需要改PCB电阻焊点,不舍得动烙铁,毕竟是好板,早知道买树莓派来做一步到位。