【RVC教程】 AI 实时变声器使用教程|AI降噪|音频跳线
我自己的配置是:
CPU:13700kf
内存:80G
显卡:RTX3080
以下是会用到的工具及软件(下载链接)
NVIDIA Broadcast(输入声音降噪)
/geforce/broadcasting/broadcast-app/
RVC语音转换(变声器)
GitHub项目开源地址:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
变声器框架:花儿不哭
Voicemeeter Potato(虚拟声卡)
/Voicemeeter/potato.htm
这里为了方便学习,我已经整理好了所有用到的软件
链接:https://pan.baidu.com/s/1QZp1thWs5AGwlV70rZ8Huw?pwd=59bg
完整图文教程在群里!!!
下载完这4个文件
这些先把这两个软件安装了(应该会让你重启电脑,如果没让你重启,也最好手动重启一下)
使用NVIDIA Broadcast降噪
然后打开NVIDIA Broadcast
把麦克风源改成你的输入设备
如果不知道哪个是输入设备,可以打开声音设置
看哪个有显示波形哪个就是输入设备
这个噪声消除是默认打开的,你也可以调节它的强度
使用RVC实时语音转换(变声器)
然后我们打开RVC
点击以后会弹出cmd以及前端
在使用过程中cmd和前端都不能关
加载模型
1.Hubert模型,在RVC-beta内,往下拉找到它
(提醒一下所有的模型文件库必须设置英文)
2.pth文件,(声音模型文件)
刚刚网盘下载的文件中有,请放在英文路径的模型文件夹中!!!
3.index文件,(声音特征索引文件)同上
4.npy文件,可以忽视,
音频设置
这样输入设置设置为nvidia broadcast的麦克风(因为这是nvidia broadcast降噪过的输出源)
然后我们在把输出设备调整为VoiceMeeter Input(这是Voicemeeter Potato安装后的跳线通道)
注:这里选择输入输出设备的时候注意看后面是否有带(MME),选择带(MME)的
参数设置(该参数部分参考:Abbott风)
1.响应阈值
尽量拉满-60,这里说一下,同时开多个ai处理软件,对显存要求比较高,尽量8gb以上,不然打游戏都会卡的。
在提醒一下RVC在运行时主要对CPU有一定的要求,CPU差的话它的延时(推理时间)就会很长
2.音调设置
男转女一般在 12,在这附近左右调整可以变粗或变细,选好之后就不要动了。
女转男一般在-12,
3.index rate
这东西左边是接近底模的音色,右边是接近模型的音色。如果调高不影响口齿,可以略微调高,一般0.3-0.5都是可以的。如果模型效果不理想尽量往左。
4.采样长度
尽量调低一些,只要不卡,0.3以上都可以。我一般就默认1.0
5.淡入淡出长度
可以理解为尾音的长短,小了声音清脆但容易断字,大了声音连贯但音色会糊。根据自己听感来。
6.额外推理时长
一般2种选择,当采样长度比较大的适合,可以保持采样长度一样的数值,但是说话会比较干,没什么拖音。
另外一种选择,可以考虑公式:采样长度 额外推理时长=2这个公式,一般效果效果还不错,说话连续性更强。
推理这个参数有点像压限器的释放时长,如果你想你的尾音拖的比较长就拉到1.5左右,如果想清爽点,吐字如机关枪,那就往低了拉,一般到采样长度左右就行。
7.输入降噪 输出降噪
下面的输入输出降噪建议不要开(影响变声效果,而且影响推理时间,所以这里用了nvidia broadcast的ai降噪)
使用Voicemeeter Potato(虚拟声卡)做音频跳线操作
然后打开Voicemeeter Potato
你可以把这些默认点亮的A1、B1关掉(划线的是要关的)
我们点右上角A1
我们可以看到这里有很多的输出设备,选择你要输出的设备就可以了
下面是整个声音源的转换流程图
下面是声音模型的训练教程
训练声音模型
打开文件夹里的这个程序
会自动打开cmd跳转到网页端(前端)
使用的时候cmd不要关
进来以后这样一个界面,我们点击“训练”
采样这边越高越好(不过要看你的训练素材,如果训练素材采样不好,再高也没有用)
这是你的CPU线程数一般默认最高就好了
用于声音训练的文件夹(这里是文件夹,就算只有一条用于训练的声音也要在音频文件的上层建立一个文件夹)
里面放好声音源
一般wav格式的声源最好,MP3也行(MP3格式的采样率不高,有wav格式优先wav格式)
这里可以鼠标右键复制文件地址
我一般就选择这个(13700kf无所畏惧)
这里我一般就这么设置
保存频率:默认是5,不过我一般设置20
总训练轮数:1000
不过这个训练轮数不是越高越好的,训练轮数多了会过拟合 反正就是模型效果会变差,
而且训练时间是真的慢,10分钟的训练音源(干净的人声)RTX3080跑1000轮要一个小时左右,
不过如果真的要炼一个非常好的声音,推荐音源都是在一个小时以上的(音源干净非常重要)
每张显卡的batch_size:这是调整训练时显存占用的,你调的越大训练的越快,不过重点就是看你的显卡了
像我RTX3080 10G 给20就跑满了,再高就会报错或无法训练
然后这个,我推荐打开“是”,
不开的话非常容易满硬盘(500轮就100G了)
然后我推荐把这个RVC软件放在固态里面的,可以加速训练时间
下面这两个是预训练的底模路径(大佬可以自行调整)
底模路径就在RVC文件夹里
打开可以看到预训练的底模
设置好这些就可以开始训练了
训练的时候它会帮你把完整的音频文件拆开(在logs文件夹里)
点你命名的那个模型名的文件夹
这两个文件夹里面是拆好的音频文件
然后 训练完后在你命名的模型名文件夹里,有这个added开头的文件,这是模型的声音特征索引文件
如果训练完没有的话可以点这个,重新训练一份声音特征索引(这个声音特征索引,训练几秒钟就好了)
看右下角输出信息,显示训练完成就好了
使用模型推理查看训练效果
然后可以去模型推理查看训练效果
选择你刚刚训练出来的模型
变调:男转女 12,女转男-12
然后选择你的原声录音,添加到待处理音频文件路径中(这里是音频文件,不是文件夹)
提取算法选择 harvest
点击这个index路径选择框,选择训练好的模型声音特征索引,这个声音特征索引要跟你训练出来的声音模型是匹配的,用不匹配的模型声音特征索引转换出来的声音会很奇怪
这边设置好以后转换就可以了,稍等一会右侧就会出现播放按钮
Amazon EC2 Instance 设置允许ping
Amazon EC2 的instance 默认是不允许ping 的,要想允许ping,在安全组按下面方法设置就可以了。站长网2023-04-07 10:03:150001PPT演示文稿设计技巧:如何利用“模块化思维”快速制作PPT页面
编按:本文主要跟大家分享了如何利用“模块化思维”快速制作PPT。在《用模块化思维排版内容超多的PPT页面》一文中,我们通过两个案例为大家分享了如何用“模块化思维”快速排版内容超多的PPT页面。今天,我们将更深入地聊聊,如何利用“模块化思维”快速制作PPT。步骤一:用参考线划分版面当我们打开PPT的时候,请先不要忙着动手制作,而是先利用参考线,将版面进行划分。站长网2023-07-29 11:00:120000SAP ERP系统SD模块常用增强之二:创建和修改交货单的检查校验
在SAP/ERP项目的实施中销售管理模块(SD)的创建和修改发货单(DN)经常会遇到检查校验的需求,来防止业务人员创建错误的DN,SAP系统这方面的配置功能也非常强大,通常情况下不需要写开发代码,通过配置可以实现大部分需求,但是在实际项目中还是会遇到一些特殊的需求,不能通过配置实现,需要进行增强开发。SAP系统这方面主要增强点有如下两点:增强点1:程序:MV50AFZ1子例程(FORM):站长网2023-07-27 09:37:180002大部分人不知道这11个渠道,能帮你找到所有想要的资源!
2023-06-2617:56·简道云我敢肯定,下面这11个资源聚合类网站,99%的人不知道!有了他们,再也不用到处去找资源了,直接一个网站搞定!第一类聚合搜索平台综合类聚合搜索平台——一个开始分为搜索引擎检索、设计素材检索和生活实用类检索,比如在设计中,把包括图片、设计元素、设计素材等等资源网站的搜索进行了一个网站的整合,让你避免在好几个网站切换。虫部落站长网2023-07-30 14:10:290000在ps中锐化工具的使用方法及锐化工具的用途?
在PS中,锐化工具位于工具栏中的模糊工具下方,它的图标是一个带有三角形的圆圈。使用锐化工具可以增强图像的清晰度和细节,使图像看起来更加锐利。使用锐化工具的方法如下:打开需要处理的图像。选择锐化工具。调整工具选项栏中的参数,包括笔刷大小、强度和阈值等。在需要锐化的区域上单击并拖动鼠标,直到达到期望的效果。锐化工具的用途包括:增强图像的清晰度和细节,使图像看起来更加锐利。站长网2023-07-27 16:42:050004