开源文本到语音系统WhisperSpeech 通过反向工程实现
站长网2024-01-22 11:58:090阅
WhisperSpeech是一个开源的文本到语音系统,其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程,实现了接收文本输入,并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。
体验地址:https://top.aibase.com/tool/whisper-speech
目前,WhisperSpeech模型是在英语LibreLight数据集上训练的,但下一个版本的目标是多种语言(Whisper和EnCodec都是多语言的)。系统还可以在单个句子中混合多种语言,并且增加了测试语音克隆的简便方法。
WhisperSpeech 项目路线图:
-声学标记提取:改进声学标记的提取过程。
-语义标记提取:使用Whisper模型生成和量化语义标记。
-S->A模型转换:开发将语义标记转换为声学标记的模型。
-T->S模型转换:实现从文本标记到语义标记的转换。
-提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。
-短句推理优化:改善系统处理短句的能力。
-扩展情感语音数据集:收集更大的情感语音数据。
-文档化LibriLight数据集:详细记录HuggingFace上的数据集。
-多语言语音收集:聚集社区资源,收集多种语言的语音。
-训练多语言模型:开发支持多语言的文本到语音模型。
0000
评论列表
共(0)条相关推荐
深入解析SDXL潜在空间以及如何改善其生成图像的方法
要点:SDXL潜在空间包括4个通道,分别是亮度、青/红、绿/紫、图案/结构。SDXL生成的颜色范围偏向黄色,原因是模型在生成过程中更偏向认知中的亮度、青/红、绿/紫,而相对较少使用蓝色。通过实验性地探索SDXL潜在空间,作者提出了一些纠正SDXL输出的方法,包括去除异常值、平衡颜色、增加颜色范围等。站长网2023-11-24 11:32:320002我在国庆靠“替人买单”赚钱,8天流水十几万
国庆假期结束,有人在这个假期追求诗和远方,有人抓紧闲暇搞钱。“不想出去看人山人海,有什么副业可以搞吗?”中秋国庆双节到来之前,爱搞钱的年轻人就提问了。站长网2023-10-08 17:17:580000抖音:将严格处置使用群控工具等发布违规内容且互相引流行为
今日,抖音发布了《关于发布矩阵号不当行为治理规则的公告》,并将于2023年12月1日正式发布实施。抖音称,发现有黑灰产组织以多账号(团伙)形式,有组织的发布大量低质量、同质化甚至违法违规内容且互相引流,并试图逃避平台管理与处罚,不当获利,伤害用户体验,扰乱社区秩序。站长网2023-11-30 11:35:27000130余名ChatGPT训练派遣工遭解雇 因训练效果未及预期
3月份,30余名帮助培训爆火聊天机器人ChatGPT背后语言模型的派遣工被解雇,Slack内部聊天截图显示,总部位于旧金山的外包公司InvisibleTechnologies解雇了31名派遣工。InvisibleTechnologies公司负责提高模型的编码技能,增强创造性写作能力,或者训练模型拒绝对某些话题做出响应。站长网2023-04-24 11:38:000000OpenAI科学家最新演讲:GPT-4即将超越拐点,1000倍性能必定涌现!
【新智元导读】GPT-4参数规模扩大1000倍,如何实现?OpenAI科学家最新演讲,从第一性原理出发,探讨了2023年大模型发展现状。「GPT-4即将超越拐点,并且性能实现显著跳跃」。这是OpenAI科学家HyungWonChung在近来的演讲中,对大模型参数规模扩大能力飙升得出的论断。站长网2023-10-11 19:16:240000