开源文本到语音系统WhisperSpeech 通过反向工程实现

站长网2024-01-22 11:58:090阅

WhisperSpeech是一个开源的文本到语音系统，其最大的亮点是通过对OpenAI的Whisper语音识别模型进行反向工程，实现了接收文本输入，并利用修改后的Whisper模型生成听起来自然的语音输出。WhisperSpeech的语音输出在发音准确性和自然度方面都非常出色。

体验地址:https://top.aibase.com/tool/whisper-speech

目前，WhisperSpeech模型是在英语LibreLight数据集上训练的，但下一个版本的目标是多种语言（Whisper和EnCodec都是多语言的）。系统还可以在单个句子中混合多种语言，并且增加了测试语音克隆的简便方法。

WhisperSpeech 项目路线图:

-声学标记提取:改进声学标记的提取过程。

-语义标记提取:使用Whisper模型生成和量化语义标记。

-S->A模型转换:开发将语义标记转换为声学标记的模型。

-T->S模型转换:实现从文本标记到语义标记的转换。

-提升EnCodec语音质量:优化EnCodec模型以提高语音合成质量。

-短句推理优化:改善系统处理短句的能力。

-扩展情感语音数据集:收集更大的情感语音数据。

-文档化LibriLight数据集:详细记录HuggingFace上的数据集。

-多语言语音收集:聚集社区资源，收集多种语言的语音。

-训练多语言模型:开发支持多语言的文本到语音模型。

开源文本到语音系统WhisperSpeech通过反向工程实现

0000

评论列表

共(0)条

相关推荐

站长资讯
智源发布FlagAttention算子集适配多种大模型训练芯片
为了满足大模型对计算资源的需求，智源研究院开发了FlagAttention项目，旨在构建一套适配多种芯片的大模型核心算子集合。该项目选择使用Triton作为开发语言，通过Triton的开放性和易用性，使得FlagAttention不仅支持NVIDIAGPU，还可以显著降低不同芯片之间模型适配的成本，提高大模型的训练与推理效率。
站长网2023-12-08 15:01:41
0001
站长资讯
苏宁易购618将于5月26日晚8点开启预售
今日，苏宁易购发布“618家电新底价计划”，全面开启2023年618大促。据了解，苏宁易购618将于5月26日晚8点开启预售，覆盖开门红、超级秒杀日、超级会员日、超级新品日、抢冰洗、家电省钱风暴、最终爆发期等多个双线促销节点。
站长网2023-05-24 16:46:34
0000
站长资讯
单月变现超千万的医美人新玩法：老板做网红，医生拼IP
“开局一张脸，想要什么自己捏。”随着大众医美观念的变化，曾经争议不断的整容，逐渐成了网红们的流量密码。靠着分享自己反复动脸的整容经历，“韩安冉Abby”让自己的热度更进一步，全网粉丝数超千万;“beaty汪静”则带着粉丝复刻起了自己的网红脸，准备打造一个“汪静帝国”，目前抖音粉丝数达92万。
站长网2024-11-30 10:42:16
0000
意大利制造商Piaggio推出AI驱动的工厂机器人可携带130公斤物品
划重点:-🤖Vespa制造商Piaggio推出了一款使用人工智能的工厂机器人，可自主移动在预设路线上，并可携带高达130公斤的物品。-🏍️该机器人将首先应用于意大利摩托车品牌MotoGuzzi的生产线，随后将在意大利、印度、越南和印度尼西亚的其他工厂中使用。
站长网站长资讯2024-03-12 17:20:00
0000
AI 智能体如何在教育领域崛起并塑造 2025 年
过去两年，人工智能（AI）一直是教育技术和创新讨论的焦点话题，而这种趋势预计将在可预见的未来继续延续。展望2025年的教育发展趋势，几位在2024年推动教育变革的重要创新者的一致观点是：AI智能体的崛起将成为未来教育的重要转折点。AI智能体的崛起
站长网站长资讯2024-12-28 11:06:26
0000