微软推出语音合成模型NaturalSpeech 2 只需几秒提示语音即可定制语音
站长网2023-07-27 14:22:090阅
微软 AI 团队推出 NaturalSpeech2,一款采用潜在扩散模型的先进文本到语音系统,具备强大的零样本语音合成和增强表达力的韵律功能。该系统可用于语音合成和唱歌合成,为用户提供高质量、多样化的语音合成体验。
NaturalSpeech2是一种 TTS 系统,通过潜在扩散模型生成富有表达力的韵律、良好的韧性,并且最关键的是具备强大的零样本能力,能够进行语音合成。
项目地址:https://speechresearch.github.io/naturalspeech2/
与传统的 TTS 系统不同,NaturalSpeech2使用连续向量而不是离散的标记来表示语音,从而提供了更准确的语音重构。
NaturalSpeech2通过使用大规模数据集进行训练,展示了其在零样本情况下生成具有不同说话人身份、韵律和风格(如唱歌)的语音的能力。
实验结果表明,NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律更加相似,并且在 LibriTTS 和 VCTK 测试集上的自然度(以 CMOS 为度量)与真实语音相当或更好。
它还可以通过一个简短的唱歌提示或仅有的语音提示来生成具有新音色的唱歌声,实现了真正的零样本唱歌合成。
0000
评论列表
共(0)条相关推荐
美国迫使沙特基金退出Altman支持的人工智能芯片初创公司
##划重点:🧠**人工智能芯片初创公司退出:**美国政府迫使沙特阿美支持的风险投资公司在硅谷的人工智能芯片初创公司RainNeuromorphics出售其股份,该公司由OpenAI联合创始人SamAltman支持。🌐**国家安全关切:**Altman支持的RainNeuromorphics筹集了2022年的2500万美元,站长网2023-12-01 14:41:000000谷歌因隐私问题被迫推迟 Bard 聊天机器人在欧盟的发布
谷歌在欧盟推出其人工智能聊天机器人Bard的计划不得不推迟,因为该机器人的主要数据监管机构对隐私问题提出了担忧。爱尔兰数据保护委员会周二表示,这家科技巨头迄今为止提供的有关其生成人工智能工具如何保护欧洲人隐私的信息不足以证明其在欧盟的推出是合法的。根据欧盟通用数据保护条例(GDPR),这家总部位于都柏林的机构是谷歌在欧洲的主要数据监管机构。站长网2023-06-14 13:54:270000消息称苹果正招募新软件工程师 涉及生成式 AI 等领域
据报道,苹果正在积极招聘新的软件工程师,要求其在生成式AI和混合现实领域都有一定经验。在近期更新的招聘页面中,苹果明确要求招聘熟悉“对话和生成式AI”开发的人员,并表示将借助生成式AI的力量,加速为头戴设备创建AR/VR应用程序。据了解,在苹果之前已有87个职位与“人工智能”有关,其中超过1/3是在本月新设的,其中48个是在2023年3月新设的,其中超过一半是新开发的职位。站长网2023-06-03 10:46:230000科大讯飞:讯飞星火大模型数学能力方面结果优于ChatGPT
近日,科大讯飞表示,根据系统、科学的评测体系结果,讯飞星火认知大模型数学能力方面结果优于ChatGPT,针对大模型普遍存在的问题,星火大模型有明确的升级迭代里程碑计划,6月9日,星火大模型的数学能力还会再上一个新的台阶。站长网2023-05-26 08:46:490000图片质量媲美Midjourney、SDXL?PixArt训练成本减少90%
要点:PixArt-α是一款基于Transformer的文本到图像生成模型,具有竞争力的图像生成质量,且训练成本明显低于现有大规模文本到图像模型。PixArt-α采用了三项核心设计:训练策略分解,高效的T2ITransformer,以及使用高信息密度的数据进行训练,从而实现高分辨率图像合成,并在训练成本上取得显著节约。站长网2023-11-10 11:22:340004