清华大学团队推出RTFS-Net:革新视听语音分离,百万参数实现高效性能
**划重点:**
1. 🎙️ RTFS-Net是首个采用少于100万个参数的视听语音分离方法,通过压缩-重建策略显著减少计算复杂度。
2. 🌐 针对传统视听语音分离方法的问题,RTFS-Net创新性地解决了时域和时频域方法的挑战,提高了在复杂环境中的性能。
3. 🚀 在三个基准多模态语音分离数据集上,RTFS-Net在大幅降低模型参数和计算复杂度的同时,接近或超越了当前最先进的性能。
清华大学的胡晓林团队最近推出了一项创新性的视听语音分离方法,称为RTFS-Net。这一方法通过采用压缩-重建的策略,不仅实现了百万参数以下的视听语音分离,而且显著减少了计算复杂度,为音视频分离领域带来了新的视角。
传统的视听语音分离方法通常依赖于复杂的模型和大量的计算资源,尤其在嘈杂背景或多说话者场景下性能受到限制。RTFS-Net通过创新性地解决时域和时频域方法的挑战,突破了这些限制。时域方法提供高质量的音频分离效果,但计算复杂度高,而时频域方法虽然计算效率更高,却一直面临缺乏独立建模、未充分利用多个感受野的视觉线索和对复数特征处理不当等问题。
RTFS-Net的关键在于引入了RTFS块,该块通过双路径架构在时间和频率两个维度上对音频信号进行有效处理。具体来说,RTFS块首先进行时间和频率维度的压缩,然后在压缩后的维度上进行独立建模,最后通过融合模块将两个维度的信息合并。这一策略不仅减少了计算复杂度,还保持了对音频信号的高度敏感性和准确性。
此外,RTFS-Net还引入了跨维注意力融合(CAF)模块,有效融合音频和视觉信息,提高了语音分离效果。CAF模块采用深度和分组卷积操作生成注意力权重,动态调整输入特征的重要性,通过对视觉和听觉特征应用注意力权重,实现在多个维度上聚焦于关键信息。
最终,RTFS-Net的实验结果表明,在三个基准多模态语音分离数据集上,该方法在大幅降低模型参数和计算复杂度的同时,接近或超越了当前最先进的性能。通过不同数量的RTFS块的变体展示了在效率和性能之间的权衡,其中RTFS-Net-6在性能与效率方面取得了良好的平衡,而RTFS-Net-12在所有测试的数据集上表现最佳,证明了时频域方法在处理复杂音视频同步分离任务中的优势。
这一创新性的视听语音分离方法为提高AVSS性能提供了新的思路,不仅降低了计算复杂度和参数数量,而且在保持显著性能提升的同时,为音视频分离领域注入了更多创新和高效的架构。
论文地址:https://arxiv.org/abs/2309.17189
代码地址:https://github.com/spkgyk/RTFS-Net(即将发布)
小米组建AI实验室大模型团队:AI领域人员已超1200人
快科技5月24日消息,小米集团透露,4月正式组建了AI实验室大模型团队,目前AI领域相关人员超1200人;小米将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。据悉,栾剑是小米技术委员会AI实验室大模型团队负责人,向AI实验室主任王斌汇报。对于大模型,雷军表示,全力以赴坚决拥抱。雷军还透露正在研发一些有趣的技术和产品,等打磨好了再给大家展示”。站长网2023-05-24 21:23:190000报告显示:支付宝小程序数量超400万 去年GMV增长近50%
近日,在社科院发布的一份平台价值研究报告中显示了支付宝小程序最新数据:截至目前,支付宝小程序数量已经超过了400万,除了所涵盖的各行业服务更加丰富,支付宝小程序的交易规模也呈现出大幅增长:2022年在平台产生交易的商家小程序成交GMV较此前一年增长49.2%;此外,报告调研还发现,支付宝小程序作为商家数字化经营载体有显著的成本优势。0000魅族申请“魅GPT”“FlymeGPT”商标
天眼查App显示,近日,珠海市魅族科技有限公司申请“魅GPT”“FlymeGPT”商标,国际分类为科学仪器,当前商标状态均为申请中。该公司成立于2003年3月,法定代表人为沈子瑜,注册资本约3.81亿人民币,经营范围含移动终端设备制造、软件开发、移动终端设备销售、电子产品销售、人工智能基础资源与技术平台、家用电器研发等。站长网2023-07-08 16:23:080000TikTok测试一项AI歌曲创作功能“AI Song”
划重点:1.TikTok推出AISong功能,让用户通过文本提示创作歌曲,由AI“歌手”演唱。然而,初期反馈表明生成的歌曲并不像之前在平台上流行的AI歌曲那样引人注目。2.尽管一些用户已经开始尝试这一功能,但结果并不理想,许多歌曲音调不准,即使有自动调音功能。一些用户创作的歌曲出现了节奏不合理的情况。站长网2024-01-19 10:38:460001研究发现:四分之一听众无法分辨出AI深度伪造语音
概要:1.研究发现,人类只能在73%的时间内检测到深度伪造语音,无论是英语还是普通话的听众识别准确率都是一样的。2.研究人员预测,随着深度伪造技术的进步,深度伪造语音将变得更加逼真,更难以检测。3.自动检测器的改进对于减轻深度伪造内容的潜在威胁至关重要。伦敦大学学院的一项研究发现,人类在识别深度伪造语音方面的准确率仅为73%。站长网2023-08-07 10:08:460000