首页站长资讯Hugging Face研究人员推语音识别模型Distil-Whisper 速度提高、参数减少

Hugging Face研究人员推语音识别模型Distil-Whisper 速度提高、参数减少

站长网2023-11-09 14:53:080阅

划重点:

⦁ Hugging Face研究人员利用伪标记创建了一个庞大的开源数据集，用于提炼Whisper模型的较小版本，称为Distil-Whisper。

⦁ Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性，同时减轻了长篇音频中的错觉错误。

⦁ 自动语音识别（ASR）系统已达到人类水平的准确度，但由于预训练模型的不断增大，在资源受限的环境中面临挑战。

Hugging Face研究人员最近解决了在资源受限环境中部署大型预训练语音识别模型的问题。他们通过创建一个庞大的开源数据集，使用伪标记的方法，提炼出了Whisper模型的较小版本，称为Distil-Whisper。

图源备注：图片由AI生成，图片授权服务商Midjourney

Whisper语音识别变压器模型是在68万小时的嘈杂互联网语音数据上进行了预训练。它包括基于变压器的编码器和解码器组件，在零调优的情况下取得了竞争激烈的结果。而Distil-Whisper是通过使用伪标记进行知识提炼得到的紧凑版本。

Distil-Whisper在挑战性的声学条件下保持了Whisper模型的韧性，同时减轻了长篇音频中的错觉错误。这项研究引入了一种针对语音数据的大规模伪标记方法，这是一个尚未充分开发但颇具前景的知识提炼途径。

自动语音识别（ASR）系统已经达到了人类水平的准确度，但由于预训练模型的不断增大，在资源受限的环境中面临挑战。Whisper作为一个大型预训练ASR模型，在各种数据集上表现出色，但在低延迟部署方面可能更实用。而知识提炼在压缩自然语言处理变压器模型方面已经得到了有效应用，但在语音识别中的运用尚未得到充分探讨。

与原始 Whisper 模型相比，源自知识蒸馏的 Distil-Whisper 显着提高了速度并减少了参数，同时在具有挑战性的声学条件下保持了弹性。它的加速速度提高了5.8倍，参数减少了51%，在零样本场景下的分布外测试数据上实现了不到1% 的 WER。distil-medium.en 模型的 WER 稍高，但直接推理能力提高了6.8倍，模型压缩率提高了75%。Whisper 模型在长格式音频转录中容易出现幻觉错误，而 Distil-Whisper 可以减轻这些错误，同时保持有竞争力的 WER 性能。

Distil-Whisper 是通过知识蒸馏实现的 Whisper 模型的紧凑变体。这种创新方法在速度和参数减少方面产生了显着的好处，与原始 Whisper 模型相比，Distil-Whisper 速度更快，参数更少。尽管 WER 稍高，但 distil-medium.en 模型提供了更直接的推理和实质性的模型压缩。

项目网址:https://github.com/huggingface/distil-whisper

HuggingFace研究人员推语音识别模型DistilWhisper速度提高参数减少

0000

评论列表

共(0)条

相关推荐

站长资讯
中国电信与科大讯飞合作将在多模态大模型等领域展开技术研发
据科创板日报消息，中国电信与科大讯飞签署了战略合作协议。双方此次合作旨在进一步探索5G、人工智能、云计算等新一代信息技术的创新应用与发展。未来，双方将在多模态大模型、智算网络、云计算、人工智能应用、泛智能终端等领域展开技术研发和业务合作，共同打造具有国际竞争力的重点产品和服务。
站长网2023-08-09 10:55:26
0000
站长资讯
研究称：澳大利亚在AI监管中处于落后地位
🔍划重点:-澳大利亚在AI领域的资金和监管方面被认为滞后，尤其在美国发布AI监管行政命令后，专家发出了警告。-澳大利亚政府虽然签署了布莱切利宣言，但尚未宣布对AI安全调查的回应，导致专家担心澳大利亚可能被抛在国际竞争之后。-尽管已收到超过500份关于AI的建议意见，但政府在资金支持和监管细节上的不足表明澳大利亚需要采取更积极的措施来保障AI的安全发展。
站长网2023-11-07 14:29:10
0004
站长资讯
跨端智联！Redmi Watch 4官宣搭载小米澎湃OS
小米将于11月29日19点发布RedmiWatch4智能手表，这款手表具有大屏、高亮度、低功耗、长续航等特点。除此之外，RedmiWatch4还将搭载全新的小米澎湃OS，支持手表跨端智联，让用户可以一手掌控更多智能设备。据此前消息，RedmiWatch4将搭载1.97寸AMOLED方屏，支持600nit最高亮度、LTPS低功耗显示，视觉四等边设计，续航长达20天。
站长网2023-11-28 18:25:43
0000
站长资讯
小红书几天就搓出的翻译功能，把网友们干震惊了
算农历的话，今年忙到最晚的公司，是小红书。算阳历呢，今年最早开始忙的公司，还是小红书。事嘛大家都知道了。因为TikTok将在美国被禁止，从13号开始，有大量“TikTok难民”注册小红书。一场中外文化交流大典，就突然在甲辰龙年的最后一个月上演了。没有预告，没有彩排，但这种文化差异的碰撞下，却没有一点点的不和谐。双方都小心翼翼和世界另一头的居民对话，互相感受人性善良，世界美好。
站长网2025-01-21 14:29:51
0000
站长资讯
2024 QS排名发布：计算机MIT霸榜，清华11，北大15
2024QS世界大学学科排名出炉了!在计算机科学专业排名中，MIT、卡内基梅隆大学、斯坦福大学占领了世界前三席，中国大陆有8所高校进入百强，清华大学排名最高，并列第11。2024QS世界大学学科排名来了!总体和23年变化不大。根据官网信息，2024QS世界大学学科排名涵盖了55个细分学科和5大学术领域。
站长网2024-04-18 21:55:49
0000