Amazon Transcribe新一代语音基础模型驱动的ASR系统,支持100多种语言
# 划重点
1. 🎙️ **多语言支持:** Amazon Transcribe推出的新一代语音基础模型涵盖100多种语言,提供全面的自动语音识别(ASR)服务。
2. 🚀 **性能提升:** 利用语音基础模型,Amazon Transcribe在大多数语言中实现20%至50%的显著准确度提升,尤其在电话语音等挑战性领域中提高了30%至70%的准确度。
3. 🌐 **全面功能:** 新ASR系统支持多种特性,包括自动标点、自定义词汇、自动语言识别、说话人分离等,提供更准确的输出并有效嵌入语音技术。
亚马逊宣布推出全新一代语音基础模型驱动的ASR系统,将自动语音识别服务扩展到支持100多种语言。Amazon Transcribe是一项完全托管的ASR服务,使您能够轻松地将语音转换为文本,并在应用程序中添加语音到文本的功能。
新的语音基础模型是通过最先进的自监督算法训练而成,以学习跨语言和口音的人类语音的固有普遍模式。它经过数百万小时的未标记音频数据的训练,涵盖100多种语言。通过智能数据采样优化训练配方,平衡了不同语言之间的训练数据,确保传统上代表性不足的语言也能达到高准确度水平。
图源备注:图片由AI生成,图片授权服务商Midjourney
软件公司Carbyne是开发云端紧急呼叫响应解决方案的代表,通过Amazon Transcribe实现AI驱动的实时音频翻译,改善了对那些在家中使用非英语的6800万美国人以及每年访问该国的多达7900万外国游客的紧急响应。借助新的多语言基础模型,Carbyne将更好地实现紧急服务的民主化,确保每个人都能受益。
通过利用语音基础模型,Amazon Transcribe在大多数语言中实现了20%至50%的显著准确度提升。在电话语音等具有挑战性和数据稀缺领域,准确度提高了30%至70%。除了显著的准确度提升外,这一大型ASR模型还通过更准确的标点和大写提高了可读性。随着生成式AI的发展,成千上万的企业正在使用Amazon Transcribe从其音频内容中解锁丰富的见解。
新ASR系统提供了许多关键功能,涵盖100多种语言,包括使用方便、定制化、用户安全和隐私。这些功能包括自动标点、自定义词汇、自动语言识别、说话人分离、单词级置信度分数和自定义词汇过滤器。系统对不同口音、噪音环境和声学条件的支持扩展,使您能够产生更准确的输出,并有效地嵌入语音技术到您的应用程序中。
由于Amazon Transcribe在不同口音和噪音条件下的高准确性,支持多种语言,以及广泛的增值功能集,成千上万的企业将能够从其音频内容中解锁丰富的见解,提高其音频和视频内容在各个领域的可访问性和可发现性。例如,联系中心使用Amazon Transcribe转录和分析客户呼叫,以识别见解并随后提高客户体验和代理效率。内容制作者和媒体分销商使用Amazon Transcribe自动生成字幕,以提高内容的可访问性。
开始使用Amazon Transcribe非常简单,您可以使用AWS命令行界面(AWS CLI)、AWS管理控制台和各种AWS SDK进行批量转录,并继续使用相同的StartTranscriptionJob API从增强的ASR模型中获得性能优势,而无需在您的端口进行任何代码或参数更改。上传媒体文件到Amazon Simple Storage Service(Amazon S3)存储桶是第一步,该对象存储服务可从任何地方存储和检索任意量的数据。您可以选择将转录保存在自己的S3存储桶中,或者让Amazon Transcribe使用安全的默认存储桶。
Amazon Transcribe使用JSON表示其输出,提供两种不同的格式:文本格式和分项格式。根据创建转录作业时选择的功能,Amazon Transcribe创建转录结果的其他和丰富的视图。
在AWS的不断创新下,通过将Amazon Transcribe的语言支持扩展到100多种语言,我们使客户能够为来自不同语言背景的用户提供服务。这不仅提高了可访问性,还在全球范围内开辟了新的沟通和信息交流途径。要了解本文讨论的功能的更多信息,请查看功能页面和新功能帖子。
百度“萝卜快跑”获准在京开展大兴机场自动驾驶载人示范应用
百度旗下的自动驾驶服务品牌“萝卜快跑”最近宣布,他们首批获准在北京大兴机场高速和部分区域进行自动驾驶车辆载人示范应用。这意味着北京成为全球首个开展城区至机场自动驾驶载人示范应用的首都城市。这一举措表明“萝卜快跑”自动驾驶服务场景得到进一步扩展,未来将实现城区道路到机场高速的自动驾驶贯通运行,让用户能够享受无需换乘一站直达的便利。站长网2024-02-23 14:16:2200002023年AI如何重塑品牌营销?7位行业大咖分享了11个“年度案例”
2023年,被全球咨询巨头麦肯锡称为“生成式AI的爆发之年”。这一年里,AIGC技术快速发展,越来越多的AI工具如雨后春笋般涌现,使得AI在各行各业的深度应用成为可能。尤其在品牌营销领域,突然之间,每个普通人的生活中充斥着AI创作的广告,甚至在消费者看不见的背后,品牌们也在积极探索AI技术与生意的接口。0004微软宣布 Windows Copilot:Windows 11 的人工智能个人助手
微软正在为Windows11增加一个名为Copilot的AI助手。就像我们在Edge、Office应用程序甚至GitHub中看到的Copilot侧边栏一样,WindowsCopilot将直接集成到Windows11中,并可在任务栏中打开和使用,适用于所有应用。站长网2023-05-24 08:49:210000AI视野:图文混合创作大模型浦语灵笔发布;微软GitHub Copilot每个用户倒赔20美元;AI天才杨植麟交卷大模型产品Kimi Chat;ChatGPT 移动应用9月收入创纪录
🤖📈💻💡大模型动态AI天才杨植麟交卷大模型产品KimiChat支持20万字长文本清华AI杨植麟创业公司MoonshotAI发布KimiChat,支持20万字长文本,解决大模型上下文窗口长度问题,旨在打造C端SuperApp。目前Claude支持最大长文本为100k(约8万字),而GPT-4则是32k(约2.5万字)。20万字,分别是它们的2.5倍和8倍。站长网2023-10-10 16:35:110002iPhone 16系列4款机型曝光:屏幕尺寸、重量变了
快科技9月30日消息,据爆料,iPhone16系列也是4款机型,分别是iPhone16、iPhone16Plus、iPhone16Pro和iPhone16ProMax。对比iPhone15系列,iPhone16系列屏幕尺寸、重量有所变化。其中iPhone16和iPhone16Plus屏幕尺寸跟上一代保持不变,重量增加了约2g,分别是6.1英寸、173g和6.7英寸、203g。站长网2023-09-30 09:05:230000