Meta发布全新AI翻译大模型,实时语音转换不超2秒
要点:
Meta发布了全新的AI翻译大模型,实现实时语音转换延迟不超过2秒,支持多种语言翻译,并具备模仿语气、语速、情感等特征的能力。
发布的翻译模型系列名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个模型已经开源。
为确保翻译准确性和避免滥用,Meta采用了毒性缓解技术,在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词,同时为音频添加了水印以追踪来源。
Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得AI翻译更富有表现力。
地址:https://ai.meta.com/blog/seamless-communication/
在技术架构方面,Meta采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了UnitY2等新架构来增强语音生成能力。
为了解决翻译准确性的问题,Meta引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。
为了防止滥用风险,Meta还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。
总体而言,Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。
Magika:基于AI支持的文件类型检测工具,依靠深度学习提供准确的检测
划重点:1.🔒高效精准:Magika采用定制、高度优化的Keras模型,仅约1MB大小,能够在毫秒内精准识别文件类型,即使在单个CPU上运行也能取得显著提升。2.🚀出色性能:通过在超过100个内容类型的100万多个文件上进行评估,Magika实现了99%以上的精准度,远超其他同类工具,为Gmail、Drive和SafeBrowsing等应用提供了关键的文件安全检测。站长网2024-02-29 16:35:060000Semafor记者将利用人工智能来策划新闻
Semafor希望通过让记者使用定制的人工智能搜索工具来策划更多新闻,使其主页更有价值。Semafor编辑BenSmith于2023年4月10日在纽约市举行了Semafor媒体峰会上的发表演讲。在网络上构建新闻产品再次成为热潮,随着社交流量下降和搜索引擎调整,出版商们开始重新关注他们的网站作为目的地。站长网2024-02-06 09:36:250000联合国警告:不受监管的AI芯片植入神经技术威胁“思想自由”
联合国建议不要使用不受监管的人工智能芯片植入神经技术,称这对人们的心理隐私构成严重风险。联合国表示,不受监管的神经技术可能会带来有害的长期风险,例如影响年轻人的思维方式或获取私人思想和情感。联合国明确指出其关注重点在于“未受监管的神经技术”,未提及在五月份获得FDA批准进行人类试验的Neuralink。站长网2023-07-18 16:35:040000新西兰媒体公司Stuff禁止OpenAI爬取数据训练ChatGPT
文章概要:1.媒体公司Stuff采取行动,禁止人工智能引擎如ChatGPT使用其新闻内容来学习回答问题和生成内容。2.Stuff首席执行官LauraMaxwell表示,越来越多的新闻机构已封锁OpenAI旗下的ChatGPT,不允许其软件“爬取”信息。3.主要目标是说服OpenAI支付许可费以使用他们的信息。站长网2023-09-11 18:16:390001大数据公司Lucidworks研究发现 93%公司计划增加对AI的投资
大数据应用搜索提供商LucidworksInc.今天发布了一项生成式人工智能研究的结果,证实了我们现在都已经感觉到的:93%的公司计划在未来12个月内增加对AI的投资。站长网2023-08-11 15:55:360000