上海AI实验室、Meta联合开发开源模型 可为人体生成3D空间音频
要点:
上海AI实验室和Meta联合开发的开源模型能够为人体生成3D空间音频,实现身临其境的3D音场效果。
该模型利用头戴式麦克风的音频信号和人体姿态作为输入,通过多模态融合模式解决音源位置未知、麦克风距离音源较远等技术难题。
尽管取得了在3D空间音频生成方面的技术突破,但目前仅适用于渲染人体音,难以处理非自由音场传播环境,计算量较大难以部署到资源受限的设备上。
近期上海AI实验室与Meta合作推出的开源模型标志着在3D空间音频领域迈出的一大步。该模型通过处理头戴式麦克风的输入音频信号和分析人体姿态关键点,成功地实现了为人体生成3D空间音频的目标。这一技术突破为虚拟环境的沉浸感和临场感提供了关键支持,弥补了目前学术界和企业在听觉方面的疏漏。
然而,从技术层面看,开发这样的3D空间音频模型并非易事。文章指出,面临着三大技术难题,其中包括音源位置未知、麦克风距离音源较远等挑战。为了解决这些问题,研究人员创新性地构建了多模态融合模式,并引入了身体姿态信息,从而成功消除了声源位置的歧义,实现了正确的空间音频生成。
具体而言,模型包括音频编码器、人体姿态编码器和音频解码器等模块。音频编码器处理头戴式麦克风的输入音频信号,通过时间平移对齐不同身体部位的音源位置,最终得到包含各个可能音源位置信息的音频特征表达。人体姿态编码器则分析人体姿态关键点,生成姿态特征表达,为正确生成三维空间音频提供了重要的提示。
项目地址:https://github.com/facebookresearch/SoundingBodies
尽管该模型在技术上取得了显著进展,成功实现了身临其境的3D音场效果,但研究人员也指出了其局限性。目前,该模型仅适用于渲染人体音,难以处理非自由音场传播环境,且计算量较大,难以在资源受限的消费类设备上部署。这一点对于模型的实际应用和推广提出了一定挑战。
综合而言,上海AI实验室和Meta联合开发的这一开源模型为人体生成3D空间音频开辟了新的可能性,为虚拟现实领域的发展贡献了有力的技术支持。然而,未来仍需进一步优化和拓展,以满足更广泛的应用场景和设备要求。
100万人在TikTok上追更“蜜蜂版《权力的游戏》”
点开视频之前我从未想到我会如此上头。故事的开始,是我在TikTok上刷到了一个叫做「bowserbee」的养蜂博主。在与蜂后2号CelineBeeon(下文会解释为什么是2号)初遇的视频中,养蜂人Bowse绘声绘色地讲述了一场发生在蜂箱内部的“动乱”。站长网2023-08-30 09:14:220000讲两个小众的赚钱赛道。
先说个观点,赚钱分两种。一种是卖自己的东西。一种是卖别人的东西。简单理解这两句话的意思就是,要么你自己有东西卖,就像工厂一样,造出来想咋卖咋卖,卖了就赚钱。另一种就像是主播一样,自己没东西,但是卖别人的东西可以赚取佣金。显然,最适合普通人积累财富的就是卖别人的东西。卖别人的东西只要解决两个问题;卖什么?怎么卖?站长网2023-07-04 00:57:080000抖音打击低俗色情内容 处理违规签名导流行为
抖音发布《关于打击低俗色情内容的公告》称,为持续营造风清气正的网络环境、维护平台良好的社区秩序,抖音成立专项治理团队,对低俗色情内容加强打击。包括治理试图通过账号头像、签名、评论等方式实施违规导流的行为。近日,平台在日常巡查中发现,有极个别账号,以签名方式,发布类似“所有的图都在这儿”“好看的都在这里”“合集私我”等内容,试图脱离平台监管,将用户吸引至站外“**圈”等含有低俗内容的第三方平台。站长网2023-05-18 08:54:260000Xwin-LM击败GPT-4登顶斯坦福AlpacaEval 多项性能评估表现出色
要点:1.Xwin-LM,一款基于Llama2微调的语言模型,成功在斯坦福AlpacaEval上击败了GPT-4,成为新的榜首模型。2.Xwin-LM分别推出了70B、13B、7B规模的模型,在多项性能评估和自然语言处理任务中表现出色。3.AlpacaEval是一款自动评估工具,用于比较模型在遵循指令和性能表现方面的能力,对模型的性能提供了有效的评估方法。站长网2023-09-21 14:07:320000苹果仍未正面回应iPhone 15 Pro发热问题:情况可能比想象的要严重
快科技9月28日消息,iPhone15正式发售有将近一周的时间了,随着更多的人收到新款iPhone15Pro,关于其发热严重的问题也是愈演愈烈,甚至被使用者戏称为火龙果”。0000