文本直接生成20多种背景音乐,免费版Stable Audio来了!
9月14日,著名开源平台Stability AI在官网发布了,音频生成式AI产品Stable Audio。(免费使用地址:https://www.stableaudio.com/generate)
用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。
例如,输入迪斯科、鼓机、合成器、贝司、钢琴、吉他、欢快、115BPM等关键词,就能生成背景音乐。
Disco,DrivingDrumMachine,Synthesizer,Bass,Piano,Guit,AIGC开放社区,47秒
目前,Stable Audio有免费和付费两个版本:免费版,每月可生成20个音乐,最大时长45秒,不能用于商业;付费版,每月11.99美元(约87元),可生成500个音乐,最大时长90秒,可用于商业。
如果你不想付费可以多注册几个账号,可以通过AU(一种音频编辑器)或PR将生成的音乐拼接起来可达到同样效果。
Stable Audio简单介绍
在过去几年,扩散模型在图像、视频、音频等领域获得了飞速发展,可显著提升训练和推理效率。但音频领域的扩散模型存在一个问题,通常会生成固定大小的内容。
例如,音频扩散模型可能在30秒的音频片段上进行训练,并且只能生成30秒的音频片段。为了打破这个技术瓶颈Stable Audio使用了一种更先进的模型。
这是一种基于文本元数据以及音频文件持续时间,和开始时间调整的音频潜在扩散模型,允许对生成音频的内容和长度进行控制。这种额外的时间条件使用户能够生成指定长度的音频。
与原始音频相比,使用大幅度下采样的音频潜在表示可以实现更快的推理效率。通过最新稳定音频模型,Stable Audio能在不到一秒的时间内,使用NVIDIA A100GPU渲染出95秒的立体声音频,采样率为44.1kHz。
训练数据方面,Stable Audio使用了一个超过80万个音频文件组成的数据集,包含音乐、音效以及各种乐器。
该数据集总计超过1.95万小时的音频,同时与音乐服务商AudioSparx进行合作,所以,生成的音乐可以用于商业化。
潜在扩散模型
Stable Audio所使用的潜在扩散模型(Latent Diffusion Models)是一种基于扩散的生成模型,主要在预训练的自动编码器的潜在编码空间中使用。这是一种结合了自动编码器和扩散模型的方法。
自动编码器首先被用来学习输入数据(例如图像或音频)的低维潜在表示。这个潜在表示捕捉了输入数据的重要特征,并且可以被用来重构原始数据。
然后,扩散模型在这个潜在空间中进行训练,逐步改变潜在变量,从而生成新的数据。
这种方法的主要优点是可以显著提高扩散模型的训练和推理速度。因为扩散过程在一个相对较小的潜在空间中进行,而不是在原始数据空间中进行,因此可以更高效地生成新的数据。
此外,通过在潜在空间中进行操作,这种模型还可以提供对生成数据的更好控制。例如,可以通过操纵潜在变量来改变生成数据的某些特性,或者通过对潜在变量施加约束来引导数据生成过程。
Stable Audio使用和案例展示
「AIGC开放社区」体验了一下免费版Stable Audio,使用方法与ChatGPT差不多直接输入文本提示即可。提示内容包括细节、心态、乐器和节拍四大类。
需要注意的是,如果想生成的音乐更细腻、有律动性和节奏,输入的文本也需要更细化。也就是说,你输入的文本提示越多,那么生成的效果就约好。
Stable Audio使用界面
燧原科技推出 MaaS 平台,重塑 AIGC 新生态
燧原科技推出MaaS平台服务产品,名为燧原曜图(LumiCanvas),通过自研算力底座赋能文生图商业新生态。该平台旨在降低设计门槛,通过简单的语言方式生成风格化的图像,满足游戏、媒体、动画等行业的需求。燧原曜图不仅提供平台工具链加速工作流程,还能实现不断迭代和更新,实现端到端的业务模式。站长网2023-07-13 07:12:150000谷歌与环球音乐正在就人工智能生成音乐授权进行谈判
谷歌和环球音乐正在洽谈授权艺术家的旋律和声音,以用于由人工智能生成的歌曲,以此来将音乐业务最大的威胁之一变现。据四名知情人士证实,这些讨论旨在建立一项新的人工智能技术合作伙伴关系,因为这一行业正在应对新技术的影响。生成型人工智能的崛起导致了「深度伪造」歌曲的激增,这些歌曲可以逼真地模仿已有艺术家的声音、歌词或音效,通常未经其同意。站长网2023-08-09 09:04:310000鸭嘴兽-70B登顶HuggingFace开源大模型排行榜
要点:鸭嘴兽-70B使用优化过的数据集Open-Platypus训练,删除相似和重复问题。应用LoRA和PEFT对模型进行微调,重点优化非注意力模块。检查并解决测试数据泄漏和训练数据污染问题。最近,来自波士顿大学的鸭嘴兽-70B模型登顶了HuggingFace的开源大模型排行榜,成为目前全球开源领域中表现最强的语言模型。鸭嘴兽的变强有以下三个关键原因:站长网2023-08-26 10:25:210000国家邮政局:中秋国庆假期全国揽投快递包裹超51.47亿件
国家邮政局监测数据显示,今年中秋国庆放假期间(9月29日-10月6日),全国揽投快递包裹超51.47亿件。其中,全国邮政行业揽收快递与包裹25.75亿件(不包含邮政集团包裹业务),日均揽收量与2019年国庆长假相比增长122.6%,与2022年国庆长假相比增长8.6%;站长网2023-10-07 11:01:130000Redmi K70系列本月发布:标准版搭载骁龙8 Gen2 Pro版8Gen3
根据博主数码闲聊站的透露,RedmiK70标准版将搭载高通骁龙8Gen2芯片,而K70Pro则将搭载高通骁龙8Gen3芯片。这一策略与去年年底发布的K60系列相似,即标准版使用上一代骁龙平台,而Pro版则搭载最新平台。站长网2023-11-07 10:02:330000