Nvidia公布新文本转视频模型 基于Stable Diffusion开发!
Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。
该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以512x1024像素的分辨率生成几分钟的汽车行驶视频,在大多数基准测试中达到SOTA。
注:图片来自Nvidia Video LDM项目截图
除了这个与自动驾驶研究特别相关的演示之外,研究人员还展示了如何将现有的Stable Diffusion 型转换为视频模型。
该团队在微调步骤中用视频数据短时间训练Stable Diffusion,然后在网络中每个现有空间层后面添加额外的时间层,并用视频数据对其进行训练。此外,该团队还训练了时间稳定的放大器,以根据文本提示生成1,280x2,048分辨率的视频。
以 Stable Diffusion 作为视频模型的基础,团队无需从头开始训练新模型,可以从现有的能力和方法中获益。例如,尽管使用的 WebVid-10M 数据集仅包含真实世界的视频,基于底层的Stable Diffusion模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。
研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。,生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用 DreamBooth 进行视频创作。
注:Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型。
Nvidia Video LDM项目页面上有更多示例,不过该模型目前尚未对外开放。
项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
博主用Adobe Firefly在线魔改网红球 YouTube播放量超330万
11月30日,YouTube博主“GreenskullAI”在其频道发布了一段令人惊叹的视频,通过AdobeFirefly在线进行魔改,成功擦除拉斯维加斯的网红球,展示了该平台强大的AI功能。截至目前,该视频的播放量已超过330万,获赞20万。站长网2023-12-05 14:36:240000苹果 USB-C AirPods Pro 将通过 Vision Pro 支持无损音频
9月13日,苹果在iPhone15发布会上悄悄放出一个重磅炸弹,AirPodsPro将在不久后推出支持USB-C充电接口的新版本。然而除了换上USB-C充电盒,这款新AirPodsPro还隐藏了一个重要升级——它将支持通过苹果即将发布的AR头显VisionPro播放无损音频。站长网2023-09-13 10:06:300000遥望科技与小冰公司达成合作 推动虚拟人、AI产品在直播行业应用
今日,遥望科技与小冰公司签订关于《直播电商人工智能技术/产品战略合作》的协议,双方将以资源互补为核心,就人工智能技术/产品的研发、推广、销售等事项在相关领域(包括但不限于直播、短视频、直播电商、传统电商、新零售等)展开全面战略合作,实现双方共赢。站长网2023-05-15 11:43:210000校园年鉴版“妙鸭”横空出世!霸榜56个国家的App Store榜首
最近,又有一款AI照片编辑应用在社交媒体上迅速走红。凭借一个可以让用户生成90年代怀旧风校园“年鉴”照片的模版,EPIK一举登上56个国家AppStore榜首,并连续多天霸占前三。美国AppStore排行榜(非实时)根据EPIK在美国AppStore的排名变化轨迹,该应用的关注度自9月19日开始突然提升,并于9月29日起进一步走红。站长网2023-10-14 14:34:590000多多直播面向全品类招募服务商和主播
拼多多旗下的直播带货业务——多多直播,正式开始全品类的服务商和主播招募工作。据相关服务商介绍,多多直播正在大规模引入服务商,以协助平台进行地区和品类的商家招募,并为商家品牌主播提供一对一的服务,执行官方运营规范和活动政策,提供投放代运营、直播代运营、货盘运营等服务。站长网2023-07-05 19:41:420003