Pika 1.0首测秒杀Gen-2!网友抢先体验电影级炸裂效果,背后技术细节首公开
Pika1.0正式上线后,拿到内测资格的网友们已经玩疯了!
有人用它生成了一个姜黄色头发女孩和她的姜黄色猫的短片。
以往,因为一致性的难题,用AI视频很难做出优秀的动漫作品。但是Pika1.0,实在是太给人惊喜了!
更令人震惊的是,作者表示,这是100%用文本到视频生成的。
还记得半个月前,这家有斯坦福AI Lab博士创办的初创公司Pika,发布的第一个产品瞬间成为顶流。
不仅能够生成3D动画、动漫、卡通和电影,甚至可以实现风格转换、幕布扩展等重磅能力。
如今,许多网友到手体验后,纷纷觉得太哇塞了。
与此同时,Pika官方账号公布了自家的最新研究。这是Pika1.0发布产品以来,这家公司首次对外披露技术细节。
最新研究中,提出了一种DreamPropeller方法,能够将文本到3D的生成速度提升4.7倍。
网友实测,皆为经典
接下来,先来一起看看,广大网友们的创意。
比起Runway的Gen-2,Pika1.0在让人物动起来时的一致性非常稳定。
电影级效果,堪称动漫界的「宫崎骏」
Pika1.0非常擅长动漫风格的动物,看看这些不同场景中的老鹰就知道了。
看得出,宫崎骏画风非常浓郁。
还有这种漫威风格的小人模型,让他们动起来真的像是「复仇者联盟」。
还有形单影只的白天鹅,在波光粼粼的湖中嬉戏,再游到岸边,好像在找回家的路。
就连美版「机器人总动员」动画的科幻风,呈现的也是淋漓尽致。
一朵含苞待放的花朵。
如下这个例子是Pika自己做的丛林中兔子士兵的电影级效果,并给出了提示(拿到内测资格的网友可试)
1. Cinematic, extreme close-up of a bunny soldier in a jungle,3D rendering
2. Cinematic, back-view long shot of a bunny soldier exploring a giant carrot in the jungle,3D rendering
疯狂动物城、狮子王、熊大熊二混版动画。
网友做了一个电影预告片,就连名字都想好了「金刚哥斯拉:新帝国」。
爱因斯坦和他的实验。
真人变身,泰坦尼克号被恶搞
还有一位自称「AI级导演」做出的真人演示效果,简直绝绝子。
戴上帽子,穿上羽绒服,服饰的搭配与人的身体契合度,毫无违和感。
还可以把周边的物体变成松柏,还能把自己变成北极熊,简直可爱到爆。
还有「泰坦尼克号」重制版,女主Rose直接变成熊猫,和男主Jack在一起牵手的画风,你细品...
再来看个真人变身的效果,还有二次元小姐姐。
AI魔法棒,一键替换
用AI「修改区域」,能够把所有背景,甚至包括主体的衣服能够换成一致的圣诞的风格。
还有网友尝试了这一替换功能,把海边的啤酒,瞬间变成了可乐。
具体实现效果,Chase Lean给出了一个教程,只需要3步过程。
首先需要生成一个视频,先让Midjourney生成一张海边Corona啤酒的图片,然后将其做成视频。
第二步:单击「编辑」,然后单击「修改区域」。
第三步,告诉Pika你想用什么来代替它,比如可口可乐。
画布扩展,超凡脑洞
图像画布扩展能力,其实我们也见到了许多像MidjourneyAI图像生成工具已经实现了。
而Pika1.0不仅能开出脑洞,还能让画面动起来。
就看这雅典帕特农神庙,外画出的景色更加凸显这座建筑的壮观。
还有橄榄树、游览古建筑都能暗藏各种惊喜。
你可以录一段视频,Pika能够直接想象出背景。
下面这个网友使用文本提示创建了第一个视频,然后扩展画布几次,获得了第二个视频。
初始提示是:A beautiful princess, standing on the castle wall,3d animation
还有网友做出了,演唱会级的音乐视频,不过不得不承认,还有些不足的地方。
,时长01:28
Pika1.0背后技术
看到这么多惊艳的效果,或许许多人更想了解一些关于Pika1.0生成的技术细节。
这不,官方刚刚公布了一篇论文,是由斯坦福大学和Pika Labs联手共创。
以往,通过分数蒸馏,比如DreamFusion、ProlificDreamer等模型,进行文本到3D的生成质量虽高,但运行时间可能长达10个小时。
最新论文中,研究人员提出了一种基于分数蒸馏的加速方法——DreamPropeller,能够将现有方法的速度提高4.7倍。
论文地址:https://arxiv.org/pdf/2311.17082.pdf
DreamPropeller整体架构如下图所示。
在每次迭代(k次)的开始,初始化一个由3D形状(用绿色表示)组成的窗口,然后,这些形状被分发到p个GPU上进行并行计算,在GPU上并行计算形状的SDS/VSD梯度。
然后根据公式 (9) 中的规则收集这些梯度,并使用这些梯度对形状进行更新。
窗口向前滑动,直到该时间步的误差不小于阈值e,阈值e根据窗口的平均/中值误差进行自适应更新。
另外,在VSD的情况下,研究人员会在所有GPU上保留LoRA扩散的独立副本,这些副本会独立更新,无需额外通信。
如下是应用DreamPropeller的代表性示例。
最新框架以并行计算换取速度,在保持生成质量的前提下,应用于DreamGaussian和ProlificDreamer时,速度提高了4倍以上。
在DreamPropeller完成时,基线版本的外观和几何效果明显较差。
如下是与其他模型的可视化比较。使用DreamPropeller的方法能以更短的运行时间实现同样高质量的生成。
对DreamFusion图库中的30个提示进行量化评估。运行时间以秒为单位。最新研究的方法达到了具有竞争力的质量,同时速度提高了4倍以上。
下一个视频生成顶流
对于Pika1.0的诞生,让全网热血沸腾,而它或许成为下一个视频生成的顶流。
有人统计了Discord上最大的人工智能产品,以及它们在平台范围内的规模。
如下是按邀请页面流量排序的十大人工智能应用程序,Midjourney位列第一,Pika排在第二。
在排名前十的应用程序中,有4个是图片生成应用程序,3个是语音/歌曲生成应用程序,2个是视频生成应用程序。
按流量计算,图片占了前10名流量的74%,其次是视频8%,语音/音乐6%。
又增新入口,“生活号动态”在支付宝搜索结果页上线
近日,支付宝搜索结果页新增“生活号动态”展示,用户搜索关键词时,相关图文、短视频和直播会根据关联度被推荐,包括商家、机构、达人发布的近期活动、服务攻略、生活经验等。搜索不同的关键词,生活号动态展示顺序也有区别站长网2023-04-12 13:14:530000ControlNet新玩法爆火:画出可扫码插画,内容链接任意指定
一组神秘的“虚拟老婆”照片,最近在国内外社交媒体上传疯了。怎么回事?试着用手机扫一下,就能发现其中的玄机——原来这些看起来颇为自然的照片,都是藏了二维码的图像。它们不仅能被手机相机识别,跳转的网站还都是有效的:从推特到Reddit,每隔几条就能刷出这些二维码照片,下面全是一片“竟然扫出来了”的惊叹声。站长网2023-06-08 07:23:220002Win11 Beta预览版226x1.2199发布:实现对RAR、7z等压缩格式原生支持
站长网2023-08-21 09:23:160000AI视野:Runway推新功能运动笔刷;iPhone16将引入生成式AI;百度AI编程工具限时免费;元象大模型向全社会开放
📰🤖📢AI新鲜事Runway推新功能运动笔刷随手一涂静图变动图Runway推出的新功能「运动笔刷」让Gen-2视频生成工具再次颠覆AI圈,摆脱文字依赖,手势操作即可赋予静态图片动感,创造可控制生成内容的新方法。【AiBase提要:】🚀创新功能:Runway的「运动笔刷」使Gen-2视频生成工具更便捷,手势操作即可赋予静图动感。站长网2023-11-13 21:47:440000澜舟科技通过生成式人工智能备案 并发布孟子GPT-Code等模型
12月26日,澜舟科技宣布正式通过国家互联网信息办公室颁布的《生成式人工智能服务管理暂行办法》备案。据悉,澜舟科技此前推出了多个大模型产品,包括孟子GPT-通用-7B、孟子GPT-通用-13B、孟子GPT-通用-40B和孟子GPT-金融-7B。这些大模型在2023年8月的权威榜单中表现出色。站长网2023-12-28 10:35:300000