Sora背后团队:应届博士带队,00后入列,还专门招了艺术生
现在世界上最受关注的技术团队是哪一支?
Sora团队,已经来到聚光灯中心。
不仅项目负责人评论区被挤爆,成了𝕏最
“景点”。
天才成员们的履历,也正在持续引爆关注。
△来自微博博主@木遥
大家伙发现,这支团队挺年轻:两位负责人都是在去年(2023年)刚刚博士毕业,团队里甚至还有00后选手……
但
也是真的牛:
Tim Brooks,DALL-E3作者之一,GitHub5.7k
️项目InstructPix2Pix作者,2021-2022年在英伟达实习时,就是视频生成研究的项目负责人。
William (Bill) Peebles,和谢赛宁合作,搞出了Sora的技术基础之一DiT(扩散Transformer)。论文还曾入围CVPR2022最佳论文候选。
……
这支团队到底什么来头,咱们今天一起仔细聊聊。
应届博士带队
包括Tim和Bill在内,Sora的主要负责人一共有三名(以下排名不分先后)。
Tim Brooks,也是DALL-E3的作者,去年1月刚从加州大学伯克利分校博士毕业。
Tim本科就读于卡内基梅隆大学,主修逻辑与计算,辅修计算机科学,其间在Facebook软件工程部门实习了四个月。
2017年,本科毕业的Tim先到Google工作了近两年,在Pixel手机部门中研究AI相机,之后到了伯克利AI实验室攻读博士。
在伯克利读博期间,Tim的主要研究方向就是图片与视频生成,他还在英伟达实习并主导了一项关于视频生成的研究。
回到校园后,Tim与导师Alexei Efros教授和同组博士后Aleksander Holynski(现在谷歌)一起研制了AI图片编辑工具InstructPix2Pix,并入选CVPR2023Highlight。
去年一月,Tim顺利毕业并取得了博士学位,转而加入OpenAI,并相继参与了DALL-E3和Sora的工作。
值得一提的是,Tim不仅在专业领域拥有高超的技术水平,还是个多才多艺的人。
据Tim自己介绍,他还喜欢摄影和音乐,高中时他拍摄的照片获得过National Geographic颁发的奖项,本人到过百老汇演出,还获得过B-box国际奖项……
而与Tim师出同门、晚毕业4个月的William Peebles,也是Sora的另一名负责人。
(Peebles在𝕏上用昵称Bill,在Linkedin上及论文署名时用大名William,下文一律用Bill指代。)
Bill本科就读于MIT,主修计算机科学,参加了GAN和text2video的研究,还在英伟达深度学习与自动驾驶团队实习,研究计算机视觉。
毕业后正式开始读博之前,他还参加了Adobe的暑期实习,研究的依然是GAN,该项目和(时任)卡内基梅隆大学华人学者朱俊彦(也是Efros教授学生,现在在MIT)组有合作,并成为CVPR2022最佳论文候选。
之后,学期开始,Bill到了伯克利Efros教授课题组攻读博士,研究成果多次入选SIGGRAPH、ICCV、CVPR等学术会议。
2022年5月,Bill到Meta进行了为期半年的实习,和谢赛宁(Bill开始实习时还未离开Meta)合作发表了DiT模型,首次将Transformer与扩散模型结合到了一起。
该成果被ICCV2023录用为Oral论文。值得一提的是,OpenAI此次发布的Sora,被认为正是基于DiT构建的。
去年5月,Bill也从伯克利毕业,并入职OpenAI。
除了这两位去年加入的研究者,Sora团队的另一位负责人Aditya Ramesh则是OpenAI的“老人”。
Aditya是DALL-E的创造者,主导了三代DALL-E的研究,三个版本的论文当中他都是共同一作。
而这样一位主导三代DALL-E,如今又领导Sora团队的大神,却只有本科学历。
据LeCun介绍,Aditya本科就读于纽约大学,并在他的实验室参与过一些项目。
其间,Aditya就已经在研究生成式模型,并和LeCun共同发表论文。
毕业之后,Aditya本想继续深造,但在OpenAI的暑期实习中被留了下来,成为了正式研究人员。
00后已加入
Sora团队的本科生,还不止Aditya Ramesh一位。
前文提到,这支团队中有一位“00后”Will DePue,就是2022年才刚从密西根大学计算机系本科毕业的。
这位小哥大四的时候创业搞了个市场咨询公司DeepResearch,这家公司后来被Commsor收购。
2023年7月,小哥加入OpenAI。根据他的领英信息,他是在今年1月才刚刚加入Sora项目组的。
另外,David Schnurr和Joe Taylor也都没有博士学位。前者毕业于加州大学圣塔芭芭拉分校,后者毕业于美国旧金山艺术大学。
而正如Aditya Ramesh自己所说,Sora团队的不少成员都是DALL-E3的作者。
包括两位华人Li Jing和Yufei Guo。
Li Jing是DALL-E3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位。在Meta做了2年多博士后之后,Li Jing于2022年加入OpenAI。
华人作者中还有Ricky Wang,今年一月刚刚从Meta/Instagram跳槽到OpenAI,另外两位Yufei Guo、Clarence Ng没有太多公开资料。
新跳槽来的还有Conner Holmes,他在微软工作时以外援形式参与了DALL·E3的推理优化工作,后来干脆加入OpenAI了。
最后,来看一眼完整作者名单:
从团队的组建情况和研究基础来看,Sora应该是OpenAI近半年来的最新成果,而非网传“早已有之但憋着不发”。
不过,Sora炸场,顶级人才又持续星聚,还是惊得众人开始重新考量OpenAI的技术领先性。
就在今天,作者释出的Sora新作,连“同一场景”下的多机位视频都整出来了。
网友们的心情be like:
现在,是视频生成,下一个又会是什么?
参考链接:
[1]https://www.wpeebles.com/
[2]https://www.timothybrooks.com/about/
[3]https://adityaramesh.com/about.html
Meta准备推出系列拥有不同个性的AI聊天机器人以留住用户
Facebook所有者Meta计划推出一系列具有不同个性的人工智能聊天机器人,旨在增加其社交媒体平台的用户参与度。据消息人士透露,这家由首席执行官马克·扎克伯格(MarkZuckerberg)领导的科技巨头已经设计了可以与近40亿用户进行类似人类对话的聊天机器人原型。其中一些聊天机器人被员工称为“人物”,以不同的角色形式呈现。站长网2023-08-01 14:34:07000030秒出图,成本直省2万元,这类AI工具成电商领域“显眼包”
一个对摄影、布景、后期、甚至AI都零基础的小白,有没有可能零成本产出一套完整的商品大片?举个例子,通常制作一套20张的商品场景图,需要一个多工种设计团队至少耗费3天时间,成本超过2万元。但如果用AI工具做电商图,单次生成消耗的算力成本不到1元,成本降低超过90%。对于电商和品牌而言,商品图的重要性不言而喻。一张吸引眼球的商品图有时决定了消费者是否有兴趣关注并下单。站长网2023-08-30 15:37:190000谷歌似乎正在开发一款需要付费的 “高级版” Bard
划重点:-谷歌似乎正在开发一款名为“BardAdvanced”的升级版本,用户需通过谷歌One付费订阅来使用。-BardAdvanced似乎由谷歌新推出的大型语言模型(GeminiUltra)提供支持,比当前版本的Bard(GeminiPro)升级了功能。站长网2024-01-05 09:38:420000B站云剪辑功能将于5月31日停止运营
B站最近宣布,其云剪辑功能将于2023年5月31日停止运营。据悉,bilibili云剪辑是B站提供的在线视频剪辑工具,支持多轨道剪辑、滤镜、特效等功能,并能够直接上传到B站。以下为B站公告全文:由于业务调整,bilibili云剪辑将于2023年5月31日下线。届时,云剪辑访问入口将关闭,无法查看、编辑项目和从云剪辑投递稿件请注意提前查看、处理云剪辑内的个人项目。站长网2023-05-12 15:45:200000网友用AnimateDiff插件成动画短片 春夏秋冬场景切换自如
日前,社交平台用户“MachineDelusions”分享了一段令人惊叹的视频,通过使用AnimateDiff视频生成器,她在同一画面中切换了四个季节的景象。这段视频由静态图像与运动力学结合的运动建模模块生成,引起了网友们的广泛关注。站长网2023-10-10 15:37:580000