北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
AI能理解搞笑视频笑点在哪里了。
AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文字。
北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。
值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但在训练后,LLM令人惊讶地展现出同时理解图片和视频的能力。
如下图所示,Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的,而视频描述了自由女神像的多个角度,表明它们来自同一个地方。
在投影之前对齐图像和视频表示
这项工作具体贡献如下:
Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中,使得大型语言模型能够同时对图像和视频进行视觉推理能力。
Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中,将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的,该编码器将不同的模态映射到文本特征空间中,提供了一个统一的视觉表示。然后,统一的视觉表示经过共享的投影层和词嵌入层进行编码,以将统一的视觉表示映射给大型语言模型使用。
Video-LLaVA在视频上表现出色,在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。
对于模型能力,研究团队做了充分实验。
视频理解能力实验。
如表3所示,Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT,并且涨幅相当可观。
图片理解能力实验。
该研究还与InstructBLIP,Otter,mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较,结果如表2所示:
为了评估预先对齐视觉输入的效果,研究团队进行了大量的对比实验。
他们使用了相同规模的MAE编码器替换了图片编码器,其中MAE编码器生成分离的视觉表示,而LanguageBind编码器生成统一的视觉表示(因为预先对齐了视觉表征)。
然后,他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能,包括9个图片理解基准和4个视频理解基准。
通过替换图片编码器为MAE编码器,LLM在初始学习视觉表示时将视频特征和图片特征分开处理,不再将它们统一起来。
有关图6的实验结果显示,与分离的视觉表示相比,联合的视觉表示在4个视频问答数据集上显著提升了性能。
这一发现表明,预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力,使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。
同时论文还验证了无论是对于图片还是视频,在联合训练中他们能相互受益。
通过联合训练视频数据,对于图片理解任务,可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。
在视频理解方面,联合训练的也得到了明显的提升。
参考资料:
[1]https://arxiv.org/abs/2311.10122
[2]https://github.com/PKU-YuanGroup/Video-LLaVA
AI公司 Cohere 发布企业生成式 AI 聊天机器人 Coral
本文概要:1.Cohere推出名为Coral的聊天机器人,旨在帮助员工更快地找到信息和回答问题。2.Coral基于Cohere的大型语言模型Command进行训练,并通过对公司提供的数据库进行微调,以适应其需求。3.Coral可以进行研究和分析任务,能够理解查询并使用非正式语言提供解释。站长网2023-08-10 17:03:390000消息称苹果首款MR头显售价与成本相当 最初曾考虑亏本销售
5月29日消息,据外媒报道,在苹果宣布2023年度的全球开发者大会,也就是WWDC将在当地时间6月5日-9日举行之后,外界就预计传闻多年的MR头显,有望在今年的大会期间登场。从外媒的报道来看,融合了AR和VR功能的MR头显,被苹果内部认为是他们到目前为止设计的最复杂的产品。站长网2023-05-29 19:56:080000鸿蒙星河版WPS来了!核心功能版本已交付:原生开发、无缝协同
快科技3月15日消息,WPS和华为今天官宣,鸿蒙星河版WPSOffice已完成核心功能版本交付。这是金山办公基于鸿蒙星河版(HarmonyOSNEXT)打造的原生应用,基于鸿蒙系统的生互联、原生流畅等特性专门开发。据介绍,鸿蒙星河版WPS不仅能在PC端更流畅运行,还能实现与手机、平板、智慧屏等多种设备之间的无缝流转和跨端协同,带来更智能便利的办公体验。站长网2024-03-15 16:47:400000年轻人越变越“抠”,原价购物的都是大冤种?
“理性消费,快乐购物”是李佳琦直播间的一句标语,也是不少年轻人如今的购物原则。虽说不少营销能够击中年轻人的“心巴”,但逐渐理性起来的他们,其实也越来越不好拿捏了。有人将年轻人的消费观称之为“拧巴式消费”,选择商品时四处翻看社交平台,需要用他人的体验来省掉自己的纠结;付款前多方对比,不能被多坑一分钱。因此,羊毛攻略、百亿补贴、大牌VIP日等活动备受关注。站长网2023-08-08 17:16:240000李想:理想L6明年交付 有信心2024年总销量超过BBA
快科技6月13日消息,我们从理想官方获悉,在刚刚过去的2023年第24周(6.05-6.11),理想汽车的周销量再创新高,达到了0.84万辆,远超其他新势力品牌,超过了榜单中第二、三、四名的销量总和。截至6月11日,理想汽车本月销量已达1.19万辆。站长网2023-06-13 23:54:050000