首页站长资讯提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

站长网2023-11-23 14:13:390阅

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升。

最近，来自北大的研究人员提出了一种全新的视觉语言大模型——Video-LLaVA，为alignment before projection提供了新颖的解决方案。

与以往的视觉语言大模型不同，Video-LLaVA关注的是提前将图片和视频特征绑定到统一个特征空间，使LLM能够从统一的视觉表示从学习模态的交互。

此外，为了提高计算效率，Video-LLaVA还联合了图片和视频进行训练和指令微调。

论文地址:https://arxiv.org/pdf/2310.01852.pdf

GitHub地址:https://github.com/PKU-YuanGroup/Video-LLaVA

Huggingface地址:https://huggingface.co/spaces/LanguageBind/Video-LLaVA

凭借强大的语言理解能力，诸如ChatGPT这类的大语言模型迅速在AI社区风靡。而如何让大语言模型同时理解图片和视频，也成为了大模型背景下的研究多模态融合的热点问题。

最近的工作将图片或视频通过几个全连接层映射成类似文本的token，让LLM涌现理解视觉信号的能力。

然而，图片和视频是分开用各自的编码器，这对LLM学习统一的视觉表征带来了挑战。并且通过几个映射层教会LLM同时处理图片和视频的性能往往不如视频专家模型如Video-ChatGPT。

对此，来自北大团队认为这种现象源于misalignment before projection。因为图片特征和视频特征在送入LLM之前就已经收敛到各自的特征域空间，这就给LLM学习它们之间的交互带来了挑战。

，时长00:32

类似的现象如misalignment before fusion，也可以在早期的多模态融合工作被观察到，如ALBEF。

不同视觉语言大模型范式的比较

方法介绍

Video-LLaVA的方法简单有效，不需要额外自己预先训练图片和视频模态的编码器，而是巧妙地通过LanguageBind编码器来预先对齐图片和视频特征，形成统一的视觉表征。

具体来说，Video-LLaVA采用的图片和视频编码器通过共享一个语言特征空间，图像和视频表示最终融合成一个统一的视觉特征空间，称之为图像和视频的emergent alignment。

因此，Video-LlaVA通过LanguageBind预先对视觉输入进行对齐，以减小不同视觉信号表示之间的差距。统一的视觉表征经过共享的投影层后，输入到大语言模型中。

并且Video-LlaVA在训练过程中始终没有用到视频图片成对的数据，而是在训练后发现的LLM会惊人的涌现出同时理解图片和视频。

如下图所示，Video-LlaVA成功的识别出图片的自由女神像是近景且细腻的，而视频描述的是多角度的自由女神像，他们是来源于同一个地方。

Video-LLaVA采取两阶段的训练策略:

在视觉理解阶段，使用了一个558K个LAION-CC-SBU图像-文本对。视频-文本对是从Valley 提供的子集中获得的，总共有703k对，这些视频源自WebVid。

在指导微调阶段，团队从两个来源收集了指导性数据集，包括来自LLaVA的665k个图像-文本数据集，以及从Video-ChatGPT获得的包含100k个视频-文本数据集。

- 视觉理解阶段

在这个阶段，模型需要通过一个广泛的视觉-文本对数据集来获取解读视觉信号的能力。每个视觉信号对应一个回合的对话数据。

这个阶段的训练目标是原始的自回归损失，模型通过学习基本的视觉理解能力。在此过程中，冻结模型的其他参数。

- 指令微调阶段

在这个阶段，模型需要根据不同的指令提供相应的回复。这些指令通常涉及更复杂的视觉理解任务，而不仅仅是描述视觉信号。需要注意的是，对话数据包含多个回合。

如果涉及多轮对话，输入数据会将所有之前回合的对话与当前指令连接起来，作为本回合的输入。训练目标与前一阶段相同。

经过这个阶段，模型学会了根据不同的指令和请求生成相应的回复。在这个阶段，大语言模型也参与训练。

实验

- 视频理解能力

如表3所示，Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT，并且涨幅相当可观。

- 图片理解能力

该研究还与InstructBLIP，Otter，mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较，结果如表2所示:

- 预先对齐视觉输入

将图片编码器替换相同规模的MAE encoder。定义用MAE encoder是分隔的视觉表示，Languagebind是统一视觉表示（因为预先对齐了视觉表征），并且将MAE encoder和LanguageBind encoder在13个基准上进行对比，这其中包含9个图片理解基准和4个视频理解基准。

对于图片理解，统一视觉表示展现了强大的性能，它在5个图片问答数据集和4个基准工具箱上全面超过了分隔的视觉表示。

另外，我们注意到统一视觉表示在POPE，MMBench，LLaVA-Bench，MM-Vet这四个基准工具箱上的性能以巨大的优势超过。

这突出了预先对齐了视觉表征不仅在图片问答上提升了性能，还在图片理解的其他方面收益，如减小幻觉，提升OCR能力等。

由于替换图片编码器为MAE encoder，视频特征和图片特征在LLM初始学习视觉表示时不再统一。

在图6，相比于分隔视觉表示，联合视觉表示在4个视频问答数据集上全面提高了性能。

这些结果展现了预先对齐视觉表征表示能够帮助LLM进一步学习理解视频。

同时论文还验证了无论是对于图片还是视频，在联合训练中他们能相互受益。

对于图片理解，Video-LLaVA在无法回答的和数字上的表现超过了LLaVA-1.5，这意味着联合训练视频使得在图片上的幻觉问题有所缓解，和对图片数字信号的理解能力增强。

相同的趋势在LLaVA-Bench上被观察到，Video数据显著提升了LLM在图片Complex reasoning，Conversation上的表现。

对于视频理解，团队在4个Video问答数据集上评估。

与没有图片参与训练的Video-LLaVA相比，有图片联合训练的模型在4个数据集上全面超过。

这些结果证明了联合图片和视频一起训练能够促进LLM理解视觉表示。

参考资料:

https://github.com/PKU-YuanGroup/ Video-LLaVA

提前对齐视频问答新SOTA北大全新VideoLLaVA视觉语言大模型秒懂视频笑点

0000

评论列表

共(0)条

相关推荐

站长资讯
Redmi首批搭载骁龙8s Gen3！王腾：多投入将近10亿
快科技3月19日消息，小米公司王腾宣布，Redmi新系列首批搭载骁龙8sGen3移动平台。王腾表示，按我们内部测算，采用新8系相比用7系多投入近10亿，压力确实很大。王腾还表示，不用降频版”是一种态度，Redmi出手就是正代8系，脚踏实地做好产品。
站长网2024-03-19 17:13:40
0000
英特尔：Arm架构的PC芯片不会构成威胁很乐意为其代工
快科技10月27日消息，前不久的骁龙峰会期间，高通发布了适用于Windows笔记本电脑、基于Arm架构的新型骁龙XElite芯片。高通CEO安蒙表示其该芯片的性能是英特尔同类产品的2倍，他还表示未来笔记本电脑处理器将逐渐转入Arm架构，这也是对英特尔X86架构垄断地位的直接宣战。
站长网站长资讯2023-10-28 12:01:19
0000
站长资讯
小米原创！小米14 Ultra搭载全新浮动长焦：行业最强
快科技2月19日消息，据小米官微消息，小米14Ultra塞进了两颗长焦镜头，一颗是75mm直立长焦，光圈大至f/1.8，一颗是120mm潜望长焦，光圈大至f/2.5。小米相机部苗雷指出，小米14Ultra上全新设计的75mm浮动长焦镜头采用小米自己专利的直立分群镜头，这项技术在直立相机模组里面是小米原创的，最早应用于小米13Pro。
站长网2024-02-19 21:20:51
0000
科大讯飞“送员工”了：5分钟能写3篇文章40页PPT的那种！
“报告老板!这些员工偷懒，办公全靠大模型。”然而面对看似投机取巧的行为，老板却一反常态，连连点头甚是满意:我给你5分钟，能写出来根据热门选题写一篇科普文章吗?他们能。只见这些员工撸起袖子就开始实操起来了。先是挑选一个热门话题——无人驾驶:未来出行的新篇章。而后来到创作界面，可以看到“主题描述”都已经自动生成，文案类型选择的是“知识科普”。
站长网站长资讯2024-01-10 12:04:23
0000
站长资讯
Adobe 发布 Photoshop Elements 和 Premiere Elements 2024 版，引入多项强大人工智能工具
站长之家(ChinaZ.com)10月20日消息:Adobe公司今日宣布推出PhotoshopElements2024版和PremiereElements2024版，展示了众多新的人工智能工具，将进一步提高照片和视频编辑平台的生产力。
站长网2023-10-20 10:02:29
0000