北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

站长网2023-11-21 09:15:550阅

AI能理解搞笑视频笑点在哪里了。

AI回答:这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文字。

北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。

值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但在训练后，LLM令人惊讶地展现出同时理解图片和视频的能力。

如下图所示，Video-LLaVA成功地识别出自由女神像的图片是近景且细腻的，而视频描述了自由女神像的多个角度，表明它们来自同一个地方。

在投影之前对齐图像和视频表示

这项工作具体贡献如下:

Video-LLaVA解决了在视觉-语言理解中同时处理图像和视频的挑战。它将视觉表示统一到语言特征空间中，使得大型语言模型能够同时对图像和视频进行视觉推理能力。

Video-LLaVA通过最初将图像和视频的表示对齐到一个统一的视觉特征空间中，将视觉表示统一到语言特征空间中。这是通过使用LanguageBind编码器来实现的，该编码器将不同的模态映射到文本特征空间中，提供了一个统一的视觉表示。然后，统一的视觉表示经过共享的投影层和词嵌入层进行编码，以将统一的视觉表示映射给大型语言模型使用。

Video-LLaVA在视频上表现出色，在MSVD、MSRVTT、TGIF和ActivityNet视频问答数据集上分别超过了Video-ChatGPT的5.8%、9.9%、18.6%和10.1%。

对于模型能力，研究团队做了充分实验。

视频理解能力实验。

如表3所示，Video-LLaVA在4个视频问答数据集上全面超过了Video-ChatGPT，并且涨幅相当可观。

图片理解能力实验。

该研究还与InstructBLIP，Otter，mPLUG-owl 等图片语言大模型在图片语言理解任务上进行了比较，结果如表2所示:

为了评估预先对齐视觉输入的效果，研究团队进行了大量的对比实验。

他们使用了相同规模的MAE编码器替换了图片编码器，其中MAE编码器生成分离的视觉表示，而LanguageBind编码器生成统一的视觉表示（因为预先对齐了视觉表征）。

然后，他们在13个基准测试中比较了MAE编码器和LanguageBind编码器的性能，包括9个图片理解基准和4个视频理解基准。

通过替换图片编码器为MAE编码器，LLM在初始学习视觉表示时将视频特征和图片特征分开处理，不再将它们统一起来。

有关图6的实验结果显示，与分离的视觉表示相比，联合的视觉表示在4个视频问答数据集上显著提升了性能。

这一发现表明，预先对齐的视觉表征有助于LLM进一步学习和理解视频内容。它提供了更好的能力，使得模型能够更有效地处理视频问答任务并展现出更好的性能表现。

同时论文还验证了无论是对于图片还是视频，在联合训练中他们能相互受益。

通过联合训练视频数据，对于图片理解任务，可以缓解幻觉问题。类似的趋势也在LLaVA-Bench基准测试上观察到。

在视频理解方面，联合训练的也得到了明显的提升。

参考资料:

[1]https://arxiv.org/abs/2311.10122

[2]https://github.com/PKU-YuanGroup/Video-LLaVA

北大视频大模型新SOTA搞笑抖音视频AI秒懂笑点开源

0000

评论列表

共(0)条

相关推荐

站长资讯
美团、浙大等提出视觉任务统一架构VisionLLAMA
要点:1.VisionLLaMA是一种统一的视觉transformer架构，显著提升了图像生成、分类、语义分割和目标检测等多个主流视觉任务的性能。2.VisionLLaMA架构采用常规transformer和金字塔结构两种设计，有效减少了视觉和语言之间的架构差异，实现了更好的泛化能力和更快的收敛速度。
站长网2024-03-07 16:16:09
0000
王腾升职！晋升为小米中国区市场部总经理兼REDMI品牌总经理
快科技12月31日消息，日前，王腾职位发生变动，其微博认证显示，目前他是小米中国区市场部总经理、REDMI品牌总经理。变动前，王腾是小米中国区市场部副总经理、REDMI品牌总经理，这波可以说是升职了。据了解，王腾2016年加入小米，2020年3月加入REDMI团队，担任产品总监一职，当年血洗”中端、次旗舰市场的K40系列，就是出自王腾之手。
站长网站长资讯2024-12-31 15:27:44
0000
天涯创始人首度回应关停：从未放弃、数据不会丢
4月24日，作为中国互联网曾经的一个富豪，天涯社区彻底关停，网页、APP均无法访问，令人唏嘘。现在，天涯社区创始人、前董事长刑明首次公开现身，回应网友关切的问题。刑明表示：原来我们只是想低调地休整一段时间，筹集到资金再把它恢复起来，但是没想到网友的反应这么的热烈，出乎我们的意料，这对我们而言是一种激励。同时，我们也感到自责，没有为大家维护好平台。”
站长网站长资讯2023-05-28 09:44:19
0001
站长资讯
OpenAI称已不使用客户数据训练模型
当地时间5月5日，美国人工智能公司OpenAI的CEO阿尔特曼表示，已经有一段时间不再使用付费客户的数据来训练人工智能（AI）大语言模型。阿尔特曼表示:“用户希望我们不要使用他们的数据进行训练，因此我们已经改变了计划，并将来不再这样做。”据了解，4月26日，ChatGPT宣布推企业版订阅，默认情况下不会使用最终用户的数据来训练模型。而ChatGPTBusiness计划在未来几个月内推出。
站长网2023-05-06 08:22:43
0000
站长资讯
微软 OneDrive 将迎来全新升级：Copilot 将为用户提供更多 AI 功能
站长之家(ChinaZ.com)10月8日消息:微软日前宣布将对OneDrive进行更新，旨在使人们更容易访问、查看、分享和管理他们的文件。在本周的在线活动中，被称为「微软OneDrive：文件管理的未来已经来临」，微软公司公布了其在线文件存储服务的计划，其中一些已经对特定用户生效，而其他一些将在今年晚些时候或明年初开始推出。
站长网2023-10-08 15:13:41
0000