新加坡南洋理工大学出品!大规模视频分割数据集MeViS,自动识别视频动态主体
文章概要:
1) MeVIS数据集包含2006段视频,强调目标物体的运动属性,不能仅从单帧识别。
2) 提出LMPM基准方法,利用语言理解和运动评估找到视频中语言描述的目标物体。
3) 研究为发展更高级的语言引导视频分割算法奠定基础。
当前用于引用视频对象的数据集通常强调突出的对象并依赖于具有许多静态属性的语言表达。这些属性允许仅在单帧中识别目标对象。然而,这些数据集忽视了运动在语言引导视频对象分割中的重要性。
新加坡南洋理工大学研究人员发表了一篇AI论文,提出了一个大规模视频分割基准数据集MeVIS(Motion Expression Video Segmentation)。简单的说,MeViS是一个大规模的视频分割数据集,它让计算机能够根据描述对象运动的自然语言语句来分割和跟踪视频中的目标对象。
MeViS 数据集包含2,006个视频和8,171个对象,并提供了28,570个运动表达式来引用这些对象。数据集示例中,表达主要集中在运动属性,被指代的目标物体无法仅通过观察单帧进行识别。上图显示了 MeViS 中的表达式主要关注运动属性,仅通过检查单帧无法识别所涉及的目标对象。比如给计算机一个视频和一个句子“飞离树枝的鸟”,它就可以在整个视频中找出符合这个句子描述的鸟,并把这只鸟在每一帧图像中的位置分割出来。
MeViS不同于以前的数据集,以前的数据集更关注静态的特征比如颜色、形状等来分割,而MeViS关注的是运动信息。例如视频里有三只外观很像的鸟,只有根据它们的飞行动作才能区分出目标鸟。
研究人员采取了一些步骤,确保MeVIS数据集强调视频的时间运动:
首先,仔细选择视频内容,其中包含与运动共存的多个对象,并排除具有静态属性可以轻松描述的孤立对象的视频。
其次,在仅通过动作词就可以明确描述目标对象的情况下,优先考虑不包含静态线索(例如类别名称或对象颜色)的语言表达。
除了提出MeVIS数据集,研究人员还给出了一个基准方法LMPM(Language-guided Motion Perception and Matching)来解决这个数据集提出的挑战。他们的方法包含生成语言条件查询来在视频中识别可能的目标物体,使用更稳健高效的对象嵌入来表示这些对象,应用运动感知捕捉对象嵌入的时间上下文,从而建立视频运动动力学的整体理解,以掌握视频中的瞬时运动和持续运动。
然后,他们比较语言特征与预测的对象运动,找到语言表达中提到的目标物体。这种方法有效结合了语言理解和运动评估来处理复杂的数据集任务。
这项研究为开发更高级的语言引导视频分割算法奠定了基础。它向更具挑战性的方向开辟了道路,如探索更好的理解运动和建模技术、创建更高效的模型以减少冗余检测物体、设计有效的跨模态融合方法等。解决这些挑战需要推动语言引导视频分割领域的当前最新技术。
项目网址:
https://github.com/henghuiding/MeViS
https://henghuiding.github.io/MeViS/
论文:https://arxiv.org/abs/2308.08544
高考生喊话马化腾新版QQ空间难用后 腾讯火速调整:改好了!
快科技6月26日消息,在2023年全国高考首日,杭州十四中考点首位走出考场的考生接受采访时喊话马化腾称,腾讯能不能把QQ空间改回老版,新版太难用了”。喊话没多久,腾讯QQ官博进行回应,表示非常重视你的建议!先专心考试,等考试结束后,我们第一时间联系你!祝你高考顺利”。距离喊话已快20天,QQ空间改的怎么样了?站长网2023-06-27 16:03:550000特斯拉Cybertruck开启国内首次直播 即将启动全国巡展
站长之家(ChinaZ.com)1月24日消息:特斯拉旗下纯电皮卡Cybertruck已空运至国内,准备启动全国巡展。在正式巡展之前,特斯拉决定通过直播让网友提前一睹Cybertruck的风采。根据特斯拉官方信息,Cybertruck的直播将在三个时间段进行,分别是12:00-14:00、15:00-17:00和18:00-20:00。网友可以通过直播链接观看Cybertruck的详细介绍。站长网2024-01-24 15:01:01000010万日活的产品,是如何被平台搞死的!
各位村民好,我是村长两年前,我们曾有一个日活超10万的小程序工具。但是好景不长,在平台各种政策之下,这样一个在巨头林立中冒出来的产品,慢慢的被消灭了。今天就和大家一起来分享一下,我们之前在做内容工具创业中遇到的一些坑。由此不得不感叹,对于普通人来说,创业越来越难了。先交代一下背景,我们做了一个可以快速发布营销素材的小工具,还可以设置付费阅读、打赏这些功能。01上线审查0000微软发布新型AI训练法“思想算法” 使AI更具人类思维能力
要点:微软与弗吉尼亚理工大学合作,提出“思维算法”新训练方法,目的是使大语言模型如ChatGPT在推理上更高效、更具人类思维逻辑。“思维算法”通过组织模型有序地探索不同解决方案,融合了人类直观认知与算法逻辑思维的优势。研究人员认为,这种方法可以指导模型高效解决复杂实际问题,还可减少模型的碳足迹。站长网2023-09-01 10:52:310000百度文心大模型3.5新增插件机制 将逐步向第三方开发者开放
百度首席技术官王海峰表示,文心大模型3.5的最大变化是新增了插件机制。其中,默认的内置插件是“百度搜索”,这使得文心一言具备了生成实时准确信息的能力。此外,还有长文本摘要和问答插件“ChatFile”,支持超长文本输入等功能。站长网2023-06-28 15:42:560000