谷歌推具备空间推理能力的视觉语言模型SpatialVLM

站长网2024-02-18 15:27:180阅

要点:

1、谷歌提出了SpatialVLM，旨在赋予视觉语言模型空间推理能力。

2、研究者利用现实世界数据训练SpatialVLM，弥补了常见数据集对空间信息的限制。

3、通过生成大规模空间VQA数据集，研究者成功使视觉语言模型具备直接空间推理和链式思维能力。

谷歌最新研究提出SpatialVLM，旨在解决视觉语言模型缺乏空间推理能力的问题。过去，视觉语言模型在理解目标在三维空间中位置或关系时存在困难，研究者通过借鉴人类空间推理能力的思路，提出了这一新方法。他们强调，当前模型的限制可能来自训练时使用的数据集的限制，因此他们专注于从现实世界数据中提取空间信息，以提升模型的表现。

项目地址:https://spatial-vlm.github.io/

研究者使用开放词汇检测、深度估计、语义分割等模型提取真实世界数据，训练SpatialVLM以增强空间推理能力。实验证明，这一模型在回答空间问题和定量估计方面表现出色，甚至在有噪声的训练数据下也能可靠工作。SpatialVLM不仅具备了常识知识，还能在复杂的空间推理任务中展现出强大的表现。

为了让视觉语言模型具备空间推理能力，研究者设计了一个全面的数据生成框架，通过提取实体信息和生成大规模空间VQA数据集来训练模型。他们指定了38种不同类型的空间推理问题，包括定性和定量问题，并创建了包含数亿个问答对的庞大数据集。通过这种方式，他们成功使模型具备了直接空间推理和链式思维的能力，提升了视觉语言模型的整体性能。

总的来说，谷歌的新研究为视觉语言模型的发展带来了新的可能性，通过赋予模型空间推理能力，使其在处理复杂空间任务时表现更为出色。这一研究成果有望推动视觉语言模型在未来的发展方向上取得更大突破，为人工智能领域带来新的进步。

谷歌推具备空间推理能力的视觉语言模型SpatialVLM

0000

评论列表

共(0)条

相关推荐

站长资讯
谷歌还在“藏大招”！有更先进AI技术未公开
快科技5月2日消息，近日，谷歌的一名AI工程师在离职后爆料，谷歌在生成式人工智能方面的技术，远不止目前展现出的那些。这位名叫BlakeLemoine的工程师曾是谷歌人工智能团队的成员，在节后采访时，它表示，谷歌早在2021年就开发出了一款类似ChatGPY的，能够思考的AI。该AI最早计划在2022年秋季发布，但由于存在一定的安全问题，该AI遭到了删除。
站长网2023-05-03 15:47:34
0000
站长资讯
讯飞星火大模型V3.5将于1月30日发布星火开源大模型等将亮相
讯飞星火V3.5宣布将于2024年1月30日正式发布。这次升级中，讯飞星火首次基于全国产化算力平台进行训练，实现了全民开放大模型。在逻辑推理、语言理解、文本生成、数学答题和多模态等核心能力上都有大幅提升。此次发布还包括了星火语音大模型和星火开源大模型的首次发布，以提供更好的语音交互和更广泛的语言互通。另外，科大讯飞还发布了首部企业史《星火相传》，回顾了科大讯飞的创业精神谱系。
站长网2024-01-23 08:47:36
0003
孟羽童称不会纠结公众评价此前被董明珠称只想赚钱当网红
近日，针对董明珠在格力电器2023届大学生入职仪式中的言论，孟羽童也做出了回应。她表示，自己不会纠结于公众的评价。在格力电器2023届大学生入职仪式中，董明珠批评了孟羽童的工作表现，称其只想着用格力平台当网红，对公司产生了不良影响。对此，孟羽童公开表示，她不会纠结于公众的评价。
站长网站长资讯2024-01-05 10:31:24
0000
站长资讯
独家：值得参照的4组视频号第三方数据！
-从视频号用户下单时间看，晚上18～22点是下单高峰期。-从TOP100的视频号小店数据来看，50%的小店能把复购率做到20%以上，还有30%的小店能把复购率做到40%以上。-用单店累计订单超过1万单以上的200个视频号小店做样本，去看售后率（修改地址等售后需求），发现50%的视频号小店，有20%～30%的售后率。
站长网2023-04-13 12:16:47
0000
让马斯克和扎克伯格跳“科目三”，这可能是最懂社会摇的AI视频工具
AI视频领域又火了一款工具。只需上传一张照片，就能让马斯克跳TikTok社会摇。（强烈推荐配合视频食用，注意⚠️有音乐）这段视频由最近悄悄走红的MagicAnimate生成。这一股扑面而来的社会摇味儿，背后原因无他，靠着短视频发家的字节跳动也下场做起了AI视频生成工具。
站长网站长资讯2023-12-11 16:02:48
0005