谷歌推具备空间推理能力的视觉语言模型SpatialVLM
站长网2024-02-18 15:27:180阅
要点:
1、谷歌提出了SpatialVLM,旨在赋予视觉语言模型空间推理能力。
2、研究者利用现实世界数据训练SpatialVLM,弥补了常见数据集对空间信息的限制。
3、通过生成大规模空间VQA数据集,研究者成功使视觉语言模型具备直接空间推理和链式思维能力。
谷歌最新研究提出SpatialVLM,旨在解决视觉语言模型缺乏空间推理能力的问题。过去,视觉语言模型在理解目标在三维空间中位置或关系时存在困难,研究者通过借鉴人类空间推理能力的思路,提出了这一新方法。他们强调,当前模型的限制可能来自训练时使用的数据集的限制,因此他们专注于从现实世界数据中提取空间信息,以提升模型的表现。
项目地址:https://spatial-vlm.github.io/
研究者使用开放词汇检测、深度估计、语义分割等模型提取真实世界数据,训练SpatialVLM以增强空间推理能力。实验证明,这一模型在回答空间问题和定量估计方面表现出色,甚至在有噪声的训练数据下也能可靠工作。SpatialVLM不仅具备了常识知识,还能在复杂的空间推理任务中展现出强大的表现。
为了让视觉语言模型具备空间推理能力,研究者设计了一个全面的数据生成框架,通过提取实体信息和生成大规模空间VQA数据集来训练模型。他们指定了38种不同类型的空间推理问题,包括定性和定量问题,并创建了包含数亿个问答对的庞大数据集。通过这种方式,他们成功使模型具备了直接空间推理和链式思维的能力,提升了视觉语言模型的整体性能。
总的来说,谷歌的新研究为视觉语言模型的发展带来了新的可能性,通过赋予模型空间推理能力,使其在处理复杂空间任务时表现更为出色。这一研究成果有望推动视觉语言模型在未来的发展方向上取得更大突破,为人工智能领域带来新的进步。
0000
评论列表
共(0)条相关推荐
魅族21 PRO将于2月29日发布:中置挖孔直屏设计
魅族科技官方近日发布消息,魅族21PRO这款年度旗舰手机将在2月29日的魅族特别活动上亮相。据悉,魅族21PRO采用了中置挖孔直屏设计,屏幕尺寸为6.79英寸,魅族方面宣称这样的屏幕尺寸将为用户带来难以寻觅的单手握持手感。此外,魅族21PRO预计将配备2K屏幕,搭载高通骁龙8Gen3移动平台,并支持超声波指纹识别技术。这些配置都显示了魅族对这款手机的重视和投入。站长网2024-02-26 16:29:140000剪映AI创作平台Dreamina将上线视频生成能力 附内测邀请入口
划重点:1.🌟创作多样:Dreamina平台提供丰富的创作元素,涵盖建筑设计、摄影、插画等多个领域。2.🌐Dreamina即将上线视频生成能力,邀请创作者优先参于到产品上线的内测之中。3.🎨立即生成:简单的文案,立即生成精彩的图片,让创作变得轻松而有趣。Dreamina是剪映旗下AI创作平台,用户可以根据文本内容生成由AI生成的创意图,支持修整图片大小比例和模板类型。站长网2024-02-27 18:18:430002RoboTool:让机器人通过大语言模型创新性地运用工具
**划重点:**1.🧠研究人员在卡内基梅隆大学和GoogleDeepMind开发了RoboTool,这是一个系统,通过利用大型语言模型,扩展了机器人的能力,使它们能够更创造性地使用工具。2.🌐RoboTool通过接受自然语言指令,使用GPT-4模型生成可执行代码,帮助机器人以更灵活和创意的方式解决各种复杂任务,如举重或按压难以到达的按钮。站长网2023-11-15 18:32:010000苹果在 iOS 17 中再次移动了结束通话按钮
苹果在最新的iOS17开发者测试版中再次调整了结束通话按钮的位置。现在,按钮被放置在通话屏幕的中下方,而不是之前的右下角。这个调整虽然微小,但可能意味着一旦苹果在今年秋季正式推出iOS17新软件,通话控件的变化对用户来说并不会太大。站长网2023-08-16 10:37:300000Transformer一作再创业!新获4亿融资,谷歌英伟达AMD参与,此前长期隐身发展
Transformer作者创立的大模型公司,再获5650万美元投资,换算成人民币有四亿多。英伟达、AMD,还有两位创始人的老东家谷歌,都是这轮融资的参投者。加上种子轮中获得的融资款,这家成立不到一年的公司已经获得了近6500万美元。这家大模型初创公司名为EssentialAI,创立于今年年初,此后一直处于隐身状态。0000