首个三维具身通才智能体LEO:全面掌握感知、推理、规划、行动
要点:
LEO是首个具身通才智能体,以GPT-4等大语言模型为基础,实现了在三维世界中的感知、推理、规划、行动等多任务多模态能力。
该研究填补了多模态大语言模型在三维世界任务上的空白,通过高效学习策略和数据生成方法,构建了一个能够在真实场景中应用的通才智能体。
LEO在三维场景问答、物体描述、具身推理等任务上表现优异,具备在家庭助理、智能导航、机器人操作等领域广泛应用的潜力。
近年来,多模态大语言模型在自然语言处理、视觉理解和机器人领域取得了显著进展。然而,这些模型主要基于二维图片和文本数据,对于理解和交互于三维世界的任务存在一定的欠缺。为解决这一问题,北京通用人工智能研究院携手北京大学、卡耐基梅隆大学和清华大学的研究人员,提出了具备感知、推理、规划、行动等多任务多模态能力的首个三维世界具身通才智能体LEO。
论文链接:https://arxiv.org/abs/2311.12871
项目主页:https://embodied-generalist.github.io/
代码链接:https://github.com/embodied-generalist/embodied-generalist
LEO的核心设计思想是以大语言模型为基础,在两个关键阶段进行训练:三维视觉-语言对齐和视觉-语言-动作指令微调。通过采用共享的架构和权重,LEO能够在不同任务之间实现无缝切换,构建了一个统一的处理框架。在数据集的收集方面,研究团队通过两阶段训练策略,包括物体级别和场景级别的大规模数据集,为LEO的训练提供了坚实基础。
研究的主要贡献体现在三个方面:首先,构建了在三维世界中完成感知、定位、推理、规划和动作执行的LEO。其次,提出了高效的学习策略,通过将以物体为中心的三维表征与语言模型相结合,成功打通了视觉-语言-动作的通道。最后,研发了生成高质量三维视觉语言数据的方法,构建了大规模的视觉-语言-动作指令微调数据集。
LEO的应用前景广泛,作为未来的家庭助理,它能够与人进行交互,调整家居布局、帮助找到物品、提供各种问题的建议。在导航和操控能力方面,LEO可应用于购物中心的智能引导、家居自动化任务以及物流中心的物品整理和搬运,展现出巨大的应用价值。
LEO的出现标志着具身通才智能体在三维世界任务上取得了新的突破,为实现通用人工智能迈出了重要一步。
抖音电商双11,他们在产业带源头找到新增量
10月21日,在长达六小时的直播后,@郝劭文的“小超市”完成了南通家纺的溯源直播。当日,直播间内爆品频频:一套价值399元的家纺套组卖出了3.5万件,另一套牛奶绒套组则卖出超2.4万套,还有标价299元的迪士尼磨毛14件套,几乎还没有多做介绍就被一抢而空。站长网2023-11-06 17:42:590000联合国研究:AI不太可能破坏就业,但某些员工可能付出“惨痛”代价
本文概要:1.联合国国际劳工组织的一项研究称,AI更有可能增强现有工作,而不是完全取代它们,但某些角色,如文书工作,其任务可能比其他角色自动化更多。2.根据研究,文员工作具有24%的高度自动化风险,另外58%具有中等水平风险。打字员、旅行顾问、银行出纳员等角色风险较大。3.该研究认为,AI的整体影响既不特别积极也不特别消极,其影响将取决于如何管理和规范GPT。站长网2023-08-22 18:50:300000OPPO Reno10系列发布 售价2499元起标配长焦镜头
今日下午,OPPOReno10系列正式发布,包括了Reno10、Reno10Pro、Reno10Pro三款手机。分别搭载骁龙778G、天玑8200、骁龙8处理器。据悉,OPPOReno10全系列标配长焦镜头,标准版和Pro版本上搭载了3200万超光影长焦镜头;Pro版本则搭载6400W超光影潜望长焦。站长网2023-05-24 15:33:580004字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源&demo可玩
字节大模型,BuboGPT来了。支持文本、图像、音频三种模态,做到细粒度的多模态联合理解。答哪指哪,什么讲了什么没讲,一目了然:除了有“慧眼”,还有“聪耳”。人类都注意不到的细节BuboGPT能听到:Audio-1-chime-bird-breeze,量子位,20秒前方高能!三模态联合理解,文字描述图像定位声音定位,一键搞定,准确判断声音来源:站长网2023-08-15 20:27:170001腾讯云AI绘画上线SaaS版本 推出腾讯云智能图像创作平台
腾讯云AI绘画成为国内首批通过中国信通院的"AIGC绘画平台基础能力评估"标准的AIGC绘画平台。腾讯云AI绘画是一款AI图像生成与编辑技术产品,用户可以根据输入的文本或图片,智能创作与输入信息相关的图像内容。目前提供API和SaaS两种产品形态,满足不同使用场景需求。站长网2023-12-29 09:07:420000