南洋理工发布视觉可编程智能体Octopus 干家务、玩游戏都拿手

站长网2023-11-09 17:10:042阅

要点:

通过在大量视觉输入和可执行代码的数据对的训练，Octopus 学会了如何操控电子游戏的角色完成游戏任务，或者完成复杂的家务活动。

Octopus 通过视觉输入学习、理解真实世界，并以生成可执行代码的方式完成各种实际任务，具备了规划推理和根据实时环境做出反馈的能力。

研究者通过构建 OctoGibson 和 OctoGTA 两个仿真环境，提供了可用于训练和测试 Octopus 的场景，并开发了数据收集系统来高效获取训练数据。

南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体，它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务，或者完成复杂的家务活动。

Octopus 具备规划推理和根据实时环境做出反馈的能力，能够理解真实世界并生成可执行代码来完成各种实际任务。为了训练 Octopus，研究者们创建了 OctoGibson 和 OctoGTA 两个仿真环境，提供了可用于训练和测试 Octopus 的场景，并开发了数据收集系统来高效获取训练数据。

论文地址:https://arxiv.org/abs/2310.08588

项目网页:https://choiszt.github.io/Octopus/

开源代码:https://github.com/dongyh20/Octopus

OctoGibson 是基于斯坦福大学开发的 OmniGibson 的仿真环境，包含了476个符合现实生活的家务活动，模型可以操作其中的可交互物体来完成任务。OctoGTA 则基于《侠盗猎车手》（GTA）游戏，构建了20个任务并将其泛化到不同的场景中。研究者利用这两个仿真环境中的任务来训练 Octopus，并通过强化学习算法进一步提升模型的任务规划能力。

为了高效收集训练数据，研究者构建了一套完整的数据收集系统。他们引入了 GPT-4作为任务的执行者，通过预先实现的函数将视觉输入处理为文本信息提供给 GPT-4，再在仿真环境中执行代码，并判断任务是否完成。如果任务失败，会回到上一步的起始位置重新采集数据。在数据收集过程中，研究者记录了每个子任务的成功情况，为后续引入强化学习提供了基础。

通过在大量训练数据上进行监督式微调，研究者构建出了一个能够以视觉信息作为输入，遵循固定格式输出的 VLM 模型。然后，他们引入了 RLEF（Reinforcement Learning with Environmental Feedback）来进一步提升 Octopus 的任务规划能力，利用先前采集的子任务的成功情况作为奖励信号。

实验结果显示，经过 RLEF 训练的 Octopus 模型在任务规划和推理能力上有了显著的提升，即使面对模糊的任务指令，也能提供更加合理的计划。

综上所述，Octopus 是一种具备视觉可编程能力的智能体，通过在仿真环境中的训练学会了操控角色完成游戏任务和家务活动。它具备规划推理和根据实时环境做出反馈的能力，通过 RLEF 训练策略进一步提升了任务规划和推理能力。这一研究对于实现大模型的具身智能化具有重要意义，为进一步探索视觉 - 语言模型的应用提供了新的思路。

南洋理工发布视觉可编程智能体Octopus干家务玩游戏都拿手

0002

评论列表

共(0)条

相关推荐

埃森哲 CEO：缺乏数据能力或安全控制阻碍了大多数公司大规模部署生成式人工智能
咨询公司埃森哲(Accenture)的首席执行官JulieSweet在接受英国《金融时报》采访时表示，大多数公司由于缺乏强大的数据基础设施或确保技术安全使用的控制，尚未准备好大规模部署生成型人工智能（AI）。
站长网站长资讯2023-12-20 10:00:43
0000
麻省理工学院学者发布关于人工智能治理的政策文件
**划重点:**1.📄麻省理工学院的临时委员会发布了一系列关于人工智能治理的政策文件，旨在帮助美国政策制定者更好地监管社会中的人工智能应用。2.🧠主要政策文件提出通过扩展现有监管和责任框架来覆盖人工智能，强调AI提供商需要事先定义应用程序的目的和意图，并呼吁增强新的人工智能工具审计能力。
站长网站长资讯2023-12-11 16:58:48
0000
站长资讯
快手宣布成为杭州亚运会赛事持权转播商
7月17日，快手宣布与中央广播电视总台达成合作，平台获得杭州2022年第19届亚运会视频点播及短视频权利，成为总台杭州亚运会赛事点播持权转播商。与此同时，快手也与杭州亚组委达成合作，成为杭州2022年第19届亚运会官方指定短视频分享平台。杭州亚运会期间，双方将携手打造全民看亚运、聊亚运、参与亚运的火热氛围，为广大用户呈现一场难忘的亚运盛宴。
站长网2023-07-18 06:37:24
0000
站长资讯
国产自研大模型加快落地，新一轮搜索入口战打响？
在这个以效率为先的时代，AI的广泛应用自然而然，而若谈及受到影响最大的行业，搜索领域必定是其中之一。目前，抖音、B站、淘宝等互联网平台均推出了自家的AI搜索产品，而垂直搜索领域的玩家也在新兴技术趋势下找到了更大的革新动力。
站长网2024-01-27 08:10:41
0000
站长资讯
微软发布Windows Copilot 并宣布将Bing引入ChatGPT
在昨日晚间的微软Build年度开发者大会上，微软宣布，将新的Bing引入ChatGPT，ChatGPT将拥有内置搜索引擎，可通过网络访问提供更及时、更新的答案，ChatGPT答案可以基于搜索和网络数据并包含引用。今日起，上述功能将面向ChatGPTPlus订阅者推出，免费用户只需启用一个将Bing引入ChatGPT的插件即可使用。
站长网2023-05-24 08:29:34
0000