3D-LLM:让AI聊天机器人可以解读三维世界
研究人员推出了一款名为3D-LLM的新方法,可以将对3D 环境的理解融入到大型语言模型中。这意味着聊天机器人将能够理解和处理3D 空间的概念,从而更好地在三维世界中导航和操作。
大型语言模型和多模态语言模型可以处理语音和2D 图像,比如ChatGPT、GPT-4和Flamingo。然而,这些模型缺乏对3D 环境和物理空间的真正理解。研究人员现在提出了一种称为3D LLM 的新方法来解决这个问题。
3D LLM 旨在通过使用点云等3D 数据作为输入,为 AI 提供3D 空间的概念。通过这种方式,多模态语言模型应该理解空间关系、物理和可供性等概念,而这些概念仅靠2D 图像很难掌握。3D LLM可以使人工智能助理能够在3D 世界中更好地导航、规划和行动,例如在机器人技术和实体人工智能领域。
为了训练模型,团队需要收集足够数量的3D 和自然语言数据对 - 与网络上的图像文本对相比,此类数据集是有限的。因此,团队开发了ChatGPT的提示技术来生成不同的3D描述和对话。
结果是包含超过300,000个3D 文本示例的数据集,涵盖3D 标记、回答视觉问题、任务分解和导航等任务。例如,ChatGPT 被要求通过询问有关从不同角度可见的物体的问题来描述3D 卧室场景。
然后,该团队开发了3D 特征提取器,将3D 数据转换为与预训练的2D 视觉语言模型(例如 BLIP-2和 Flamingo)兼容的格式。
此外,研究人员使用3D 定位机制,允许模型通过将文本描述与3D 坐标相关联来捕获空间信息。这也促进了使用 BLIP-2等模型来有效地训练3D LLM 来理解3D 场景。
实验结果显示,3D 语言模型可以生成对3D 场景的自然语言描述,进行3D 感知对话,并将复杂任务分解为3D 动作。这表明,通过结合空间推理能力,人工智能有潜力开发出更接近人类的3D 环境感知。
研究人员计划将这种模型扩展到其他数据模式,如声音,并训练它们执行其他任务。这将进一步提高 AI 助手在多模态环境中的能力。最终的目标是将这些进步应用到可以与3D 环境智能交互的具体 AI 助手中。这意味着未来可能会有更智能的机器人和具体人工智能应用程序。
把海外商品装进直播间,跨境电商直播成为新“金矿”
这个天猫618,鲜少看直播的95后王乐蹲在天猫国际,点开了一位日本女团偶像“小小葵呀”的直播间。王乐是位资深的Lolita爱好者,往年也会去东京秋叶原淘货,没有出国的日子里,“小小葵呀”的账号内容成了她感受日本风土与文化的窗口,“在她的直播间里,主播不仅表演了才艺,还带来了些小众隐藏好物。”站长网2023-06-30 19:48:490000谷歌采取措施防止其生成式AI工具在美国选举期间被滥用
划重点:1.🔒谷歌计划限制其人工智能聊天机器人Bard和搜索生成体验对与美国总统选举相关的查询做出回应,以防止滥用。2.🔒该限制计划将于明年初推出,涉及广告披露和某些内容的标签要求,旨在防止生成式AI工具传播误导信息。3.🔒此举对应时机敏感,因为对生成式AI操控选举结果的担忧正在增加,不仅仅限于美国,还包括印度和南非等明年举行关键选举的国家。00002024:到店的二次战争
千团大战奠定的行业格局被抖音撕开一条口子,随着高德的入局,到店团购即将在2024年迎来二次战争。根据QuestMobile数据,截至2023年3月,高德地图的月均DAU已经连续24个月稳定超过1亿,是阿里本地生活业务增长的主要驱动力。站长网2024-02-20 18:15:280000你还会买华为Mate 60吗?iPhone 15要大量出货了:富士康招工生产中
快科技9月2日消息,据供应链最新消息,iPhone15即将开始大量出货了,而富士康也是在做最后的生产。按照供应链人士说法,富士康河南郑州综合保税区的iPEBG事业群,动员国内八个厂区的部分员工,协助河南济源厂生产精密机构件,以最大产能支援生产。可以看出,iPhone15已经准备大量出货。0000你升级了没 中国移动:5G套餐客户数已达7.59亿
快科技11月20日消息,今天,中国移动发布了2023年10月客户数据公告,公告显示截至今年10月份,中国移动5G套餐客户数达到近7.59亿户。在客户总数上,中国移动10月份净增客户74.6万户,前10个月累计净增客户1577.1万户,客户总数达到了约9.91亿户。在有线宽带业务方面,中国移动10月份净增客户169.6万户,前10个月累计净增客户2421.2万户,客户总数达到了将近3亿户。站长网2023-11-20 20:56:050000