西工大提出全新自主无人机控制框架 实现类人对话交互
要点:
1. 西工大提出了一种创新的自主无人机控制框架,基于大模型实现了无人机之间的「群聊式」对话交互,打破了人机交互的壁垒,提高了无人机任务执行的自主性。
2. 这一控制框架包括了类人对话交互、主动环境感知和自主实体控制等主要能力,使无人机能够更好地理解用户需求、实时感知外部环境并调整任务规划,以及自主控制执行任务。
3. 该技术的应用领域广泛,包括安防巡检、灾害救援和空中物流等,具有重要意义。
近日,西工大的李学龙教授团队提出了一种全新的自主无人机控制框架,采用大模型实现了无人机之间的「群聊式」对话交互,从而打破了人机交互的壁垒,提高了无人机任务执行的自主性。这一框架包括了类人对话交互、主动环境感知和自主实体控制等核心要点,使无人机能够更好地理解用户需求、实时感知外部环境并调整任务规划,以及自主控制执行任务。
团队的研究启发于人类的认知模式,他们将高度自主的认知过程凝练为「思维计算—实体控制—环境感知」的三元交互,并基于开源大模型创建了「书生·浦语」驱动的自主无人机控制框架。这一框架为每架无人机装上了大脑,使它们可以在语言沟通中协同工作,执行开放环境和复杂任务中的智能交互和自主控制。
除了类人对话交互,这一技术还包括了主动环境感知,使无人机能够主动感知外部环境并实时调整任务规划。团队设计了任务引导的主动感知机制,结合多传感器融合的低空搜索、动态避障和视觉定位算法,实现了高效的信息采集和任务执行。
最后,自主实体控制方面,团队将无人机扩展为「飞行机器人」,使它们具备抓取能力,并构建了异构无人机集群协同控制机制,以实现分工执行不同任务,如区域搜索、目标定位和抓取。
总的来说,这一大模型自主无人机集群技术的应用潜力广泛,包括安防巡检、灾害救援和空中物流等领域,对未来的自主智能体研究具有重要意义。
1分钟复刻明星语音,这家AI创企开年跻身独角兽
2024年第一个月,又一AI初创公司跻身独角兽:专注于AI语音合成的ElevenLabs,刚刚完成8000万美元(约合人民币5.7亿元)B轮融资,估值超过10亿美元。在语音克隆领域,ElevenLabs(11Labs)是公认的最强工具之一。因霉霉说中文、郭德纲说英语相声视频而红极一时的HeyGen,就使用了11Labs的音频产品。而现在,新一轮融资佐证了资本市场对这家初创企业的看好:站长网2024-01-24 09:11:440000苹果M4芯片有望明年一季度发布 主打AI功能
彭博社知名记者马克・古尔曼最近透露,苹果公司正全力以赴开发搭载M4芯片的全新MacBookPro。与此同时,Canalys机构发布的一份引人瞩目的路线图显示,备受期待的M4系列芯片有望在2025年第一季度正式亮相。站长网2024-04-02 00:31:490000DIRFA:只需音频和照片即可创建逼真的说话脸部动画
划重点:👉研究人员开发了一个计算机程序,只需音频和一张照片即可创建反映说话者面部表情和头部动作的逼真视频。👉这个名为DIverseyetRealisticFacialAnimations(DIRFA)的人工智能程序能够根据音频和照片生成3D视频,显示人物与所说的音频同步的逼真而一致的面部动画。站长网2023-11-17 09:55:040000文心一言用户规模达4500万 插件超过500个
在昨天的百度世界2023大会上,文心大模型4.0正式发布,开启邀请测试据官方介绍,文心大模型4.0在9月已开始小流量上线,过去一个多月效果又提升了近30%。据称,文心大模型4.0的理解、生成、逻辑、记忆四大能力都有显著提升,其中理解和生成能力的提升幅度相近,而逻辑和记忆能力的提升则更大,逻辑的提升幅度达到理解的近3倍,记忆的提升幅度也达到了理解的2倍多。站长网2023-10-18 23:19:320000南京大学发布AvatarBooth 可用文本生成3D人类化身
过去,元宇宙曾经大热,但之后却被冷落。一个很大的原因是生成3D化身的方法大多需要昂贵且复杂的采集设备,以构建高保真的化身模型。因此,对于消费级别的应用开发来说难以负担。站长网2023-06-28 15:35:250000