北大&智源提出训练框架LLaMA-Rider 让大模型自主探索开放世界
站长网2023-11-07 12:06:100阅
要点:
1. LLaMA-Rider是一个训练框架,赋予大型语言模型在开放世界中自主探索、学习任务的能力,提高其适应开放环境的通用智能。
2. LLaMA-Rider采用反馈-修改机制进行主动探索,在探索阶段将成功经验整合为监督数据集,然后用于微调模型,提高多任务解决的能力。
3. LLaMA-Rider的实验表现优于其他方法,具有高采样效率和低训练代价,展现了对开放世界的持续学习和多任务解决能力。
北京大学和北京智源人工智能研究院的团队提出了名为LLaMA-Rider的训练框架,旨在让大型语言模型在开放世界中具备自主探索和学习任务的能力。这个框架通过反馈-修改机制来实现主动探索,使模型在环境中接收反馈信息,不断调整决策,从而逐渐适应开放环境。
项目地址:https://github.com/PKU-RL/LLaMA-Rider
LLaMA-Rider采用两阶段训练方法,首先让模型在环境中自主探索,然后将成功经验整合为监督数据集,用于模型微调,提高多任务解决的能力。在实验中,LLaMA-Rider的表现优于传统任务规划器,具有高采样效率和低训练代价,尤其在处理大动作空间和复杂场景时表现出色。
LLaMA-Rider还展现了对新任务的泛化能力,表明模型学到了决策的泛化性。作者还验证了子任务重标记的重要作用,以及模型在任务相关问题中的准确回答,证明了模型在训练过程中学到了与环境知识的对齐。
实验结果显示,LLaMA-Rider在多任务解决上表现出高采样效率和低训练代价,与强化学习方法相比具有优势。这个研究为大型语言模型在开放世界中的自主学习提供了重要思路,具有广阔的应用前景。
0000
评论列表
共(0)条相关推荐
最新研究:AI发展使女性面临更大的失业风险
根据一项最新研究,人工智能(AI)的发展可能会让女性面临更大的失业风险。这项由麦肯锡全球研究院发布的研究指出,到2030年,近80%的女性将不得不换公司或失去工作,因为人工智能和自动化技术将取代他们的工作岗位。站长网2023-07-27 11:12:380000Meta 将推出第一代自研人工智能运算芯片 MTIA v1
Meta公司的AI工作负载无处不在,为诸多应用提供基础支持,如内容理解、动态信息流、生成式AI和广告排名等。得益于其与Python的无缝集成、急切模式编程和简明的API,PyTorch可以运行这些工作负载。其中,DLRMs对于提升Meta产品和服务的用户体验至关重要。硬件系统必须在模型的规模和复杂性不断增长的情况下,提供越来越多的内存和计算资源,同时保持效率。站长网2023-05-23 15:13:110000Salesforce 领投 AI 初创公司 Hugging Face 融资:估值超过 40 亿美元
据TheInformation报道,两位知情人士透露,Salesforce正在领投HuggingFace的一轮融资,HuggingFace是帮助企业使用人工智能的估值最高的初创公司之一,估值超过40亿美元。站长网2023-08-23 18:08:380000小米整改电视开机广告 可永久关闭
近日,有网友分享了一个方法,可以永久关闭小米电视的开机广告。该网友声称,只需在小米商城App中找到人工客服,并告知他们想要关闭电视广告,客服会要求提供MAC地址。一旦提交成功,预计在2-3个工作日内,开机广告就会被永久关闭。站长网2023-10-11 19:00:020000我,一个虚拟人,自然流量直播卖了8万多,居然不是在抖音淘宝
电影《天下无贼》里,演员葛优说过一句经典台词:“二十一世纪什么最贵?人才!”今天,当直播渗透到电商和本地生活领域,许多中小商家对此深有同感。在三四五线城市,招聘带货主播成了商家的普遍痛点,好主播非常稀缺,而且流动性极强。一位南康家具产业带的老板,曾组建起一个抖音直播团队,主播都很年轻,刚学会就全跑掉了。“刚好起来了,他就提要求加工资,或者被别的地方挖走。”站长网2023-08-15 17:54:210002