英伟达最新AI AgentEureka开源 可完成转笔等复杂动作
要点:
英伟达的最新AI AgentEureka使用GPT-4生成奖励函数,教会机器人完成多项复杂任务,包括转笔、打开抽屉、抛球等,表现超越人类专家。
Eureka采用混合梯度架构,结合无梯度的情境学习和强化学习,通过上下文来实现人类水平的奖励算法设计,大幅提升机器人性能。
这项研究受到广泛关注,开源项目可在机器人领域应用,尤其在处理复杂任务和高维电机控制方面表现出色,甚至有时与人类策略负相关。
英伟达最新的AI AgentEureka搭载了强大的GPT-4模型,通过生成奖励函数的方式,使机器人能够完成多项复杂任务,其中包括一些看似简单但难以实现的动作,如转笔、打开抽屉、抛球等。这一成就令人瞩目,尤其是在转笔这项技能上,即便是靠人类逐帧制作动画,也难以达到如此高水准。研究结果显示,Eureka在超过80%的任务中都超越了人类专家,使机器人的平均性能提升了50%以上。
论文链接:
https://arxiv.org/abs/2310.12931
GitHub链接:
https://github.com/eureka-research/Eureka
Eureka的关键创新在于采用了一种混合梯度架构,结合了无梯度的情境学习和强化学习。这个系统使用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化。在外循环中,GPT-4细化奖励函数,而内循环则使用强化学习来训练机器人控制器。这种方法让机器人能够通过强化学习来掌握复杂的技能,而不需要特定的提示工程和奖励模版。
Eureka还支持一种新形式的上下文强化学习,它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。在对29种不同的开源RL环境进行基准测试时,Eureka在83%的测试中超越了人类,并实现了52%的改进。这些测试环境包括10种不同的机器人形态,如四足机器人、四旋翼机器人、双足机器人和机械手等。
最令人惊讶的是,Eureka在处理复杂、高维电机控制的任务上表现更佳,有时甚至与人类奖励的相关性负相关。这表明它的策略在某些情况下比人类策略更为有效,类似于AlphaGo在下棋策略上的表现。这项研究由英伟达、宾夕法尼亚大学、加州理工学院和德州大学奥斯汀分校的研究人员合作完成,其中近半数研究人员都是华人。这一成就为机器人学习和强化学习领域带来了革命性的突破,也引发了广泛的关注和期待。
星火大模型带动讯飞开发者增85万 上半年营收达78亿元
科大讯飞今天发布了2023年上半年的业绩预告,并公布了其具体发展和营收情况。根据报告,科大讯飞预计上半年的营业收入将达到78亿元,毛利为31亿元。截至2023年6月30日,讯飞开放平台的开发者数量已达到497.4万,比去年同期增长了45%,增加了85万家开发者。其中,讯飞星火的发布促使开发者数量在两个月内增加了85万家。站长网2023-07-12 16:23:450000LogAI:专为日志分析和智能而设计的开源库
LogAI是一个免费的日志分析和智能库,支持各种日志分析和智能任务。它与多种日志格式兼容,并具有交互式图形用户界面。LogAI为流行的统计、时间序列和深度学习模型提供了统一的模型接口,便于对日志异常检测的深度学习算法进行基准测试。站长网2023-07-26 11:31:130000OPPO Reno10系列今日开售 标配长焦镜头售价2499元起
OPPO官方宣布,OPPOReno10系列,今日开售,至高24期分期免息。OPPOReno10系列包括了Reno10、Reno10Pro、Reno10Pro三款手机。分别搭载骁龙778G、天玑8200、骁龙8处理器。据悉,OPPOReno10全系列标配长焦镜头,标准版和Pro版本上搭载了3200万超光影长焦镜头;Pro版本则搭载6400W超光影潜望长焦。站长网2023-06-01 16:39:400000科技部等十部门印发《科技伦理审查办法(试行)》
站长之家(ChinaZ.com)10月10日消息:据科技部网站消息,日前,科技部会同教育部、工业和信息化部等10部门印发了《科技伦理审查办法(试行)》(下称《办法》)。站长网2023-10-10 14:21:190000生成式人工智能对于网络安全领域来说是一把双刃剑
站长之家(ChinaZ.com)8月28日消息:人工智能和大型语言模型(LLMs)的生成潜力已经引起了安全行业的广泛关注。这些新工具可能有助于编写和扫描代码、补充不足的团队、实时分析威胁,并执行各种其他功能,以帮助使安全团队更准确、高效和生产力。随着时间的推移,这些工具也可能接管今天安全分析员所厌恶的单调重复任务,为需要人类注意力和决策制定更有吸引力和影响力的工作腾出空间。站长网2023-08-28 09:03:020000