英伟达最新AI AgentEureka开源 可完成转笔等复杂动作
要点:
英伟达的最新AI AgentEureka使用GPT-4生成奖励函数,教会机器人完成多项复杂任务,包括转笔、打开抽屉、抛球等,表现超越人类专家。
Eureka采用混合梯度架构,结合无梯度的情境学习和强化学习,通过上下文来实现人类水平的奖励算法设计,大幅提升机器人性能。
这项研究受到广泛关注,开源项目可在机器人领域应用,尤其在处理复杂任务和高维电机控制方面表现出色,甚至有时与人类策略负相关。
英伟达最新的AI AgentEureka搭载了强大的GPT-4模型,通过生成奖励函数的方式,使机器人能够完成多项复杂任务,其中包括一些看似简单但难以实现的动作,如转笔、打开抽屉、抛球等。这一成就令人瞩目,尤其是在转笔这项技能上,即便是靠人类逐帧制作动画,也难以达到如此高水准。研究结果显示,Eureka在超过80%的任务中都超越了人类专家,使机器人的平均性能提升了50%以上。

论文链接:
https://arxiv.org/abs/2310.12931
GitHub链接:
https://github.com/eureka-research/Eureka
Eureka的关键创新在于采用了一种混合梯度架构,结合了无梯度的情境学习和强化学习。这个系统使用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化。在外循环中,GPT-4细化奖励函数,而内循环则使用强化学习来训练机器人控制器。这种方法让机器人能够通过强化学习来掌握复杂的技能,而不需要特定的提示工程和奖励模版。
Eureka还支持一种新形式的上下文强化学习,它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。在对29种不同的开源RL环境进行基准测试时,Eureka在83%的测试中超越了人类,并实现了52%的改进。这些测试环境包括10种不同的机器人形态,如四足机器人、四旋翼机器人、双足机器人和机械手等。
最令人惊讶的是,Eureka在处理复杂、高维电机控制的任务上表现更佳,有时甚至与人类奖励的相关性负相关。这表明它的策略在某些情况下比人类策略更为有效,类似于AlphaGo在下棋策略上的表现。这项研究由英伟达、宾夕法尼亚大学、加州理工学院和德州大学奥斯汀分校的研究人员合作完成,其中近半数研究人员都是华人。这一成就为机器人学习和强化学习领域带来了革命性的突破,也引发了广泛的关注和期待。
思科280亿美元收购Splunk,加强企业在AI时代安全保障
文章概要:1.思科计划以280亿美元收购Splunk,将成为全球最大的软件供应商之一,致力于帮助企业在人工智能普及的时代更好地保障自身安全。2.这一收购将加强思科的安全能力,推动企业从威胁检测和响应转向威胁预测和预防,以适应不断演变的数字化业务和人工智能加速采用的IT景观。3.思科和Splunk将合作帮助企业客户充分利用人工智能机会,提高对其数据的可视化和洞察力。站长网2023-09-22 11:19:320000腾讯回应工信部最新要求:微信QQ故障已批评和处罚相关负责人
快科技4月14日消息,3月底腾讯旗下的微信、QQ出现了业务异常的问题,事后腾讯处罚了总办成员,这件事也得到了工信部的指导,现在腾讯方面再次做出回应。腾讯微信相关团队表示,3月29日凌晨,由于机房配套设施故障,部分用户使用微信相关功能时出现异常。事故发生后,微信内部快速拉起了专项团队,对问题予以解决,并进行全链条梳理、优化产品保障机制。同时,腾讯已对相关负责人进行了通报批评和处罚。0004亚马逊介绍与 Anthropic 合作提供支持的 AWS AI 芯片
站长之家(ChinaZ.com)10月18日消息:亚马逊日前与Anthropic宣布战略合作,推进生成式人工智能的发展。Anthropic选择AWS作为其主要云服务提供商,并将使用AWSTrainium和Inferentia芯片进行训练和部署未来的基础模型,充分利用AWS高性能、低成本的机器学习加速器。站长网2023-10-18 22:44:260000雷军:小米澎湃OS底层全面重构 AI赋能整个生态
刚刚,雷军披露了更多有关小米澎湃OS的相关信息。雷军表示,小米澎湃OS是一个超级庞大的工程体系。从架构设计之初,就明确了四个目标:第一,实现单端性能表现最强;第二,AI赋能,成为整个生态的“智能大脑”,能够为用户提供主动服务;第三,更加便捷高效的连接;第四,实现全端隐私安全坚固防护。站长网2023-10-24 21:20:390000预计到2031年,合成数据生成市场规模将达到 35 亿美元
本文概要:1.全球合成数据生成市场预计在2031年达到35.8%的复合年增长率,市值将达到35亿美元。2.合成数据生成市场的增长受到数字化转型和人工智能等先进技术的推动,以及对物联网和连接设备的需求增加的影响。3.合成数据生成技术可以满足数据隐私和安全的需求,并提供一种可扩展的方法来生成各种数据集。站长网2023-08-14 16:39:150000