英伟达发布Nemotron-4:150亿参数通用大模型,目标单张A100/H100可跑
**划重点:**
1. 🌐 Nemotron-4是英伟达最新的通用大模型,拥有150亿参数,在各语言和编码任务中表现出色。
2. 💡 该模型采用Chinchilla模型的「缩放定律」,通过优化计算预算、数据和模型大小实现性能提升。
3. 🔥 在多领域下游评估中,Nemotron-415B超越同等参数规模的模型,甚至击败4倍大的模型,成为最强通用语言模型。
英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数,经过在8T token上的训练,在英语、多语言和编码任务中表现出色。具体而言,Nemotron-4在7个评估基准上的15B模型表现优异,超越同等参数规模的模型,甚至击败了4倍大的模型。
该模型的设计灵感来自Chinchilla模型的「缩放定律」,该定律强调在给定固定计算预算的情况下,同时优化数据和模型大小。与过去主要关注模型大小不同,这一研究强调将计算分配给更多数据的训练,以降低延迟和服务模型所需的计算量。因此,Nemotron-4的主要目标是打造一个能在单个英伟达A100或H100GPU上运行的最佳「通用大模型」。
在架构方面,Nemotron-4采用了标准的纯解码器Transformer架构,并带有因果注意掩码。核心超参数包括32亿个嵌入参数和125亿个非嵌入参数。在数据方面,研究人员使用了包含8万亿个token的预训练数据集,分为英语自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。
为了实现这一庞大模型的训练,Nemotron-4使用了384个DGX H100节点,每个节点包含8个英伟达H10080GB SXM5GPU。在16位浮点(bfloat16)算术下,每个GPU的峰值吞吐量为989teraFLOP/s。研究人员通过张量并行和数据并行的组合进行训练,并使用了分布式优化器。
在下游评估中,Nemotron-4在各领域均表现强劲,特别是在常识推理、热门综合基准和数学、代码任务上。该模型在多语言分类和生成任务中也实现了最佳性能,展现了其在不同语言的卓越理解能力。值得注意的是,Nemotron-4在机器翻译任务中取得了显著的进展,不仅在中文翻译成英文方面表现出色,而且在中文直接翻译成其他语言方面也取得了印象深刻的效果。
Nemotron-4的推出标志着英伟达在通用大模型领域的一次重要突破,为单个A100或H100GPU上运行的最佳通用大模型设定了新标准。
论文地址:https://arxiv.org/abs/2402.16819
华为宣布鸿蒙原生游戏《倩女幽魂手游》完成开发
近日,华为与网易共同宣布,网易首款鸿蒙原生游戏《倩女幽魂手游》已经完成开发。这款游戏成为首款完成开源鸿蒙适配的Unity中国引擎游戏,为鸿蒙原生应用生态注入了新的活力。《倩女幽魂手游》官方表示,游戏采用Unity2018开发,是网易游戏雷火事业群中唯一一个没有任何引擎源码改动的游戏。这也是网易选择《倩女幽魂手游》适配OpenHarmony(开源鸿蒙)的主要原因。0000迪士尼米奇配音演员:AI永远无法捕捉米奇老鼠的精髓
AI是当今好莱坞正在关注的一个话题,推动人工智能的技术确实很了不起,但根据迪士尼吉祥物米老鼠的配音演员的观点,它永远无法捕捉米奇老鼠的精髓。法新社(AFP)在采访动画师、档案保管员和米奇配音演员布雷特·艾万时,谈到了迪士尼即将到来的百年庆典,以及AI在迪士尼的过去和未来中的潜力。站长网2023-07-10 16:49:170000带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频
【新智元导读】微软提出文本图像轨迹条件视频生成模型DragNUWA,支持手绘轨迹驱动图像动态化,实现复杂运动及场景控制。微软开发的视频生成模型DragNUWA让清明上河图动起来了!只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。站长网2023-09-07 11:24:35000012306候补购票功能优化 增加候补订单和备选方案数量
12306网站、App候补购票功能升级:用户可同时提交6个订单,扩大候补选择范围中国铁路官方宣布,自即日起,12306网站和App的候补购票功能将进行升级。此次升级旨在提高旅客候补购票的成功率,为用户提供更加便捷和高效的购票体验。以下是本次升级的主要内容:增加候补订单数量:每名旅客可提交的待兑现候补订单数量由原来的2个增至6个,每个订单最多可添加9名乘车人。0000