斯坦福研究人员推出 Sophia 可高效低成本训练大模型
站长网2023-07-26 16:13:050阅
斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器,可将语言模型的预训练时间缩短一半。相比于 Adam 优化器,Sophia 可以更快地解决语言模型的问题。
Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后,通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。
这种剪切限制了最坏情况下更新的大小,并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低,因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时,Sophia 相比于 Adam 的速度提升了一倍,包括步数、计算量和墙上时间。
研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说,Sophia 优化器的实现简单,使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数
维度上的一致损失减少,通过在尖锐尺寸(具有大 Hessian)上更严厉地惩罚更新,而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限,也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理,并在明天发布的代码中使用了稍微修改过的学习率的定义。
0000
评论列表
共(0)条相关推荐
阿里推新项目MotionShop 可将视频中的角色替换为3D
阿里巴巴推出了名为MotionShop的新项目,这一项目可以将视频中的角色替换为3D化身。MotionShop利用先进的视频处理和3D渲染技术,能够高效地将视频中的某个角色替换为3D人物,同时不改变视频中的其他场景和人物。被替换的3D人物能够完整复刻原视频中人物的动作,保持动作一致。项目地址:https://aigc3d.github.io/motionshop/站长网2024-01-17 11:19:010002英国筹款平台JustGiving 提供生成式AI创建筹款页面
本文概要:1.JustGiving将提供生成式人工智能技术,帮助人们更快地创建筹款页面和分享个人故事。2.撰写个人故事是筹款页面的关键部分,使用清晰故事的页面筹集的资金比不使用的高出65%。3.人工智能服务是可选的,不想使用的筹款人可以选择不使用。英国筹款平台JustGiving将引入生成式人工智能技术,以帮助筹款者更快速地创建筹款页面和分享个人故事。站长网2023-08-22 14:33:490000AI系统能够比人类快1万倍地从卫星图像中绘制巨大冰山地图
**划重点:**-🧊科学家通过人工智能系统在一百分之一秒内准确绘制了巨大冰山的表面积和轮廓。-🌐使用U-net算法,该系统比现有的自动化系统快10,000倍,解决了区分冰山和其他特征的问题。-🚢冰山对极地环境有重要影响,监测对海上安全和科学研究至关重要。站长网2023-11-10 16:29:300000ChatGPT 和 GPT-4 均无法通过成为 CFA 所需的所有级别的考试
站长之家(ChinaZ.com)11月3日消息:根据最近的一项研究,ChatGPT未能通过特许金融分析师(CFA)考试——这是许多华尔街金融专业人士的基准资格。这项研究由摩根大通的AI研究团队和大学学者联合进行,他们使用CFA风格的问题测试了ChatGPT和GPT-4(两款由OpenAI创建的大型语言模型)是否具备复杂的财务推理能力。站长网2023-11-03 15:04:110000美图设计室AI Logo设计功能上线
8月23日,美图公司旗下美图设计室正式上线AILogo设计功能,用户只需输入一句想法,即可生成多个不同风格的Logo。AILogo设计功能基于美图AI技术,智能识别用户创意想法,进行Logo的定制化设计,用户只需输入品牌名和一句话描述,AI即可几秒快速生成多款不同风格及排版样式的优质创意Logo。站长网2023-08-25 16:15:560000