斯坦福研究人员推出 Sophia 可高效低成本训练大模型

站长网2023-07-26 16:13:050阅

斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器，可将语言模型的预训练时间缩短一半。相比于 Adam 优化器，Sophia 可以更快地解决语言模型的问题。

Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后，通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。

这种剪切限制了最坏情况下更新的大小，并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低，因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时，Sophia 相比于 Adam 的速度提升了一倍，包括步数、计算量和墙上时间。

研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说，Sophia 优化器的实现简单，使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数

维度上的一致损失减少，通过在尖锐尺寸（具有大 Hessian）上更严厉地惩罚更新，而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限，也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理，并在明天发布的代码中使用了稍微修改过的学习率的定义。

斯坦福研究人员推出Sophia可高效低成本训练大模型

0000

评论列表

共(0)条

相关推荐

站长资讯
苹果希望印度免除旧款 iPhone 的 USB-C 充电规则
站长之家(ChinaZ.com)12月6日消息:据报道，苹果正在积极游说印度政府，试图推迟一项规定的实施，该规定要求在印度销售的所有智能手机都必须配备USB-C充电端口。尽管苹果已经在新款iPhone15系列中采用USB-C端口，但这项法规可能会迫使苹果在旧款iPhone上也使用USB-C端口。
站长网2023-12-06 14:07:06
0000
站长资讯
华为智界 S7 汽车正式发布售价 24.98 万起
今日，华为智选车品牌旗下的首款轿车——智界S7已经正式发布。它提供了四款车型，包括智界S7Pro、智界S7Max、智界S7Max和智界S7MaxRS，售价分别为24.98万、28.98万、31.98万和34.98万。外观上，智界S7采用了全新的OneBox造型设计，这种设计大幅提升了舱内空间的利用率。车辆的一体式车身结构和流体黄金曲线赋予了其0.203Cd的超低风阻。
站长网2023-11-28 18:44:37
0000
站长资讯
阿里魔搭社区开源 Mistral AI 旗下新模型 Mistral7B
阿里巴巴达摩院模型开源社区ModelScope宣布开源法国人工智能初创公司MistralAI旗下新模型Mistral7B，可免费商用。据悉，Mistral7B在公开提供的指令数据集上进行了微调后的模型Mistral7BInstruct，在MT-Bench上超越了其他7B模型，并可与13B聊天模型相媲美。mistral-7b-instruct模型链接:
站长网2023-10-16 08:35:09
0000
站长资讯
美国联邦机构或对OpenAI与微软关系展开反垄断调查
划重点:🔍美国司法部和联邦贸易委员会可能对OpenAI与Microsoft的关系展开反垄断调查。🌐针对合作是否在人工智能市场中形成不公平竞争的担忧。🌍此消息发布不到两周，欧洲委员会已宣布对Microsoft与OpenAI的合作进行审查。
站长网2024-01-22 10:10:03
0000
曝拼多多现金储备超2700亿元！近乎小米的两倍
快科技9月2日消息，据国外媒体报道，在美国上市的拼多多控股拥有380亿美元（约合2700亿元人民币）的净现金储备，是紧随其后的特斯拉两倍多。同时根据小米公布的最新财报，截至2024年6月30日，小米的现金储备为人民币1410亿元，简单计算的话，拼多多的现金储备近乎是小米的两倍。
站长网站长资讯2024-09-03 17:07:18
0000