手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦
美东时间10月2日,著名开源平台Stability.ai在官网宣布,推出开源大语言模型StableLM-3B-4E1T。(开源地址:https://huggingface.co/stabilityai/stablelm-3b-4e1t)
据悉,Stable LM3B是一款主要面向手机、笔记本等移动设备的基础大语言模型,在保证性能的前提下,极大降低了算力资源的要求。
Stable LM3B支持生成文本/代码、总结摘要、数据微调、常识推理、解答数学题等功能,全局上下文长度为4096。(简称“Stable LM3B”)
随着ChatGPT的火爆出圈,全球掀起了轰轰烈烈的“大模型开发热潮”。但多数模型皆需要耗费大量算力资源才能预训练、微调,同时对开发的生成式AI应用的运行环境也有很高的要求。高通更是发布了专门针对移动端的生成式AI芯片,以解决算力问题。
Stability.ai希望通过开源Stable LM3B,帮助那些没有庞大算力资源的开发者,也能打造小巧精悍的生成式AI产品,可以安全、稳定地在移动端运行。
Stable LM3B训练数据集
虽然该模型只有30亿参数,却使用了一个包含文本、代码、维基百科、ArXiv、图书、C4等多种数据的1万亿tokens庞大的训练数据集。
该数据集由多个开源的大规模数据集经过筛选混合而成,包括Falcon RefinedWeb、RedPajama-Data、The Pile以及 StarCoder等。
这使得Stable LM3B以更少的资源,性能却超越同等规模模型,甚至比一些70亿、100亿参数的大模型更强。
Stable LM3B训练流程
Stable LM3B以bfloat16精度训练972k起步,全局上下文长度为4096,而不是像 StableLM-Alpha v2那样从2048到4096进行多阶段提升。
Stability.ai使用了AdamW进行性能优化,并在前4800步使用线性预热,然后采用余弦衰减计划将学习率降至峰值的4%。
早期的不稳定性归因于在高学习率区域的长期停留。由于模型相对较小,没有采用dropout。
在训练过程中,Stability.ai评估自然语言基准,并在学习率衰减计划的尾声阶段,观察到训练带来的稳步提升。基于这个原因,开发人员决定将学习率线性降低至0,类似于Zhai等人的做法,以期获得更好的性能。
此外,在预训练的初始阶段依赖于 flash-attention API及其开箱即用的三角因果屏蔽支持。这迫使模型以类似的方式处理打包序列中的不同文档。
在冷却阶段,Stability.ai在并发实验中凭经验观察到样本质量提高(即:减少重复)后,为所有打包序列重置 EOD 标记处的位置ID和注意掩码。
硬件方面,StableLM-3B是在Stability AI的算力集群上训练的。该集群包含256个NVIDIA A10040GB显卡。训练开始于2023年8月23日,大约消耗了30天完成。
性能测试方面,StableLM-3B在零样本的lm-evaluation-harness评估框架中,进行了性能测试。结果显示,性能完全不输70亿参数的模型,甚至比一些100亿参数的更强。
情绪价值是高转化爆量内容的流量密码!
情绪价值是高转化爆款短视频的核心密码,兴趣电商的另一种解读方式是传递情绪价值寻找情感认同,在我们可触及的传播链中,最容易引人转发和互动的视频,多数都利用了情绪价值。情绪价值的多面是喜怒哀乐,其A面是悲喜剧,这个链路我们不多讲;我们主要谈一下情绪视频的B面,寻求情感共鸣点,引发用户心理触动和微波心理冲击,促使用户自愿转发、点赞、评论、点击、成单的内容表现方式。站长网2023-07-22 07:07:170000中国手机市场连续5个季度暴跌 越来越多手机卖不动!为啥年轻人不换新手机了?
快科技5月27日消息,近日,多家市调机构的报告显示,2023年一季度,全球手机市场出货量大幅下滑,一些知名品牌的手机出货量都同比两位数下降。值得注意的是,被寄予厚望的年轻消费者,也不再频繁更换新手机了。#为啥年轻人不换新手机了##手机销量差是因为卖的贵吗#等热搜话题引发热议。从媒体投票来看,现在手机够用、新手机价格贵/性价比低,成为当下阻碍年轻人换机的两个核心因素。站长网2023-05-27 10:22:190000利用 Google 的 AI 能帮助航空公司将凝结尾迹大幅减少 54%
自喷气机时代开始以来,飞机尾迹——或称为飞机后方的冷凝云——已成为全球天空中熟悉的景象。然而,谷歌和美国航空公司的一个新实验表明,这些尾迹可能很快变得更少,这是一次小而重要的胜利,有助于减少航空排放。图片来自Google谷歌在周二晚上的一篇博文中称,使用人工智能模型选择不同的飞行高度的飞行员能够减少尾迹达54%,并预计进一步改进。站长网2023-08-10 10:03:530000十大网文名场面出圈,IP共创如何赋能“好故事”?
“有生之年系列!终于等到第二季开机!”5月10日,“庆余年官微”发布#庆余年第二季今日开机#的消息。彼时,电视剧第一季完结已逾3年,原著小说连载也已超16年。但官宣一出,随即在多个平台引发刷屏效应,其“IP向心力”可见一般。站长网2023-05-19 17:59:530000亿图脑图上线AI绘画功能 生成图片版权归用户,可商用
万兴科技旗下的亿图脑图最近正式推出了AI绘画功能,并在海内外版本中实现了移动端、Web端和桌面端的全覆盖。据报道,亿图脑图的全新AI绘画功能提供了通用模型、二次元模型和图生图等多种绘画方式。用户可以通过文字描述和图片上传的方式,快速生成精美的插画、壁纸、二次元人物、头像等类型的图片。站长网2023-07-04 14:43:460000