LLM-Shearing大模型剪枝法:用5%的成本拿下SOTA,比从头开始预训练更划算
要点:
1. 陈丹琦团队开发了LLM-Shearing大模型剪枝法,可以将大型预训练模型剪枝至低成本,但高性能水平。
2. 剪枝方法将模型剪枝看作一种约束优化问题,同时学习剪枝掩码矩阵以最大化性能为目标。
3. 这种方法提供了一种有效的方式,可用于将剪枝后的模型继续预训练,最终超越从头开始预训练的模型。
陈丹琦团队近期发布了一项重要的研究成果,他们开发了一种名为LLM-Shearing的大模型剪枝法。这项技术允许将庞大的预训练模型剪枝至仅需3%的计算量和5%的成本,同时保持着SOTA(State-of-the-Art)水平的性能。
这一成果的基础是以羊驼LLaMA2.7B为起点,通过有针对性的结构化剪枝,得到了1.3B和3B规模的Sheared-LLama模型。在各种下游任务评估中,这些剪枝后的模型表现出色,超越了之前的同等规模模型。
论文地址:
https://arxiv.org/abs/2310.06694
Hugging Face:
https://huggingface.co/princeton-nlp
项目主页:
https://xiamengzhou.github.io/sheared-llama/
该研究的首席作者夏梦舟指出,与从头开始预训练相比,这种剪枝方法在成本和性能方面更为划算。
研究团队还在论文中提供了剪枝后模型的示例输出,表明即使规模只有1.3B和2.7B,这些模型仍然能够生成连贯且内容丰富的回复。此外,相同规模下的不同版本模型在某些任务上还表现出更清晰的结构。
这一研究的重要性在于,虽然目前仅使用Llama2.7B模型进行了剪枝实验,但这种方法可扩展到其他模型架构和规模。此外,剪枝后的模型还可以进一步预训练,从而在一定程度上恢复因剪枝而导致的性能损失。
研究团队还解决了一个关键问题,即剪枝可能导致模型在不同数据集上性能下降的问题。他们提出了动态批量加载(Dynamic Batch Loading)的方法,通过根据模型在不同领域数据上的损失下降速率,动态调整每个领域的数据比例,从而提高数据使用效率。
实验证明,虽然剪枝模型最初表现较差,但通过继续预训练,最终可以超越与之规模相同但从头开始预训练的模型。
总而言之,这项研究的关键在于提供了一种高效的方式,可以将庞大的预训练模型剪枝至较低成本,同时保持高性能。这有望在大规模深度学习模型的研究和应用中产生广泛的影响。
小红书带货二姐|GMV500万+的背后是什么
│前言│你敢信吗,从3月31日到5月22日,短短2个月时间不到,小红书已经培育了2位直播大佬,董洁和章小蕙分别登场小红书直播带货,吸引了大批用户的疯狂购买,同时也带动了小众品牌以及高单价产品在小红书销量增长。章小蕙的直播首秀让平台带货热度达到了6亿,冲向销量榜一,而董洁则在连续8小时的高强度直播中傲视榜单,两位女性分别交出了令人瞩目的带货成绩,为小红书直播电商创造了迄今为止最好的成绩。站长网2023-05-27 10:37:430003M3飞了!苹果新款iMac不久后发布:有M2和M2 Pro两个版本
快科技10月15日消息,近日海外网站macotakara发布了一篇文章,称苹果的新款iMac将会有M2和M2Pro两个版本。文章表示,目前苹果正在销售的搭载M1处理器的iMac,其官方商城某些配置的交货时间为一个月或更长时间。即使是在第三方商城,大多数型号也都是显示没有库存正在订购中。在其他国家和地区同样如此,某些颜色配置的M1iMac配送时间也是大大延长。0000LVMH创始人身价跌至全球第三 马斯克再次成世界首富
快科技10月18日消息,据报道,随着奢侈品股票近日遭遇抛售,LV老板伯纳德?阿尔诺失去了全球第二富豪的头衔,目前他拥有的财富已经低于亚马逊创始人杰夫?贝佐斯。法国奢侈品巨头LVMH创始人兼CEO贝尔纳阿尔诺,失去了世界第二大富豪的宝座,回到了富豪排行榜第三。当地时间17日周二,根据彭博亿万富翁指数,阿尔诺目前净资产为1550亿美元,低于亚马逊创始人贝佐斯的1560亿美元。0000蒋凡重回阿里合伙人
34岁便兼任淘宝天猫总裁的天才蒋凡,因为两年多前那场著名的风波,被阿里合伙人除名,“放逐”海外;两年后,蒋凡又杀了回来,重归阿里合伙人序列,而现在的他,也不过37岁。7月21日晚,这两年刻意低调的蒋凡,“高调”地出现在阿里最新财报里。他与万霖一起,出现在合伙人的名单中。2021年12月,蒋凡从阿里集团最核心的业务调离,去分管当时处于边缘的海外业务。这在外界看来就是一种“流放”,明升暗降。站长网2023-07-24 12:04:430000出圈一年多之后,东方甄选喜迎第二张王牌
如今距离东方甄选“一炮走红”已经过去了一年有余,虽然大多数朋友都知道“知识带货”是东方甄选得以出圈的重要原因之一,但时至今日却鲜少有见模仿者能够成功。然而当外界还在讨论他们是否具备可复制性时,东方甄选却已经造出了第二个“东方甄选”直播间。站长网2023-07-05 17:28:190001