首页站长资讯大模型生成提速2倍！单GPU几小时搞定微调，北大数院校友共同一作丨开源

大模型生成提速2倍！单GPU几小时搞定微调，北大数院校友共同一作丨开源

站长网2023-09-18 09:05:520阅

只需给大模型“加点小零件”，推理速度立刻提升2倍!

不需要额外训练一个模型，也不需要对计算硬件做优化，单张A100最快几小时就能微调完成。

这项新研究名叫Medusa（美杜莎），来自普林斯顿、UIUC、CMU和康涅狄格大学，FlashAttention作者Tri Dao也在其中。

目前，它已经成功部署到伯克利70亿参数的“骆马”Vicuna中，后续还会支持其他大模型，已经登上GitHub热榜:

但其实，在这种方法推出之前，业界并非没有大模型推理加速方法，主流的就是DeepMind推出的投机采样（speculative decoding）。

相比这种方法，Medusa有什么不一样的地方?

投机采样的2个“bug”

要想加速大模型推理，需要先知道究竟是什么“限制”了它的速度。

相比计算量的增加，大模型推理速度更容易受到内存带宽的影响（memory bound）。

这是因为，大模型由于参数量巨大、远超缓存容量，因此推理时需要先把权重从外部内存（显存）读取一次到缓存中，这个过程受内存带宽限制，速度通常很慢。

因此，模型做批量推理（batch inference）时，一次处理100个tokens和一个tokens时间上区别不大。

基于这个特点，DeepMind去年11月想出了一个名叫投机采样的神奇操作——

训练一个更小的模型（draft模型），给大模型提前生成一批“候选词”，相比于让大模型自己“思考”生成，直接做“选择”就好。

由于小模型生成速度比大模型快好几倍，一旦大模型觉得小模型已有的词“可用”，就直接拿来，不用自己再缓慢生成一遍。

这个过程，有点像是输入法的联想词候选，在我们（大模型）想好下一个词用什么之前，输入法(小模型)先给列出一些备选项:

要是看到觉得不错，就从中选一个用;要是觉得生成的都不行，就pass掉自己重新打。

这种投机采样方法确实取得了显著成效，甚至能轻轻松松在M2Ultra上以高精度跑340亿参数LLaMA大模型。

BUT，这种方法存在两个问题。

一方面，给大模型找个生成“候选词”的draft小模型，没那么容易。

这个小模型可不是随便抓个生成模型就能用，除了接口统一、概率分布接近等要求，生成质量也不能比大模型差太多。

对于Meta发布的LLaMA这种模型可能还好，既有几百亿参数的大模型版本，又有几十亿参数的小模型版本，可以把参数量更小的版本拿来当draft模型使用。

但对于其他开源大模型，这种方法就不太适用了，自己去搭建训练一个小模型，不仅时间成本更高，生成效果可能还不达预期。

另一方面，双模型的组合，使得后续要想做系统调优变得更复杂。

这是因为，相比于大模型自身是一个系统，新增加的draft模型相当于又引入了一个系统。

这样会导致模型部署起来更复杂，包括额外的网络传输、不同的硬件条件都需要考虑到，在做计算优化时难度也会进一步提升。

为了解决这些问题，Medusa出现了。

不用小模型，加几个“头”就行

Medusa（美杜莎，一种长有多个头的妖怪）是一种新的大模型推理加速方法。

相比投机采样，它选择直接给Transformer大模型多加几个解码头（decoding heads），每个头都是一个单层前馈网络。

这几个多出来的解码头，可以让大模型直接一次多生成几个词，而不是“挤牙膏式”一个一个生成。

生成准确率也还可以，在预测“下一个词的下一个词”时，Medusa准确率达到了60%，还在不断优化中。

随后，结合树状注意力机制（tree-based attention mechanism）并行验证这些词，从而实现推理加速。

基于Medusa，Vicuna的70亿、130亿和330亿参数大模型推理速度，均有了1.9倍以上的效率提升:

针对70亿参数的模型，研究者们还在不同任务上测试了一下加速效果，显示最高在代码生成上有2.15倍的速度提升。

最关键的是，用上Medusa后，并不需要将整个大模型重新训练一遍。

相比之下，它可以和大模型一起训练，只需要冻结大模型的参数就行，甚至单个GPU就能搞定。

由于不增加额外的模型，对于分布式推理也很友好。

作者介绍

这项研究有两位共同一作。

共同一作蔡天乐，普林斯顿大学博士生，研究方向包括优化、表示学习、架构设计等，本科毕业于北京大学数学科学学院，获得应用数学和计算机科学双学位。

共同一作Yuhong（Jesse）Li，伊利诺伊大学香槟分校(UIUC)博士生，研究方向是高效机器学习，本科毕业于北京邮电大学。

此外，这项研究也有FlashAttention作者、斯坦福博士Tri Dao的参与。

FlashAttention是一种能加快注意力并减少内存占用的方法，相比PyTorch标准注意力实现，最高能提速9倍。

GitHub地址:https://github.com/FasterDecoding/Medusa

研究地址:https://sites.google.com/view/medusa-llm

—完—

大模型生成提速2倍单GPU几小时搞定微调北大数院校友共同一作丨开源

0000

评论列表

共(0)条

相关推荐

站长资讯
清华AIR开源轻量版生物医药基础模型BioMedGPT
日前，清华智能产业研究院（AIR）开源轻量版BioMedGPT1.6B。据悉，BioMedGPT-1.6B是一个参数为16亿的生物医药领域轻量级科研版基础模型，具有跨模态与知识融合的特点，可以处理药物性质预测、自然语言类、跨模态等多种任务。BioMedGPT-1.6B是清华智能产业研究院（AIR）团队正在做的BioMedGPT的单机轻量版，后者是一个适用于生物医药领域研发的通用大模型。
站长网2023-04-21 10:14:38
0000
2023，大厂“瘦”在哪了？
站在2023年的尾巴上，回望这一年，我们发现很多互联网大厂“瘦”了。字节跳动将Pico团队大幅裁撤，关停、出售部分游戏项目;腾讯精简XR业务线，变更硬件发展路径;美团放弃自营打车，全面转向聚合模式;小红书关闭自营电商平台小绿洲，京东关闭印尼和泰国站点……「定焦」统计了头部大厂在2023年的“瘦身”动作，请看下表:
站长网站长资讯2023-12-20 09:08:59
0000
站长资讯
首个开源中文金融大模型来了！解释授信额度、计算收益率、决策参考样样通，来自度小满｜附下载
金融行业正迎来大模型时代。近日，度小满正式发布千亿级中文对话大模型轩辕，集中文、金融、开源特色于一身。基于BLOOM-176B研发的轩辕大模型，在金融场景中的任务评测中，效果相较于通用大模型大幅提升，表现出明显的金融领域优势。
站长网2023-05-27 14:48:32
0000
站长资讯
秘史公开，当年，马斯克离开 OpenAI 的真相
在ChatGPT的影响下，目前OpenAI成为了全球最火爆的AI公司。然而回顾过去，它与马斯克之间的恩怨从创立之初就埋下了。在ElonMusk（埃隆·马斯克）帮忙创立人工智能研究公司OpenAI三年后，他本人却退出了。
站长网2023-05-12 20:26:52
0001
站长资讯
极兔速递向港交所提交上市申请书：2022包裹量东南亚第一
快科技6月17日消息，极兔速递环球有限公司已正式向港交所提交上市申请书，大摩、美银及中金为上市联席保荐人。招股书显示，根据弗若斯特沙利文资料，按2022年包裹量计，该公司为东南亚排名第一的快递运营商，市场份额为22.5%。极兔于2020年进军中国快递市场，按包裹量计，2022年市场份额达到10.9%。极兔的网络如今已全面覆盖东南亚七个国家及地区，在中国的县区地理覆盖率超过98%。
站长网2023-06-17 23:47:28
0001