华人团队推出Medusa简单框架 可将LLM推理速度提高2倍
站长网2023-09-13 12:00:371阅
来自普林斯顿、UIUC等机构的华人团队提出一个用于加速大型语言模型(LLM)推理速度的简单框架Medusa,并于9月12日开源发布。测试结果显示,Medusa可以将LLM的生成效率提高约2倍。
Medusa是一个简单的框架,它让大家也可以使用多解码头技术来加速大型语言模型的生成。目前,许多热门的加速技术如speculative decoding都存在一些痛点,比如需要一个不错的draft模型作为基础,系统复杂度高,采样生成时效率不高等。
项目地址:https://github.com/FasterDecoding/Medusa
Medusa的方法是在原有的语言模型上增加额外的“解码头”,让每个头同时预测多个可能的未来词元。在使用Medusa增强模型时,原有的模型保持不变,仅新增的解码头在训练中进行微调。生成时,这些头并行产生多个可能的词,然后通过一种基于树的attention机制合并处理,最后使用一般的采纳策略从候选中挑选出最长的可信前缀进行解码。
研究人员通过以下几点设计,来解决speculative decoding存在的问题:
1) 不引入新的模型,仅在原模型上新增解码头,训练时参数效率高。
2) 生成时不需要严格匹配原模型的分布,使非贪婪生成甚至比贪婪解码还快。
第一个版本主要优化了每个batch只有一个样例的场景,也就是本地机器上常见的使用方式。在这种配置下,Medusa可以为Vicuna系列模型带来约2倍的加速。研究人员称正在积极扩展Medusa的应用场景,集成到更多的推理框架中,以获得更高的性能提升。
Medusa核心功能:
- 在现有语言模型上增加多解码头
- 高效训练参数
- 生成时树形attention机制合并多个预测
- 非贪婪生成模式下实现更快速度
0001
评论列表
共(0)条相关推荐
今年被众多VC一致看好的AI应用,为何是它们?
2023,眼看着只剩下不到两个月的时间了。在今年兴起的这股AI浪潮中,哪种AI应用是最有前景,最值得下注?关于这点,投资界似乎已经达成了一致的共识。最近,一家专注于AI的新闻平台AIbeat统计出了全球10家估值最高的人工智能初创公司。如果人们对表格中的企业进行筛选,就会发现,其中有超过半数以上的产品,都属于同一类AI应用。站长网2023-11-03 16:37:090000Snap宣布在最新的AR开发平台Lens Studio 5.0集成ChatGPT功能
Snap宣布在最新的AR开发平台LensStudio5.0版本中集成了ChatGPT功能,这一举措在极大地增强了增强现实(AR)技术的趣味性和效率。借助ChatGPT,Snap的开发者们现在能够更轻松地创造出更加有趣、科普、对话和创意性质的Snapchat镜头。这包括通过ChatGPT创建的无限测验和随机生成的镜头,以及根据用户的语音提示自动应用滤镜和导演模式来改变相机风格。站长网2023-11-13 17:20:330000ChatGPT可浏览互联网 不再局限于2021年9月之前数据
OpenAI今日宣布,ChatGPT现在可以浏览互联网,提供最新、最权威的信息,并直接链接到源。它不再局限于2021年9月以前的数据。今天,联网功能可供Plus和Enterprise用户使用,将很快将向所有用户开放。如需启用,可在GPT-4下方的选择器中选择使用必应进行浏览(BrowsewithBing)。站长网2023-09-28 08:15:510000「AI 孙燕姿」火成B站顶流,动辄百万播放,背后是侵权还是商机?
谁也没想到,“冷门歌手”孙燕姿最近会如此活跃,在B站的翻唱作品以批论计。但当粉丝慕名而来,却发现满屏都是“AI孙燕姿”。原来这些所谓孙燕姿的翻唱作品都是B站UP主们利用AI技术创作的,并非由孙燕姿本尊演唱。同款还有AI王心凌演唱的《青藏高原》、AI许嵩演唱的《这么可爱真是抱歉》、AIRihanna演唱的《痒》等作品,歌手和歌曲的风格天差地别,却演绎得几乎没有违和感。站长网2023-05-19 09:10:470002年轻人热捧的过年三件套有多火?
年轻人一边高喊着年味越来越淡,一边又用一个个过年三件套——美甲、美睫、美发,将新年仪式感拉满。大大小小的美甲美睫店,挤满了在过年前全副打扮的年轻人。2月3日,春节前最后一个周六,陈熙准备也跟风去做个美甲,但是一连问了三家美甲店,都被告知,预定顾客人数已满,没有位置可以预约。周日有位置,但那天是春节假期调休的工作日。站长网2024-02-09 13:48:460001