斯坦福CMU提出新序列模型Mamba 性能优于Transformer
要点:
斯坦福 CMU 联合团队提出的 Mamba 是一种新的序列模型,击败了 Transformer 在语言、音频和 DNA 序列任务上的性能,具有线性复杂度和更高的推理吞吐量。
Mamba 的创新之处在于选择性处理输入信息、硬件感知的状态扩展和简化的 SSM 架构,使得模型能够在固定状态大小下压缩上下文并自适应调整行为。
Mamba 在 Chinchilla 缩放定律下预训练时,语言任务优于同类开源模型,并在下游任务上达到同类最佳性能,特别是在长序列情况下表现出优势。
斯坦福大学和卡内基梅隆大学的研究团队联合提出了一种新的序列模型,名为 Mamba,它在语言、音频和 DNA 序列等任务上超越了 Transformer 模型。Mamba 采用了一种新的架构,具有线性复杂度和更高的推理吞吐量。与传统的注意力机制不同,Mamba 通过选择性处理输入信息,可以压缩上下文并自适应地调整行为。此外,Mamba 还利用了硬件感知的状态扩展技术,提高了在现代 GPU 上的计算效率。
在实验中,研究团队发现,Mamba 在 Chinchilla 缩放定律下进行预训练时,在语言任务上优于同类开源模型。此外,在下游任务上,无论是在小规模还是大规模的情况下,Mamba 都能够达到同类最佳性能。尤其是在处理长序列时,Mamba 相对于使用 FlashAttention 的 Transformer 模型具有更高的效率,而且不会出现内存不足的问题。
Mamba 的出现给 Transformer 模型带来了挑战。目前,Mamba 是第一个真正实现了与 Transformer 相当的性能,并且具有线性时间复杂度的序列模型。研究团队还表示,他们将继续探索 Mamba 在 Transformer 等大模型生态系统中的适用性,包括微调、自适应、提示学习等方面的研究。此外,团队还提到了扩展 Mamba 的挑战和工程调整,以及验证 Mamba 在更大规模下的性能。
综上所述,Mamba 作为一种新的序列模型,通过选择性处理输入信息和硬件感知的状态扩展技术,实现了与 Transformer 相当的性能,并在一些任务上表现出更高的效率。Mamba 的出现对于序列建模领域来说是一个重要的突破,未来还有许多研究和实践的工作需要进行。
大众给小鹏交了50亿学费
一夜之间,大众汽车将小鹏变成了“大鹏”。美东时间7月26日美股收盘,小鹏汽车股价暴涨26.69%,总市值一夜增加约35亿美元,来到168.48亿美元的近一年新高。小鹏能够取得上述成绩,都得拜大众汽车送上的一份大礼包所赐。7月26日晚,大众汽车发布公告,宣布将联合小鹏开发两款B级纯电动汽车车型,预计于2026年以大众汽车品牌在中国市场销售。站长网2023-07-27 16:50:270000英伟达发布HelpSteer:一个用于构建有用LLM的开源数据集
英伟达最近宣布了NVIDIANeMoSteerLM技术作为英伟达NeMo框架的一部分。这项技术使用户能够在推断过程中控制大型语言模型(LLM)的响应。站长网2023-11-28 16:05:010000为什么说淄博烧烤比90%的品牌都懂流量?
“据说上次淄博这么热闹,还是在齐国。”“羊肉串、五花肉、烤蛤蜊都巨香,一晚上连吃三顿,吃成猪了要。”“没有缺斤少两,没有腌肉烂肉,山东人民巨大气!”因为烧烤出圈,淄博近期客流量大增,甚至比往年春运时期还要忙。据《工人日报》报道,仅4月15日当天,淄博火车站到达、发送旅客合计8.3w人次,创该车站单日旅客到发量历史新高。站长网2023-04-26 13:53:240000微信新功能上线:公众号文章增加朗读功能
7月9日消息,微信最近发布了iOS版8.0.39的更新。虽然更新日志没有提到新功能,但实际使用后发现,新版微信增加了一些实用功能,并对转账界面进行了调整。站长网2023-07-10 00:07:280002《原神》获索尼PlayStation合作伙伴奖:官方赠送800原石
快科技12月1日消息,今日,米哈游《原神》获得PlayStationPARTNERAWARDS2023GRANDAWARD”合作伙伴奖。为此,《原神》官方宣布将为玩家发放800原石的谢礼,发放时间为12月2日至12月5日。官方表示,每日200原石将在各服务器时间12月2日至12月5日的00:00,通过游戏内邮件逐日发放给旅行者。站长网2023-12-02 09:05:180000