比Transformer更好的模型架构?Monarch Mixer更低成本取得更优表现
要点:
1. Monarch Mixer (M2) 是一种新的模型架构,与传统的Transformer不同,它通过使用Monarch矩阵替代注意力和MLP,使之在语言和图像实验中以更低的成本取得了更优的表现。
2. Monarch Mixer 的关键创新点在于其次二次的复杂度,使其能够处理更长的序列和更高维度的表征,同时保持计算效率。
3. 实验证明,M2在各种任务上,包括语言建模和图像分类,能够与传统Transformer媲美,同时具有更高的硬件效率和更少的参数。
近年来,Transformer模型在自然语言处理和计算机视觉领域取得了巨大成功,但它的高成本、复杂性以及依赖于注意力机制和多层感知机(MLP)等组件使得人们开始寻求替代方案。论文介绍了一种名为Monarch Mixer(M2)的全新模型架构,这个架构在序列长度和模型维度上都表现出次二次复杂度的特点,同时在现代硬件加速器上具有出色的性能。
论文地址:https://arxiv.org/abs/2310.12109
代码地址:https://github.com/HazyResearch/m2
Monarch Mixer(M2)的主要创新点在于它采用了Monarch矩阵,将传统Transformer中的注意力机制和MLP替代为更高性能的结构。Monarch矩阵是一种次二次结构化矩阵,能够支持更长的序列和更高维度的表示,同时保持计算效率。这个矩阵可以通过分块对角矩阵的积进行参数化,其计算复杂度与输入长度呈次二次增长关系,这使得M2能够在处理大规模数据时具有出色的性能。
实验结果表明,M2在多个任务上都能够媲美传统Transformer模型,包括非因果语言建模、图像分类和因果语言建模。与传统Transformer相比,M2不仅能够节省大量参数,还具有更高的硬件效率,这使得它成为一个有潜力的替代选择。
斯坦福大学和纽约州立大学布法罗分校的研究团队的工作为机器学习领域带来了新的思路,挑战了传统Transformer模型的优越性。他们的研究不仅探索了Monarch Mixer的理论基础,还进行了一系列实验来验证其性能。这篇文章的发表为机器学习社区提供了一个全新的研究方向,也让人们重新思考了在自然语言处理和计算机视觉任务中的模型选择。
总的来说,Monarch Mixer(M2)是一种具有次二次复杂度的新型模型架构,能够在不使用传统Transformer中的注意力和MLP的情况下,在自然语言处理和计算机视觉任务中表现出色。它的硬件效率和参数效率使其成为一个有望取代传统Transformer的新选择,为深度学习研究领域带来了新的思考。
OpenAI 已针对 ChatGPT 和 GPT-4 错误率上升问题进行修复
站长之家(ChinaZ.com)7月7日消息:人工智能研究机构OpenAI表示,已针对生成式AI技术ChatGPT的错误率上升进行了修复。OpenAI在网站上表示,已针对ChatGPT和GPT-4错误率上升进行了修复。目前正在对此进行监测。站长网2023-07-08 14:06:220000Sam Altman 谈 OpenAI、未来的风险与回报以及通用人工智能的潜力
作为TIME杂志2023年度「年度CEO」,OpenAI首席执行官SamAltman在当地时间周二TIME杂志的「AYearinTIME」活动中与TIME主编SamJacobs进行了广泛对话,讨论了人工智能(AI)对社会的影响及其未来潜力。0000蔚来2023年Q1净亏损48亿元 李斌:有信心下半年月销超2万辆
蔚来发布2023年第一季度财报。数据显示,蔚来第一季度实现营收106.8亿元,连续4个季度突破百亿,一季度现金储备378亿元。不过今年第一季度的营收低于市场预期的122.75亿元;净亏损为48.036亿元,去年同期净亏损则为18.25亿元。站长网2023-06-11 22:38:290000超逼真!普林斯顿大学推3D场景生成模型Infinigen
普林斯顿大学研究人员AlexanderRaistrick日前发布了一款名为“Infinigen”的开源AI模型,可以帮助人们生成逼真的3D场景。据了解,Infinigen是一款基于开源建模软件Blender的免费开源模型,能够通过随机数学规则生成一系列自然界的“植物、动物”场景,并且可以通过输入提示词来自定义地形,并添加“云、雨、雪、雷暴、天火”等自然现象。生成的场景例站长网2023-06-20 17:10:320001红米Redmi Note 12R Pro 4月29日开售 搭载第一代骁龙4
Redmi红米今日宣布,Note12RPro5G手机将于4月29日10:00开卖。RedmiNote12RPro将搭载第一代骁龙4,支持双卡双5G;此外,该手机还配备三星OLED旗舰级直屏,可支持120Hz高刷新率,SGS低蓝光认证。此外,Note12RPro还提供12GB256GB大存储容量可供选择。站长网2023-04-27 11:00:330000