一条磁力链接席卷AI圈，87GB种子直接开源8x7B MoE模型

站长网2023-12-11 09:35:181阅

「高端」的开源，往往采用最朴素的发布方式。

昨天，Mistral AI 在 X 平台甩出一条磁力链接，宣布了新的开源动作。

没有长篇官方博客，没有刻意加速的 Demo，这家公司算是当下大模型领域的「一股清流」。

打开一看，发现是接近87GB 的种子:

参数配置什么样?很多人放弃了周末，第一时间下载运行起来。

看上去，Mistral8x7B 使用了与 GPT-4非常相似的架构，但是「缩小版」:

8个专家总数，而不是16名（减少一半）

每个专家为7B 参数，而不是166B（减少24倍）

42B 总参数（估计）而不是1.8T(减少42倍)

与原始 GPT-4相同的32K 上下文

在发布后24小时内，已经有开发者做出了在线体验网站:https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

有研究者称:「闭源大模型走到结局了。」

这周已经引发群嘲的谷歌，也再次被 Cue 到:

专家混合（MoE）是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。

具体来说，「专家层」是较小的神经网络，经过训练在特定领域具有高技能，每个专家处理相同的输入，但处理方式与其特定的专业相一致;「门控网络」是 MoE 架构的决策者，能评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数，然后使用这些分数来确定每个专家在任务中的参与程度。

我们都知道，OpenAI 团队一直对 GPT-4的参数量和训练细节守口如瓶。早些时候，有人爆料 GPT-4是采用了由8个专家模型组成的集成系统。后来又有传闻称，ChatGPT 也只是百亿参数级的模型（大概在200亿左右）。

传闻无从证明，但 Mistral8x7B 可能提供了一种「非常接近 GPT-4」的开源选项。从模型元数据中可以看出，对于每个 token 的推理，Mistral8x7B 仅使用2个专家。

更让人感觉有趣的是，这是该公司官方账号自开通以来发布的第三条内容，两次重要发布均无文字说明，配图什么的更是不存在:

9月底的那条链接发布的是 Mistral7B，该模型至今仍被称为「最好的7B 模型」，在每个基准测试中都优于 Llama-213B，并且在代码、数学和推理方面优于 LLaMA-134B。

Mistral AI 成立于2023年5月，是一家法国人工智能初创公司，也是为数不多来自欧洲的大模型开源领域的明星团队。

Mistral AI 曾在6月获得了创纪录的1.18亿美元种子轮融资，还是在仅有7页 PPT 的情况下，据说这是欧洲历史上最大的种子轮融资。

公司创始人之一 Arthur Mensch 曾在10月份向《金融时报》表示，Mistral AI 的技术比美国的一些强大竞争对手开发的技术更高效、成本更低。

技术实力的优越，也为这家公司带来了投资者的持续关注。

近日，《金融时报》报道了 Mistral AI 新一轮融资的动态:新一轮融资约4亿欧元，主要由股权组成，可能在下周官宣。目前，公司的最新估值在20亿欧元左右。

知情人士透露，新一轮融资由硅谷著名风投 Andreessen Horowitz 牵头，其他参与者还包括英伟达、Salesforce、General Catalyst、法国巴黎银行等。

Mistral AI 的其他投资者还包括谷歌前 CEO 埃里克・施密特（Eric Schmidt）、法国电信亿万富翁泽维尔・尼尔 (Xavier Niel) 和法国国家支持的投资银行 Bpifrance。

这篇报道还提到，Arthur Mensch 表示「虽然公司尚未赚到任何钱，但预计这种情况将在年底前发生改变，因为该公司准备了一个新平台，供客户访问其人工智能模型。」

参考链接:https://www.ft.com/content/ea29ddf8-91cb-45e8-86a0-f501ab7ad9bb

一条磁力链接席卷AI圈87GB种子直接开源8x7BMoE模型

0001

评论列表

共(0)条

相关推荐

站长资讯
三星第三季度利润预计下滑 80% 人工智能高带宽内存芯片强劲需求仍是亮点
站长之家(ChinaZ.com)10月10日消息:三星电子预计，由于全球芯片供应过剩问题持续影响，第三季度利润将较去年同期下降80%。这意味着通常是韩国科技巨头的摇钱树业务将出现亏损。作为全球最大的内存芯片、智能手机和电视制造商，三星将于周三公布其第三季度初步财报。
站长网2023-10-10 15:42:07
0001
华为鸿蒙智行功臣：问界新M7今年累计交付超18万台
快科技11月27日消息，据鸿蒙智行官方消息，问界新M7今年累计交付已超18万台，连续11个月累计销量蝉联中国新势力第一，按照这样的速度，今年内销量超过20万台基本板上钉钉。M7是华为和赛力斯合作打造AITO问界品牌的第二款产品，最早于2022年7月上市，当时推出3款车型，售价31.98-37.98万元。
站长网站长资讯2024-11-30 10:35:43
0000
小米 SU7 标准版 CLTC 续航 668km Max版续航达800km
站长之家（ChinaZ.com）1月10日消息:小米汽车在今日的一次问答汇总中，公布了其新款车型SU7Max的续航和充电表现。小米表示，在续航和充电方面，消费者完全无需担心其产品的实力。
站长网站长资讯2024-01-10 14:09:20
0000
站长资讯
高合高管邀请贾跃亭下周回国：看看中国的新能源发展
法拉第未来近日对陷入“破产边缘”的高合汽车提起诉讼，同时贾跃亭公开发文猛烈抨击，指责丁磊和高合汽车涉嫌盗窃及侵犯FF的知识产权、技术数据和商业机密。贾跃亭在最新的文章中再次猛烈攻击高合汽车，并附上视频证据，坚称高合汽车的外观设计是剽窃而来。他强调，任何明眼人都能看出高合的行为是在剽窃、说谎、蒙蔽用户和欺骗投资人。贾跃亭进一步指责高合汽车已经到了需要用一个谎言来掩盖另一个谎言的地步。
站长网2024-03-06 17:24:31
0000
站长资讯
京东二季度财报发布：收入2914亿！净利润145亿大超预期
快科技8月15日消息，京东集团今日发布了2024年二季度及中期业绩，二季度收入达到2914亿元人民币，上半年收入达到5514亿元人民币，继续保持增长。基于过去半年来卓有成效的战略执行，用户体验持续提升带动了季度活跃用户数和用户购物频次在二季度继续保持两位数的增长势头。具体来看，第二季度京东零售营收为2570.72亿元（约合353.74亿美元），2023年同期为2532.80亿元。
站长网2024-08-16 08:48:15
0000