幻方DeepSeek-V2系列模型已在魔搭社区开源

站长网2024-05-08 19:52:530阅

魔搭ModelScope社区宣布，DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。

据悉，幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2，并开源了技术报告和模型权重，该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE，以236B 总参数、21B 激活，实际部署在8卡 H800机器上，输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。

性能方面，在目前大模型主流榜单中，DeepSeek-V2均表现出色:

中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0等闭源模型在评测中处于同一梯队

英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B同处第一梯队，超过最强MoE开源模型Mixtral8x22B

知识、数学、推理、编程等榜单结果也位居前列

支持128K上下文窗口

和DeepSeek67B相比，DeepSeek-V2节约了42.5%训练成本，推理的KV Cache节约了93.3%，最大吞吐是之前的576%。

DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源，用户可以通过该平台直接下载模型。

项目地址：

DeepSeek-V2-Chat:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat

DeepSeek-V2:

https://modelscope.cn/models/deepseek-ai/DeepSeek-V2

幻方DeepSeekV2系列模型已在魔搭社区开源

0000

评论列表

共(0)条

相关推荐

站长资讯
每年电费2亿？ChatGPT每天竟然要消耗1.7万个家庭的用电量
AI技术作为当今科技领域的热门话题之一，然而，最近有关ChatGPT每年耗费2亿电费、日耗电量相当于1.7万个家庭的报道引发了人们对AI技术电力消耗的关注。一篇论文指出，AI数据中心的用电量在未来将会与小国相当，而谷歌等公司每天处理的搜索请求也会带来大量的能耗。AI技术的电力消耗问题日益受到关注，需要监管机构的介入和企业的积极应对。
站长网2024-03-11 15:27:06
0000
站长资讯
前沿科技她力量｜中关村论坛科技女性创新论坛嘉宾风采展示
2023中关村论坛即将开幕。5月28日，由全国妇联、科技部、中国科协、北京市政府主办，北京市妇联承办的科技女性创新论坛作为平行论坛之一将举办，这是中关村论坛首次开设女性平行论坛。论坛以“前沿科技她力量”为年度主题，将邀请诺贝尔奖获得者、中国科学院院士在内的国内外前沿科技领域优秀女科技工作者，围绕人工智能、生命科学等热点议题展开讨论。今天起，“前沿科技她力量”专栏将陆续推出嘉宾介绍。
站长网2023-05-24 06:59:23
0000
仅退款，惹到谁了？
继电商平台集体卷向“最低价”以后，“仅退款”也成为标配。抖音在2023年9月宣布“仅退款”规则，淘宝和京东在年底跟进，2024年1月，快手也加入“仅退款”的队伍。而这是一项拼多多在2021年就已经实行的规则。“仅退款”指用户不退货就可以退款，这一规则的本意是通过提升用户体验促进下单，对商家进行优胜劣汰，再通过单量增长提升商家的利润，抵消商家售后的成本，形成正向循环。
站长网站长资讯2024-01-12 09:14:00
0000
站长资讯
雷军建言王传福一起搞生态：共同推动汽车行业进步发展
备受瞩目的2024北京车展盛大开幕，除了众多令人瞩目的新车亮相外，雷军和周鸿祎无疑成为了此次车展的两大焦点人物。车展进入第二天，各大车企的领军人物依旧在展馆内频繁互动。其中，比亚迪董事长王传福亲自来到小米汽车的展台参观，受到了小米创始人雷军的热情接待。雷军向王传福详细介绍了小米汽车的外观设计以及车体结构特点，展现出了小米在汽车领域的创新实力。
站长网2024-04-26 22:26:09
0000
北京发布《加快通用人工智能产业发展若干措施》5年内投资超过1000亿元
在2024年中关村论坛年会“未来人工智能先锋论坛”上，北京市发布了《北京市关于加快通用人工智能产业引领发展的若干措施》，提出了10条措施，涵盖了提升智能算力供给、强化产业基础研究、支撑高质量要素聚集、加快大模型创新应用、打造一流发展环境等5大方面。北京市将通过优化投融资环境，协同社会资本和国家级基金，在5年内投资超过1000亿元，同时积极推动人工智能核心企业优先在北交所上市。
站长网站长资讯2024-04-29 14:31:18
0000