幻方DeepSeek-V2系列模型已在魔搭社区开源
站长网2024-05-08 19:52:530阅
魔搭ModelScope社区宣布,DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。
据悉,幻方公司在5月6日推出了第二代 MoE 模型 DeepSeek-V2,并开源了技术报告和模型权重,该模型引入了 MLA 架构和自研 Sparse 结构 DeepSeekMoE,以236B 总参数、21B 激活,实际部署在8卡 H800机器上,输入吞吐量超过每秒10万 tokens 输出超过每秒5万 tokens。
性能方面,在目前大模型主流榜单中,DeepSeek-V2均表现出色:
中文综合能力(AlignBench)开源模型中最强,与GPT-4-Turbo,文心4.0等闭源模型在评测中处于同一梯队
英文综合能力(MT-Bench)与最强的开源模型LLaMA3-70B同处第一梯队,超过最强MoE开源模型Mixtral8x22B
知识、数学、推理、编程等榜单结果也位居前列
支持128K上下文窗口
和DeepSeek67B相比,DeepSeek-V2节约了42.5%训练成本,推理的KV Cache节约了93.3%,最大吞吐是之前的576%。
DeepSeek-V2的推理代码和模型下载链接已经在魔搭 ModelScope 社区开源,用户可以通过该平台直接下载模型。
项目地址:
DeepSeek-V2-Chat:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2-Chat
DeepSeek-V2:
https://modelscope.cn/models/deepseek-ai/DeepSeek-V2
0000
评论列表
共(0)条相关推荐
每年电费2亿?ChatGPT每天竟然要消耗1.7万个家庭的用电量
AI技术作为当今科技领域的热门话题之一,然而,最近有关ChatGPT每年耗费2亿电费、日耗电量相当于1.7万个家庭的报道引发了人们对AI技术电力消耗的关注。一篇论文指出,AI数据中心的用电量在未来将会与小国相当,而谷歌等公司每天处理的搜索请求也会带来大量的能耗。AI技术的电力消耗问题日益受到关注,需要监管机构的介入和企业的积极应对。站长网2024-03-11 15:27:060000前沿科技她力量|中关村论坛科技女性创新论坛嘉宾风采展示
2023中关村论坛即将开幕。5月28日,由全国妇联、科技部、中国科协、北京市政府主办,北京市妇联承办的科技女性创新论坛作为平行论坛之一将举办,这是中关村论坛首次开设女性平行论坛。论坛以“前沿科技她力量”为年度主题,将邀请诺贝尔奖获得者、中国科学院院士在内的国内外前沿科技领域优秀女科技工作者,围绕人工智能、生命科学等热点议题展开讨论。今天起,“前沿科技她力量”专栏将陆续推出嘉宾介绍。站长网2023-05-24 06:59:230000雷军建言王传福一起搞生态:共同推动汽车行业进步发展
备受瞩目的2024北京车展盛大开幕,除了众多令人瞩目的新车亮相外,雷军和周鸿祎无疑成为了此次车展的两大焦点人物。车展进入第二天,各大车企的领军人物依旧在展馆内频繁互动。其中,比亚迪董事长王传福亲自来到小米汽车的展台参观,受到了小米创始人雷军的热情接待。雷军向王传福详细介绍了小米汽车的外观设计以及车体结构特点,展现出了小米在汽车领域的创新实力。站长网2024-04-26 22:26:090000北京发布《加快通用人工智能产业发展若干措施》5年内投资超过1000亿元
在2024年中关村论坛年会“未来人工智能先锋论坛”上,北京市发布了《北京市关于加快通用人工智能产业引领发展的若干措施》,提出了10条措施,涵盖了提升智能算力供给、强化产业基础研究、支撑高质量要素聚集、加快大模型创新应用、打造一流发展环境等5大方面。北京市将通过优化投融资环境,协同社会资本和国家级基金,在5年内投资超过1000亿元,同时积极推动人工智能核心企业优先在北交所上市。0000