MoE

首页标签MoE

站长资讯
昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE
2024年6月3日，昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型，名为Skywork-MoE。这个模型是在之前开源的Skywork-13B模型的基础上扩展而来的，是首个完整应用并落地MoEUpcycling技术的开源千亿级MoE大模型。同时，这也是全球首个支持在单台4090服务器上进行推理的开源千亿级MoE大模型。
站长网2024-06-03 19:25:21
0001
站长资讯
MiniMax 稀宇科技发布万亿 MoE 模型abab 6.5
MiniMax在2024年4月17日推出了abab6.5系列模型，这是一个万亿MoE（MixtureofExperts）模型。在MoE还没有成为行业共识的情况下，MiniMax投入了大量精力研究MoE技术，并在今年1月发布了国内首个基于MoE架构的abab6模型。经过三个月的研发，他们推出了更强大的abab6.5模型。
站长网2024-04-18 17:11:35
0001
站长资讯
元象发布 XVERSE-MoE-A4.2B 大模型可免费商用
元象发布了XVERSE-MoE-A4.2B大模型，采用混合专家模型架构，激活参数为4.2B，效果媲美13B模型。该模型全开源，免费商用，可用于海量中小企业、研究者和开发者，推动低成本部署。
站长网2024-04-18 15:03:30
0001
站长资讯
昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE 性能强劲成本更低
在大模型技术迅速发展的背景下，昆仑万维公司开源了一个具有里程碑意义的稀疏大型语言模型Skywork-MoE。这个模型不仅在性能上表现出色，而且还大幅降低了推理成本，为应对大规模密集型LLM带来的挑战提供了有效的解决方案。Skywork-MoE模型特点:开源和免费商用:Skywork-MoE的模型权重、技术报告完全开源，且免费商用，无需申请。
站长网2024-06-04 14:53:43
0000
站长资讯
MiniMax 发布国内首个 MoE 大语言模型 abab6
MiniMax在2024年1月16日全量发布了大语言模型abab6，这是国内首个采用MoE架构的大语言模型。MoE架构使得abab6具备处理复杂任务的能力，并且在单位时间内能够训练更多的数据，提高计算效率。相比于之前的版本abab5.5，在处理更复杂、对模型输出有更精细要求的场景中，abab6有显著的提升。
站长网2024-01-16 17:05:27
0000
站长资讯
魔搭社区上线Mistral AI 首个开源 MoE 模型 Mixtral8x7B
MistralAI近日发布了首个开源MoE模型Mixtral8x7B，并宣布在魔搭社区上线。Mixtral-8x7B是一款混合专家模型（MixtrueofExperts），由8个拥有70亿参数的专家网络组成，在能力上，Mixtral-8x7B支持32ktoken上下文长度，支持英语、法语、意大利语、德语和西班牙语，拥有优秀的代码生成能力，可微调为指令跟随模型。
站长网2023-12-14 09:42:42
0000
站长资讯
清华发布SmartMoE：支持用户一键实现 MoE 模型分布式训练
清华大学计算机系PACMAN实验室发布了一种稀疏大模型训练系统SmartMoE，该系统支持用户一键实现Mixture-of-Experts（MoE）模型的分布式训练，并通过自动搜索并行策略来提高训练性能。论文地址:https://www.usenix.org/system/files/atc23-zhai.pdf
站长网2023-08-08 12:00:01
0000
站长资讯
OpenAI 的 GPT-4 变得「懒惰」和「愚蠢」：或被 MoE 彻底重塑导致性能下降
世界上最强大的人工智能模型似乎变得不那么强大了。这让业内人士开始谈论可能会对该系统进行重大重新设计。最近几周，OpenAI的GPT-4的用户们纷纷抱怨性能下降，有些人将这个模型与以前的推理能力和其他输出进行比较，称其变得「懒散」和「更笨」。
站长网2023-07-14 09:50:37
0000
站长资讯
OpenAI 最新模型 GPT-4 大揭秘：从架构、基础设施、训练数据集、成本、视觉到 MoE
站长之家(ChinaZ.com)7月11日消息:今天SemiAnalysis的DylanPatel和GeraldWong发表了一篇题为《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》的文章，揭示GPT-4的所有细节。
站长网2023-07-12 12:11:30
0000