登陆注册

MoE

  • MiniMax 发布国内首个 MoE 大语言模型 abab6

    MiniMax在2024年1月16日全量发布了大语言模型abab6,这是国内首个采用MoE架构的大语言模型。MoE架构使得abab6具备处理复杂任务的能力,并且在单位时间内能够训练更多的数据,提高计算效率。相比于之前的版本abab5.5,在处理更复杂、对模型输出有更精细要求的场景中,abab6有显著的提升。
    站长网2024-01-16 17:05:27
    0000
  • 魔搭社区上线Mistral AI 首个开源 MoE 模型 Mixtral8x7B

    MistralAI近日发布了首个开源MoE模型Mixtral8x7B,并宣布在魔搭社区上线。Mixtral-8x7B是一款混合专家模型(MixtrueofExperts),由8个拥有70亿参数的专家网络组成,在能力上,Mixtral-8x7B支持32ktoken上下文长度,支持英语、法语、意大利语、德语和西班牙语,拥有优秀的代码生成能力,可微调为指令跟随模型。
    站长网2023-12-14 09:42:42
    0000
  • 清华发布SmartMoE:支持用户一键实现 MoE 模型分布式训练

    清华大学计算机系PACMAN实验室发布了一种稀疏大模型训练系统SmartMoE,该系统支持用户一键实现Mixture-of-Experts(MoE)模型的分布式训练,并通过自动搜索并行策略来提高训练性能。论文地址:https://www.usenix.org/system/files/atc23-zhai.pdf
    站长网2023-08-08 12:00:01
    0000
  • OpenAI 的 GPT-4 变得「懒惰」和「愚蠢」:或被 MoE 彻底重塑导致性能下降

    世界上最强大的人工智能模型似乎变得不那么强大了。这让业内人士开始谈论可能会对该系统进行重大重新设计。最近几周,OpenAI的GPT-4的用户们纷纷抱怨性能下降,有些人将这个模型与以前的推理能力和其他输出进行比较,称其变得「懒散」和「更笨」。
    站长网2023-07-14 09:50:37
    0000
  • OpenAI 最新模型 GPT-4 大揭秘:从架构、基础设施、训练数据集、成本、视觉到 MoE

    站长之家(ChinaZ.com)7月11日消息:今天SemiAnalysis的DylanPatel和GeraldWong发表了一篇题为《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》的文章,揭示GPT-4的所有细节。
    站长网2023-07-12 12:11:30
    0000