苹果大模型MM1入场:参数达到300亿 超半数作者是华人
要点:
苹果发布了多模态大型语言模型MM1,参数达到300亿,采用MoE架构,超半数作者为华人。
MM1在模型架构、预训练数据选择和训练方法上进行了详细探讨,并在多项基准测试中表现出竞争力。
MM1的预训练和监督微调结果显示,采用不同的数据和训练策略可以获得更好的性能,MoE模型进一步扩展了潜力。
苹果公司最新发布了一款名为MM1的大型多模态基础模型,拥有300亿参数,采用了MoE架构,并且超过一半的作者是华人。该模型在多模态领域具有重要意义,可能预示着苹果未来推出与此相关的产品。
今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这一举措体现了苹果在GenAI领域取得重大进展的决心。据悉,苹果一部分转向GenAI的团队原本是从事造车项目的,而如今他们也开始投身于GenAI领域的研发工作。
论文地址:https://arxiv.org/pdf/2403.09611.pdf
MM1的发布引起了广泛关注。据论文介绍,该模型采用了MoE变体,并且在预训练指标和多项多模态基准测试上表现出了领先水平。研究者通过多项消融试验,探讨了模型架构、预训练数据选择以及训练程序等方面的重要性。他们发现,图像分辨率、视觉编码器损失和预训练数据在建模设计中都起着关键作用。
在预训练数据选择方面,研究者发现了几个重要经验:交错数据对提高少样本和纯文本性能有帮助,而字幕数据则对提高零样本性能具有重要作用。
此外,纯文本数据对于提高少样本和纯文本性能同样至关重要。通过合理混合图像和文本数据,可以获得最佳的多模态性能,并保留较强的文本性能。研究者还发现,人工合成数据有助于少样本学习。
最终,研究者确定了MM1的最终配方,包括图像编码器、视觉语言连接器和预训练数据的选择。他们还将LLM的大小扩大到3B、7B和30B个参数,并通过专家混合(MoE)进一步扩展了模型。在监督微调实验中,MM1在多项基准测试上表现出了竞争力,并且MoE模型在几乎所有基准测试中均表现优于密集模型。
MM1的发布标志着苹果在多模态领域的重要进展,也为未来苹果可能推出的相关产品奠定了技术基础。该研究的成果对于推动生成式人工智能领域的发展具有重要意义,值得业界密切关注。
爆火的AI博主,是“摇钱树”还是“坑”?(附实测教程)
这段时间,平均一周就有一位虚拟博主火爆出圈。自此前Instagram博主Emily靠堪称完美的颜值在Ins4周内涨粉超20万之后,最近,外网又有一位叫LexiLove的AI博主火了。LexiLove的Ins账号数据她的角色设定依旧是模特,背后的创作者靠发“假图”,妥妥实现了“躺着赚钱”。站长网2024-02-05 18:07:290000马云大幅增持阿里股票 官方回应:对公司前景极度看好
近日,阿里巴巴集团的两位创始人马云和蔡崇信引起了市场的广泛关注,因为他们大幅增持了阿里的股票。据报道,蔡崇信家族基金已增持价值1.5亿美元的阿里股票。与此同时,马云也进行了大手笔的增持,尽管具体的增持数额尚未公开。阿里巴巴集团已经证实了这一消息,并表示这体现了他们对公司前景的极度看好,以及对公司未来发展、管理团队和战略方向的坚定信心。站长网2024-01-24 08:11:250001AiDA等AI服装设计工具在时尚设计中的崭露头角,但无法替代设计师的创造力
文章概要:1.时尚创新者CalvinWong开发了首个设计师主导的AI系统,名为"时尚交互设计助手(InteractiveDesignAssistantforFashion,简称AiDA)",加速设计从草图到T台的过程。2.AiDA能够识别设计元素,为设计师提供更多提炼和修改原始设计的建议,但强调AI是为了促进设计师的创作灵感,而非取代他们的创造力。站长网2023-09-18 11:58:490001随处可见的“杨幂迪丽热巴”带货?AI直播卖货有钱途吗?
近日,众多媒体报道,多家电商AI换脸知名女星在直播间卖货,此事一经报道便引起广泛热议,值得关注的是,一部分网友感叹科技发展迅速,AI换脸的以假乱真,另一部分网友纷纷斥责商家的侵权越界行为,对直播电商的信任基石产生了动摇,还有一部分网友喊话平台和相关部门进行管控与整理,肃清直播电商的氛围。站长网2023-06-05 23:57:200000