字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
字节提出新基础模型——ViTamin,专为视觉语言时代设计。
在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。
此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。
当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。
最终这一成果,入选计算机视觉顶会CVPR2024。
视觉语言时代新基准
在视觉语言时代下,如何设计一个更好可扩展的视觉模型?
在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。
此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。
最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:
第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。
第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。
第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。
第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。
基于这些发现,研究人员设计了ViTamin模型。
它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。
具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。
然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。
接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。
作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。
多项SOTA
在零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。
当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。
此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。
作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器。
作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。
ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。
ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。
在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。
这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。
来自智能创作团队
智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。
他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。
论文链接:
https://arxiv.org/pdf/2404.02132.pdf
项目主页:
https://beckschen.github.io/vitamin
Claude与ChatGPT哪家强?Claude 可以做,ChatGPT 却做不到的 4 件事
内容提要:1.Claude可以读取、分析和总结上传的文件,ChatGPT不能。用户可以上传Word文档、PDF等,Claude会自动生成总结。2.Claude可以处理多达10万个token,远超ChatGPT的8千词上下文。3.Claude使用了2022年12月的数据进行训练,可以知道一些ChatGPT不知道的2021年之后的事件和信息。站长网2023-08-25 16:16:050000微软 CEO 否认对 OpenAI 的控制 强调小公司在人工智能领域仍有竞争机会
最近接受采访的微软首席执行官萨提亚·纳德拉否认了埃隆·马斯克的说法,称微软并没有掌控OpenAI,而是由其董事会管理。纳德拉强调了OpenAI公司独立的决策过程,突显了业界在人工智能进展速度上的不同观点,并表达了他相信小公司有机会与微软和谷歌等巨头竞争的信念。纳德拉表示:「OpenAI非常专注于其非营利董事会控制的使命。我们在其上没有控制权,但在商业上有着良好的合作伙伴关系。」站长网2023-05-18 16:25:140000金山办公与阿里云达成战略合作 针对智能办公进行共创
今天,北京金山办公软件股份有限公司与阿里云达成战略合作,双方将发挥各自的技术优势和平台能力,在云资源、AI大模型、产品生态融合、联合解决方案等多个领域展开深度合作。据悉,双方将围绕AIGC(内容创作)、Copilot(智慧助手)、Insight(知识洞察)三个战略方向,一起就智能办公进行共创,为用户提供更加智能便利的办公体验。同时,双方将展开产品融合和方案共创,协同助力组织数字化转型。站长网2023-09-06 17:45:24000010天涨粉156万!“王婆说媒”全网爆火!女网红蹭流量翻车?
头戴大红花、一颗媒婆痣,河南开封万岁山武侠城的一位“开封王婆”成了最近的抖音“流量密码”,她主打一个不管高矮胖瘦、贫穷富贵,只要敢上台,就有可能求得姻缘,堪称是活月老。她的节目现场人山人海,女生可以摸腹肌、在线选帅哥、求复合、求复婚、甚至有百万及网红蹭她的热度而被赶下台……只有你想不到,没有现场看不到,王婆的幽默和控场能力更像是一场精彩相声。站长网2024-03-26 11:44:250000Temu打响开年第一枪!“半托管”降生,变化何在?机会何在?
凭一己之力掀起跨境电商“全托管”之风的Temu,作为新锐平台中的“执牛耳者”,自成立以来,一举一动始终是行业关注的焦点。2024甫一开年,便有“Temu将在全托管之外开启一个新模式”的消息在跨境圈不胫而走,引得众多商家期待靴子赶紧落地。站长网2024-01-26 09:14:230000