首页站长资讯字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

站长网2024-04-27 18:52:081阅

视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。

字节提出新基础模型——ViTamin，专为视觉语言时代设计。

在使用相同的数据集和训练方案时，ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。

当进一步扩展参数规模时，ViTamin-XL仅有436M参数，却达到了82.9%的ImageNet零样本准确率，超过了拥有十倍参数（4.4B）的EVA-E。

最终这一成果，入选计算机视觉顶会CVPR2024。

视觉语言时代新基准

在视觉语言时代下，如何设计一个更好可扩展的视觉模型?

在ImageNet时代，新的视觉模型在ImageNet数据集得以验证，也造就了不断有新的视觉模型涌现。但在视觉语言时代，新的视觉模型鲜为人见。

此外，基于现有常见视觉模型，在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型，包括纯Transformer的ViT，纯卷积网络的ConvNeXt，以及混合卷积和Transformer的CoAtNet。

最终在一个公开的数据集上进行了系统性的训练和比较，得出了一些关键发现:

第一，模型的扩展性:由于可扩展的自注意力机制，ViT能最好地适应不同规模的任务。

第二，数据的扩展性:随着训练数据的增加，所有模型的性能都有所提升。

第三，特征的分辨率:在训练过程中，模型需要理解更广泛的信息，而不仅仅是简单的类别标签。因此，提取的特征的分辨率对模型的预测能力有很大影响。

第四，混合架构:在一般情况下，CoAtNet表现优于其他模型，但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现，研究人员设计了ViTamin模型。

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks，第三个阶段包含了可扩展的Transformer Blocks。

具体来说，一张图片首先经过卷积stem处理，得到2倍降采样的特征图。

然后，这个特征图经过第一阶段，由两个MBConv-LN Blocks组成，接着经过第二阶段，由四个MBConv-LN Blocks组成，然后降采样得到16倍降采样的二维特征。

接下来，这些特征被展平成一维，并输入到第三阶段，该阶段由N_B个TFB-GeGLU Block组成。最后，通过对比图像特征和语言特征，来学习对比损失函数。

作者们致力于简单有效的scaling law，只考虑模型的宽度C和模型第三阶段的深度N_B，因此在scaling到更大的模型中，通过模型的参数规模可以直接反推需要多大的宽度和深度，进而实现模型的scaling。

多项SOTA

在零样本性能上面，研究结果显示，ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。

当将特征分辨率增加到576个patch时，ViTamin-L的准确率进一步提高到了81.8%，比之前的ViT-L/14CLIPA-v2高出了1.5%。在38个数据集的平均性能上，ViTamin-L比ViT-H/14模型高出了0.4%，而且参数数量只有ViT-H/14的一半。

此外，当进一步扩大模型规模时，参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率，超过了4.4B参数量的EVA-E取得的82.0%。

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器。

作者们引入了一系列下游任务，包括开放词汇检测和分割，以及多模态大模型（LMMs）。

ViTamin在开放词汇检测任务OV-LVIS上，相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中，相比ViT-L平均提升了2.6%。

ViTamin能直接迁移到多模态大模型诸如LLaVA上，并在12个多模态问答等基准上表现出色。值得注意的是，ViTamin在7个开放词汇分割基准上创造了新SOTA。

在这项工作中，作者们建立了主流视觉模型在视觉语言情境下的评估基准，并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。

这四个方面的关键发现为ViTamin的设计提供指导，ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT，而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队，覆盖了计算机视觉、音视频编辑、特效处理等技术领域。

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围，实现了前沿算法 - 工程系统 - 产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

论文链接:

https://arxiv.org/pdf/2404.02132.pdf

项目主页:

https://beckschen.github.io/vitamin

字节发布视觉基础模型ViTamin多项任务实现SOTA入选CVPR2024

0001

评论列表

共(0)条

相关推荐

站长资讯
618大促将至，数码产品价格“大跳水”，推荐这几款骁龙8 手机
尽管目前骁龙8Gen2的表现备受大家好评，成为2023年众多高端手机的标配芯片，但其相对比较高昂的价格属实不大适合普通消费者。倘若不需要追求极致性能，去年下半年发布的骁龙8也是个不错选择，它采用了台积电4nm制程工艺，并且安兔兔跑分与骁龙8Gen2只相差20万，因此，在日常使用中，二者流畅性差距非常小。
站长网2023-05-24 08:22:59
0000
站长资讯
你升级了没中国移动：5G套餐客户数已达7.59亿
快科技11月20日消息，今天，中国移动发布了2023年10月客户数据公告，公告显示截至今年10月份，中国移动5G套餐客户数达到近7.59亿户。在客户总数上，中国移动10月份净增客户74.6万户，前10个月累计净增客户1577.1万户，客户总数达到了约9.91亿户。在有线宽带业务方面，中国移动10月份净增客户169.6万户，前10个月累计净增客户2421.2万户，客户总数达到了将近3亿户。
站长网2023-11-20 20:56:05
0000
站长资讯
尝到AI甜头 Meta重组Reality Labs
RealityLabs的持续亏损让Meta的元宇宙之路走得比SpaceX“登火星”还难，大刀阔斧的改革还在继续。近日，Meta宣布对负责元宇宙和虚拟现实业务的RealityLabs重大重组，将其拆分为“元宇宙”和“可穿戴设备”业务两个部门。未来的规划也分为两部分，元宇宙部门专注研发Quest系列的的头戴式VR产品，可穿戴设备部门将发力智能眼镜类产品。
站长网2024-06-26 22:45:32
0000
美国前总统：库克已经超越乔布斯否则苹果不会这么成功
快科技10月18日消息，近日美国前总统接受媒体采访时表示，库克已经超越乔布斯。苹果公司需要的是像蒂姆库克（TimCook）这样的CEO，才能确保公司取得现在这样的成功。”特朗普表示：我之所以这么认为，是因为库克做得非常出色。当然，我不是在抨击乔布斯。但如果由他管理，苹果今天的情况就不会一样。”
站长网站长资讯2024-10-19 08:12:12
0000
站长资讯
一加12和一加Ace3将率先支持黑屏指纹解锁功能
一加手机官方宣布，一加12和一加Ace3两款机型将作为首批推送黑屏指纹解锁功能的手机。这一功能允许用户在屏幕处于黑屏状态下，通过触摸指纹区域直接完成解锁，极大地提升了用户的解锁体验。值得注意的是，一加12和一加Ace3成为了OPPO旗下唯二支持该功能的手机，这进一步突显了一加品牌在创新技术方面的领先地位。
站长网2024-02-02 16:47:01
0000