小模型也可以「分割一切」，Meta改进SAM，参数仅为原版5%

站长网2023-12-07 14:08:481阅

对于2023年的计算机视觉领域来说，「分割一切」（Segment Anything Model）是备受关注的一项研究进展。

Meta四月份发布的「分割一切模型（SAM）」效果，它能很好地自动分割图像中的所有内容

Segment Anything 的关键特征是基于提示的视觉 Transformer（ViT）模型，该模型是在一个包含来自1100万张图像的超过10亿个掩码的视觉数据集 SA-1B 上训练的，可以分割给定图像上的任何目标。这种能力使得 SAM 成为视觉领域的基础模型，并在超出视觉之外的领域也能产生应用价值。

尽管有上述优点，但由于 SAM 中的 ViT-H 图像编码器有632M 个参数（基于提示的解码器只需要387M 个参数），因此实际使用 SAM 执行任何分割任务的计算和内存成本都很高，这对实时应用来说具有挑战性。后续，研究者们也提出了一些改进策略:将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中，或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本。

在最近的一项研究中，Meta 研究者提出了另外一种改进思路 —— 利用 SAM 的掩码图像预训练（SAMI）。这是通过利用 MAE 预训练方法和 SAM 模型实现的，以获得高质量的预训练 ViT 编码器。

论文链接:https://arxiv.org/pdf/2312.00863.pdf

论文主页:https://yformer.github.io/efficient-sam/

这一方法降低了 SAM 的复杂性，同时能够保持良好的性能。具体来说，SAMI 利用 SAM 编码器 ViT-H 生成特征嵌入，并用轻量级编码器训练掩码图像模型，从而从 SAM 的 ViT-H 而不是图像补丁重建特征，产生的通用 ViT 骨干可用于下游任务，如图像分类、物体检测和分割等。然后，研究者利用 SAM 解码器对预训练的轻量级编码器进行微调，以完成任何分割任务。

为了评估该方法，研究者采用了掩码图像预训练的迁移学习设置，即首先在图像分辨率为224×224的 ImageNet 上使用重构损失对模型进行预训练，然后使用监督数据在目标任务上对模型进行微调。

通过 SAMI 预训练，可以在 ImageNet-1K 上训练 ViT-Tiny/-Small/-Base 等模型，并提高泛化性能。对于 ViT-Small 模型，研究者在 ImageNet-1K 上进行100次微调后，其 Top-1准确率达到82.7%，优于其他最先进的图像预训练基线。

研究者在目标检测、实例分割和语义分割上对预训练模型进行了微调。在所有这些任务中，本文方法都取得了比其他预训练基线更好的结果，更重要的是在小模型上获得了显著收益。

论文作者 Yunyang Xiong 表示:本文提出的 EfficientSAM 参数减少了20倍，但运行时间快了20倍，只与原始 SAM 模型的差距在2个百分点以内，大大优于 MobileSAM/FastSAM。

在 demo 演示中，点击图片中的动物，EfficientSAM 就能快速将物体进行分割:

EfficientSAM 还能准确标定出图片中的人:

试玩地址:https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM 包含两个阶段:1）在 ImageNet 上对 SAMI 进行预训练（上);2)在 SA-1B 上微调 SAM(下)。

EfficientSAM 主要包含以下组件:

交叉注意力解码器:在 SAM 特征的监督下，本文观察到只有掩码 token 需要通过解码器重建，而编码器的输出可以在重建过程中充当锚点（anchors）。在交叉注意力解码器中，查询来自于掩码 token，键和值源自编码器的未掩码特征和掩码特征。本文将来自交叉注意力解码器掩码 token 的输出特征和来自编码器的未掩码 token 的输出特征进行合并，以进行 MAE 输出嵌入。然后，这些组合特征将被重新排序到最终 MAE 输出的输入图像 token 的原始位置。

线性投影头。研究者通过编码器和交叉注意力解码器获得的图像输出，接下来将这些特征输入到一个小型项目头（project head）中，以对齐 SAM 图像编码器中的特征。为简单起见，本文仅使用线性投影头来解决 SAM 图像编码器和 MAE 输出之间的特征维度不匹配问题。

重建损失。在每次训练迭代中，SAMI 包括来自 SAM 图像编码器的前向特征提取以及 MAE 的前向和反向传播过程。来自 SAM 图像编码器和 MAE 线性投影头的输出会进行比较，从而计算重建损失。

经过预训练，编码器可以对各种视觉任务的特征表示进行提取，而且解码器也会被废弃。特别是，为了构建用于分割任何任务的高效 SAM 模型，本文采用 SAMI 预训练的轻量级编码器（例如 ViT-Tiny 和 ViT-Small）作为 EfficientSAM 的图像编码器和 SAM 的默认掩码解码器，如图所示2(底部)。本文在 SA-1B 数据集上对 EfficientSAM 模型进行微调，以实现分割任何任务。

实验

图像分类。为了评估本文方法在图像分类任务上的有效性，研究者将 SAMI 思想应用于 ViT 模型，并比较它们在 ImageNet-1K 上的性能。

如表1将 SAMI 与 MAE、iBOT、CAE 和 BEiT 等预训练方法以及 DeiT 和 SSTA 等蒸馏方法进行了比较。

SAMI-B 的 top1准确率达到84.8%，比预训练基线、MAE、DMAE、iBOT、CAE 和 BEiT 都高。与 DeiT 和 SSTA 等蒸馏方法相比，SAMI 也显示出较大的改进。对于 ViT-Tiny 和 ViT-Small 等轻量级模型，SAMI 结果与 DeiT、SSTA、DMAE 和 MAE 相比有显著的增益。

目标检测和实例分割。本文还将经过 SAMI 预训练的 ViT 主干扩展到下游目标检测和实例分割任务上，并将其与在 COCO 数据集上经过预训练的基线进行比较。如表2所示， SAMI 始终优于其他基线的性能。

这些实验结果表明，SAMI 在目标检测和实例分割任务中所提供的预训练检测器主干非常有效。

语义分割。本文进一步将预训练主干扩展到语义分割任务，以评估其有效性。结果如表3所示，使用 SAMI 预训练主干网的 Mask2former 在 ImageNet-1K 上比使用 MAE 预训练的主干网实现了更好的 mIoU。这些实验结果验证了本文提出的技术可以很好地泛化到各种下游任务。

表4将 EfficientSAMs 与 SAM、MobileSAM 和 SAM-MAE-Ti 进行比较。在 COCO 上，EfficientSAM-Ti 的性能优于 MobileSAM。EfficientSAM-Ti 具有 SAMI 预训练权重，也比 MAE 预训练权重表现更好。

此外， EfficientSAM-S 在 COCO box 仅比 SAM 低1.5mIoU，在 LVIS box 上比 SAM 低3.5mIoU，参数减少了20倍。本文还发现，与 MobileSAM 和 SAM-MAE-Ti 相比，EfficientSAM 在多次点击（multiple click）方面也表现出了良好的性能。

表5展示了零样本实例分割的 AP、APS、APM 和 APL。研究者将 EfficientSAM 与 MobileSAM 和 FastSAM 进行了比较，可以看到，与 FastSAM 相比，EfficientSAM-S 在 COCO 上获得了超过6.5个 AP，在 LVIS 上获得了7.8个 AP。就 EffidientSAM-Ti 而言，仍然远远优于 FastSAM，在 COCO 上为4.1个 AP，在 LVIS 上为5.3个 AP，而 MobileSAM 在 COCO 上为3.6个 AP，在 LVIS 上为5.5个 AP。

而且，EfficientSAM 比 FastSAM 轻得多，efficientSAM-Ti 的参数为9.8M，而 FastSAM 的参数为68M。

图3、4、5提供了一些定性结果，以便读者对 EfficientSAMs 的实例分割能力有一个补充性了解。

小模型也可以分割一切Meta改进SAM参数仅为原版5

0001

评论列表

共(0)条

正在请求数据，请稍候！

共 0 条

条 / 页

/ 0 页

相关推荐

站长资讯
美国联邦选举委员会可能会在2024年选举前限制政治广告使用AI
本文概要:1.美国联邦选举委员会可能会制定规则，限制人工智能生成的内容在政治广告中的使用。2.倡导组织“公共公民”呼吁禁止候选人和政党使用人工智能歪曲对手。3.国会和白宫已经采取行动，试图规范人工智能的使用，但实际法案数量不多。据外媒报道，联邦选举委员会（FEC）可能会限制2024年选举前政治广告中的人工智能使用。
站长网2023-08-11 11:44:04
0000
站长资讯
大模型刚收费，年轻人就找搭子
百度的文心一言收费后，讯飞星火、通义千问、360智脑等AI大模型，会不会跟进?毕竟，ChatGPT4.0、MidJourney等，早就开始拒绝“白嫖”了。不过，这些付费的AI大模型，很多用户是拼单使用，但在合租的过程中，他们不仅容易遇上“溜之大吉式”“借水行舟式”诈骗，还容易遇上信息泄露、访问卡顿、使用超限等问题。
站长网2023-11-24 09:29:09
0002
站长资讯
句子互动融到新钱：真是漫长的准备，一扫私域融资寒冬！
句子互动近日完成数百万美元Pre-A轮融资时，或许没想到，这个动作给行业注入了新活力和希望。近1年来，和私域SaaS、运营工具相关的融资几乎进入寒冬，业界罕有消息传出。但自此开始，行业似乎开启了新的融资周期。“我们一直坚信Chatbot会成为未来营销的基础设施和重要的人机交互窗口，为此我们等了7年”。句子互动创始人李佳芮这样提及他们此前的漫长准备。
站长网2023-06-15 19:51:42
0000
快时尚行至岔路口：涨高价，开大店，差异化
2024年行至尾声，快时尚行业的剧烈变革仍在继续。承压多时的几个老牌快时尚巨头相继复苏——12月11日，ZARA母公司Inditex集团公布三季度报，前三季度总营收同比增长7.1%至274亿欧元，净利润则同比增长8.5%至44亿欧元，多项经营指标均有所改善。优衣库母公司2024财年年报也不乏亮点，营收同比增长12.2%至3.1万亿日元，营业利润更是同比大涨31.4%至5009亿日元。
站长网站长资讯2024-12-26 14:06:28
0000
市值蒸发近80%！资深人士锐评马斯克收购推特：天才怎么会这么蠢
快科技10月20日消息，马斯克在2022年10月以440亿美元收购了推特，这一行为在当时被看作是一次大胆的尝试，而这一收购也成了其最大败笔。前不久，知名投资机构富达（Fidelity）再次下调了对推特（现X.com）的持股估值，最新估计显示，X的市值已不到马斯克440亿美元收购价的四分之一。自马斯克收购以来，富达已经数次下调X的估值，从最初的投资额到现在的估值，市值蒸发近80%。
站长网站长资讯2024-10-20 13:41:25
0000