DINOv2:Meta AI 开源的自监督计算机视觉模型
Meta AI Research 发布了 DINOv2 开源项目,这是一款用于计算机视觉(CV)任务的基础模型。DINOv2 在一个由 1.42 亿张图像构成的筛选数据集上进行了预训练,可用作图像分类、视频动作识别、语义分割和深度估计等多个任务的骨干模型。
Meta 基于 Vision Transformer(ViT)架构构建了该模型,并对其进行了自监督学习目标的修改。团队建立了一个自动化流程,从网络上获取图像并构建了一个筛选数据集来训练模型。其中一个重要的贡献是改进了训练过程,该方法的速度是之前方法的两倍,内存使用量减少了三分之一。在计算机视觉基准测试中,DINOv2 优于其他自监督学习(SSL)模型,并显示出与弱监督模型相媲美或更好的性能。根据 Meta 的说法:
展望未来,团队计划将该模型整合到一个更大、更复杂的人工智能系统中,该系统可以与大型语言模型进行交互。具备丰富图像信息的视觉骨干模型将使复杂的人工智能系统能够对图像进行比单一文本描述更深入的推理。以文本监督进行训练的模型最终受限于图像标题的内容。而使用 DINOv2,则没有这样的内置限制。
计算机视觉任务的深度学习模型通常依赖于带有人工注释的大型图像数据集,例如 ImageNet。2021 年,OpenAI 发布了 CLIP,这是一个使用弱监督训练方法的计算机视觉基础模型,其中的注释是通过爬取与源图像相关的 html 标签和其他网络元数据自动生成的。同年,Google 发布了 ViT 模型,它使用自监督学习进行训练。Meta 也发布了 DINO 的原始版本的研究成果,将 ViT 模型与知识蒸馏相结合,从而获得了性能相当但更小的模型。
对于 DINOv2,Meta 专注于收集更多训练数据并扩大训练过程。对于训练数据,Meta 从互联网上收集了 1.2B 个独特的图像,然后根据它们与 ImageNet 数据集中图像的相似性对它们进行聚类,以获得最终的 142M 图像集。为了扩大训练规模,Meta 实施了自定义版本的 FlashAttention,并使用 PyTorch 进行完全分片数据并行 (FSDP) 训练。总体而言,该项目消耗了大约 20 万个 GPU 日的计算量。
为了评估 DINOv2 作为基础模型的性能,该团队在各种 CV 任务上对其进行了测试,并将其与几个基线 SSL 模型以及 CLIP 等弱监督模型进行了比较。在 ImageNet-1k 分类任务上,DINOv2 与其他 SSL 模型相比表现出「非常显著的改进」,并且表现优于弱监督模型。它还在三个视频动作识别基准测试中创造了新的 SSL 最先进记录,并在实例级识别基准测试和三个单眼深度估计基准测试中表现优于基线。
在 Hacker News 关于这项工作的讨论中,一些用户称赞了 Meta 最近在计算机视觉方面的工作以及 PyTorch 等过去的贡献。有人确实注意到 Meta 围绕他们的工作进行交流的转变:
作为该领域的研究生,在 Yann LeCun 的内部倡导下,Meta 一直为开源机器学习工作做出了不小的贡献。最近发生变化的是他们的公关策略:[OpenAI] 基本上已经向所有人表明,如果你的宣传很糟糕,那么你是否有最好的模型并不重要。
GitHub 上提供了 DINOv2 代码和模型。该项目站点托管了使用 DINOv2 的多个计算机视觉任务的交互式演示。
DINOv2 开源模型 GitHub 地址:https://github.com/facebookresearch/dinov2
DINOv2 开源项目: https://dinov2.metademolab.com/
李子柒回应何时回归:今年将重点做文化非遗相关内容
李子柒,自2021年7月起便暂停了视频更新,她的账号自此陷入了长久的沉寂。在这段时间里,人们不禁好奇,离开屏幕的李子柒究竟去了哪里?实际上,她并没有远离我们,而是深入到了更为深厚的文化领域中。在追求文化的道路上,李子柒结识了浙江温州的木活字印刷传承人王法万。王法万不仅是她的师傅,更是她在非遗文化学习过程中的重要伙伴。两人时常交流心得,共同探索非遗文化的魅力。站长网2024-04-06 14:14:010000RTX 4070 SUPER刚上市一天:闪电破发!
1月17日晚,RTX4070SUPER新鲜上市,凭借不错的价格和性能被认为是一款良心卡”,但没想到仅仅一天,它就破发了!在波兰,耕升的RTX4070SUPERGhost标频版官方定价2999兹罗提,但零售平台X-Kom已经打出了2849兹罗提的破发价,降幅为5%。有趣的是,RTX4070在当地去年9月曾降至2880兹罗提,如今低至265兹罗提左右。站长网2024-01-19 09:02:450000微软将在印度将为200万人提供人工智能技能培训
划重点:-💡微软首席执行官萨特亚・纳德拉宣布,将为200万人提供人工智能技能培训。-💡纳德拉强调重要性在新时代确保劳动力具备必要技能,并称AI任务为农村印度提供工作机会。-💡他赞扬了印度的数据合作社Karya、Bhashini和Agami等组织的努力,称印度拥有全球第二大人工智能工程师社区。站长网2024-02-07 15:19:570000300元陪玩一天,年轻人卷向“大学生特种兵”
这届大学生,正在用一种类似“特种兵拉练”的方式旅游。他们一边调侃在学校里“早八(早上八点上课)起不来床”,一边在短短的24小时内玩转澳门、吃遍北京,48小时打卡长沙、广州、南京等地的所有热门景点,夜爬泰山、黄山或武功山……微信步数动辄上万,就连睡觉都可以被省略。通往拉萨的54小时硬座上,一位新疆大叔还替大学生喊出了口号:“青春没有售价,硬座直达拉萨!”站长网2023-04-20 14:18:0300004个月接不到广告,千万粉B站UP主“用爱发电、为钱发愁”
B站停更潮一波未平、一波又起。昨天(4月24日),千万粉丝UP主“木鱼水心”回应停更传言的动态直接冲上了微博热搜第一,话题阅读量超过2.5亿次。事情起因是不少网友发现“木鱼水心”自4月5日发布最新一期视频后再未更新,疑似停更。尽管“木鱼水心”在回应中否认了停更传言,表示在打磨新作品,但也指出了现下商业化的“艰难”:站长网2023-04-25 18:13:410001