中国研究人员提出DualToken-ViT:CNN和视觉Transformer的融合,提高图像处理效率和准确性
要点:
1、DualToken-ViT将卷积和自注意力联合使用,分别提取局部和全局信息,再将两者输出融合形成有效的注意力结构。
2、使用位置感知全局令牌提升全局信息质量,令牌中还包含图像位置信息,有利于视觉任务。
3、在相同FLOPs下,DualToken-ViT在图像分类、目标检测和语义分割任务上表现最好。
最近,视觉Transformer(ViT)成为各类视觉任务如物体识别和图片分类的有效架构。这是因为自注意力可以从图片中提取全局信息,而卷积核大小限制了卷积神经网络(CNN)只能提取局部信息。随着ViT模型和数据集规模的增大,相比CNN具有更好的扩展性。但在轻量级模型上,由于缺乏某些归纳偏置,CNN优于ViT。
自注意力的二次复杂度导致ViT计算成本潜在很高,构建轻量高效的ViT并不容易。为此,提出金字塔结构,将模型分为多个阶段,每阶段令牌数减少,通道数增加,以构建更轻量高效的ViT。简化自注意力结构以减轻其复杂度,但以牺牲注意力有效性为代价。一个典型策略是下采样自注意力的key和value,减少参与注意力过程的令牌数。
论文地址:https://arxiv.org/abs/2309.12424
本研究中,华东师范大学和阿里巴巴集团的研究人员提出了紧凑高效的视觉Transformer模型DualToken-ViT。他们的方法使用卷积和自注意力联合提取局部和全局信息,再将两者输出融合形成有效的注意力结构。尽管窗口自注意力也可以提取局部信息,但他们发现,在轻量模型上卷积更有效。他们采用逐步下采样的方式生成key和value特征图,在下采样过程中保留更多信息,降低自注意力在传播全局信息时的计算成本。
此外,他们在每个级别使用位置感知全局令牌来提高全局数据质量。与标准全局令牌不同,他们的位置感知全局令牌还可以维护和传递图像位置信息,在视觉任务中为模型提供优势。如图1所示,图像中的关键令牌与位置感知全局令牌中的对应令牌产生了更大的相关性。
总之,他们的贡献有:1)提出了紧凑高效的视觉Transformer模型DualToken-ViT,通过卷积和自注意力的优势实现有效的注意力结构;2)提出位置感知全局令牌,通过图像位置信息来增强全局信息;3)DualToken-ViT在相同FLOPs下在多个视觉任务上表现最好。
谷歌投资人工智能初创企业 Runway 加速生成式 AI 发展
站长之家(ChinaZ.com)6月1日消息:谷歌和Runway签订了一份重要的新合同,为这家生成式AI初创公司提供数百万美元的云服务和相关信贷。站长网2023-06-01 16:16:440000王慧文光年之外公司注册光年AI商标
企查查APP显示,近日,北京光年之外科技有限公司申请注册多个“光年AI”商标,国际分类涉及广告销售、科学仪器、设计研究,当前商标状态多为注册申请中。今年2月,原美团联合创始人王慧文在社交平台上发文,宣布进入AI领域,设立北京光年之外科技有限公司,打造中国版ChatGPT,出资5千万美元,估值2亿美元。美团创始人王兴,前京东技术掌门人周伯文,搜狗输入法之父马占凯等陆续宣布加入。站长网2023-04-20 12:01:310000米哈游整的这个大活儿,一天上了5次热搜
一场活动开启当日,竟然在一天里接连上了五个热搜。这是《崩坏:星穹铁道》和KFC的联动活动上线首日的场面。游戏和KFC的联动并不罕见,《崩坏:星穹铁道》(以下简称星穹铁道)上线以来也有过几次联动活动。一次联动而已,怎么就能火成这样呢?站长网2023-10-06 09:41:320000李一舟回应AI课程引争议:事件被误解和夸大
李一舟的AI课程近期在短视频平台上引发了广泛关注,这门课程以199元的价格吸引了上百万粉丝,营业额更是突破了千万大关。然而,随着课程的热度不断攀升,争议也随之而来。有网友将李一舟与OpenAI的萨姆奥特曼进行对比,调侃称美国的AI大神在专心研究,而我们的AI大神却忙着卖课。这种对比让李一舟陷入了一场舆论风波。对于外界的争议,李一舟做出了回应。他表示,整个事件被误解和夸大了。站长网2024-02-22 10:35:130000大模型的“最后一公里”,京东走通了
大模型落地,又进了一步。2023年7月13日,在2023京东全球科技探索者大会暨京东云峰会上,京东云推出了京东言犀大模型,直击知识密集型、任务型产业场景。现场,京东集团CEO许冉表示:“从产业端切入大模型,如同从北坡攀登技术珠峰,道路虽然更加艰难,却有更波澜壮阔的风景。”这意味着,京东坚持做难而正确的事情。站长网2023-07-18 12:38:540004