谷歌 DeepMind 推出 NaViT 模型可显著减少训练时间

站长网2023-07-18 06:37:251阅

最近，Google DeepMind 推出了 NaViT:一种新的 ViT 模型，它在训练过程中使用序列打包来处理任意分辨率和宽高比的输入。该模型将图像分割成小块，并线性投影到令牌上，形成了这个模型的基础。

之前的研究已经探讨了与这个模型不同的可能性:FlexiViT 允许连续范围的序列长度，并通过在每个训练迭代中随机选择补丁大小，并使用缩放技术来适应初始卷积嵌入中的多个补丁大小。Pix2Struct 的替代补丁方法在图表和文件理解等任务中非常有价值。

NaViT 是谷歌研究人员开发的另一种替代方案，它采用了 Patch n' Pack 技术，通过将多个来自不同图像的补丁打包到一个序列中，实现了不同分辨率的同时保持宽高比。NaViT 在广泛的解决方案范围内都表现出色，为推理时间提供了平滑的性能 - 成本平衡，并且易于适应新任务，而且无需花费大量资金。

谷歌 DeepMind推出 NaViT模型 可显著减少训练时间

0001

评论列表

共(0)条

相关推荐

站长资讯
顺丰控股向港交所提交IPO申请
据港交所文件显示，顺丰控股股份有限公司向港交所提交上市申请书。联席保荐人为高盛、华泰国际、摩根大通。此前，顺丰控股发布公告，计划发行境外上市外资股（H股）股票并申请在香港联合交易所有限公司主板挂牌上市。
站长网2023-08-21 22:16:50
0000
站长资讯
视频号爆发式增长，我们总结了4种不同业态的增长密码
过去一年，视频号实现爆发式增长——用户使用时长比去年同期增加50%，总使用时长超过朋友圈。视频号销售额增长800%，并呈现出高客单、高复购特征。流量红利见底的时代，面对可能是全网最后一片流量洼地的视频号，如何最大化挖掘其营销价值?11月30日，生机·2023刀法年度品效峰会上，腾讯广告日百家清行业负责人杨朔带来最新平台趋势和不同类型品牌的解决方案。
站长网2023-12-14 12:06:05
0000
站长资讯
小米MIX Fold 3将于8月14日发布搭载徕卡全焦段四摄
就在刚刚，雷军宣布，小米MIXFold3将在自己的“2023年度演讲”上发布，该手机将是一款轻薄折叠与真旗舰并存的手机，将开启折叠屏下半场。根据此前爆料，小米MIXFold3主打“轻薄旗舰”，采用“徕卡全焦段四摄”，后置四摄包含3.2X人像中焦和5X潜望长焦，搭载骁龙8Gen2处理器。
站长网2023-08-09 15:14:49
0000
剧综营销2023：既巧妙，又有效
王家卫执导的首部电视剧《繁花》、迷雾剧场回归的《三大队》、丁黑导演和张若昀二搭的《鸣龙少年》……岁末年初，各大视频平台纷纷拿出“压箱底”的王牌项目，为过去一年画上一个热闹圆满的句号。对广告主来说，2023年是从逆风状态切换到复苏阶段的一年。QuestMobile显示，2023年前三个季度的互联网广告市场规模都同比去年实现了增长。精品剧综持续涌现、广告主预算恢复下，剧综投放整体“变中向好”:
站长网站长资讯2024-01-06 09:41:58
0000
站长资讯
Github爆火AI语音克隆项目OpenVoice，精准进行声音复刻
划重点:1.🌈准确的音色克隆:OpenVoice能够精准克隆参考说话者的音色，并在多种语言和口音中生成语音。2.🎭灵活的语音风格控制:OpenVoice允许对语音风格进行精细控制，包括情感、口音、节奏、停顿和语调等多个参数。3.🌐无差异的跨语言语音克隆:OpenVoice实现了零射击跨语言语音克隆，不受大规模训练数据集中语言的限制。
站长网2024-01-05 15:34:04
00012