谷歌 DeepMind 推出 NaViT 模型 可显著减少训练时间
站长网2023-07-18 06:37:250阅
最近,Google DeepMind 推出了 NaViT:一种新的 ViT 模型,它在训练过程中使用序列打包来处理任意分辨率和宽高比的输入。该模型将图像分割成小块,并线性投影到令牌上,形成了这个模型的基础。
之前的研究已经探讨了与这个模型不同的可能性:FlexiViT 允许连续范围的序列长度,并通过在每个训练迭代中随机选择补丁大小,并使用缩放技术来适应初始卷积嵌入中的多个补丁大小。Pix2Struct 的替代补丁方法在图表和文件理解等任务中非常有价值。
NaViT 是谷歌研究人员开发的另一种替代方案,它采用了 Patch n' Pack 技术,通过将多个来自不同图像的补丁打包到一个序列中,实现了不同分辨率的同时保持宽高比。NaViT 在广泛的解决方案范围内都表现出色,为推理时间提供了平滑的性能 - 成本平衡,并且易于适应新任务,而且无需花费大量资金。
0000
评论列表
共(0)条相关推荐
苹果大中华区营收低于预期 库克:重金布局生成式AI
苹果公司发布了2023财年第四财季及全年财报,营收为894.98亿美元,同比下降1%,净利润为229.56亿美元,同比增长11%。每股摊薄收益为1.46美元,同比增长13%。苹果公司2023财年的总营收为3832.85亿美元,相比2022财年的3943.28亿美元有所下降。站长网2023-11-03 08:33:250000字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。来自字节和北大的一篇新论文在此时吸引关注:文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。站长网2024-03-01 15:02:350003WhatsApp 的人工智能贴纸生成巴勒斯坦儿童持枪图像
Meta的WhatsApp应用中,用户可以利用AI提示生成贴纸。《卫报》在周五报道称,用于创建这些贴纸的AI模型有时在输入“巴勒斯坦”等类似词语时生成儿童持枪的图像。与此同时,根据该报道,输入“以色列”并没有产生类似的图像。站长网2023-11-06 10:10:030000《英雄联盟》所有人聊天功能恢复 网友:史诗级加强
9月14日消息,《英雄联盟》国服今日13.18版本更新后,恢复了所有人聊天功能。游戏玩家除了可以与队友互动外,还可与对手聊天互动。但此前也有过所有人聊天功能短暂开启,目前尚不清楚国服后续是否会再度关闭所有人聊天功能。据了解,《英雄联盟》国服在2021年关闭了游戏内的所有人聊天功能。当时,《英雄联盟》称其对行为系统的主要关注点都与对局有关,如挂机和送人头等行为。站长网2023-09-14 21:52:0600007999元起 国人买iPhone 14 Pro需9.5%年收入引热议:你多久才能买?
快科技6月22日消息,今日,一则国人买iPhone14Pro需9.5%年收入”的话题登上微博热搜,引来众多网友热议,截稿前,话题今日阅读量已达9949.8万,2053条讨论。据了解,WorldofStatistics网站日前分享了全球购买iPhone14Pro128GB版本需要花多少钱,并与当地平均年收入进行对比数据。站长网2023-06-23 23:42:500001