Google发布PaLI-3视觉语言模型,性能相当于体积大10倍的模型
📌划重点:
Google Research和Google DeepMind发布了PaLI-3,这是一款仅有50亿参数的视觉语言模型(VLM)。
尽管相对较小,PaLI-3在多模态测试中超越了体积大10倍的模型,可以回答关于图像的问题、描述视频、识别对象和读取图像上的文本。
尽管规模较小,PaLI-3的性能表现卓越,这归功于对SigLIP方法的对比预训练视觉转换器的应用。小型模型更适合培训和部署,更环保,并允许更快的模型设计研究周期。
Google Research和Google DeepMind日前发布了名为PaLI-3的新一代视觉语言模型(VLM),尽管仅拥有50亿参数,但其性能令人瞩目。与体积大10倍的竞争对手相比,PaLI-3在多模态测试中表现出色,能够回答关于图像的问题、描述视频、识别对象和读取图像上的文本。
通常情况下,VLM由预训练的图像模型和语言模型组成,后者已经学会将文本与图像相关联。PaLI-3的架构遵循了其前身的先例,包括一个将图像编码为标记的视觉转换器,这些标记连同文本输入一起传递给一个编码器-解码器转换器,产生文本输出。
Google此前已经展示,高度扩展的视觉转换器并不一定会对仅涉及图像的任务(如ImageNet)产生更好的结果,但对于回答有关图像的问题等多模态任务,它可以取得显著的性能提升。随着PaLI-X的推出,Google将模型规模扩大到了550亿参数。
与PaLI-X相比,PaLI-3采用了一种新的训练方法,使用了对比预训练的视觉转换器(SigLIP),类似于CLIP。该视觉转换器仅拥有20亿参数,与语言模型一起,PaLI-3仅有50亿参数。
这种小型模型更适合培训和部署,对环境更友好,并允许更快的模型设计研究周期。令人印象深刻的是,尽管规模相对较小,PaLI-3在超过10个图像转语音测试中与今天的最佳VLM表现相媲美,而且在没有经过视频数据训练的情况下,在需要回答关于视频的问题的测试中也取得了新的最佳成绩。
虽然小型模型具有巨大的潜力,但模型领域的趋势似乎将朝着更大型模型的方向发展。不过,正是PaLI-3在其体积相对较小的情况下表现出色,彰显了SigLIP方法在未经结构化的多模态数据上进行视觉转换器训练的潜力。考虑到这种未经结构化的多模态数据的可用性,Google可能很快会推出更大版本的PaLI-3。
该研究团队表示,PaLI-3的性能表现,尽管仅有50亿参数,重新激发了对复杂VLM核心组成部分的研究兴趣,并有望推动新一代大规模VLM的发展。
项目网址:https://github.com/kyegomez/PALI3
跟风买平替,我踩坑了
“买平替”,正在成为一些年轻人的生活方式。看到某件非常喜欢的东西,很多人的第一反应不是下单拿下,而是掏出手机拍图,然后打开拼多多、1688等平台找同厂同款,或者直接搜“XX平替”。原价好几百甚至上千的商品,价格瞬间降至不到百元。0000消费电子通往AI时代的七种方式
疫情复苏之后的第二年,CES再次成为了观察未来趋势的最佳窗口。一改疫情期间的萧条景象,刚刚过去的CES2024呈现出了消费电子领域中蕴藏的生机和希望。美国消费技术协会(CTA)的统计显示,本次展会超过4000家参展商来自150多个国家和地区,其中包含60%的财富500强企业和1200多家初创公司,注册人数超过13万。站长网2024-01-22 12:03:180000AI低代码厂商炎黄盈动推出对话式应用搭建平台AI Copilot
8月22日,国内首家AI低代码厂商炎黄盈动推出了AICopilot,采用自然语言以对话交互方式,使AI能够更好地理解用户的需求,并生成贴合用户需求的数字化应用,现已对外开放预约体验通道。该工具具有AI导航、AI提示和AI赋能的特点,能够帮助用户更轻松、简单、高效地构建应用。站长网2023-08-26 10:25:200000李佳琦频频陷入舆情危机 美ONE招一年经验公关
据招聘小程序显示,李佳琦团队发布了一则招聘公告,要求招聘一名具备1年以上舆情处理相关工作经验的舆情公关岗位候选人。这个职位的工作内容涉及日常收集分析行业信息和竞品PR信息,基于舆情分析和行业洞察,不断推进危机公关响应与内控机制的完善。根据来自李佳琦所属公司美One发布的招聘信息,这个职位要求候选人具备本科及以上学历,优先考虑新闻、新媒体等相关专业背景,并且要求拥有1年以上的舆情处理相关工作经验。站长网2023-10-27 20:45:510000贾跃亭所持乐视股票再拍卖 4900万股估值9折起拍
据阿里拍卖显示,西安铁路运输中级法院将于7月28日10时至7月29日10时在阿里资产平台上公开拍卖一批贾跃亭持有的乐视股票。本次拍卖的股票共4899.9998万股,拆分为48个100万股的标的和一个99.9998万股的标的,一共49个标的。每个标的股占比为1.23%。这些股票性质为挂牌后个人类限售股,过户后可解除限售。站长网2023-07-24 22:17:300000