北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人
要点:
北大和中山大学研究者提出的Chat-UniVi是一种统一的视觉语言大模型,能够在统一的视觉表征下同时处理图片和视频任务,且仅需三天训练即可获得130亿参数的通用视觉语言大模型。
Chat-UniVi采用动态视觉token来统一表示图片和视频,通过最近邻的密度峰聚类算法获取动态视觉token,多尺度表征提高了模型的性能,使其在图片和视频的各种任务中取得卓越性能。
Chat-UniVi在图片、视频理解以及问答任务等多个实验中表现卓越,使用更少的视觉token达到了与其他大模型相媲美的性能水平,同时开源了代码、数据集和模型权重。
近日,北京大学和中山大学等机构的研究者提出了一种名为Chat-UniVi的视觉语言大模型,实现了统一的视觉表征,使其能够同时处理图片和视频任务。这一框架的独特之处在于,它不仅在深度学习任务中表现卓越,而且仅需短短三天的训练时间,就能够训练出具有130亿参数的通用视觉语言大模型。
项目地址:https://github.com/PKU-YuanGroup/Chat-UniVi
Chat-UniVi的核心方法是采用动态视觉token,通过最近邻的密度峰聚类算法来获取这些动态token。这一方法极大地减少了视觉token的数量,降低了模型的训练和推理成本。研究人员通过实验证明,Chat-UniVi在图片理解、视频理解、问答等多个任务中都表现出色,甚至在较小的参数量下也能超越其他大型模型。
文章还详细介绍了Chat-UniVi的训练过程,分为多模态预训练和联合指令微调两个阶段。这一两阶段的训练策略使得模型能够在混合数据集上进行训练,无需对模型结构进行修改,展现了其在多任务学习上的灵活性和高效性。
Chat-UniVi的成功实验结果包括在图片理解、视频理解、问答等多个任务中都超越了先进的方法。而其在幻觉评估上的优越性更是引人注目,证明了采用动态视觉token和多尺度表征的有效性。
综合而言,Chat-UniVi的提出为视觉语言模型的研究领域带来了新的思路,通过统一的视觉表征实现了对多模态数据的高效处理,为深度学习模型的训练和推理提供了更加便捷和经济的解决方案。
罗永浩指责荣耀任意门抄袭锤子 后者回应:两个完全不一样的东西
在昨天下午的荣耀MagicOS8.0发布会及开发者大会上,荣耀正式发布了MagicOS8.0,其中搭载了一项名为“任意门”的功能。据介绍,该功能能够通过拖动文字信息至其他App来完成各种操作,从而将传统的多步操作简化为一步。站长网2024-01-11 15:34:060000iQOO Neo8 系列正式发布 首销期间2299元起售
今日晚间,iQOO新品发布会上正式发布iQOONeo8系列,配色方面,iQOONeo8系列推出赛点(荔枝纹素皮)、夜岩(岩晶玻璃)、冲浪(瓷釉亮面玻璃)三款不同配色。配置方面,iQOONeo8Pro全球首发天玑9200,iQOONeo8搭载骁龙8和自研芯片V1。iQOONeo8全系配备120W超快闪充,等效5000mAh超大电池,Neo8充电15分钟就能直接充到75%。站长网2023-05-23 22:44:4900003D产品预览应用React Native 3d Store 线上购物更立体了
ReactNative3dStore是一款先进的ReactNative应用,旨在展示带有沉浸式3D预览的产品。它为用户提供了一种创新的方式来在购物前与产品互动。通过这个应用,用户可以从各个角度探索产品,深入了解其特点和外观。站长网2023-10-30 12:20:360000EmojiGen:一个开源表情符号生成器网站
EmojiGen是一个开源的表情符号生成器。它使用了先进的AI技术,可以根据用户的文字描述快速生成有趣的表情符号图片。用户只需要在输入框中输入一个词或短语,EmojiGen就会立即生成相关的表情符号。用户可以输入简单的词语如“猫”或者“击掌”,它就可以生成适当的表情符号图片。生成的图片可以下载保存,并可以上传到Slack等即时通讯软件中使用。站长网2023-10-09 16:56:210000在夜校,年轻人用五百元“重启人生”
图源备注:图片由AI生成,图片授权服务商Midjourney“夜校”的概念,正在全国风靡。11月6日,央视新闻报道,上海夜校的秋季班火爆到65万人同时在线抢课,达到了一课难求的程度。短时间内,夜校风吹遍了全国各地,打开小红书,北京夜校、西安夜校、深圳夜校、成都夜校、天津夜校、长沙夜校纷纷开启了学员招募。站长网2023-11-12 10:29:100000