多模态大模型MMICL霸榜 支持文本图像视频输入
要点:
1、MMICL在多模态能力评测中表现突出,支持文本图像视频三种模态输入。
2、采用两阶段训练,可实现“现学现卖”,有效缓解视觉语言模型中的语言偏见。
3、已开源可商用的Flan版和仅科研用的Vicuna版,都发布在GitHub。
最近,北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。
MMICL在MMBench和MME两项多模态测评中均获得不俗的成绩。它采用Flan-T5XXL作为基础模型,通过两阶段训练完成。第一阶段是预训练,使用大规模数据集;第二阶段是多模态上下文微调,使用自建包含丰富多模态样本的MIC数据集。这种训练方式让MMICL既具备强大的语义理解能力,又特别适合处理复杂的多模态输入。
项目地址:https://github.com/HaozheZhao/MIC
MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多种数据源。研究人员将这些数据转换成了少样本式数据,存储在jsonl文件中,形成了带有0到少样本的多指令式数据。研究使用python数据预处理脚本,将数据转换为后续训练的原始化数据。数据格式支持交错的图像文字输入,相关图像输入以及语境示范输入。
MMICL最大的特色在于同时接受文本和图像的交错输入,就像微信聊天一样自然。它可以分析两张图像的关系,也可以从视频中提取时空信息。如果给它一些示例,MMICL还能进行“现学现卖”,对未知知识进行类比和推理。研究团队表示,MMICL成功缓解了视觉语言模型中的语言偏见问题,避免在大量文本输入时忽视视觉信息。
MMICL的核心功能包括:
1)理解并推理多幅图像之间的关系;
2)人工构建的语境训练数据,支持语境学习;
3)状态最先进的多模态建模能力。
目前,MMICL已开源两个版本,分别基于FlanT5XL和Vicuna模型,可满足商用和科研需求。该模型支持多种互动方式,开发者可以通过GitHub获取代码和模型进行试用。诸如图像分类、视频理解等多模态任务,都可以基于MMICL得到进一步提升。
总体来说,MMICL是新兴的多模态预训练模型中的佼佼者。它具备处理复杂多模态输入的能力,支持各种多模态任务精调。MMICL的开源发布为多模态AI的研究和应用提供了新的选择。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。
苹果配备 32 英寸左右显示屏的大屏 iMac 正在进行早期测试
站长之家(ChinaZ.com)7月10日消息:据彭博社的MarkGurman透露,苹果正在尝试研发更大尺寸的iMac,其中包括一款大约32英寸的机型。在他最新的PowerOn通讯中,Gurman表示这些iMac目前仍处于早期开发阶段,因此他预计它们最早会在2024年末或2025年某个时间点推出。站长网2023-07-10 15:59:490000公园“躲猫猫”和City drink爆红:社交游戏的魔力
打开社交媒体平台就不难发现,当代年轻人假期有了新去处。你可以和数十个甚至上百个人相聚公园,通过手机统一共享定位,分为“猫”、“鼠”两队,展开一场现代版“躲猫猫”游戏;也可以相约朋友跨越街区,参加一场“酒鬼马拉松”,去不同酒吧打卡不同风味的精酿,主打一个“Citywalk不如Citydrink”。站长网2023-10-07 17:56:290000AIGC明星独角兽爆雷!7亿融资烧大半,拖欠员工工资,创始人被扒得千疮百孔
StableDiffusion背后团队创始人,被曝巨大丑闻!这两天,福布斯发布的一则长新闻在网上病毒式传播:30多位前员工投资人现身说法,细数StabilityAI老板EmadMostaque(伊玛德·莫斯塔克)9大罪证——学历造假,根本没有取得牛津大学硕士学位;把StableDiffusion的10亿代码成果“据为己有”;拖欠大量员工工资,甚至不交工资税;……站长网2023-06-12 11:06:23000011月13日发布!vivo X100橙色外观公布
vivoX100系列新旗舰定于11月13日发布,外观方面,vivoX100除了之前的星迹蓝版本,还公布了一款橙色版本,采用素皮材质。vivoX100主摄为索尼IMX989一英寸传感器,配备潜望式长焦OV64B,vivo为其打造了多个焦段,包括24mm、35mm、50mm、85mm和100mm,适应各种场景。站长网2023-11-03 11:49:020000