多模态大模型MMICL霸榜 支持文本图像视频输入
要点:
1、MMICL在多模态能力评测中表现突出,支持文本图像视频三种模态输入。
2、采用两阶段训练,可实现“现学现卖”,有效缓解视觉语言模型中的语言偏见。
3、已开源可商用的Flan版和仅科研用的Vicuna版,都发布在GitHub。
最近,北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入,在多项多模态能力评测中表现抢眼。
MMICL在MMBench和MME两项多模态测评中均获得不俗的成绩。它采用Flan-T5XXL作为基础模型,通过两阶段训练完成。第一阶段是预训练,使用大规模数据集;第二阶段是多模态上下文微调,使用自建包含丰富多模态样本的MIC数据集。这种训练方式让MMICL既具备强大的语义理解能力,又特别适合处理复杂的多模态输入。

项目地址:https://github.com/HaozheZhao/MIC
MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多种数据源。研究人员将这些数据转换成了少样本式数据,存储在jsonl文件中,形成了带有0到少样本的多指令式数据。研究使用python数据预处理脚本,将数据转换为后续训练的原始化数据。数据格式支持交错的图像文字输入,相关图像输入以及语境示范输入。
MMICL最大的特色在于同时接受文本和图像的交错输入,就像微信聊天一样自然。它可以分析两张图像的关系,也可以从视频中提取时空信息。如果给它一些示例,MMICL还能进行“现学现卖”,对未知知识进行类比和推理。研究团队表示,MMICL成功缓解了视觉语言模型中的语言偏见问题,避免在大量文本输入时忽视视觉信息。
MMICL的核心功能包括:
1)理解并推理多幅图像之间的关系;
2)人工构建的语境训练数据,支持语境学习;
3)状态最先进的多模态建模能力。
目前,MMICL已开源两个版本,分别基于FlanT5XL和Vicuna模型,可满足商用和科研需求。该模型支持多种互动方式,开发者可以通过GitHub获取代码和模型进行试用。诸如图像分类、视频理解等多模态任务,都可以基于MMICL得到进一步提升。
总体来说,MMICL是新兴的多模态预训练模型中的佼佼者。它具备处理复杂多模态输入的能力,支持各种多模态任务精调。MMICL的开源发布为多模态AI的研究和应用提供了新的选择。随着其性能和适用场景的不断优化,MMICL有望成为多模态领域的新宠。
OpenAI CEO亲自示范!自定义指令上手攻略,调教专属定制化AI助手
【新智元导读】OpenAI推出了ChatGPT的自定义指令功能后,似乎没有收到用户们的热情回应,Altman本人都下场亲自教大家使用。小编也来实测一波,希望给大家一些启发。可能是感觉到刚推出的自定义指令(CustomInstructions)功能没有引起太多的讨论,Altman亲自发推来指导大家该怎么用。站长网2023-08-01 16:52:210002最「卷」的618,9块9和1元购成主角
日历已经撕去一半的618,呈现出不同的变化。淘宝天猫的戴珊,京东的许冉,抖音的魏雯雯和拼多多的阿布这4位女性掌门首次正面交锋,但本应激烈的战场却显得有些静悄悄:在预售阶段迎来了开门红的平台们并没有和往年一样大张旗鼓地宣传耀眼的GMV(平台交易额),社交平台也很少讨论各位超头主播的成绩。站长网2023-06-12 17:13:030000谷歌云推出两个新 AI 工具:帮助加速药物发现和实现精准医学
站长网2023-05-17 10:00:140000快手发布“市井里的致富经”作者招募计划 提供丰厚奖励
近日,快手推出面向零门槛低成本创业内容扶持及孵化的“市井里的致富经”作者招募计划。据介绍,即日起,创作者在快手分享摆摊、开店等低成本、零门槛、可实操的创业项目经验,就有机会获得丰厚活动奖励。此外,该计划还将提供冷启扶持、优质账号保护、运营1V1扶持培训等附加权益。站长网2023-05-17 11:41:200007特斯拉中国ModelS/X现车再降价 最高可享 7 万元优惠
特斯拉中国再次降低ModelS/X现车价格,全系现车可享受54,000元至70,000元不等的价格优惠。现在购买ModelS的起售价为75.49万元,原起售价为80.89万元;现在购买ModelX的起售价为83.69万元,原起售价为89.89万元。此外,购车者还可以享受3年/6年免费超充、引荐奖励和FSD限时转移等权益。站长网2023-08-16 13:50:460000