智源发布多模态模型中文评测基准CMMU
站长网2024-02-01 10:19:010阅
智源研究院发布了中文多模态模型评测基准 CMMU(Chinese Multimodal Model Understanding and Reasoning Benchmark),旨在为中文多模态模型领域提供一个全面、中立的评测基准。
该评测基准目前发布了 CMMU v0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中,250道题目为小学题目,1697道为初中题目,1656道为高中题目。
CMMU 评测基准的难度分为 “普通” 和 “困难”,比例大致为8:2。对于填空题,基于实际情况,有639道题被拆分成了1632个子问题。
通过对多个闭源模型和开源模型进行评测,CMMU 基准得出的结果显示,目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看,模型在政治和历史等偏向于知识记忆的学科上表现较好,但在数学和物理等需要推理能力的学科上表现不佳。
CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式,以避免模型通过随机猜测或 position bias(位置偏差)而达到正确答案。同时,通过对模型选择每个选项的概率分布进行分析,量化 position bias 的程度,进一步评估模型的表现。
CMMU 评测基准将验证集完全公开,方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台,用户可以自行申请评测。此外,智源研究院将持续邀请教师改编或新编学科考题,扩充 CMMU 评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。
项目地址:https://github.com/FlagOpen/CMMU
0000
评论列表
共(0)条相关推荐
谷歌副总裁 Sissie Hsiao:Gemini AI 演示视频「完全真实」,尽管谷歌「为了简洁而缩短了部分内容」
站长之家(ChinaZ.com)12月12日消息:在日益激烈的生成型AI市场竞争中,谷歌近期推出了其大型语言模型Gemini的预告视频。然而,有关该视频真实性的争议随后引发了广泛关注。00004090狂涨3倍:一张显卡背后的博弈与狂潮
美国“卡脖子”,中国玩家还能买到4090显卡吗?一夜之间,4090显卡的价格狂飙到了令人咋舌的地步。10月18日,有网友发现在多个购物渠道中,英伟达RTX4090系列显卡已下架,多家旗舰店在售的4090相关产品均呈缺货状态,“4090显卡全面下架”迅速登上了社交平台的热搜。站长网2023-10-20 09:16:140003美版权局再次拒绝为AI生成的作品提供版权保护
**划重点:**1.📝美国版权局第三次拒绝注册由生成人工智能创作部分的艺术品,认为其缺乏需要主张版权保护的“人类创作者属性”。2.🎨艺术品涉及由AnkitSahni创作的二维艺术品“SURYAST”,通过将自己创作的原始照片输入AI绘画工具,并以梵高的《星夜》作为“风格”输入,生成新作品。0000OpenAI 与好莱坞接轨:Sora 文本到视频生成器引发行业热议
OpenAI近日传出消息,计划将其最新文本到视频生成器Sora推向好莱坞。据知情人士透露,下周该人工智能公司将在洛杉矶与多家工作室、人才机构和媒体高管进行会面,旨在探讨未来合作伙伴关系。此次会议的核心议题将集中在让更多电影制作人熟悉即将发布的Sora上。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-03-23 17:12:030000三星Q2利润恐暴跌96% 主要原因是芯片过剩
三星电子预计2023年6月季度的利润将大幅下滑。分析师预测,该公司的营业利润将同比下降96%,至5550亿韩元(4.27亿美元)。如果这一估计成真,那么根据路透社的报道,这将是三星14年来最低的利润,自2008年第四季度该公司报告了约7400亿韩元的合并经营亏损以来。相比之下,去年同期,三星的营业利润为14.1万亿韩元。站长网2023-07-08 02:52:420001