智源发布多模态模型中文评测基准CMMU

站长网2024-02-01 10:19:011阅

智源研究院发布了中文多模态模型评测基准 CMMU（Chinese Multimodal Model Understanding and Reasoning Benchmark），旨在为中文多模态模型领域提供一个全面、中立的评测基准。

该评测基准目前发布了 CMMU v0.1版本，其中包含了3603道题目，涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。其中，250道题目为小学题目，1697道为初中题目，1656道为高中题目。

CMMU 评测基准的难度分为 “普通” 和 “困难”，比例大致为8:2。对于填空题，基于实际情况，有639道题被拆分成了1632个子问题。

通过对多个闭源模型和开源模型进行评测，CMMU 基准得出的结果显示，目前的多模态模型在该基准下的答题准确率约为30% 左右。从学科的角度来看，模型在政治和历史等偏向于知识记忆的学科上表现较好，但在数学和物理等需要推理能力的学科上表现不佳。

CMMU 评测基准采用了一种称为 ShiftCheck 的评测方式，以避免模型通过随机猜测或 position bias（位置偏差）而达到正确答案。同时，通过对模型选择每个选项的概率分布进行分析，量化 position bias 的程度，进一步评估模型的表现。

CMMU 评测基准将验证集完全公开，方便研究人员测试模型。测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台，用户可以自行申请评测。此外，智源研究院将持续邀请教师改编或新编学科考题，扩充 CMMU 评测集，以保证评测结果客观、公正，并探索基于判别模型的评测方式，以适应多模态模型的发展需要。

项目地址：https://github.com/FlagOpen/CMMU

智源发布多模态模型中文评测基准CMMU

0001

评论列表

共(0)条

相关推荐

站长资讯
周鸿祎：我不是针对李彦宏开源一定会超过闭源
快科技4月20日消息，周鸿祎发文称，并不是针对李厂长（李彦宏），自己一直是开源的信徒。周鸿祎辟谣称，自己说开源好，是13号在哈佛讲的，李彦宏说闭源好，是16号在北京讲的。据了解，第二十七届哈佛中国论坛上，周鸿祎发表演讲称：我是一直相信开源的力量，至于说网上有些名人胡说八道，你们别被忽悠了。他说开源不如闭源好？连说这话的公司自己都是借助了开源的力量才成长到今天。”
站长网2024-04-21 10:13:38
0000
站长资讯
为什么地球上大多数人的DNA里面都有尼安德特人血统？
如果你的祖先来自非洲以外的任何地方，我敢说你的一部分DNA源自尼安德特人。
站长网2023-05-23 20:59:30
0001
站长资讯
苹果史上最大：iPhone 16系列电池容量公布
快科技9月20日消息，今天iPhone16系列正式开卖，官网起售价是5999元。在iPhone16系列首销之际，巴西监管机构公布了iPhone16电池容量细节。具体来说，iPhone16电池是3561mAh，比iPhone15多了212mAh；iPhone16Plus电池是4674mAh，比iPhone15Plus多了291mAh。
站长网2024-09-20 23:40:25
0000
站长资讯
红魔电竞平板将发布：12英寸2.5K屏、10000mAh电池
红魔将在7月5日举行发布会，除了发布红魔8SPro手机外，还将带来其首款平板产品——红魔电竞平板。据官方透露，红魔电竞平板正面将采用一块12.1英寸大屏，分辨率为2.5K，拥有16:10黄金游戏比例。同时支持80W闪充，内置10000mAh电池。红魔电竞平板搭载骁龙8Gen2芯片，配备12GB256GB存储，内置双离心风扇，拥有红魔独特的主动风冷扇热系统。
站长网2023-07-03 18:15:14
0000
站长资讯
谷歌CEO：人工智能或超越互联网成最大的技术变革
文章概要:1.谷歌首席执行官皮查伊认为，人工智能将是我们一生中最大的技术变革，可能比互联网本身还要大。2.他在一份备忘录中强调了人工智能的重要性，并呼吁负责任地部署这项技术。3.谷歌一直在人工智能领域保持领先地位，但面临着来自OpenAI等竞争对手的挑战。
站长网2023-09-07 16:58:13
0000