一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”

站长网2023-11-17 16:55:415阅

如今很多大模型都声称擅长数学，谁有真才实学?谁是靠背测试题“作弊”的?

有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。

很多模型一下子就“现原形”了。

先看绿色部分，这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多，共同组成参照标准。

再看红色部分，在GSM8K上的成绩显著高于同参数规模的大模型，一到全新卷子上成绩却明显下降，与同规模大模型差不多了。

研究者把他们归类为“疑似或已知在GSM8k上训练过”。

网友看过这项测试后表示，是时候开始在大模型从来没见过的题目上搞评测了。

也有人认为，这项测试每个人实际上手使用大模型的经验，是目前唯一靠谱的评估手段。

马斯克Grok仅次于GPT-4，开源Llemma成绩出色

测试者Keiran Paster是多伦多大学博士生、谷歌学生研究者，也是测试中Lemma大模型的作者之一。

让大模型考匈牙利全国高中数学期末考试，这招出自马斯克的xAI。

xAI的Grok大模型发布时，除了几个常见的测试集，还额外做了这项测试，就是为了排除模型无意中在网络数据见过测试题的问题。

这个考试今年5月底才考完，当前大模型基本没机会见过这套试题。

xAI发布时还公布了的GPT-3.5、GPT-4、Claude2的成绩作为比较。

在这组数据基础上，Paster进一步测试了多个生成数学能力强的开源模型。

并把测试题目、测试脚本、各模型回答结果都开源在了Huggingface上，供大家检验以及进一步测试其他模型。

结果来看，GPT-4和Claude-2组成第一梯队，在GSM8k和新卷子上成绩都很高。

虽然这不代表GPT-4和Claude2的训练数据中完全没有GSM8k的泄露题，但至少它俩泛化能力不错、能做对新题，就不计较了。

接下来，马斯克xAI的Grok-0（33B）和Grok-1(未公布参数规模)表现都不错。

Grok-1是“未作弊组”里成绩最高的，新卷子成绩甚至高过Claude2。

Grok-0在GSM8k上的表现接近GPT3.5-Turbo，新卷子上略差一些。

除了上面这几个闭源模型，测试中其他的都是开源模型了。

Code Llama系列是Meta自己在Llama2基础上微调的，主打根据自然语言生成代码，现在看来数学能力比同规模的模型稍差。

在Code Llama的基础上，多所大学和研究机构共同推出Llemma系列，并由EleutherAI开源。

团队从科学论文、包含数学的网络数据和数学代码中收集了Proof-Pile-2数据集，训练后的Llemma能使用工具和做形式定理证明，无需任何进一步的微调。

Llemma34B在新卷子上与GPT-3.5Turbo水平接近。

Mistral系列则是法国AI独角兽Mistral AI训练的，Apache2.0开源协议比Llama更宽松，成为羊驼家族之后最受开源社区欢迎的基础模型。

“过拟合组”里的OpenChat3.5和MetaMath Mistral都是基于Mistral生态微调而来。

MetaMath和MAmmoTH Code则是基于Code Llama生态。

有在实际业务中选择开源大模型的就要小心避开这一组了，它们很有可能只是刷榜成绩好看，但实际能力弱于同规模模型。

不少网友都对Paster这项试验表示感谢，认为这正是了解模型实际情况所需要的。

也有人提出担心:

从这一天起，所有训练大模型的人都会加入匈牙利历年数学考试题。

同时他认为，解决办法可能是有一家拥有专有测试的专门大模型评估公司。

另一项提议是建立一个逐年更新的测试基准，来缓和过度拟合问题。

一招分辨刷榜作弊大模型博士小哥开源AI数学照妖镜

0005

评论列表

共(0)条

相关推荐

买到烂尾车的车主，靠开网约车自救
2024年12月29日，北京六环路上，杨斌驾驶着刚买了一个多月的极越01，车辆智驾系统突然出现闪退，变道的一瞬间，杨斌吓了一跳，并立刻接管车辆。但与此同时，中控屏出现了花屏，杨斌只得行至安全地带，并拨打售后电话。在按照售后指导重启若干次仍然无法恢复正常后，杨斌来到官方指定的领克4S店进行维修，却被告知店内检测设备尚未配齐。
站长网站长资讯2025-01-13 09:17:47
0000
站长资讯
小米SU7官方实拍照首曝魅族称要成为小米首位车主
快科技12月28日消息，小米汽车SU7已经公布了实拍图，这引来不少网友的围观，不少人直呼要成为车主，其中也包含了魅族科技。魅族科技官微表示，大定订金已备好，准备成为SU7首位车主。随后，魅族科技助理副总裁万志强解释称，手车互联更是手车互荣，两个行业的精华碰撞，最终都是消费者的体验提升，FlymeAuto等队友。
站长网2023-12-28 13:57:04
0000
站长资讯
中国研究人员提出DualToken-ViT:CNN和视觉Transformer的融合,提高图像处理效率和准确性
要点:1、DualToken-ViT将卷积和自注意力联合使用，分别提取局部和全局信息，再将两者输出融合形成有效的注意力结构。2、使用位置感知全局令牌提升全局信息质量，令牌中还包含图像位置信息，有利于视觉任务。3、在相同FLOPs下，DualToken-ViT在图像分类、目标检测和语义分割任务上表现最好。
站长网2023-10-02 16:16:03
0001
站长资讯
美国太空部队因数据安全风险暂停使用 ChatGPT 等人工智能工具
根据路透社看到的一份备忘录，出于数据安全考虑，美国太空部队已暂停其员工使用ChatGPT等基于网络的生成人工智能工具。备忘录日期为9月29日，面向太空部队的工作人员，禁止人员在政府计算机上使用此类人工智能工具，包括大型语言模型，直到他们获得部队首席技术和创新办公室的正式批准。
站长网2023-10-13 10:35:37
0000
站长资讯
东方甄选卖会员，199元/年，谁在买？
东方甄选，第一家!成为首家开创付费会员的直播机构!10月17日，东方甄选官方号发文:「东方甄选App」甄选会员，正式上线!在东方甄选App入屏和首页醒目位置都可以看到“甄选会员首发”的链接。甄选会员每年199元，东方甄选方面称“开通‘甄选会员’一年最高可省12000元”。如果用户购买会员后，一年内没有享受满199元优惠，东方甄选会将剩余卡费以现金方式退还或用于抵扣下一年会费。
站长网2023-10-18 21:26:39
0001