注册

博士小哥开源AI数学

首页标签博士小哥开源AI数学

站长资讯
一招分辨刷榜作弊大模型，博士小哥开源AI数学“照妖镜”
如今很多大模型都声称擅长数学，谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。先看绿色部分，这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多，共同组成参照标准。再看红色部分，在GSM8K上的成绩显著高于同参数规模的大模型，一到全新卷子上成绩却明显下降，与同规模大模型差不多了。
站长网2023-11-17 16:55:41
0005

热点

李彦宏和马化腾，都想通了
2025-02-18 14:54:07
宇树科技王兴兴：2025年AI人形机器人会达到“新量级”
2025-02-18 20:50:35
微信灰度测试账号系统：公众号、服务号、小程序合并了
2025-02-18 20:47:15
DeepSeek冲击下的互联网巨头：谁在崛起，谁在掉队
2025-02-18 20:42:23
大决战！OpenAI可能发布GPT-4.5，狙击马斯克Gork3
2025-02-18 18:16:56
金价暴涨，金饰品牌却要另寻出路？
2025-02-18 17:24:40
“百亿流量+百亿基建”背后，SHEIN的供应链野心
2025-02-18 16:09:35
从张兰到刘雯，“永封网红”们的复活密码
2025-02-18 14:42:55
马斯克旗下xAI发布Grok3模型包含mini、Reasoning等版本
2025-02-18 14:10:29
新势力周销量榜更新：小鹏重回第一、小米排在第三
2025-02-18 14:08:26

关注

马斯克旗下xAI发布Grok3模型包含mini、Reasoning等版本
2025-02-18 14:10:29
马斯克974亿收购计划落空！OpenAI董事会坚决说‘不’
2025-02-15 09:53:52
新势力周销量榜更新：小鹏重回第一、小米排在第三
2025-02-18 14:08:26
微软研究发现使用 AI 会削弱批判性思维能力
2025-02-15 09:50:05
接不接DeepSeek？互联网大厂的新天问
2025-02-18 14:03:17
一图一3D世界，视频还可交互，昆仑万维「空间智能」开年首秀来了
2025-02-14 18:00:33
换个名字获客成本降到不足1美金，“大神”又推火了一个AI App？
2025-02-18 09:52:20
5天涨粉近600万，火遍全网的“跳投哥葱油饼”是谁？
2025-02-14 16:23:39
马化腾再次短暂登顶中国富豪榜腾讯AI、游戏领域表现亮眼
2025-02-18 09:44:50
编程不再是专业技能！Replit「Agent」引爆编程革命，零基础也能轻松上手
2025-02-14 14:51:10

推荐