登陆注册

照妖镜

  • 一招分辨刷榜作弊大模型,博士小哥开源AI数学“照妖镜

    如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?有人在今年刚刚公布题目的匈牙利全国数学期末考试上做了一把全面测试。很多模型一下子就“现原形”了。先看绿色部分,这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多,共同组成参照标准。再看红色部分,在GSM8K上的成绩显著高于同参数规模的大模型,一到全新卷子上成绩却明显下降,与同规模大模型差不多了。
    站长网2023-11-17 16:55:41
    0005