研究表明：GPT-4在图形推理任务上表现不佳，准确率仅33%

站长网2023-11-21 17:08:510阅

要点:

美国圣塔菲研究所的研究显示，GPT-4在图形推理任务上的准确率仅为33%，而多模态版本GPT-4v的表现更差，只有25%。

通过使用ConceptARC数据集，作者对451名人类受试者进行了图形推理任务测试，结果显示人类的平均正确率为91%，远高于GPT-4。

研究者招募受试者的方式和GPT-4的输入方式引发了质疑，包括入门测试不足以筛选高质量受试者，样本的随机性受到争议，以及图像转换为数字矩阵可能改变概念等。

最近的研究表明，GPT-4在图形推理任务上表现不佳，仅有33%的准确率，引发了对大型语言模型图形处理能力的关注。

通过使用ConceptARC数据集，研究者对451名人类受试者进行了图形推理任务测试，结果显示人类在这方面表现卓越，平均准确率达到91%。

论文地址:https://arxiv.org/pdf/2305.07141.pdf

多模态版本GPT-4v的表现更差，只有25%的准确率。这凸显了在涉及图形处理的任务中，大型语言模型的多模态能力也受到限制。

研究者使用ConceptARC数据集进行测试，其中包括16个子类的图形推理题，涵盖了位置关系、形状、操作、比较等多个方面的内容。

然而，这项研究的方法引发了一些质疑，包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者，入门测试被认为不足以筛选高质量的受试者，样本的随机性受到争议。

此外，GPT-4的输入方式也引发了一些争议，特别是将图像转换为数字矩阵可能改变概念，这使得一些人对实验结果的可信度产生疑问。综合而言，这项研究突显了目前大型语言模型在某些特定任务上的局限性，并提出了对研究方法的进一步审视的需求。

研究表明GPT4在图形推理任务上表现不佳准确率仅33

0000

评论列表

共(0)条

相关推荐

信通院：：6G 将在 2030 年左右实现商用
据央视新闻报道，根据中国信息通信研究院副院长王志勤的说法，6G技术是5G的一代更新技术，预计在2030年左右实现商用，而标准制定时间则在2025年左右。6G技术将融合通信和感知、通信和人工智能，以及泛在物联等新场景，不仅仅是提供更快的速率，而是将更多关注社会管理和智能体方面的事情。与5G相比，6G基站将支持通信和感知的功能，可以感知周围环境和物体的形状和运动，进而催生新业务。
站长网站长资讯2023-12-06 08:20:33
0000
站长资讯
百度地图推出隧道车道级导航定位不准确可申请100元赔付
百度地图全球首次推出隧道车道级导航，为重庆3000万用户解决隧道导航问题。该导航功能通过自研的“北斗高精”融合定位技术，实现了进出隧道不漂移、车标稳定跟随等特点。同时，车道级导航可以在隧道内精准定位行驶车道，并提供实时展示车道级路况和道路事件，提供安全变道指引。为了保证服务质量，百度地图推出限时100元赔付活动，用户在使用百度地图导航时如发现定位不准确可以申请错必赔保障。
站长网2023-08-08 17:21:00
0000
站长资讯
GPT-4太烧钱，微软想甩掉OpenAI？曝出Plan B：千块GPU专训「小模型」，开启必应内测
GPT-4太吃算力，微软被爆内部制定了PlanB，训练更小、成本更低的模型，进而摆脱OpenAI。GPT-4太吃算力，连微软也顶不住了!今年，无数场微软AI大会上，CEO纳德拉台前激动地官宣，将GPT-4、DALL·E3整合到微软「全家桶」。微软全系产品已被OpenAI的模型重塑，愿景是让AI成为每个人的生活伴侣。然而在幕后，因GPT-4运行成本太高，微软却悄悄地搞起了planB。
站长网2023-09-27 14:30:47
0000
站长资讯
全面超越LLaMA2，月下载量超三百万，国产开源大模型如何成为新晋顶流？
图源备注：图片由AI生成，图片授权服务商Midjourney回想两个月前，LLaMA2的开源，曾以一己之力改变了大模型领域的竞争格局。
站长网2023-09-17 10:32:52
0001
站长资讯
EmbedAI：允许用户使用自己的数据来训练ChatGPT
EmbedAI是一个创新平台，允许用户使用自己的数据来训练ChatGPT，并将其嵌入到自己的网站或应用中。这个平台支持在各种数据源上训练ChatGPT，包括文件、网站、Notion文档甚至YouTube。官网地址:https://www.thesamur.ai/
站长网2023-12-19 11:17:41
0000