研究表明:GPT-4在图形推理任务上表现不佳,准确率仅33%
站长网2023-11-21 17:08:510阅
要点:
美国圣塔菲研究所的研究显示,GPT-4在图形推理任务上的准确率仅为33%,而多模态版本GPT-4v的表现更差,只有25%。
通过使用ConceptARC数据集,作者对451名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为91%,远高于GPT-4。
研究者招募受试者的方式和GPT-4的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
最近的研究表明,GPT-4在图形推理任务上表现不佳,仅有33%的准确率,引发了对大型语言模型图形处理能力的关注。
通过使用ConceptARC数据集,研究者对451名人类受试者进行了图形推理任务测试,结果显示人类在这方面表现卓越,平均准确率达到91%。
论文地址:https://arxiv.org/pdf/2305.07141.pdf
多模态版本GPT-4v的表现更差,只有25%的准确率。这凸显了在涉及图形处理的任务中,大型语言模型的多模态能力也受到限制。
研究者使用ConceptARC数据集进行测试,其中包括16个子类的图形推理题,涵盖了位置关系、形状、操作、比较等多个方面的内容。
然而,这项研究的方法引发了一些质疑,包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者,入门测试被认为不足以筛选高质量的受试者,样本的随机性受到争议。
此外,GPT-4的输入方式也引发了一些争议,特别是将图像转换为数字矩阵可能改变概念,这使得一些人对实验结果的可信度产生疑问。综合而言,这项研究突显了目前大型语言模型在某些特定任务上的局限性,并提出了对研究方法的进一步审视的需求。
0000
评论列表
共(0)条相关推荐
中国移动发布九天AI大模型 聚焦政务、客服领域
7月8日,中国移动正式发布了九天·海算政务大模型和九天·客服大模型。九天·海算政务大模型是中国移动基于近年来在数字政府建设方面积累的丰富经验所打造的面向政务领域的行业大模型。通过依托九天·海算政务大模型,政务服务系统将具备强大的政务事项理解能力、多维度的信息关联能力以及面向复杂事项和复杂流程的多元交互能力。站长网2023-07-10 17:07:090000Instagram 正在测试一项类似于 Snapchat 的 My AI 人工智能聊天机器人:具有 30 种不同个性
Meta正在迅速采用生成式人工智能技术,并将其应用于其各个平台的各种功能中,包括广告。现在,该公司正在Instagram上测试一项新AI功能。一条推文透露,Instagram正在测试其平台的AI聊天选项。借助这项新功能,用户可以与AI聊天机器人进行对话,在直接消息中提问并获得建议。该聊天机器人还具有30种不同的个性,用户可以选择最适合他们需求的个性。站长网2023-06-07 20:05:440000科学家公布最新全球红树林分布数据集
海南儋州新英红树林。(资料图)贾明明供图海南海桑红树林。(资料图)贾明明供图记者近日从中国科学院东北地理与农业生态研究所获悉,中美两国科学家最新联合研究表明,全球红树林生境较为破碎,截至2020年,全球红树林斑块约有33.7万个,其中95%以上斑块的面积小于1平方千米。站长网2023-05-25 06:12:130000大模型物种进化图转疯了:8位华人打造,一眼看懂“界门纲目”,原来BERT后代已绝种
这几天,一张名为“大语言模型进化树”的动图在学术圈疯转:它清晰梳理了2018到2023五年间所有的大语言模型“代表作”,并将这些模型架构分成三大类,进化结果一目了然:业界颇具影响力的谷歌BERT,从一开始就走向了“岔路”,如今在生成AI领域已濒临淘汰;与谷歌和Meta“多线布局”不同,OpenAI从GPT-1开始,就坚定其中一条技术路线,如今成功走在这条路线的最前沿……站长网2023-05-08 14:04:040001改变创造力!10大终身免费的AI图像生成工具
在数字时代,视觉效果扮演着关键角色,既能吸引注意力,也能有效传达信息。随着人工智能图像生成工具的涌现,创意格局得以彻底改变,制作惊人的视觉效果比以往任何时候都更为容易。更妙的是,现在有许多免费的人工智能图像生成工具可供使用,无需花费太多金钱,创作者就能挥洒自己的艺术才华。在本文中,我们将深入探讨十大免费的人工智能图像生成工具,这些工具可以轻松帮助用户打造令人惊叹的视觉效果。站长网2023-08-31 17:57:400000