GPT-4V搞不明白勾股定理!最新基准测试错误率竟高达90%
要点:
1. 马里兰大学发布了首个专为GPT-4V视觉模型设计的基准测试HallusionBench,揭示了其高达90%的错误率,包括对勾股定理的误用和无法识别红绿灯的致命错误。
2. 研究人员将这些错误分为两大类:语言幻觉和视觉错觉,强调了视觉和语言之间微妙平衡的重要性。
3. HallusionBench测试包含大约200组视觉问答,关注视觉错觉和知识幻觉,揭示了GPT-4V和LLaVA-1.5在图像理解方面的能力不足,以及处理多个图像之间的时间关系和常识查询问题。
近日,马里兰大学发布了一项重要研究,针对GPT-4V视觉模型进行了首个专为其设计的基准测试,名为HallusionBench。这项研究揭示了令人震惊的发现,即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用,比如将勾股定理错误应用于非直角三角形,并且还包括无法识别红绿灯的致命错误。这些问题引发了人们对GPT-4V的视觉和语言能力的质疑。
研究人员将这些错误分为两大类,即语言幻觉和视觉错觉。语言幻觉是指GPT-4V基于其参数化知识库,对问题和图像背景作出不恰当的先入为主的假设,而视觉错觉则产生于对输入图像的错误视觉识别和解释。这两种类型的错误突显了视觉和语言之间微妙平衡的重要性,以确保模型能够准确地理解并回答问题。
HallusionBench测试包括大约200组视觉问答,其中近一半由人工专家创作。测试涵盖了多个领域,包括数学、文化、体育、地理等,涉及原始错觉图片、图表、地图、海报、视频等多样的图片类型。研究人员强调,GPT-4V在回答视觉问题组的错误率高达近90%。此外,研究还深入分析了GPT-4V和LLaVA-1.5在视觉理解方面的能力,发现它们在处理多个图像之间的时间关系和常识查询方面存在困难。
这项研究的结果引发了关于目前自然语言处理技术的限制和改进的讨论,特别是在视觉和语言交叉领域。研究人员呼吁对GPT-4V等模型进行更多的改进,以提高它们的视觉理解能力,减少语言和视觉之间的错觉,并加强对常识的理解。这项研究对于深化我们对大型语言模型的认识,以及推动其在现实世界中的应用具有重要意义。
10秒,让OpenAI奥特曼为你的视频配音?80岁歌手靠此技术翻红互联网
谁能想到,2023年香港乐坛最火的一首歌,是80岁歌手尹光和AI唱的。这首《DearMyself》荣获“叱咤2023年香港乐坛我最喜欢的歌曲”投票榜第1位,由歌手尹光和他的AI分身共创。很多网友都感动于那句“我声线亦折旧,我把这个使命过继给AI”。值得一提的是,80岁的尹光还成为了首个注册AI声音专利的乐坛歌手。2023年,“AI孙燕姿”在B站出道,曾一度让声音克隆变得十分热门。站长网2024-02-28 17:58:540000AIGC:腾讯音乐营收换挡的“离合”
2023年的腾讯音乐(TME),似乎正在走出2022年“降本增效”的阴霾。就在2023年5月16日早间,TME发布2023财年Q1未经审计财报当日,腾讯音乐-SW(01698)盘前一度涨超9%,只是随着时间推移,交易日期间其股价冲高回落,为财报内容平添一分神秘感。站长网2023-05-17 09:18:260000独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
前段时间,OpenAI发布了文生图模型DALL・E3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上:可以看到,DALL・E3不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。但细心的网友也发现了一些问题:图中的铅笔等物体比例不太正常,模型似乎不太理解日常物品的大小比例关系。站长网2023-10-31 16:16:2700003个月吸粉200万,小杨哥和俞敏洪,盯上新赛道
文|杨洁直播电商出海这块“肥肉”,被多家MCN机构盯上了。近期,“疯狂小杨哥”背后的MCN三只羊网络正式开启海外带货,首站是新加坡。据腾讯新闻报道,三只羊与新加坡本地达人@shopwithsasax合作的的首场直播,登上TikTok新加坡地区销售排行榜第一名,接下来,三只羊还将同步进军马来西亚直播市场。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2024-01-25 15:11:180000PALP:基于提示对齐的个性化文本到图像生成方法
站长网2024-01-17 12:14:490000