GPT-4作弊被抓,吉娃娃or松饼打乱顺序就出错,LeCun:警惕在训练集上测试
GPT-4解决网络名梗“吉娃娃or蓝莓松饼”,一度惊艳无数人。
然鹅,现在它被指出“作弊”了!
全用原题中出现的图,只是打乱顺序和排列方式。
结果,最新版全模式合一的GPT-4不但数错图片数量,原来能正确识别的吉娃娃也识别出错了。
那么为什么GPT-4在原图上表现的这么好呢?
搞这项测试的UCSC助理教授Xin Eric Wang猜测,原图在互联网上太流行,以至于GPT-4在训练时多次见过原答案,还给背了下来。
图灵奖三巨头中的LeCun也关注此事,并表示:
警惕在训练集上测试。
泰迪和炸鸡也无法区分
原图究竟有多流行呢,不但是网络名梗,甚至在计算机视觉领域也成了经典问题,并多次出现在相关论文研究中。
那么抛开原图的影响,GPT-4能力究竟局限在哪个环节?许多网友都给出了自己的测试方案。
为了排除排列方式太复杂是否有影响,有人修改成简单3x3排列也认错很多。
有人把其中一些图拆出来单独发给GPT-4,得到了5/5的正确率。
但Xin Eric Wang认为,把这些容易混淆的图像放在一起正是这个挑战的重点。
终于,有人同时用上了让AI“深呼吸”和“一步一步地想”两大咒语,得到了正确结果。
但GPT-4在回答中的用词“这是视觉双关或著名梗图的一个例子”,也暴露了原图确实可能存在于训练数据里。
最后也有人测试了经常一起出现的“泰迪or炸鸡”测试,发现GPT-4也不能很好分辨。
但是这个“蓝莓or巧克力豆”就实在有点过分了……
视觉幻觉成热门方向
大模型“胡说八道”在学术界被称为幻觉问题,多模态大模型的视觉幻觉问题,已经成了最近研究的热门方向。
在EMNLP2023一篇研究中,构建了GVIL数据集,包含1600个数据点,系统性的评估视觉幻觉问题。
研究发现,规模更大的模型更容易受到错觉的影响,而且更接近人类感知。
另一篇刚出炉的研究则重点评估了两种幻觉类型:偏差和干扰。
偏差指模型倾向于产生某些类型的响应,可能是由于训练数据的不平衡造成的。
干扰则是可能因文本提示的措辞方式或输入图像的呈现方式造成去别的场景。
研究中指出GPT-4V一起解释多个图像时经常会困惑,单独发送图像时表现更好,符合“吉娃娃or松饼”测试中的观察结果。
流行的缓解措施,如自我纠正和思维链提示并不能有效解决这些问题,并测试了LLaVA和Bard等多模态模型存在相似的问题。
另外研究还发现,GPT-4V更擅长解释西方文化背景的图像或带有英文文字的图像。
比如GPT-4V能正确数出七个小矮人 白雪公主,却把七个葫芦娃数成了10个。
参考链接:
[1]https://twitter.com/xwang_lk/status/1723389615254774122
[2]https://arxiv.org/abs/2311.00047
[3]https://arxiv.org/abs/2311.03287
共建未成年人“清朗”网络空间承诺书
互联网已经成为未成年人学习、生活、娱乐和社交的重要空间,新冠疫情发生以来,在线教育迅速普及。为响应国家网信办“清朗”未成年人暑期网络环境专项整治行动,营造“清朗”网络空间,为未成年人提供一个绿色、健康、文明、和谐的在线教育和网络生活环境,作为厦门属地网站平台的代表,自愿履行以下承诺:一、净化网络环境,清朗网络空间,持续践行社会主义核心价值观,坚定“四个自信”,持续净化未成年人上网环境。0001摩尔线程AI创作绘本“摩笔天书”开放邀请测试
摩尔线程宣布AI创作绘本“摩笔天书”已开放邀请测试。该产品是基于摩尔线程全功能GPU开发的AI内容生成解决方案,旨在为用户提供一站式、多模态、全流程、全自动的创作体验。目前开放测试的是“摩笔天书”儿童绘本PCWeb版,用户可通过输入标题和简要的故事大纲,一键生成完整故事、绘本图片、旁白、字幕、背景音乐等素材,并自动合成图文绘本故事和视频绘本故事。站长网2024-01-17 09:36:240002200GB!AutoMathText:专注数学文本的超大规模数据集
划重点:1.📌AutoMathText是一个200GB的数学文本数据集,包含来自不同来源的科学论文、编程代码片段和网页数据,适用于数学推理、推理训练和微调等多种应用场景。2.📌支持文本生成和问答任务,特别适用于开发和测试理解和生成数学相关内容的模型。3.📌数据集包含10亿到100亿的数据量级,提供丰富的资源供大规模模型训练。站长网2024-01-31 10:28:390000华为鸿蒙HarmonyOS 4小艺语音助手支持 AI 大模型能力
华为将在8月4日发布鸿蒙HarmonyOS4系统。根据华为余承东的预热,华为手机的小艺语音助手已升级支持AI大语言模型,可以像AI聊天机器人一样根据要求写出微博文案。此前,华为已经针对开发者公布了HarmonyOS4.0,以便于开发者提前进行适配,也因此被曝光出了一些新系统的特性。站长网2023-08-02 10:30:500000Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
划重点:⭐NomicAI发布了nomicembed-text-v1,是首个完全开源的长文本嵌入模型,在短文本和长文本评估中表现优异。⭐该模型具有8192的序列长度,超越了之前512和2048长度的模型,展现了其在处理广泛文本上的能力。⭐nomicembed-text-v1的开发过程强调了审计性和可复制性,为AI社区树立了新的透明和开放标准。站长网2024-02-18 10:14:480000