苹果研究人员提出MAD-Bench基准,克服多模态大语言模型中幻觉和误导性提示
**划重点:**
1. 🧠 MLLMs在处理误导性信息时存在脆弱性,苹果提出MAD-Bench基准解决问题。
2. 📊 MAD-Bench包含850个图像提示对,评估MLLMs在文本提示和图像之间处理一致性的能力。
3. 🚀 研究表明GPT-4V在场景理解和视觉混淆方面表现更好,为提高AI模型鲁棒性提供了战略性提示设计方案。
在人工智能领域,多模式大语言模型(MLLMs)在推动进步方面发挥了巨大作用,但它们面临处理误导性信息的挑战,可能导致不正确或产生幻觉的响应。这种脆弱性引发了对MLLM在需要准确解释文本和视觉数据的应用中可靠性的担忧。
最近的研究探讨了使用MLLMs进行视觉指导调整、引用和基础、图像分割、图像编辑以及图像生成的方法。像GPT-4V和Gemini这样的专有系统的推出进一步推动了MLLM研究。关于MLLM中的幻觉的研究主要集中在通过提示工程和模型增强来缓解问题。MLLM中的各种幻觉包括描述不存在的对象、误解空间关系以及错误计数对象等。这些挑战突显了当前人工智能能力中的重大差距。
苹果的研究人员提出了MAD-Bench,这是一个经过策划的基准,包含850个图像提示对,用于评估MLLMs在文本提示和图像之间处理一致性的能力。受评估的包括GPT-4V等热门MLLMs以及开源模型如LLaVA-1.5和CogVLM,揭示了MLLMs在处理误导性指令方面的脆弱性。
数据集包括六类欺骗:对象计数、不存在的对象、对象属性、场景理解、空间关系和视觉混淆。视觉混淆类别使用欺骗性的提示和图像,包括3D绘画、视觉错位摄影和镜面反射。使用GPT-4生成了误导性提示,并使用COCO数据集的地面真实标题手动过滤以确保符合欺骗性标准并与相关图像相关。
结果显示,GPT-4V在场景理解和视觉混淆类别中的表现更好,准确率超过90%。支持边界框输入和输出的模型在处理不存在的对象时可能更好地服务于基准。此外,GPT-4V对视觉数据有更复杂的理解,不容易受到不准确信息的误导。不正确响应的常见原因包括错误的对象检测、冗余对象识别、对非可见对象的推断以及不一致的推理。研究强调,通过战略性的提示设计,可以增强AI模型对试图误导或混淆它们的尝试的鲁棒性。
这项研究揭示了MLLMs对误导性提示的脆弱性问题,并提出了一个有望解决这一问题的解决方案,即MAD-Bench基准。该基准提高了模型的准确性,为未来研究开发更可靠、值得信赖的MLLMs铺平了道路。作为一个不断发展的领域,解决这些挑战对于在现实应用中部署MLLMs至关重要。
论文地址:https://arxiv.org/abs/2402.13220
百度百家号升级MCN机构合作政策 不达标机构或被清退处置
百度百家号发布关于《百家号MCN机构合作政策》升级的公告称,为了维护百家号平台健康、有序的内容生态,为更多原创作者提供良好的创作环境,自2024年1月8日起,《百家号MCN机构合作政策》(以下简称为“合作政策”)正式升级生效施行。百家号MCN机构准入、入驻后日常运营等各环节考察要求全面升级。0001TICD:清华新文生3D方法引领SOTA,多视角一致性再突破
要点:清华大学刘永进教授课题组提出的TICD模型在文生3D领域取得SOTA成绩,通过多视角一致性先验提升了生成的3D模型质量。TICD方法在T3Bench数据集上经过定性和定量测试,显示其在单对象、单对象带背景、多对象提示集上均达到最佳成绩,凸显整体优势。TICD通过以文本和图像为条件的多视角图像纳入NeRF监督信号,有效解决了预训练扩散模型的局限性,提高了生成3D模型的一致性和质量。站长网2023-12-29 14:17:000000开源大模型正在“杀死”闭源?
“OpenAI不足为惧,开源会慢慢赶上来。”彼时HuggingFace创始人ClemDelangue的一句预言,正在迅速成为现实。ChatGPT横空出世7个多月后,7月19日,Llama2宣布开源,并且可直接商用。站长网2023-10-07 13:55:1100009100!广东最新平均月薪出炉 深圳广州轻松过万、半导体行业收入高
你的月薪过万了吗,能轻松买台Mate60和iPhone15吗?10月28日消息,广州平均月薪11300元,其中其中深圳、广州位列第一梯队,分别以12300元、11300元的平均月薪领跑全省。珠海、佛山位列第二梯队,平均月薪分别为9300元、9000元。中山、东莞位列第三梯队,平均月薪分别为8100元、7600元。0000英特尔计划在德建厂想要100亿补贴 德财长:太多了给不起
美国英特尔公司计划在德国建立一家芯片工厂,获得了德国政府68亿欧元的补贴,但据英国《金融时报》6月11日报道,英特尔希望进一步从政府获取32亿欧元的补贴使总金额达到约100亿欧元,然而德国财政部长林德纳表示“给不起”。据报道,英特尔要求更多补贴是因为能源和施工成本上升,但林德纳表示德国政府在预算范围内,无法为英特尔提供更多的补贴。目前,德国政府正在努力整合预算,而不是扩充。站长网2023-06-12 22:57:130000