北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%
站长网2023-11-07 22:05:350阅
要点:
1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC,以评估大型语言模型在复杂多模态环境中的性能。
2. 评估表明,GPT-4是在创建新PPT文档任务中表现最强的模型,但仍然存在挑战,如错误累积、处理长PPT模板的能力差,以及多模态指令的复杂性。
3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能,但思维树等方法并没有显著改进性能。
北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC,旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。
他们通过创建包含数百个多模态指令的数据集,挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示,GPT-4在创建新PPT文档任务中表现良好,达到了75%的轮次层面正确率,但仍然面临三个主要挑战。
项目地址:https://github.com/gydpku/PPTC
首先,错误累积导致大模型在单元层面的表现不佳。其次,大模型处理长PPT模板的能力有限,导致编辑任务的错误。最后,多模态指令增加了任务的复杂性,特别是涉及到空间位置操作的指令。
研究人员还尝试了不同的算法和方法,如计划算法和API选择算法,以提高性能,但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解,同时也提出了未来的挑战和改进方向。
0000
评论列表
共(0)条相关推荐
研究:71%音乐人担忧人工智能威胁谋生
划重点:1.📌音乐人担忧:法国和德国音乐协会进行的一项研究显示,超过三分之二的音乐人担心人工智能将使他们无法谋生。2.📌已使用AI:35%的受访者表示已在与音乐创作相关的许多领域中使用人工智能。3.📌收入预测:专家估计,到2028年,音乐人的收入将下降27%,相当于约27亿欧元(29亿美元)。站长网2024-01-31 10:18:390000理想L系列发布全新升级:“机友圈”再添一员 增加解锁通风等功能
快科技7月17日消息,今日上午,理想汽车在其官方微博发布了关于OTA4.5.2的相关内容,此次升级将为L系列车型带来全新的功能。据悉,此次升级共包括四个方面:1、得到”APP车载定制版首发:此次发布的车载版APP将实现便捷、安全的操作,且符合车内使用习惯”,可在通勤、旅行途中,和家人一起畅听好书、好课”。2、手机桌面控车功能升级,OPPO、VIVO手机的桌面控车功能即将上线。站长网2023-07-18 08:52:220000百万网红“欧可爱”车祸溺水离世,却遭遇网暴,原因是......
本文由运营公举小磊磊(公众号ID:gongjulei)原创审稿:小公举关于我,全网近30W粉丝,只写干货,教你自媒体怎么做,快速起号赚钱。1月1日新年第一天,红星新闻网突然发布了一条不幸的消息。机车网红“欧可爱”(抖音账号粉丝数量105万),12月29日凌晨5点在海南日月湾因车祸溺水身亡,年仅20岁。看到这条消息,我实在太震惊了。在了解事情原委之前,本以为是因骑机车溺亡,结果完全不是。0000Hugging Face:2023开源LLM大爆发,数据竞赛已开启!
【新智元导读】2023年的LLM开源社区都发生了什么?来自HuggingFace的研究员带你回顾并重新认识开源LLM2023年的大语言模型(LLM),让几乎所有人都燃起了热情。现在大多数人都知道LLM是什么,以及可以做什么。人们讨论着它的优缺点,畅想着它的未来,向往着真正的AGI,又有点担忧自己的命运。围绕开源与闭源的公开辩论也吸引了广泛的受众。2023年的LLM开源社区都发生了什么0001OPPO刘作虎:AI手机是必然趋势 苹果都放弃造车转投AI
OPPO高级副总裁、一加创始人刘作虎近日在一加内部会议中深入探讨了行业热议的AI手机话题,并给出了自己的见解。刘作虎明确指出,AI手机并非仅仅是一个营销噱头,而是整个行业的必然趋势。他强调,苹果这样的大公司都放弃了造车计划,转而投身于AI领域,这足以证明AI的重要性和影响力。他坚信,这个趋势无需过多解释,很快就会成为行业的共识。站长网2024-03-11 11:42:560000