首页站长资讯北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

站长网2023-11-07 22:05:350阅

要点:

1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC，以评估大型语言模型在复杂多模态环境中的性能。

2. 评估表明，GPT-4是在创建新PPT文档任务中表现最强的模型，但仍然存在挑战，如错误累积、处理长PPT模板的能力差，以及多模态指令的复杂性。

3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能，但思维树等方法并没有显著改进性能。

北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示，GPT-4在创建新PPT文档任务中表现良好，达到了75%的轮次层面正确率，但仍然面临三个主要挑战。

项目地址:https://github.com/gydpku/PPTC

首先，错误累积导致大模型在单元层面的表现不佳。其次，大模型处理长PPT模板的能力有限，导致编辑任务的错误。最后，多模态指令增加了任务的复杂性，特别是涉及到空间位置操作的指令。

研究人员还尝试了不同的算法和方法，如计划算法和API选择算法，以提高性能，但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解，同时也提出了未来的挑战和改进方向。

北大推出首个多轮多模态PPT任务完成基准PPTCGPT4完成正确率仅6

0000

评论列表

共(0)条

正在请求数据，请稍候！

共 0 条

条 / 页

/ 0 页

相关推荐

站长资讯
打假主播铁头自曝嫖娼！惩恶or扬善？
一个主播，如果不会在直播间整活，那肯定是吸引不了粉丝的。但有时候整活过头了，对于主播来说也不是好事。最近，主播“铁头惩恶扬善”就因为在直播时分享自己曾在多年前找色情服务的经历，被推上了热搜。一些热心网友还将此事录屏，向警方举报。熟悉“铁头”的网友应该都知道，他是一位依靠打假走红的主播，不少网友认为他的视频能震慑奸商。但是因为其张扬的风格，引来不少非议也不少，还被曝出开设过赌场。
站长网2024-01-19 18:00:17
0000
站长资讯
Rightbot成功获得亚马逊投资，致力于研发卸货机器人
##划重点:-🤖**机器人创新:**创业公司Rightbot筹集了625万美元，由亚马逊的工业创新基金（IIF）领投，旨在研发基于吸盘技术的机器人，可卸货各种尺寸的货物。-💡**解决痛点:**Rightbot致力于解决卸货自动化中存在的问题，通过自定义机器人，使用传送带、吸盘和计算机视觉，实现对卡车、拖车和集装箱船的自动卸货。
站长网2023-12-06 10:52:00
0001
定价33.59万元特斯拉发布新款Model 3高性能版
特斯拉中国官网最新信息显示，新款Model3高性能版在中国市场的定价确定为33.59万元，并预计将于今年第三季度开始交付。这款全新推出的Model3Performance是特斯拉全电动性能车系列的升级之作，相较于前代车型，它进行了众多关键性改进。
站长网站长资讯2024-05-02 22:47:29
0000
站长资讯
微信发布iOS 8.0.43更新新增独立发送按钮功能
苹果iOS版微信发布8.0.43更新，更新后，微信设置-通用中新增了“使用独立的发送按钮”选项。开启该功能后，原本键盘上的“发送”按钮则会被替换成“换行”，许多网友表示，这个新增的功能非常实用，可以避免误发送消息的情况发生。
站长网2023-11-01 08:45:10
0000
10秒钟复刻AI付航吐槽一切，这就是现在最好的TTS声音克隆。
上周末，我追了两个月的脱口秀，终于总决赛了。周六我一边看LOLS14总决赛，一边看《喜剧之王单口季》，真就体会了一把什么叫心态过山车。。。拉的很拉，稳的很稳。好在脱口秀这边，我一直很喜欢的演员付航，不负众望地拿到了总冠军。决赛这场他还是“Passion”到极点，劲儿给得太足了。这场的段子和表演都太NB。给我看的笑中带泪，真的。
站长网站长资讯2024-10-21 11:32:13
0001