一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用
各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。
然鹅一项极限测试却发现,大部分人用法都不对,没发挥出AI应有的实力。
AI真的能从几十万字中准确找到关键事实吗?颜色越红代表AI犯的错越多。
默认情况下,GPT-4-128k和最新发布的Claude2.1-200k成绩都不太理想。
但Claude团队了解情况后,给出超简单解决办法,增加一句话,直接把成绩从27%提升到98%。
只不过这句话不是加在用户提问上的,而是让AI在回复的开头先说:
“Here is the most relevant sentence in the context:”
(这就是上下文中最相关的句子:)
让大模型大海捞针
为了做这项测试,作者Greg Kamradt自掏腰包花费了至少150美元。
好在测试Claude2.1时,Anthropic伸出援手给他提供了免费额度,不然还得多花1016美元。
其实测试方法也不复杂,都是选用YC创始人Paul Graham的218篇博客文章当做测试数据。
在文档中的不同位置添加特定语句:在旧金山最好的事情,就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。
请GPT-4和Claude2.1仅仅使用所提供的上下文来回答问题,在不同上下文长度和添加在不同位置的文档中反复测试。
最后使用Langchain Evals库来评估结果。
作者把这套测试命名为“干草堆里找针/大海捞针”,并把代码开源在GitHub上,已获得200 星,并透露已经有公司赞助了对下一个大模型的测试。
AI公司自己找到解决办法
几周后,Claude背后公司Anthropic仔细分析后却发现,AI只是不愿意回答基于文档中单个句子的问题,特别是这个句子是后来插入的,和整篇文章关系不大的时候。
也就是说,AI判断这句话和文章主题无关,就偷懒不去一句一句找了。
这时就需要用点手段晃过AI,要求Claude在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。
使用这个办法,在寻找不是后来人为添加、本来就在原文章中的句子时,也能提高Claude的表现。
Anthropic公司表示将来会不断的继续训练Claude,让它能更适应此类任务。
在API调用时要求AI以指定开头回答,还有别的妙用。
创业者Matt Shumer看过这个方案后补充了几个小技巧:
如果想让AI输出纯JSON格式,提示词的最后以“{”结尾。同理,如果想让AI列出罗马数字,提示词以“I:”结尾就行。
不过事情还没完……
国内大模型公司也注意到了这项测试,开始尝试自家大模型能不能通过。
同样拥有超长上下文的月之暗面Kimi大模型团队也测出了问题,但给出了不同的解决方案,也取得了很好的成绩。
这样一来,修改用户提问Prompt,又比要求AI在自己的回答添加一句更容易做到,特别是在不是调用API,而是直接使用聊天机器人产品的情况下。
月之暗面还用自己的新方法帮GPT-4和Claude2.1测试了一下,结果GPT-4改善明显,Claude2.1只是稍微改善。
看来这个实验本身有一定局限性,Claude也是有自己的特殊性,可能与他们自己的对齐方式Constituional AI有关,需要用Anthropic自己提供的办法更好。
后来,月之暗面的工程师还搞了更多轮实验,其中一个居然是……
坏了,我成测试数据了。
参考链接:
[1]https://x.com/GregKamradt/status/1727018183608193393
[2]https://www.anthropic.com/index/claude-2-1-prompting
—完—
网易有道云笔记免费用户最多登2台设备 升级VIP可解锁限制
快科技6月20日消息,网易旗下的有道云笔记本今天发布通知,将调整免费用户的多设备登陆政策,最多同时可登陆2台设备。有道云表示,为了让广大用户更加便捷地管理个人帐号,实现多帐号的自由切换,会员功能帐号快速切换”后续将对免费用户开放使用。其次,约有97%的用户常用设备不超过2台,因此有道云笔记本将对免费用户同时登录设备数量进行限制。站长网2023-06-21 14:36:200000计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花
UC伯克利的CV三巨头推出首个无自然语言的纯视觉大模型,第一次证明纯CV模型也是可扩展的。更令人震惊的是,LVM竟然也能做对图形推理题,AGI火花再次出现了?计算机视觉的GPT时刻,来了!最近,来自UC伯克利的计算机视觉「三巨头」联手推出了第一个无自然语言的纯视觉大模型(LargeVisionModels),并且第一次证明了纯视觉模型本身也是可扩展的(scalability)。站长网2023-12-04 14:13:420001百度:二季度共计清理各类有害信息151.6亿余条
近日,百度对外公布2023年第二季度信息安全综合治理数据。百度内容安全中心在二季度共计清理各类有害信息151.6亿余条。其中,通过人工智能技术挖掘并打击以淫秽色情类、赌博类等为主的相关有害信息共151.4亿余条,通过人工巡查的方式打击以淫秽色情类、侵权类等为主的相关有害信息共计2064.3万余条。站长网2023-10-25 09:07:250000OPPO AI 战略发布会官宣将于 2 月 20 日举行
OPPO宣布,AI战略发布会将于2月20日举行,主题为“开启全民AI手机时代”。2月18日,OPPO创始人兼CEO陈明永在春节假期后的首个工作日发布了一封题为《开启AI手机新时代》的内部信。他在信中宣称,2024年将被铭记为AI手机的元年,未来五年内,AI对手机行业的影响将堪比智能手机取代功能机的革命性变革。站长网2024-02-19 10:11:220000谷歌推具备空间推理能力的视觉语言模型SpatialVLM
要点:1、谷歌提出了SpatialVLM,旨在赋予视觉语言模型空间推理能力。2、研究者利用现实世界数据训练SpatialVLM,弥补了常见数据集对空间信息的限制。3、通过生成大规模空间VQA数据集,研究者成功使视觉语言模型具备直接空间推理和链式思维能力。站长网2024-02-18 15:27:180000