ChatGPT变笨新解释:世界被AI改变,与训练时不同了
对于ChatGPT变笨原因,学术界又有了一种新解释。
加州大学圣克鲁兹分校一项研究指出:
在训练数据截止之前的任务上,大模型表现明显更好。
论文重点研究了“任务污染”问题,也就是大模型在训练时期就见识过很多任务示例,给人一种AI拥有零样本或少样本能力的错误印象。
也有学者从另一个角度指出,大模型训练后参数冻结,人们不断提出新的任务也就是输入分布不断变化。如果模型不能不断适应这种变化,就表现成能力慢慢退化。
人们以为只提了个问题AI就能回答,其实是在训练时见过大多数常见任务。
随时间推移,人们开始提出更多新问题,AI表现就不行了。
比如对于代码问题,编程语言还在持续发展变化,迟早有一天效率会低到不可接受。
这是所有不具备持续学习能力模型的命运。
任务污染有多严重?
研究团队一共评估了12种模型,从ChatGPT之前的GPT-3系列、OPT、Bloom,到最新的GPT-3.5-turbo、羊驼家族Llama、Alpaca和Vicuna等。
它们都存在类似问题,也就是在训练截止之前的任务上表现明显更好。
评估任务污染非常困难,闭源模型根本不会公布训练数据,大多数开源模型也只是生命了来源,而不发布数据本身。
如果研究者重新爬取互联网数据,也有可能与模型训练时相比发生了变化。
对此,团队采用4种方法来测量任务污染程度:
检查训练数据:直接搜索有没有相应的任务示例
在开源模型Alpaca和Vicuna上,存在训练数据污染的任务表现就比原版Llama更好的趋势明显。
提取任务示例:通过调整提示词,让模型自己把训练数据中的任务示例背出来
从GPT-3davinci-001版本到GPT-3.5-Turbo,这个问题越来越严重了。
图中X代表模型复述出了训练数据数据中的原始任务示例,绿色代表经过指令微调的模型没有复述训练数据。
灰色代表未经过指令微调的模型无法根据提示词指示复述训练数据,但不代表问题不存在。
成员推断(只适用于生成任务):检查模型生成的答案是否与原始数据完全相同
按时间顺序分析:对于已知训练数据收集时间的模型,测量已知发布时间数据集上的表现并使用按时间顺序的证据检查数据污染证据
前三种方法精度较高,但召回率较低。如果在任务的训练数据中找到数据,则可以肯定它已经看到了示例。
但由于数据格式的变化、关键字的变化以及数据集的大小,使用前三种方法没有找到证据并不意味着数据污染不存在。
第四种方法召回率高但精度低,容易受干扰因素影响。
特别是对于GPT-3系列,目前人们假设其能力提高来自于指令微调,但研究团队认为事实并非如此。
虽然在2021年之前的数据集上,davinci-002比davinci-001的性能有所提高,但在2021年之后的数据集上性能却相应下降,
通这表明GPT-3系列的指令微调只适用于某些早期数据集。
最后团队的结论为:
由于任务污染,闭源模型可能会在零样本或少样本评估中表现的比实际好,特别是经过RLHF微调的模型。污染的程度仍不清楚,因此我们建议谨慎行事。
在实验中,对于没有任务污染可能性的分类任务,大模型很少在零样本和少样本设置中表现出相对于大多数基线具有统计学意义的显著改进。
随着时间推移,观察到GPT-3系列模型在许多下游任务的的零样本或少样本性能有所增加,这可能是由于任务污染造成的。
即使对于开源模型,检查训练数据的任务污染也很困难。
鼓励公开发布训练数据,以便检查任务污染问题。
有人总结到:
用现有数据训练AI
人们过多使用AI,以至于改变了现实世界
AI无法适应改变后的世界,变得低效
这是一个循环。
论文:
https://arxiv.org/abs/2312.16337
参考链接:
[1]https://twitter.com/ChombaBupe/status/1741531065032798360
百度与孚宝智能合作 百度灵医大模型将接入孚宝机器人
近日,百度灵医智惠与浙江孚宝智能科技有限公司签署战略合作协议。双方将发挥各自技术、产品、市场优势,推动医疗康养机器人的技术创新和服务升级,为智慧康养产业注入创新动能。站长网2023-11-30 09:42:200000微软拟以690亿美元收购暴雪,全球范围获得批准,但遭索尼反对
近日,科技巨头微软计划以690亿美元收购游戏公司动视暴雪的交易,在全球范围内取得了批准。然而,这一交易并未平息争议,引发了一场激烈的对抗。据报道,微软的收购计划已经获得了37个国家和地区的批准,其中包括中国、日本和巴西等10个国家,覆盖了超过20亿人口。微软发言人表示,他们的目标是让全球消费者能够在更多设备上畅玩更多游戏,这一承诺与其对欧洲委员会的承诺相结合。站长网2023-05-23 10:50:360000Waymo 决定暂停自动卡车技术的开发
Alphabet旗下的Waymo决定暂停自动卡车技术的开发,并将重点放在网约车服务上。据了解,该公司将推迟卡车运输商业化的时间表,并缩减该部门的开发规模,导致部分员工被解雇。WaymoVia部门负责自动卡车技术,与WaymoOne机器人出租车部门并存,但现在卡车部门的未来发展变得不确定。站长网2023-07-27 14:11:530000李一舟AI课程小程序因违规被暂停服务 199元人工智能课已被下架
据搜索结果显示,李一舟用于售卖AI课程的微信小程序“一舟一课”因违反《即时通信工具公众信息服务发展管理暂行规定》,已被暂停服务。与此同时,李一舟的人工智能课在微信视频号橱窗已下架,先前售价199元的“每个人的人工智能课”视频课也不再可见。在其另一小程序“每个人的人工智能课”上,课程同样无法查看。站长网2024-02-22 15:12:380000华为发布新一代近距离无线连接技术“星闪”NearLink
在今日的华为开发者大会上,华为发布新一代近距离无线连接技术——星闪(NearLink)。这项技术将为鸿蒙万物互联提供更强大的连接,为用户打造更低时延、更低功耗、更广覆盖、更安全的连接技术。相比传统无线连接,星闪能够降低60%的能耗,提高数传速率,降低传输时延,增强抗干扰能力,同时扩大覆盖距离和连接数。这些革新体验将为鸿蒙生态带来更加出色的性能和更广泛的应用场景。站长网2023-08-04 15:12:050000