研究人员警告:用AI生成的内容训练AI,可能会出现“模型崩溃”
随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始使用AI生成的内容进行训练,会发生什么?
来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇相关论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”
研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程,随着时间的推移,模型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。”
“随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。”该论文的主要作者之一 Ilia Shumailov解释道。
换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。
“模型崩溃”是如何发生的
本质上,当 AI 模型生成的数据最终污染了后续模型的训练集时,就会发生模型崩溃。
Shumailov 通过一个假设场景说明了这个问题,其中机器学习模型在包含100只猫的图片的数据集上进行训练——其中10只猫的皮毛是蓝色的,90只猫的皮毛是黄色的。该模型了解到黄猫更普遍,被要求生成新数据时返回一些绿猫结果。随着时间的推移,蓝色毛皮的原始特征会在连续的训练周期中逐渐消失,从蓝色变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失就是模型崩溃。为防止这种情况,重要的是要确保少数群体在数据集中的公平代表性,无论是在数量上还是在对独特特征的准确描述方面。
AI 生成数据的这种“污染”导致模型对现实产生了扭曲的感知。即使研究人员训练模型不要产生过多的重复响应,他们发现模型崩溃仍然会发生,因为模型会开始编造错误的响应以避免过于频繁地重复数据。
“还有许多其他方面会导致更严重的影响,例如基于性别、种族或其他敏感属性的歧视,”Shumailov 说,特别是如果生成式人工智能随着时间的推移学会在其反应中产生一个种族,而“忘记”他人存在。
重要的是要注意,这种现象不同于“灾难性遗忘”,模型会丢失以前学到的信息。相比之下,模型崩溃涉及模型根据他们强化的信念误解现实。
这篇论文背后的研究人员发现,即使10% 的原始人类创作数据被用来训练后代的模型,“模型崩溃仍然会发生,只是不会那么快”Shumailov说道。
幸运的是,即使使用现有的转换器和 LLM,也有一些方法可以避免模型崩溃。
研究人员强调了两种具体方式。第一个是保留原始的完全或名义上由人工生成的数据集的副本,并避免与 AI 生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始用它完全刷新。
避免响应质量下降并减少 AI 模型中不需要的错误或重复的第二种方法是将新的、干净的、人类生成的数据集重新引入到他们的训练中。
然而,正如研究人员指出的那样,这需要内容制作者或人工智能公司采用某种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。
“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表,”Shumailov 说道。
这些发现对人工智能领域具有重要意义,强调需要改进方法以随着时间的推移保持生成模型的完整性。他们强调了未经检查的生成过程的风险,并可能指导未来的研究制定策略来防止或管理模型崩溃。
很明显,模型崩溃是 ML 的一个问题,必须采取一些措施来确保生成 AI 继续改进。
短剧吃肉、网文喝汤,Reelshort带Kiss闯进非游收入30强
昨日data.ai公布2023年8月中国非游戏应用出海收入30强,一款名为Kiss的网文App表现抢眼,排名上升29位来到榜单第20名,成为本期上榜产品中排名上升最快的App。除了快速增长的收入,更让我感兴趣的是,Kiss与近日炙手可热的短剧出海AppReelshort均来自中文在线海外公司CrazyMapleStudio。Kiss位列8月中国非游戏应用站长网2023-09-14 21:35:280001盲人辅助神器!微软Seeing AI正式登陆安卓平台 支持18种语言
**划重点:**1.📲微软SeeingAI应用现已在安卓平台上线,可帮助识别人物、货币、文本、条形码,并描述用户面前的场景。2.🔄应用更新包括文本识别、文档识别、条形码阅读、环境描述等功能,以及对安卓平台的特定优化。3.🌍应用支持18种语言,计划在2024年扩展到36种语言,旨在为全球30亿活跃安卓用户提供更多便利。站长网2023-12-06 10:52:010000SpaceX“星舰”获得发射许可 即将实施首次轨道试飞
凤凰网科技讯北京时间4月15日消息,SpaceX的“星际飞船”已经获得了美国联邦航空管理局(FAA)的发射许可,这意味着该火箭最快下周一就可以执行首次轨道试飞。SpaceX周五发布推文称,该公司的目标是最快于4月17日(下周一)在得州星舰基地执行“星际飞船”和超重型火箭完整堆叠后的首次试飞。借助超重型火箭,“星际飞船”要将人类和货物运送到地球轨道、月球和火星。SpaceX最快下周一试飞站长网2023-04-15 09:18:240000小米 MIX Fold3采用龙骨转轴 轻薄折叠和真旗舰兼得
今日,小米手机宣布,小米MIXFold3折叠屏旗舰铰链处将采用龙骨转轴。官方称这种设计让轻薄折叠和真旗舰可以兼得。转轴采用了创新3级连杆转轴设计,无孔式设计转轴浮板,使得屏幕平整度大幅提升,展开形态薄了8.6%,折叠形态薄了12.5%,转轴宽度窄了8%,转轴区域空间缩小了17%。据悉,小米MIXFold3是一款即将在2023雷军年度演讲中发布的折叠屏手机。站长网2023-08-10 09:52:490000人工智能监管新思路,用AI监管AI可行吗?
站长网2023-07-20 12:59:290000