AI公司用“AI合成数据”来训练AI大语言模型成趋势

站长网2023-07-19 19:53:520阅

站长之家（ChinaZ.com）导语:AI 公司正试图通过“创造信息”来获得用于训练 AI 系统的大量数据，这被称为 "合成数据"。现在，AI 模型的发展已经达到了人类创造的数据的极限，因此需要新的方法来训练模型。

目前，训练 AI 模型的数据主要来自于互联网，用于训练这些系统的数据包括数字化的图书、新闻文章、博客、搜索查询、Twitter 和 Reddit 帖子、YouTube 视频和 Flickr 图像等内容。

但是随着生成式 AI 技术的发展，即使是资金充裕的 AI 公司也很难找到易获取且高质量的数据。合成数据的使用可以绕过这个问题，公司可以使用 AI 模型生成文本、代码等信息，并用于训练更先进的模型。

根据 Cohere 的首席执行官 Aidan Gomez 的说法，合成数据已经很多，只是没有被广泛传播。例如，为了训练一个模型进行高级数学，Cohere 可能会使用两个互相交流的 AI 模型，其中一个扮演数学导师，另一个扮演学生。Gomez 表示:“他们正在进行三角学的对话…… 这完全是合成的。这些只是模型想象出来的。然后人类观察这段对话，如果模型说错了内容，就进行修正。这是目前的现状。”

微软研究院的两项最新研究表明，合成数据可以用于训练比 OpenAI 的 GPT-4或 Google 的 PaLM-2等最先进的软件更小更简单的模型。其中一篇论文描述了 GPT-4生成的一组短篇故事的合成数据集，该数据集只包含一个典型四岁孩子可能理解的词语。这个数据集被称为 TinyStories，然后用于训练一个简单的 LLM，能够生成流利和符合语法的故事。

另一篇论文展示了可以使用合成的 Python 代码进行训练，这些代码以教科书和练习的形式存在，他们发现这些代码在编码任务上表现相对不错。

一些初创公司如 Scale AI 和 Gretel.ai 已经提供合成数据作为服务，这种数据可以保护个人隐私，同时保持统计数据的完整性。Gretel 由前美国国家安全局和中央情报局的情报分析师创立，与谷歌、汇丰银行、Riot Games 和 Illumina 等公司合作，通过合成数据的方式来增强他们现有的数据，以帮助训练更好的 AI 模型。

然而，使用低质量的合成数据可能会阻碍进展，并可能导致技术的退化。随着 AI 生成的文本和图像开始充斥互联网，AI 公司在搜索训练数据时不可避免地会使用其自身早期版本生成的原始数据，这种现象被称为 “dog-fooding”。一项来自牛津和剑桥等大学的研究最近警告称，训练模型时使用自身的原始输出（可能包含虚假或捏造的信息）可能会逐渐损害和降低技术的质量，造成 “不可逆的缺陷”。尽管存在这些风险，AI 研究人员认为合成数据有助于加速超级智能 AI 系统的发展。

AI公司用AI合成数据来训练AI大语言模型成趋势

0000

评论列表

共(0)条

相关推荐

站长资讯
谷歌前首席执行官押注人工智能将重塑科学研究过程
站长之家(ChinaZ.com)11月3日消息：前谷歌首席执行官EricSchmidt（埃里克·施密特）正资助一个名为「未来之家」(FutureHouse)的非营利组织，该组织致力于为实验室构建一个由人工智能驱动的助手，以期彻底改变科学研究的过程。
站长网2023-11-03 18:02:48
0000
抖音搜索推出独立APP：内容主要为短视频、图文等
快科技8月22日消息，据媒体报道，紧随头条搜索、悟空搜索、闪电搜索之后，抖音近期重磅推出了其第四个搜索领域的独立应用抖音搜索”，标志着抖音在内容搜索领域的进一步深耕与拓展。与传统搜索引擎如百度、夸克等以网站信息展示为核心不同，抖音搜索”独辟蹊径，聚焦于由海量博主精心创作的短视频、图文等富媒体内容，为用户带来前所未有的搜索体验。
站长网站长资讯2024-08-22 15:22:18
0000
站长资讯
WPS AI智能办公助手海外版开启公测
据36氪消息，WPS海外版智能办公助手WPSAI开启公测，由OpenAI和PaLM2提供大模型支持。目前，WPSAI在Windows和Android端的WPSOffice的文字和PDF组件上可用。未来，它将嵌入到文字、演示文稿、表格和PDF四大组件。
站长网2023-07-27 16:39:59
0000
网红公司，草台班子？
空降CEO，管不好“夫妻档”。辛巴最近又上热搜了，行业人士直言，“这个教训有点贵”。今年第一季度，辛选集团外聘了一位拥有大厂背景的CEO管倩，4月，辛巴（辛选集团创始人辛有志）在直播中称自己已经卸任，要把公司交给她管。仅8个月过去，这位CEO就被辞退，离职前还在公司内部群和社交平台上，与辛巴的徒弟蛋蛋上演了一出“逼宫”大戏。
站长网站长资讯2023-12-13 22:11:49
0000
站长资讯
数据探路：如何靠打工实现年薪百万？
“打工是不可能打工的，这辈子不可能打工的。”窃·格瓦拉周爆红背后，这句话戳中了无数年轻人的心窝。试问，要不是为了营生，哪只社畜愿意上班呢?美国年轻人也有相似的想法。近两年很盛行的FIRE运动，就倡导“financialindependence，retireearly(财务自在，早日退休)”，经过开源节流，早早完成财富自在，35岁开端享用退休生活。
站长网2020-05-07 22:15:20
0007