AI公司用“AI合成数据”来训练AI大语言模型成趋势
站长之家(ChinaZ.com) 导语:AI 公司正试图通过“创造信息”来获得用于训练 AI 系统的大量数据,这被称为 "合成数据"。现在,AI 模型的发展已经达到了人类创造的数据的极限,因此需要新的方法来训练模型。
目前,训练 AI 模型的数据主要来自于互联网,用于训练这些系统的数据包括数字化的图书、新闻文章、博客、搜索查询、Twitter 和 Reddit 帖子、YouTube 视频和 Flickr 图像等内容。
但是随着生成式 AI 技术的发展,即使是资金充裕的 AI 公司也很难找到易获取且高质量的数据。合成数据的使用可以绕过这个问题,公司可以使用 AI 模型生成文本、代码等信息,并用于训练更先进的模型。
根据 Cohere 的首席执行官 Aidan Gomez 的说法,合成数据已经很多,只是没有被广泛传播。例如,为了训练一个模型进行高级数学,Cohere 可能会使用两个互相交流的 AI 模型,其中一个扮演数学导师,另一个扮演学生。Gomez 表示:“他们正在进行三角学的对话…… 这完全是合成的。这些只是模型想象出来的。然后人类观察这段对话,如果模型说错了内容,就进行修正。这是目前的现状。”
微软研究院的两项最新研究表明,合成数据可以用于训练比 OpenAI 的 GPT-4或 Google 的 PaLM-2等最先进的软件更小更简单的模型。其中一篇论文描述了 GPT-4生成的一组短篇故事的合成数据集,该数据集只包含一个典型四岁孩子可能理解的词语。这个数据集被称为 TinyStories,然后用于训练一个简单的 LLM,能够生成流利和符合语法的故事。
另一篇论文展示了可以使用合成的 Python 代码进行训练,这些代码以教科书和练习的形式存在,他们发现这些代码在编码任务上表现相对不错。
一些初创公司如 Scale AI 和 Gretel.ai 已经提供合成数据作为服务,这种数据可以保护个人隐私,同时保持统计数据的完整性。Gretel 由前美国国家安全局和中央情报局的情报分析师创立,与谷歌、汇丰银行、Riot Games 和 Illumina 等公司合作,通过合成数据的方式来增强他们现有的数据,以帮助训练更好的 AI 模型。
然而,使用低质量的合成数据可能会阻碍进展,并可能导致技术的退化。随着 AI 生成的文本和图像开始充斥互联网,AI 公司在搜索训练数据时不可避免地会使用其自身早期版本生成的原始数据,这种现象被称为 “dog-fooding”。一项来自牛津和剑桥等大学的研究最近警告称,训练模型时使用自身的原始输出(可能包含虚假或捏造的信息)可能会逐渐损害和降低技术的质量,造成 “不可逆的缺陷”。尽管存在这些风险,AI 研究人员认为合成数据有助于加速超级智能 AI 系统的发展。
马斯克:为保持AI领先地位 公司今年将花费逾5亿美元在英伟达AI芯片上
特斯拉的首席执行官埃隆·马斯克将当前的人工智能(AI)竞赛比作一场高风险的扑克游戏,并表示企业每年需要在AI硬件上投入数十亿美元才能保持竞争力。在社交平台X上发布的帖子中,马斯克透露,特斯拉今年将仅在英伟达AI芯片上投入超过5亿美元。他警告称,为了跟上最大的竞争对手,特斯拉将需要价值“数十亿美元”的硬件投入。站长网2024-01-30 14:20:490000开源小型语言模型MobiLlama 手机可运行训练
MobiLlama是一个开源的小型语言模型,专门针对移动设备运行训练的LLM,拥有5亿个参数。该模型的设计旨在满足资源设定计算的需求,同时注重在提高性能的同时降低资源消耗。项目地址:https://top.aibase.com/tool/mobillama站长网2024-02-28 11:09:040002阿里云发布“通义听悟”AI助手 接入通义千问大模型能力
在今天的阿里云峰会·粤港澳大湾区分场上,阿里云智能宣布通义听悟AI助手将于6月1日正式公测。通义听悟是国内首个向公众开放公测的大模型应用产品,公测期间,用户可领取100小时以上的听悟免费转写时长。据阿里云介绍,通义听悟是一款工作学习AI助手,它接入了通义千问大模型的理解与摘要能力。站长网2023-06-01 16:39:410000联合国秘书长支持建立类似国际原子能的人工智能监管机构提议
联合国秘书长安东尼奥·古特雷斯日前表示支持一些人工智能高管提出的建立一个类似国际原子能机构(IAEA)的国际人工智能监管机构的提议。自ChatGPT六个月前推出并成为有史以来增长最快的应用程序以来,可以根据文本提示生成权威性散文的生成式人工智能技术一直吸引着公众的关注。人工智能也成为人们担忧的焦点,因为它具有创造深度伪造图片和其他虚假信息的能力。站长网2023-06-13 23:54:050000腾讯发布2023年第二季度财报:营收1492亿元 同比增长11%
腾讯控股在2023年第二季度表现出强劲的财务业绩,营收达到1492亿元,同比增长11%,净利润为261.7亿元,同比增长41%。在国际财务报告准则下,腾讯的净利润为375.48亿元,同比增长33%。站长网2023-08-16 17:05:570000