首页站长资讯微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型

微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型

站长网2023-07-20 17:17:190阅

人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示，合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂，微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。

Gomez 透露，合成数据的使用已经非常广泛，但并未广泛宣传。举例来说，如果他们想要训练一个高级数学模型，他们可以设置两个人工智能模型扮演老师和学生的角色，在其中讨论三角学等主题，然后观察的人会在必要时纠正对话。

虽然合成数据已经被用于训练模型，并成为几篇研究论文的重点，但模型主要的训练方式是从互联网上获取数据，包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后，人类通过强化学习反馈（RLHF）给出反馈并填补信息中的空白。

这种方法存在的一些问题包括可能导致侵犯版权和违反隐私，从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源。

Financial Times 指出，微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」，它解释了通过用教科书质量的数据训练一个编码模型，该模型在编码任务上表现得相当好。类似的方法也可以用于语言，其中一个模型被训练用简单的单词和句子，然后可以产生流畅和语法正确的故事。

当然，虽然使用合成数据来训练模型可能会取得突破，但公司也必须小心不要使用质量较差的合成数据，否则可能会导致随着时间的推移性能下降。

再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques，合成数据可能会帮助人工智能帮助我们解决更多挑战。

微软 OpenAI和 Cohere等公司已转向使用合成数据训练人工智能模型

0000

评论列表

共(0)条

相关推荐

站长资讯
华为Mate 70系列预计第四季度发布首发纯血鸿蒙正式版
站长之家（ChinaZ.com）6月21日消息:今日下午，余承东正式宣布鸿蒙NEXT开发者Beta版正式开放升级，并透露消费者Beta版将于8月全面推送。更令人期待的是，在即将到来的第四季度，华为Mate70系列将携手鸿蒙NEXT正式版系统闪亮登场。
站长网2024-06-22 23:42:15
0000
站长资讯
特斯拉中国ModelS/X现车再降价最高可享 7 万元优惠
特斯拉中国再次降低ModelS/X现车价格，全系现车可享受54，000元至70，000元不等的价格优惠。现在购买ModelS的起售价为75.49万元，原起售价为80.89万元;现在购买ModelX的起售价为83.69万元，原起售价为89.89万元。此外，购车者还可以享受3年/6年免费超充、引荐奖励和FSD限时转移等权益。
站长网2023-08-16 13:50:46
0000
融资千万的AI写作初创散了，同一赛道，日本跑出500万月活产品
站长网站长资讯2024-10-30 14:35:10
0000
华为MatePad Pro 13.2典藏版发布：售价12999元1TB顶配
华为今日下午正式发布了华为MatePadPro13.2典藏版，这款新品以其丰富的功能和顶级的配置，售价高达12999元。华为MatePadPro13.2典藏版不仅仅是一款平板电脑，更像是一个超级全家桶。它配备有华为MatePadPro13.216GB1TB顶配版、星闪键盘、星闪手写笔、FreeBudsPro3以及华为Care两年期服务。
站长网站长资讯2023-12-26 16:27:38
0000
美团Q3新业务首度实现除「优选」外整体盈利，管理层：海外业务目前仍聚焦沙特
公司情报专家《财经涂鸦》获悉，11月29日，美团（3690.HK）公布截至2024年9月30日止的第三季度业绩报告。
站长网站长资讯2024-12-02 11:24:29
0000