微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型
站长网2023-07-20 17:17:190阅
人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示,合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂,微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。
Gomez 透露,合成数据的使用已经非常广泛,但并未广泛宣传。举例来说,如果他们想要训练一个高级数学模型,他们可以设置两个人工智能模型扮演老师和学生的角色,在其中讨论三角学等主题,然后观察的人会在必要时纠正对话。
虽然合成数据已经被用于训练模型,并成为几篇研究论文的重点,但模型主要的训练方式是从互联网上获取数据,包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后,人类通过强化学习反馈(RLHF)给出反馈并填补信息中的空白。
这种方法存在的一些问题包括可能导致侵犯版权和违反隐私,从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源。
Financial Times 指出,微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」,它解释了通过用教科书质量的数据训练一个编码模型,该模型在编码任务上表现得相当好。类似的方法也可以用于语言,其中一个模型被训练用简单的单词和句子,然后可以产生流畅和语法正确的故事。
当然,虽然使用合成数据来训练模型可能会取得突破,但公司也必须小心不要使用质量较差的合成数据,否则可能会导致随着时间的推移性能下降。
再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques,合成数据可能会帮助人工智能帮助我们解决更多挑战。
0000
评论列表
共(0)条相关推荐
Nomic AI发布开源嵌入模型Nomic Embed,击败OpenAI的Ada-002
**划重点:**1.🏆NomicEmbed在短文和长文任务中胜过OpenAI的Ada-002和text-embedding-3-small模型。2.🔍模型支持最大8192的上下文长度,通过MassiveTextEmbeddingBenchmark(MTEB)和LoCoBenchmark表现优异。站长网2024-02-02 14:38:300000南京农业大学研发全国首个古籍大语言模型“荀子”:智能标引、翻译等
12月2日,南京农业大学信息管理学院王东波教授团队在北京发布了一款名为“荀子”的古籍大语言模型。这是该团队在国家社科基金资助的“中国古代典籍跨语言知识库构建及应用研究”项目支持下,与中华书局古联公司合作推出的专门进行古籍处理和研究的智能工具。站长网2023-12-14 15:19:150000iQOO 12 Pro外观公布 后置弧度矩形设计
iQOO官方宣布,将在11月7日召开新品发布会,推出新款旗舰手机iQOO12系列,其中iQOO12Pro的真机实拍图也被正式公布。从真机实拍图中可以看出,iQOO12Pro的后摄辨识度极高,采用了有弧度的矩形设计,模组采用双层设计。镜头上有100倍变焦的标识,配备有一颗潜望式长焦镜头。机身整体轮廓与前代类似,依然是双曲面的设计,且前后弧度对称,这样的设计会让握持手感更好。站长网2023-10-28 07:49:210000AI魔镜来了!BMind智能镜基于生成式AI可识别人类情绪
**划重点:**-🪞**情感分析智能镜:**Baracoda的BMind智能镜搭载生成式人工智能和自然语言处理,通过分析用户的表情、手势和语调,调整情绪并提供光疗、引导冥想和自我肯定。-🌐**CareOS平台:**该技术基于CareOS平台,允许第三方提供商将其应用连接到镜子的界面,通过语音检测、4K超高清摄像头和FaceID等规格实现。站长网2024-01-09 15:51:050000《洛基》海报疑似出自AI之手 迪士尼再遭质疑滥用人工智能
最近,迪士尼推出的漫威系列《洛基》第二季宣传海报在设计界引发争议。海报背景中的时钟图像疑似使用生成式人工智能制作。插画家KatriaRaden在社交媒体上指出,该时钟图像存在许多“无意义的曲线”,这是AI生成图像的典型特征。站长网2023-10-10 10:36:440000