微软研究人员用儿童故事进行训练:微型语言模型进入成熟期
站长网2023-10-09 16:13:260阅
站长之家(ChinaZ.com) 10月9日消息:学习英语并不容易,许多学生都深有体会。但当学生是一台计算机时,有一种方法表现出奇地出色:只需将大量来自互联网的文本输入到一个名为神经网络的巨大数学模型中。
这就是生成式大语言模型(如 OpenAI 的 ChatGPT)的工作原理,这些模型能够在各种主题上进行连贯(尽管不总是真实)的对话,令研究人员和公众在过去的一年中感到惊讶。
但这种方法也有其缺点。首先,将大量文本档案转化为最先进的语言模型所需的「训练」过程既昂贵又耗时。其次,即使是训练大型语言模型的人们也很难理解它们的内部工作原理;这反过来又使得难以预测它们可能出现的许多问题。
面对这些困难,一些研究人员选择对较小的数据集上的较小模型进行训练,然后研究它们的行为。布朗大学的语言模型研究员 Ellie Pavlick 表示:「这就像测序果蝇基因组与测序人类基因组一样。」
现在,在最近发布在科学预印本服务arxiv.org 上的一篇论文中,两名微软研究人员介绍了一种训练微小语言模型的新方法:用儿童故事来训练它们。
机器学习研究人员已经接受了这一教训。驱动 ChatGPT 界面的大型语言模型 GPT-3.5 拥有近 2000 亿个参数,它是在包含数千亿个词汇的数据集上训练的。(OpenAI 尚未公布其继任者 GPT-4 的相应数据。)训练如此大型的模型通常需要至少 1000 个并行运行数周的专用处理器(称为 GPU)。只有少数公司能够调集必要的资源,更不用说训练和比较不同模型了。
这两名研究人员展示了,与今天的最先进系统相比,比这些系统小数千倍的语言模型在这种方式下能够迅速学会讲述一致和符合语法的故事。他们的研究结果暗示了可能有助于训练更大型模型并理解其行为的新研究方向。
0000
评论列表
共(0)条相关推荐
扎克伯格宣战AGI:Llama 3训练中,今年要囤35万块H100,砸近百亿美元
「事情越来越明确了,各大科技公司的下一代服务会构建在通用AI之上。」为了通用人工智能(AGI)的宏大目标,扎克伯格正在给Meta的AI研究部门进行大幅度的改组。本周四,Meta首席执行官马克・扎克伯格宣布,他的公司正在致力于为人工智能助手构建「通用智能」并「负责任地开源」,Meta正在将其两个主要研究小组(FAIR和GenAI)合并在一起以实现这一目标。站长网2024-01-20 11:57:110000抖音12个去重方法,搞定二创作品过原创
各位村民好,我是村长。问题来了,如何在进行短视频内容二次创作的时候,有效避免官方判断重复呢?随着各种短视频二次创作可以赚取收益的火热,出现了一大批账号开始搬运各种各样的作品。同时还有一些拍摄产品的剧情段子,高度相同,导致会被系统判断重复,无法通过原创或者得到官方流量的推荐。我们常见的各种国内外影视剧解说账号、各种海外纪录片等内容,想要获得流量收益,必须解决这个问题。站长网2023-04-13 08:58:3300035史玉柱:巨人在探索用AI研发游戏的平台 普通人也能做游戏
在2024年的巨人公司年会上,史玉柱发表了最新讲话,主要围绕公司在AI领域的最新探索。他特别强调了一个旨在让普通人也能开发游戏的AI游戏研发平台。史玉柱首先谈到了员工们对外部环境和公司CEO更替的疑虑。他指出,虽然外部环境面临挑战,但公司在行业中表现良好,去年前三季度收入和利润都增长了40%。他强调,公司并没有遇到冬天。站长网2024-01-27 13:04:590000微信红包封面开放平台上线多订单合并发放功能
微信表示,为提升封面发放灵活性,平台现已上线多订单合并发放功能,定制方可将同一款封面下的多笔订单合并、生成一个可多人领取的封面二维码/领取链接/序列号。1.在电脑端登录微信红包封面开放平台(cover.weixin.qq.com),进入【我的红包封面】,选择一款需要合并发放的封面,点击【详情】。2.进入【封面详情页】,点击【发放封面】。3.勾选需要合并发放的多笔订单,点击【下一步】。站长网2023-07-21 22:05:320000快手程一笑宣布:去年超过 2200 万创作者在平台获得收入
快手科技创始人兼CEO程一笑在快手光合创作者大会上宣布,过去一年有超过2200万创作者在快手平台上获得了收入。他指出,自2019年开始,连续三年每年都有超过2000万名创作者在快手平台上获得了收入。程一笑表示,快手将继续为创作者提供更好的创作条件和变现机会。站长网2023-08-10 11:25:020000