微软推出全新预训练模型phi-1.5 仅13亿参数常识推理碾压Llama2
站长网2023-09-18 10:01:440阅
要点:
1、微软研究人员推出了一个仅有13亿参数的LLM模型Phi-1.5。
2、Phi-1.5在常识推理任务上表现优异,优于多个参数量十倍以上的模型。
3、研究表明,模型参数规模不是决定性因素,高质量数据更为重要。
微软研究人员最近在一篇论文中提出了一个新的语言模型Phi-1.5,该模型的参数量仅有13亿。研究人员主要关注Phi-1.5在常识推理方面的表现,因为这是对语言模型能力的重要考验。
论文地址:https://arxiv.org/abs/2309.05463
项目地址:https://huggingface.co/microsoft/phi-1_5
结果表明,Phi-1.5在多个常识推理基准测试数据集上都取得了与参数量是其10倍以上的模型相当或更好的结果。例如在WinoGrande、ARC-Easy、ARC-Challenge、BoolQ和SIQA等数据集上的表现,都与Llama2-7B、Falcon-7B和Vicuna-13B相当甚至更好。
这说明模型的参数规模不是决定性因素,采用高质量合成数据进行预训练可能更为关键。研究中,Phi-1.5使用了微软之前提出的Phi-1模型的训练数据,以及新增的“教科书级”合成数据进行训练。
结果表明,Phi-1.5不仅展现出许多大模型所具有的语言理解和推理能力,在控制有害内容生成方面也具有一定优势,这对研究大型语言模型的社会影响意义重大。本研究表明,相比单纯追求模型规模,如何获取高质量训练数据可能更为重要,这为未来语言模型研究提供了新的思路。
0000
评论列表
共(0)条相关推荐
美国最高法院驳回计算机科学家对 AIGC 发明的诉讼请求
据路透社消息,美国最高法院周一拒绝审理计算机科学家StephenThaler对美国专利商标局拒绝为其人工智能系统创造的发明颁发专利的质疑。大法官驳回了Thaler对下级法院裁决的上诉,该裁决认为专利只能颁发给人类发明者,他的人工智能系统不能被认为是他所说的两项发明的合法创造者。站长网2023-04-25 09:05:240000杀入GPT战场,「两翼齐飞」的360胜算有几分?|内测体验
360,正站在GPT风口浪尖迎来新一春。在透露相关计划后2个月内,360快速给出了类ChatGPT产品。公开展示后半个月,就在昨天,360大模型进入落地加速期:基于360GPT开发的“360智脑”首先落地搜索场景,并对企业用户开放内测。此前,实验阶段的360版GPT,在创始人周鸿祎的操作下现场演示,对外亮相。站长网2023-04-18 12:03:060000小物件,利润百万!(狗哥)
前几天端午假期,趁着休息,我也出去逛了一逛,去了灵隐寺。说来也是奇怪,我呆在杭州这么多年,竟然一次都没有去过灵隐寺,平时自己呀只专注赚钱和成长,人生少了许多趣味。你说逛就逛吧,还能被我发现一些赚钱的机会,这不赶紧来了大家分享分享。站长网2023-06-26 23:42:340000微软将其 Bing 聊天消息字符限制从 2000 翻倍增加到 4000
微软的Bing聊天团队继续更新聊天机器人AI的更多功能。有时,它会在大型新闻稿上宣布这些新增和改进,有时在较小的博客文章中公布。今天,该服务中的一项重要改进在Twitter上简单地揭示了出来。站长网2023-05-22 09:06:530001AI视野:谷歌推大模型VideoPoet;百度灵境矩阵升级;微软把DALL-E3集成到键盘;小红书AI设计服装刷屏
🤖📈💻💡大模型动态谷歌推大语言模型VideoPoetGoogleResearch最近发布了一款名为VideoPoet的大型语言模型(LLM),旨在解决当前视频生成领域的挑战。项目网址体验:https://top.aibase.com/tool/videopoet【AiBase提要:】站长网2023-12-20 15:46:210000