微软推出微型AI自动编码模型phi-1,击败 GPT-3.5
微软的人工智能研究人员发布了一种新的、轻量级的代码生成模型 phi-1,并且其性能优于 ChatGPT 背后的大型语言模型 GPT-3.5。
据了解, 这个基于 Transformer 的模型仅拥有13亿个参数,相比之下,Codex拥有120亿个参数。
微软的研究人员仅用了四天时间就使用 Nvidia 的8个 A100芯片来训练 phi-1。该模型使用来自网络的60亿个token以及使用 GPT-3.5生成的另外10亿个token进行训练。
在性能方面,phi-1在HumanEval基准测试中获得了50.6% 的 pass@1准确率。尽管模型小得多,但微软模型击败了 Hugging Face 和 ServiceNow 的 StarCoder (33.6%)、OpenAI 的 GPT-3.5(47%) 和谷歌的 PaLM2-S (37.6% ) 。
在MBPP pass@1测试中,phi-1表现更好,取得了55.5% 的分数。上述许多模型尚未发布该基准测试的结果,但 WizardLM 的WizardCoder在本月早些时候进行的测试中得分为51.5%。WizardCoder 是一个150亿个参数模型,而 phi-1的参数模型为13亿个。
高质量数据带来差异
微软的研究人员认为,正是“高质量数据的力量”让 phi-1表现如此出色。为了说明这一点,研究人员将他们模型的论文命名为“教科书就是你所需要的”。
他们写道:“正如一本全面、精心制作的教科书可以为学生提供掌握新学科所需的知识一样,我们的工作展示了高质量数据在磨练语言模型在代码生成任务中的熟练程度方面的显着影响。” 。
“通过制作‘教科书质量’数据,我们能够训练出一个模型,尽管模型大小缩小了10倍,数据集大小缩小了100倍,但在编码基准(例如 HumanEval 和 MBPP)上,该模型超越了几乎所有开源模型。”
与其他可用的编码模型相比,Phi-1仅限于 Python 编码。他们表示,该模型的局限性还在于它缺乏大型模型的特定领域知识,例如使用特定 API 进行编程。
为了扩展他们的工作,微软的研究人员建议使用 GPT-4而不是 GPT-3.5来生成用于模型训练的合成数据。
研究人员还将寻求提高数据集的多样性和非重复性,尽管该团队表示,他们必须找到方法“在数据生成过程中注入随机性和创造力,同时仍然保持示例的质量和连贯性。”
AI生成系统CityDreamer:可创建无限的 3D 城市街景
文章概要:1.CityDreamer是一种生成式AI模型,可以创建无限的3D城市环境。2.通过将建筑实例生成与其他背景对象分离,可以更好地处理建筑多样性。3.使用真实城市数据集训练,可以增强生成结果的真实性。相比生成自然场景,用AI创建城市更复杂,因为可以更容易察觉结构失真。CityDreamer是一种生成式AI系统,专门用于创建开放式的、无边界的3D城市环境。站长网2023-09-06 17:36:020001OPPO Reno10系列今日开售 标配长焦镜头售价2499元起
OPPO官方宣布,OPPOReno10系列,今日开售,至高24期分期免息。OPPOReno10系列包括了Reno10、Reno10Pro、Reno10Pro三款手机。分别搭载骁龙778G、天玑8200、骁龙8处理器。据悉,OPPOReno10全系列标配长焦镜头,标准版和Pro版本上搭载了3200万超光影长焦镜头;Pro版本则搭载6400W超光影潜望长焦。站长网2023-06-01 16:39:400000微信支付推出“先学后付”能力 微信支付分超过600可先上课后付费
微信支付最近推出了一项“先学后付”的功能,这项功能允许用户只要微信支付分超过600分,就可以先上课后付费。整个流程就像借充电宝一样简单便捷。通过在产品页面选择“先学后付”下单并完成支付分授权,用户可以直接开始上课。一旦商家排课成功,课程将直接推送给用户,相应的费用会在课程完成后自动划扣。如果用户中途需要取消,也可以通过“我的-钱包-支付分-我的服务”或扣费凭证推送页随时关闭扣费服务。站长网2023-12-12 15:49:420000OpenAI新研究:让小模型来监督大模型能显著提高泛化性能
要点:创新方向:研究如何通过深度学习的泛化性质来以弱监督控制强模型,解决超智能对齐问题。研究背景:超智能对齐的核心挑战是人类需要监督比他们更聪明的AI系统,提出通过小模型监督大模型的方法,取得了令人满意的初步结果。研究结果:通过以GPT-2级模型作为弱监督者对GPT-4进行微调,能够在自然语言处理任务中显著提高泛化性能,表明了弱到强泛化的可行性,为未来AI对齐问题提供了新的研究方向。站长网2023-12-15 14:04:490002阿里云推出大模型调用工具ModelScopeGPT魔搭GPT
7月6日至8日,2023世界人工智能大会在上海召开。阿里云举办“MaaS:以模型为中心的AI开发新范式”论坛,阿里云首席技术官周靖人发布通义大模型家族最新成员通义万相,推出了面向开发者的大模型调用工具ModelScopeGPT(魔搭GPT)。站长网2023-07-10 17:07:080000