微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了
Llama3发布刚几天,微软就出手截胡了?
刚刚发布的Phi-3系列小模型技术报告,引起AI圈热议。
其中仅3.8B参数的Phi-3-mini在多项基准测试中超过了Llama38B。
为了方便开源社区使用,还特意设计成了与Llama系列兼容的结构。
微软这次打出“手机就能直接跑的小模型”的旗号,4bit量化后的phi-3-mini在iPhone14pro和iPhone15使用的苹果A16芯片上跑到每秒12token。
这意味着,现在手机上能本地运行的最佳开源模型,已经做到ChatGPT水平。
在技术报告中还玩了一把花活,让phi-3-mini自己解释为什么构建小到手机能跑的模型很令人惊叹。
除了mini杯之外,小杯中杯也一并发布:
Phi-3-small,7B参数,为支持多语言换用了tiktoken分词器,并额外增加10%多语种数据。
Phi-3-medium,14B参数,在更多数据上训练,多数测试中已超越GPT-3.5和Mixtral8x7b MoE。
(大杯他们目前不打算做)
作者阵容一看也不简单,一眼扫过去MSRA和MSR雷蒙德团队都投入了不少人。
那么,Phi-3系列到底有什么独特之处呢?
根据技术报告中披露,其核心秘诀就在于数据。
去年团队就发现,单纯堆砌参数量并不是提升模型性能的唯一路径。
反而是精心设计训练数据,尤其是利用大语言模型本身去生成合成数据,配合严格过滤的高质量数据,反而能让中小模型的能力大幅跃升。
也就是训练阶段只接触教科书级别的高质量数据,Textbooks are all you need。
Phi-3也延续了这一思路,这次他们更是下了血本:
投喂了多达3.3万亿token的训练数据(medium中杯是4.8万亿)
大幅强化了数据的”教育水平”过滤
更多样化的合成数据,涵盖逻辑推理、知识问答等多种技能
独特的指令微调和RLHF训练,大幅提升对话和安全性
举个例子,比如某一天足球比赛的结果可能对于大模型是良好的训练数据,但微软团队删除了这些加强知识的数据,留下更多能提高模型推理能力的数据。
这样一来,对比Llama-2系列,就可以用更小的参数获得更高的MMLU测试分数了。
不过小模型毕竟是小模型,也不可避免存在一些弱点。
微软透露,模型本身参数中没能力存储太多事实和知识,这一点也可以从TriviaQA测试分数低看出来。
缓解办法就是联网接入搜索引擎增强。
总之,微软研究院团队是铁了心了要在小模型 数据工程这条路上走下去,未来还打算继续增强小模型的多语言能力、安全性等指标。
对于开源小模型超过ChatGPT这回事,不少网友都认为压力现在给到OpenAI这边,需要赶快推出GPT-3.5的继任者了。
参考链接:
[1]https://arxiv.org/abs/2404.14219
首发就敢搞实机演示,这个叫天工的大模型凭什么?
2023年3月14日,GPT-4发布。自那一天之后,就好像打开了潘多拉魔盒一样,各种AI大模型就跟开大会,前后脚地发布。从号称OpenAI杀手的Claude,到比GPT热度还高的AutoGPT,再到国产的文心一言、通义千问等等。这股井喷速度,多少让人有些眼花缭乱了。结果还没歇两天,差评君又遇到了一个非常特殊的参赛选手。站长网2023-05-24 16:18:000001游族网络投毒案后续:许垚投毒杀人一审被判死刑
据上海一中法院消息,2024年3月22日上午10时,上海市第一中级人民法院对被告人许垚涉及的两项重罪——故意杀人罪和投放危险物质罪,进行了公开宣判。经过审理,法院认定许垚的行为极其恶劣,危害后果特别严重,因此决定执行死刑,剥夺政治权利终身。站长网2024-03-23 00:22:290000Numenta发布基于大脑的NuPIC,将AI效率提高100倍
文章概要:1.Numenta公司经过17年的大脑研究,终于推出NuPIC产品,旨在使AI处理效率提高100倍。2.NuPIC是一款基于神经科学的人工智能解决方案,建立在深入研究的基础上,由计算先驱杰夫·霍金斯和唐娜·杜宾斯基创立。3.这一平台利用IntelCPU,提供高性能运行和完全控制,标志着人工智能领域的重要里程碑。站长网2023-09-12 10:03:140000媒体争相报道的“Midjourney官方中文版”是假的?
前不久,AI画图软件Midjourney风靡一时,但是,因为其由国外开发者开发,受限于语言等因素,国内网友想要尝试还是挺费劲的。不过,这个问题似乎很快就能解决。最近,一个名为“MidjourneyAI”的微信公众号发文称,Midjourney官方中文版开启内测申请,迅速吸引网友关注。站长网2023-05-18 18:04:010002代码托管平台 GitLab 推出 AI 驱动的排查代码漏洞功能
代码托管平台GitLab宣布推出一个新的安全功能,将使用人工智能(AI)向开发人员解释编码漏洞。该公司的目标是在未来利用大型语言模型(LLMs)自动化漏洞排查。站长网2023-04-26 11:00:360000