首页站长资讯击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜

击败Llama 2，抗衡GPT-3.5，Stability AI新模型登顶开源大模型排行榜

站长网2023-07-23 14:23:060阅

一眨眼，开源大模型又进步了。谷歌、OpenAI真的没有护城河?

「我就午休了30分，我们的领域又变了?」在看到最新的开源大模型排行榜后，一位 AI 领域的创业者发出了灵魂追问。

排行榜链接:https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

上图红框中的「新秀」是来自 Stability AI 和 CarperAI lab 的两个大模型:FreeWilly1和 FreeWilly2。刚刚，它们超越了 Meta 三天前发布的 Llama-2-70b-hf，成功登顶 HuggingFace 的 Open LLM 排行榜榜首。

更引人注目的是，FreeWilly2在很多基准上还击败了 ChatGPT（GPT-3.5），成为首个真正可以和 GPT-3.5相抗衡的开源大模型，这是 Llama2都没有做到的事情。

FreeWilly1基于原始的 LLaMA65B 基础模型构建，并且在标准 Alpaca 格式下，使用新的合成数据集进行了仔细的有监督微调（SFT）。FreeWilly2则基于最新的 LLaMA270B 基础模型构建。

从 Stability AI 发布的博客中，我们可以看到这两个新模型的一些细节:

数据来源

FreeWilly 模型的训练方法直接受到了微软在其论文《Orca: Progressive Learning from Complex Explanation Traces of GPT-4》中首创的方法的启发。虽然 FreeWilly 的数据生成过程与之相似，但二者在数据来源方面存在差异。

FreeWilly 的数据集包含了60万个数据点（大约是原始 Orca 论文使用的数据集大小的10%），它是通过以下由 Enrico Shippole 创建的高质量指令数据集来启发语言模型生成的:

COT Submix Original

NIV2Submix Original

FLAN2021Submix Original

T0Submix Original

采用这种方法，研究者使用了一个较简单的 LLM 模型生成了50万个示例，并使用一个更复杂的 LLM 模型生成了额外的10万个示例。为了确保公平比较，他们仔细筛选了这些数据集，并删除了来源于评估基准测试的示例。尽管训练样本数量仅为原始 Orca 论文的1/10（相比原始论文大大降低了训练模型的成本和碳排放），但由此产生的 FreeWilly 模型在各种基准测试中表现出色，验证了他们采用合成数据集的方法的有效性。

性能数据

为了对这些模型进行内部评估，研究者使用了 EleutherAI 的 lm-eval-harness 基准，并加入了 AGIEval。

其中，lm-eval-harness 基准由 EleutherAI 非盈利人工智能研究实验室创建，前面提到的 HuggingFace Open LLM 排行榜背后运行的就是该基准，它会在 Hugging Face 计算集群的空闲周期中运行评估，并将结果存储在数据集中，然后在在线排行榜空间上显示。

AGIEval 则由微软创建，专门用于评估基础模型在「以人为本」（human-centric）的标准化考试中的表现，比如数学竞赛、律师资格考试。

在许多方面，两个 FreeWilly 模型表现都非常出色，包括复杂的推理、理解语言的微妙之处，以及回答涉及专业领域（如法律和数学问题）的复杂问题。

两个模型在 lm-eval-harness 基准上的评估结果如下（这些 FreeWilly 测试结果是由 Stability AI 研究人员来评估的）:

二者在 AGIEval 基准上的表现如下（全部是0-shot）:

此外，他们还在 GPT4ALL 基准上对两个模型进行了测试（全部是0-shot）:

总体来看，这两个模型的性能表现都非常优秀，进一步缩小了与 ChatGPT 等顶级 AI 大模型的差距。想要获取模型的同学可以点击以下链接。

FreeWilly1:https://huggingface.co/stabilityai/FreeWilly1-Delta-SafeTensor

FreeWilly2:https://huggingface.co/stabilityai/FreeWilly2

从各方反应来看，FreeWilly 模型的出现给大家带来了一点小小的震撼，因为它们来得实在是太快了，毕竟 Llama2才刚刚推出3天，排行榜位置都没坐热。有位研究者表示，他最近刚做了眼科手术，一个星期没看新闻，但感觉自己已经昏迷了一年。所以，这是一段「不能眨眼」的时期。

不过，需要注意的是，虽然两个模型都是开放获取的，但和 Llama2不同，它们是以非商业许可的形式发布的，仅可用于研究目的。

然而，这样的做法引起了网友质疑。

对此，Stability AI的研究者回复说，这种情况（仅用于研究目的）只是暂时的，未来，FreeWilly 有望像 Llama2一样允许商用。

此外，也有人对测试采用的基准产生了质疑:

这也是当前一个比较棘手的问题。此前，Falcon 模型在 HuggingFace 排行榜上碾压 Llama 的事件备受争议，后来，该事件彻底反转，事实证明 Llama 并未被 Falcon 碾压，HuggingFace 也为此重写了排行榜代码。在大模型层出不穷的今天，如何有效地评估这些模型依然是一个值得讨论的问题。因此，对于这些登顶排行榜的模型，我们有必要保持更加谨慎的态度，等待更多的评测结果出炉。

参考链接:https://stability.ai/blog/freewilly-large-instruction-fine-tuned-models?utm_source=twitter&utm_medium=website&utm_campaign=announcement

击败Llama2 抗衡GPT3 5 StabilityAI新模型登顶开源大模型排行榜

0000

评论列表

共(0)条

相关推荐

站长资讯
《云计算白皮书（2023年）》发布：人工智能大模型引发数字应用使用方式和算力资源供给双向变革
中国信息通信研究院（以下简称「中国信通院」）日前发布《云计算白皮书（2023年）》（以下简称《白皮书》）。《白皮书》显示，2022年全球云计算市场规模约达到3.5万亿元人民币，增速为19%。在大模型、算力等需求刺激下，该市场仍将保持稳定增长，到2026年预计全球云计算市场将达到逾十万亿元。
站长网2023-07-26 14:45:01
0002
“日日新大模型”亮相奥运会，商汤科技AI应用成色几何？
AI技术对于商业模式未通的商汤科技而言，此番奔赴奥运赛场，或许只是追追热点、提升品牌知名度，而其应用场景落地与商业化进程，恐怕不会带来实质性的改变。AI黑科技加持的2024年巴黎奥运会，浪漫而时髦。各大模型厂商，也在趁着热点，在赛场内外秀肌肉、疯狂内卷。
站长网站长资讯2024-08-06 09:11:41
0000
站长资讯
华为云正式发布盘古大模型3.0 深耕气象、金融等领域
在今天举行的华为开发者大会上，华为常务董事、华为云CEO张平安发表了主题演讲《一切皆服务，AI重塑千行百业》。在演讲中，张平安提到，盘古大模型专注于价值场景，致力于在政务、金融、制造、煤矿、铁路、制药、气象等行业深耕。
站长网2023-07-08 02:52:44
0001
站长资讯
荣耀回应IPO传闻：四季度进行股份制改革适时启动IPO
快科技8月5日消息，自从荣耀三年前独立以来，时不时就有IPO的传闻。对此，荣耀今天正式回应称，始终坚持公开透明的发展原则，也会持续多元化股权结构。荣耀计划在今年四季度启动相应的股份制改革，并在之后适时启动IPO流程，并且在相应的过程中会批露相关财务数据。另外，从2021年1月1日至今，荣耀没有获得过深圳市政府超出对通常企业的支持”。
站长网2024-08-05 16:46:15
0000
让你的土豆更美味！我国“优薯计划”迎来重大突破
很少有人知道，我们在快餐店吃的薯条几乎都来自100多年前育成的马铃薯品种——作为全球人口的主粮之一，马铃薯育种进程之缓慢可见一斑。中国科学家为此提出了“优薯计划”，目的就是让中国乃至全世界的人们吃上更高产、更优质的马铃薯(又名土豆)。
站长网站长资讯2023-05-25 01:43:55
0000