几千元训完中文版LLaMA2!Colossal-LLaMA-2把大模型门槛打下来了!
站长网2023-09-25 14:07:480阅
要点:
1、通过词表扩充、数据筛选和多阶段训练策略,在15小时内用几千元成本训练出中文版LLaMA2。
2、中文版LLaMA2在多项中文任务上的表现明显提升,达到同规模模型的先进水平。
3、构建流程、代码和权重均开源,可迁移应用到其他语言和领域,实现低成本大模型训练。
以前,从头预训练大模型被认为需要高达5000万美元的投资,这让很多开发者和中小企业望而却步。而Colossal-LLaMA-2的出现降低了大模型的门槛。
现在,仅需15小时和几千块钱的投入,就能够完成中文LLaMA2大模型的训练,数据规模达到85亿 tokens。这一方案的综合性能达到了开源社区同规模的SOTA模型水平,且完全开源,包括训练流程、代码以及权重。最重要的是,没有商业限制,可以将其应用于各种领域,实现低成本构建从头预训练的大模型。
那么,如何利用Colossal-AI系统和框架,在短时间内用很低的成本构建出表现优异的中文版本LLaMA2模型呢?
首先,通过扩充原英文词表,新增中文词汇,并利用原模型权重智能初始化,实现英文知识迁移。然后,利用严格的数据筛选流程构建高质量增量训练语料。
在训练策略上,设计了多阶段渐进式训练流程,以及均衡的数据分桶策略。最后,构建了完整的评估体系ColossalEval来全面评测模型效果。
在此流程的启发下,仅用15小时和几千元成本,就训出了中文版LLaMA2。该模型在各类中文任务上的表现已达到甚至超过同规模模型的先进水平。
所有训练代码和预训练权重均开源,可以直接应用到其他语言和领域,实现大模型低成本快速构建。背后是Colossal-AI提供的高效并行和异构内存支持等系统优化。该方案业已应用到多个行业领域,构建垂类大模型并取得良好效果。
0000
评论列表
共(0)条相关推荐
书生·浦语2. 0 正式开源 支持200K超长上下文
要点:1、新一代大语言模型书生·浦语2.0支持200K超长上下文,综合性能领先。2、书生·浦语2.020B版本性能在同量级模型中表现优异,数学推理方面超越ChatGPT。3、InternLM2的数据清洗过滤技术大幅提升模型训练效率。站长网2024-01-17 14:02:300000最先进的开源预训练大语言模型Lemur 平衡文本和代码功能
文章要点:Lemur是首个在文本和代码任务上都表现卓越的开源预训练语言模型。Lemur通过在大规模代码集上预训练,在文本理解和知识任务上保持竞争力的同时,在编程基准测试上超过其他模型。Lemur填补了语言模型中文本和代码能力之间的空白,推动了开源LLM的发展。站长网2023-09-04 10:28:120001Java线下培训和线上的区别?记下这些!
Java学习有很多方式,培训还是自学?线上还是线下?录播课还是直播课,一直都是大家关注的问题。对于学习Java的人来说,他们可以选择参加线下培训或线上培训。那么,这两种学习方式之间有什么区别呢?从学习方式不同对学习效果产生的影响的角度来看,我们可以分析这个问题。站长网2023-05-24 04:45:220000鸿海已成为英伟达 AI 服务器芯片基板最大供应商
站长之家(ChinaZ.com)8月14日消息:据UDN消息,鸿海集团再次传来好消息,成功获得了英伟达HGX服务器AI芯片基板的大单,供货比重超过五成。此前,鸿海已经获得了英伟达另一款DGX服务器AI芯片基板的订单。目前,这两款AI服务器基板订单对于英伟达来说非常重要,而鸿海集团则成为了这两个订单的供应商,并且供应比重还在逐步增大。站长网2023-08-14 10:59:450000DLight:专为开发者设计的UI渲染库 仅占用4KB 空间
DLight是一个专为开发者设计的UI渲染库,具有直观和用户友好的API。可以快速搭建网站和复杂的Web应用。在编译时优化代码性能,即使在有限的优化知识下,也可使代码执行速度接近原生JavaScript。DLight仅占用4KB空间。项目地址:https://github.com/dlight-js/dligh核心功能:站长网2023-08-30 14:01:050000