支持534种语言，开源大语言模型MaLA-500

站长网2024-02-05 09:15:290阅

无论是开源的LLaMA2还是闭源的GPT系列模型，功能虽然很强大，但对语言的支持和扩展比较差，例如，二者都是以英语为主的大模型。

为了提升大模型语言的多元化，慕尼黑大学、赫尔辛基大学等研究人员联合开源了，目前支持语言最多的大模型之一MaLA-500。

MaLA-500以LLaMA2为基础模型，再用多语言数据库Glot500-c进行语言扩展训练，支持语言达到了惊人的534种。

开源地址:https://huggingface.co/MaLA-LM/mala-500

论文地址:https://arxiv.org/abs/2401.13303

训练数据

研究人员选用了开源数据集Glot500-c对MaLA-500进行了语言扩展训练。该数据集包含了534种语言，涵盖47种不同种族语言，数据量高达2万亿tokens。

研究人员表示，选择Glot500-c数据集的原因在于，可以大幅扩展现有语言模型的语言覆盖范围，并包含极其丰富的语言家族，这对于模型学习语言内在的语法和语义规律帮助巨大。

此外，虽然一些高资源语言的比例相对较低，但Glot500-c的整体数据量对训练大规模语言模型而言足够用。在后续的预处理中，又对语料数据集进行了加权随机采样，以增加低资源语言在训练数据中的比例，让模型更加聚焦特定语言。

基础模型LLaMA2

MaLA-500选择了目前最知名的开源大语言模型之一LLaMA2-7B作为基础模型，并进行了两大技术点创新。

1）增强词汇表，研究人员通过Glot500-c数据集，训练了一个多语言分词器，将LLaMA2的原英文词汇表扩展到了260万，大幅增强了模型对非英语和低资源语言的适配能力。

2）模型增强，使用了LoRA技术在LLaMA2的基础上进行低秩适配。只训练适配矩阵而冻结基础模型权重，可以高效地实现模型在新语言上的持续学习能力，同时保留模型原有的知识。

训练流程

训练方面，研究人员用了24张N卡A100GPU进行训练，并使用了包括Transformers、PEFT和DeepSpeed三个主流深度学习框架。

其中，DeepSpeed提供了分布式训练的支持，可以实现模型并行;PEFT实现了高效的模型微调;Transformers提供了模型功能的实现，例如，文本生成、提示词理解等。

为了提升训练的高效性，MaLA-500还使用了各种显存和计算优化算法，如ZeRO冗余优化器，可最大化利用GPU算力资源;以及混合精度训练的bfloat16数格式加速训练流程。

此外，研究人员还对模型参数进行了大量优化，使用了学习率为2e-4的常规SGD训练，并使用了0.01的L2权重衰减以防止模型过大，出现过拟合、内容输出不稳定等情况。

为了测试MaLA-500的性能，研究人员在SIB-200等数据集上进行了综合实验。

结果显示，相比原始LLaMA2模型，MaLA-500在主题分类等评测任务上的准确率提高了12.16%，这说明MaLA-500的多语言优于，现有的众多开源大语言模型。

本文素材来源MaLA-500论文，如有侵权请联系删除

支持534种语言开源大语言模型MaLA500

0000

评论列表

共(0)条

相关推荐

站长资讯
PyTorch团队重写Meta“分割一切”模型性能提速8倍
要点:PyTorch团队通过对Meta的「分割一切」（SAM）模型进行重写，使其在原始实现的基础上提速8倍，同时保持准确率。优化方法包括采用PyTorch原生特性如Torch.compile、GPU量化、SDPA等，以及使用半精度（bfloat16）、自定义Triton内核、NestedTensor、量化、半结构化稀疏性等操作。
站长网2023-11-22 11:56:36
0001
站长资讯
“鸿星尔克”告“鸿红星尔克”侵权后被被判赔偿20000元
据灞桥区法院消息，近日，西安市灞桥区人民法院依法审理了一起侵害商标专用权纠纷案。
站长网2023-10-11 16:11:28
0000
站长资讯
挑战全球最窄下边框！魅族21手机将于11 月 15 日开始预定
魅族21正式开始预热，宣布11月15日开始1元超前预定。这款新机型的最大亮点是拥有1.74mm的超窄边框，号称“挑战全球最窄下边框”。魅族21以及魅族21Pro现已通过工信部无线电核准，其中21Pro型号为M481S，依旧支持UWB（UltraWideBand）超宽带技术。
站长网2023-11-13 17:20:36
0000
站长资讯
小米13 Ultra橄榄绿配色亮相采用第二代科技纳米皮
就在刚刚，雷军公布了小米13Ultra橄榄绿的真机图。后置模组方面，小米13Ultra采用了圆环设计配合质感金环，整机背部采用连贯、流畅的线条，一体化金属机身框架，可达4.4倍的抗弯曲能力。此外，背面采用全新第二代科技纳米皮材料优秀的抗菌、抗脏污、抗黄变能力。具备IP68防尘防水能力。
站长网2023-04-17 10:43:10
0001
站长资讯
滴滴发布2022年度财报：营收下降19%、净亏损收窄52%
滴滴在4月29日发布了其退市后的年报。2022年，滴滴实现了营业收入1408亿元，同比下降19%。净亏损为238亿元，同比缩减了52%。
站长网2023-05-12 20:36:04
00018