元象XVERSE开源650亿参数通用大模型XVERSE-65B
站长网2023-11-06 10:41:070阅
元象XVERSE宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。
XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构,参数规模达到了650亿。
模型通过训练了2.6万亿个令牌的高质量多样化数据,包含了40多种语言。XVERSE-65B 具有16K 的上下文长度,适用于多轮对话、知识问答和摘要等任务。模型已在多个标准数据集上进行了测试,并取得了良好的性能。
主要特点如下:
模型结构:XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构,支持16K 的上下文长度(Context Length),能满足更长的多轮对话、知识问答与摘要等需求,模型应用场景更广泛。
训练数据:构建了2.6万亿 token 的高质量、多样化的数据对模型进行充分训练,包含中、英、俄、西等40多种语言,通过精细化设置不同类型数据的采样比例,使得中英两种语言表现优异,也能兼顾其他语言效果。
分词:基于 BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为100,534的分词器,能够同时支持多语言,而无需额外扩展词表。
训练框架:自主研发多项关键技术,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等,让训练效率更高,模型稳定性强,在千卡集群上的峰值算力利用率位居业界前列。
项目地址:https://github.com/xverse-ai/XVERSE-65B
0000
评论列表
共(0)条相关推荐
99%好评率!华为Mate 60 Pro官网评价破万 首批用户:中国“争气机”
快科技9月3日消息,华为新一代Mate旗舰华为Mate60Pro于8月29日在华为商城突然开售,首批发售的机型为先锋计划”,官方称让部分消费者提前体验史上最强Mate手机。站长网2023-09-03 08:48:080002苹果发布iOS 16.5 RC2:正式版意外被推迟
快科技5月16日消息,今日凌晨,苹果面向开发者和公测用户推送了iOS16.5RC2,内部版本号为20F66。一个准正式版更新两次,并且距离第一个RC版更新仅6天时间,这一情况极少发生,这种情况一般是iOS16.5RC版存在大问题,所以不得不发布RC2进行修复,否则苹果现在应该已经推送iOS16.5正式版了。据了解,iOS16.5RC2更新内容与RC一致,没有加入任何新功能和特性。0001腾讯回应与 Meta VR头显合作传闻
近日科技日报消息称,Meta正在与腾讯洽谈,计划在中国市场推出其VR头显Quest。Meta旨在将其设备产品引入中国,以重振其在中国的业务。据报道,Meta已与多家中国科技公司进行了洽谈,并与一家国内公司取得了进展。如果合作成功,对双方都有利。站长网2023-07-05 17:28:170000小米云服务新春活动公布:200GB连续包年 138 元
站长之家(ChinaZ.com)1月15日消息:小米云服务近日宣布,新春活动正式开启,为期14天,即从1月15日至1月28日。在这次活动中,黄金50GB连续包年的价格为39元,白金200GB连续包年价格为138元,而钻石2TB连续包年价格为448元。此次活动仅限中国大陆的小米云服务用户参加,购买连续包年会员方案可以享受5.5折的优惠。站长网2024-01-15 16:04:480000淘宝用户又回来了!阿里巴巴:核心业绩全面超预期
快科技8月10日消息,今晚阿里巴巴发布了2024财年第一季度财报。阿里集团表示,这是组织变革后的首份季度业绩,核心业绩全面超预期,自我变革初见成效。财报显示,阿里巴巴第一季度营收为2341.56亿元(约合322.92亿美元),与上年同期的2055.55亿元相比增长14%。站长网2023-08-10 20:28:270000