登陆注册
9872

Adept AI开源8亿参数语言模型Persimmon-8B

站长网2023-09-13 09:55:130

要点:

1、开源了Persimmon-8B,这是目前参数量少于10亿的最强大的完全免许可语言模型

2、该模型具有16K的上下文长度,超过了LLaMA2的4倍和GPT-3的8倍

3、提供了灵活快速的推理代码,在一块A100GPU上可以每秒生成56个token

Anthropic公司最近开源了Persimmon-8B,这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。

Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型,但Persimmon-8B是他们模型扩展计划的早期产出,可以给社区提供一个更强大的8亿参数语言模型以进行各种创新应用的开发。8亿参数量的模型可以在单个GPU上进行微调,在现代笔记本电脑上以合适的速度运行,甚至可以容纳在移动设备上。

Persimmon-8B具有几个突出特点:

1、这是目前开源的、完全免许可使用的参数量少于10亿的最强大语言模型

2、使用16K的上下文长度进行从头训练,远超过LLaMA2的4K和GPT-3等模型的2K

3、基础模型的性能甚至超过了LLaMA2,尽管训练数据量只有后者的37%

4、模型保留了70K个词向量以进行多模态扩展,并采用了稀疏激活

5、提供了灵活快速的推理代码实现,可以在一块A100GPU上达到每秒生成56个token的速度

通过直接长序列训练,Persimmon-8B能够捕捉更长的上下文关系,这为各种应用带来了独特优势。Anthropic希望社区可以在该模型的基础上进行更多创新,同时也乐于听到用户的反馈。这只是一个早期小规模的开源,他们未来还计划开源更多内容。

0000
评论列表
共(0)条
热点