Adept AI开源8亿参数语言模型Persimmon-8B
站长网2023-09-13 09:55:130阅
要点:
1、开源了Persimmon-8B,这是目前参数量少于10亿的最强大的完全免许可语言模型
2、该模型具有16K的上下文长度,超过了LLaMA2的4倍和GPT-3的8倍
3、提供了灵活快速的推理代码,在一块A100GPU上可以每秒生成56个token
Anthropic公司最近开源了Persimmon-8B,这是目前参数量少于10亿的完全免许可使用的最强大语言模型。该模型采用Apache许可证发布,代码和权重已在GitHub上开源。
Anthropic的目标是开发一个可以协助用户完成各种计算机操作的AI助手。他们并不专注于开发独立的语言模型,但Persimmon-8B是他们模型扩展计划的早期产出,可以给社区提供一个更强大的8亿参数语言模型以进行各种创新应用的开发。8亿参数量的模型可以在单个GPU上进行微调,在现代笔记本电脑上以合适的速度运行,甚至可以容纳在移动设备上。
Persimmon-8B具有几个突出特点:
1、这是目前开源的、完全免许可使用的参数量少于10亿的最强大语言模型
2、使用16K的上下文长度进行从头训练,远超过LLaMA2的4K和GPT-3等模型的2K
3、基础模型的性能甚至超过了LLaMA2,尽管训练数据量只有后者的37%
4、模型保留了70K个词向量以进行多模态扩展,并采用了稀疏激活
5、提供了灵活快速的推理代码实现,可以在一块A100GPU上达到每秒生成56个token的速度
通过直接长序列训练,Persimmon-8B能够捕捉更长的上下文关系,这为各种应用带来了独特优势。Anthropic希望社区可以在该模型的基础上进行更多创新,同时也乐于听到用户的反馈。这只是一个早期小规模的开源,他们未来还计划开源更多内容。
0000
评论列表
共(0)条相关推荐
Cradle的AI蛋白质编程平台获得2400万美元融资
要点:利用生成式方法进行蛋白质设计的生物技术和人工智能初创公司Cradle成功地吸引了大客户,获得了2,400万美元的新投资。Cradle采用生成式AI方法,将蛋白质设计比喻为一种“外星编程语言”,通过此方法大大缩短了从零开始创建有用且功能性蛋白质所需的时间和实验数量。该技术不仅局限于药物开发,还可在食品和工业应用中使用,且不需要专业的机器学习工程师操作,可直接交给科学家和实验室使用。站长网2023-11-28 15:55:260000离开OpenAI待业的Karpathy推出大模型新项目minbpe
要点:1、Karpathy宣布离开OpenAI后不懈努力,推出新项目minbpe,一天内GitHub标星量达到1.2k。2、minbpe项目旨在为LLM中常用的BPE算法创建干净、教育性的代码。3、minbpe项目提供了两个Tokenizer,实现训练、编码和解码等主要功能。站长网2024-02-18 14:46:350000理想MEGA风阻系数仅0.215 预计12月正式发布
理想汽车发布公告称,理想MEGA具有全球最低的风阻系数,仅为0.215。理想汽车强调,理想MEGA不仅拥有出色的空气动力学性能,还配合了先进的高压纯电平台和超高的整车集成效率。这些技术手段的应用,使得这款纯电四驱MPV能够达到全球最低的能耗,每百公里只需15.9千瓦时。站长网2023-11-07 14:09:510000继短暂禁用 ChatGPT ,意大利监管机构审查其他AI系统
一名高级官员表示,意大利数据保护局Garante计划审查其他人工智能平台,并聘请人工智能专家。该机构在3月份暂时禁止ChatGPT后,加强了对这项强大技术的审查。Garante是31个国家数据保护机构中最积极的一个,这些机构负责监督欧洲的数据隐私制度,即一般数据保护法规(GDPR)。站长网2023-05-23 15:37:240000Stack Overflow 推出 OverflowAI:为开发人员提供 AI/ML 解决方案支持
StackOverflow是一家以社区为基础的技术问题解答网站,为开发者提供技术咨询和获取答案的平台。StackOverflow网站截图站长网2023-07-28 08:37:330000