LLM360: 首个完全开源和透明的大语言模型
**划重点:**
1. 🌐 开源LLMs(如LLaMA、Falcon和Mistral)选择性公开了组件,而LLM360计划通过完全开源训练过程,支持AI研究的透明性和可重复性。
2. 🚀 LLM360发布两个7B参数的LLMs,AMBER和CRYSTALCODER,附带训练代码、数据、中间检查点和分析,旨在推动开源LLMs的全面透明。
3. 📈 研究在四个数据集上展示了AMBER模型在预训练期间的性能,强调对LLMs进行全方位开源,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。
在众多开源的大型语言模型(LLMs)中,如LLaMA、Falcon和Mistral等,大多数仅公开了特定组件,如最终模型权重或推理脚本。技术文档通常集中在更广泛的设计方面和基本指标上,限制了该领域的进展,因为训练方法的清晰度不足,导致团队不断努力揭示训练过程的众多方面。
为支持开放和协作的AI研究,来自Petuum、MBZUAI、USC、CMU、UIUC和UCSD的研究人员推出了LLM360。这一倡议旨在通过使端到端LLM训练过程对每个人都透明且可重现,全面开源LLMs。LLM360的目标是让所有训练代码和数据、模型检查点以及中间结果都能为社区所用。
与LLM360最接近的项目是Pythia,也旨在实现LLMs的完全可重复性。EleutherAI模型,如GPT-J和GPT-NeoX,已发布了训练代码、数据集和中间模型检查点,展示了开源训练代码的价值。INCITE、MPT和OpenLLaMA发布了训练代码和训练数据集,RedPajama也发布了中间模型检查点。
LLM360发布了两个7B参数的LLMs,分别是AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间检查点和分析。研究回顾了预训练数据集的详细信息,包括数据预处理、格式、数据混合比例以及LLM模型的架构细节。
研究提到了在先前工作中引入的记忆得分,并发布了研究人员易于找到其对应物的度量、数据块和检查点。该研究还强调了消除LLMs预先训练的数据的重要性,以及有关数据过滤、处理和训练顺序的详细信息,以评估LLMs的风险。
研究在四个数据集(ARC、HellaSwag、MMLU和TruthfulQA)上展示了模型在预训练期间的性能。HellaSwag和ARC的评估分数在预训练期间单调增加,而TruthfulQA的分数下降。MMLU的分数最初下降,然后开始增长。相对于ARC,AMBER的性能在诸如MMLU之类的分数上相对竞争,但在ARC方面稍逊色。微调的AMBER模型在性能上表现强于其他类似模型。
LLM360是一个推动开源LLMs全面透明的倡议。该研究发布了两个7B LLMs,AMBER和CRYSTALCODER,连同它们的训练代码、数据、中间模型检查点和分析。该研究强调了从各个角度开源LLMs的重要性,包括释放检查点、数据块和评估结果,以实现全面分析和可重复性。阅读论文以获取更多信息,对这项研究的所有贡献归功于该项目的研究人员。如果您喜欢他们的工作,不要忘记加入ML SubReddit、Facebook社群、Discord频道和电子邮件通讯,以获取最新的AI研究新闻和有趣的AI项目。
论文网址:https://arxiv.org/abs/2312.06550
项目网址:https://t.co/ZcLPtYQhdQ
带记忆的超级GPT智能体,能做饭、煮咖啡、整理家务!
随着AI技术的快速迭代,Alexa、Siri、小度、天猫精灵等语音助手得到了广泛应用。但在自然语言理解和完成复杂任务方面仍然有限。相比文本的标准格式,语音充满复杂性和多样性(例如,地方话),传统方法很难适应不同用户的自定义语言,因此,语音助手需要针对固定领域设计语义解析方案,而无法对完全开放的语言进行建模。为了解决这一难题,卡内基梅隆大学的研究人员基于大语言模型、视觉模型开发了HELPER。站长网2023-11-22 09:12:260001沃尔玛利用人工智能确保圣诞礼品顺利送达
**划重点:**1.🚀沃尔玛投资巨资发展人工智能,通过生成式AI工具强化库存管理系统。2.🌐人工智能缩短交付时间,预测销售并根据天气事件及时调整库存,提高供应链效率。3.🎄利用AI技术,沃尔玛改进了节日购物体验,使客户更轻松,避免库存浪费。0000老干妈回应被辛巴称为是预制菜:是调味料 不归类于预制菜
站长之家(ChinaZ.com)1月23日消息:近日,网红辛巴在直播间就预制菜言论进行了回应,他表示自己是被断章取义。辛巴指出,老干妈、奶粉等国民品牌都是预制菜,并强调预制菜只是执行标准的问题。针对这一争议,贵阳南明老干妈风味食品有限责任公司工作人员回应称,他们的油制产品是调味料,并不归类于预制菜。同时,公司方面表示如涉及侵权老干妈名誉,也会进行维权。站长网2024-01-23 08:17:240000GitHub:AI工具Copilot Chat将于12月全面推出
近日,GitHub宣布,作为当前GitHubCopilot订阅的一部分,GitHubCopilotChat将于12月全面推出,企业和个人用户均可使用,且这项服务将免费提供给教育用户和流行开源项目的维护者,并默认集成至GitHub网站和移动App中。站长网2023-11-09 09:44:070000充电12分钟续航500公里!理想超充站加快建设 年底目标300座
快科技8月31日消息,理想汽车今日宣布,重庆健龙、南京栖霞山大桥、邯郸大名、邢台宁晋、邢台清河、保定唐县、唐山滦州服务区超充站正式投入使用。截止至今,理想汽车已经在全国运营50座5C超级充电站。理想汽车在此前表示,在国庆长假来临之前,将有超过100座超级充电站建设完成。北京到阿那亚、上海到千岛湖、深圳到汕头、昆明到大理、郑州到西安等热门的自驾游路线将得到全面覆盖。站长网2023-08-31 20:57:550000