3万亿的开放数据集AI2 Dolma发布
即使有许多公开的数据集,也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的 Dolma 数据集旨在实现这一目标,以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据,还为人工智能的发展开辟了新的可能性。
AI2Dolma 是一个开放的预训练数据集,包含3万亿个标记。它由 Allen AI 研究所创建,用于语言模型的预训练。该数据集的目标是推动大规模自然语言处理系统的研究,并提供一个透明和开放的平台。
项目地址:https://huggingface.co/datasets/allenai/dolma
Dolma 数据集包含了来自各种来源的文本,如网络内容、学术出版物、代码、书籍和百科全书资料。该数据集的设计原则包括开放性、代表性、规模和可重现性。
Dolma 的创建过程包括数据处理步骤,如语言识别、质量过滤、去重复、风险缓解等。与闭源数据集相比,Dolma 采取了更多的透明度,提供了更多的信息和工具以便其他研究者进行研究和评估。Dolma 数据集已经发布,并在 AI2ImpACT 许可下可在 HuggingFace Hub 上下载使用。
特点:
1. 数据规模庞大:AI2Dolma 是迄今为止最大的开放数据集,包含了来自多个来源的3万亿个标记。这使得它成为训练大规模语言模型的理想选择。
2. 开放性:AI2Dolma 的目标是以透明和开放的方式构建语言模型。它的数据集和模型遵循 AI2ImpACT 许可证,可以供其他研究人员使用和研究,促进了整个研究社区的合作和发展。
3. 代表性:AI2Dolma 的数据集与其他语言模型数据集(无论是闭源还是开源)具有相似的来源和处理方式,确保了模型在广泛领域的能力和行为与其他语言模型一致。
4. 可复现性:AI2Dolma 的数据处理工具和方法都是开放可用的,其他研究人员可以复现和使用这些工具来创建自己的数据集。这种可复现性有助于推动研究的进展和结果的验证。
5. 风险控制:AI2Dolma 在数据处理过程中采取了一系列风险控制措施,包括个人信息的删除、有害内容的过滤等,以最大程度地降低数据使用可能带来的风险。
6. 其他语言支持:虽然 AI2Dolma 的第一个版本仅包含英文数据,但它的设计目标是支持多种语言。未来的版本可能会扩展到其他语言,从而满足不同语言背景下的研究需求。
AI视野:哄哄模拟器爆火;零一万物多模态模型上线;InstantID模型发布;Depth Anything社交网络走红
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用哄哄模拟器爆火70万网友同时在线难倒开发者【AiBase提要:】🔥「哄哄模拟器」24小时爆火,70万网友在线哄赛博女友!10亿token一天烧完站长网2024-01-23 15:47:440001“百模大战”家家第一,大模型“跑分”作弊何时休?
今天在朋友圈看到一张图:国内的“百模大战”已升级成“两百模大战”,据不完全统计,今年1-7月国内共发布了64个大模型,截至目前叫得出名字的国产大模型已接近200家。这么多大模型,哪些是真能打的?在每天冒出来的各类“榜单”上出现了“家家第一”的情况,甚至已不止一款国产大模型“碾压”了GPT-4,且很多“世界顶级”大模型是出自刚成立的团队之手。站长网2023-11-29 11:15:040000华为、小米等将淘汰32位应用:逐步清理 适配64位
快科技6月29日消息,32位应用真的要彻底淘汰了。近日,华为开发者官网发布了一项公告,其中提到华为应用市场将全面推行在架应用升级为64位版本。2023年8月1日起,华为应用市场将逐步清理仅支持32位的应用。另外,小米、OPPO、vivo等厂商应用市场此前也已经早早宣布,将于2023年7月1日开始将逐步清理仅支持32位的应用。站长网2023-06-29 23:46:200000赵丽颖新妆爆火全网,“簪花生意”日入5万?
今生戴花,来世漂亮。一个小渔村,因为簪花的习俗,迎来了新机遇。数据显示,春节期间,以簪花闻名的蟳埔村接待游客36.1万人次,同比增长600%,旅游收入超过7000万元。这阵簪花潮也从春节一直火到了阳春三月,从线下旅拍,延伸出线上的“簪花生意”——在淘宝等电商平台上,仿“泉州簪花围”的饰品月销2000多件,按照108元的客单价算,有商家仅一个SKU就月入20万。0000LLaMA微调显存需求减半,清华提出4比特优化器
大模型的训练和微调对显存要求很高,优化器状态是显存主要开销之一。近日,清华大学朱军、陈键飞团队提出了用于神经网络训练的4比特优化器,节省了模型训练的内存开销,同时能达到与全精度优化器相当的准确率。4比特优化器在众多预训练和微调任务上进行了实验,在保持准确率无损的情况下可将微调LLaMA-7B的显存开销降低多达57%。论文:https://arxiv.org/abs/2309.01507站长网2023-09-08 18:15:500000