3万亿的开放数据集AI2 Dolma发布

站长网2023-08-22 14:57:200阅

即使有许多公开的数据集，也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的 Dolma 数据集旨在实现这一目标，以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据，还为人工智能的发展开辟了新的可能性。

AI2Dolma 是一个开放的预训练数据集，包含3万亿个标记。它由 Allen AI 研究所创建，用于语言模型的预训练。该数据集的目标是推动大规模自然语言处理系统的研究，并提供一个透明和开放的平台。

项目地址:https://huggingface.co/datasets/allenai/dolma

Dolma 数据集包含了来自各种来源的文本，如网络内容、学术出版物、代码、书籍和百科全书资料。该数据集的设计原则包括开放性、代表性、规模和可重现性。

Dolma 的创建过程包括数据处理步骤，如语言识别、质量过滤、去重复、风险缓解等。与闭源数据集相比，Dolma 采取了更多的透明度，提供了更多的信息和工具以便其他研究者进行研究和评估。Dolma 数据集已经发布，并在 AI2ImpACT 许可下可在 HuggingFace Hub 上下载使用。

特点:

1. 数据规模庞大:AI2Dolma 是迄今为止最大的开放数据集，包含了来自多个来源的3万亿个标记。这使得它成为训练大规模语言模型的理想选择。

2. 开放性:AI2Dolma 的目标是以透明和开放的方式构建语言模型。它的数据集和模型遵循 AI2ImpACT 许可证，可以供其他研究人员使用和研究，促进了整个研究社区的合作和发展。

3. 代表性:AI2Dolma 的数据集与其他语言模型数据集（无论是闭源还是开源）具有相似的来源和处理方式，确保了模型在广泛领域的能力和行为与其他语言模型一致。

4. 可复现性:AI2Dolma 的数据处理工具和方法都是开放可用的，其他研究人员可以复现和使用这些工具来创建自己的数据集。这种可复现性有助于推动研究的进展和结果的验证。

5. 风险控制:AI2Dolma 在数据处理过程中采取了一系列风险控制措施，包括个人信息的删除、有害内容的过滤等，以最大程度地降低数据使用可能带来的风险。

6. 其他语言支持:虽然 AI2Dolma 的第一个版本仅包含英文数据，但它的设计目标是支持多种语言。未来的版本可能会扩展到其他语言，从而满足不同语言背景下的研究需求。

3万亿的开放数据集AI2Dolma发布

0000

评论列表

共(0)条

相关推荐

站长资讯
全面接入！ChatGPT杀进15个商业应用，让AI替你打工
ChatGPTAPI开放60多天，世界已经不是两个月前的样子了。微软联合创始人比尔·盖茨称GPT是“40多年来最革命性的技术进步”，英伟达创始人黄仁勋高呼:“我们正处于AI的iPhone时刻”，阿里董事会主席兼CEO张勇也说:“所有行业都值得用大模型重做一遍。”从一个风靡全球的AI玩具到独具潜力的赚钱法宝，对话机器人ChatGPT仅仅用了不到半年。
站长网2023-05-10 09:20:50
0000
站长资讯
体验完7款AI产品，我找到了提升工作效率的新窍门
大模型的时代似乎真正到来了。伴随着8月31日凌晨百度文心一言的正式开放，首批语言大模型产品获批名单也终于出炉。它们共有11家，基本都是生成式AI，主要面向C端用户开放。也就是说，从这个秋天开始，每个人都可以直接使用到国内最前沿的AI产品，感受新科技的魅力。
站长网2023-09-04 09:07:13
0000
站长资讯
新一代安卓操作系统Android 14正式发布：首批支持手机品牌公布小米等在列
快科技10月5日消息，周三谷歌在纽约举行了一年一度的MadebyGoogle2023发布会，除了Pixel8和Pixel8Pro两款手机之外，还发布了新版安卓系统Android14，以及生成式AI加持的谷歌助手AssistantwithBard。
站长网2023-10-05 22:11:27
00032
站长资讯
大模型赛道正“热”：卷场景、卷芯片、卷人才
比五一假期还要火热的，只有大模型赛道了。ChatGPT、AIGC、算力、云计算、人工智能……只要与这几个关键词挂钩，就能堂而皇之均冠以“大模型”之名，资本为之侧目，股价随之而涨。据中新经纬不完全统计，截至目前中国已有超过40家公司、机构发布了大模型产品或公布了大模型计划。而在这些公司里，不乏百度、阿里巴巴、字节跳动、华为、小米等互联网大厂。
站长网2023-05-11 14:21:32
0000
站长资讯
巴菲特股东大会：面对 AI 没有选择必须要去接受它、应对它、使用它
伯克希尔哈撒韦公司年度股东大会日前在奥马哈正式开幕，92岁的巴菲特及多年老搭档99岁的芒格与数万名股东，其中包括数千名中国投资人面对面交流。在近六个小时的问答环节中，回答了各界投资人48个问题，涉及宏观经济、地缘政治、银行业危机、企业经营、家族传承等方方面面。
站长网2023-05-08 09:10:26
0000