AI2发布大语言模型开源数据集Dolma 包含3万亿个token
站长网2023-08-25 10:54:080阅
文章概要:
1. AI2推出开源数据集Dolma,包含3万亿个token,来自各类网络内容、学术出版物等。
2. Dolma主要以英文文本为主,遵循开放许可,免费向研究人员开放。
3. Dolma作为开放语言模型OLMo的基础,OLMo计划2024年初发布。
美国艾伦人工智能研究所(AI2)最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。
Dolma的数据将为AI2正在开发中的开放语言模型OLMo提供基础。OLMo的目标是成为“最好的开放语言模型”,计划于2024年初发布。为了开发OLMo,AI2构建了庞大的Dolma数据集。
Dolma第一个版本主要以英文文本为主。研究人员使用语言识别模型对数据进行筛选。为弥补少数语言方言的偏差,团队将模型判断为英文置信度50%以上的所有文本都包括在内。未来版本将会包括其他语言。
Dolma以开放许可的形式免费向研究人员开放。研究人员需要提供联系信息并同意Dolma的预期用途。同时建立机制允许根据要求删除个人数据。
Dolma的数据大部分来自非营利的Common Crawl项目收集的网络数据。此外还包含其他网络页面、学术文本、代码示例、书籍等。
在AI2看来,理想的数据集应该满足几个标准:开放性、代表性、规模和再现性。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。
项目网址:https://huggingface.co/datasets/allenai/dolma
0000
评论列表
共(0)条相关推荐
腾讯AI新专利可判断文件对应情绪
天眼查App显示,近日,腾讯科技(深圳)有限公司申请的“基于人工智能情绪处理方法、装置、电子设备及存储介质”专利获授权。站长网2023-09-19 15:36:180000雷军称小米SU7肯定亏了 小米SU7定价时最纠结的是盈亏点
昨晚,备受瞩目的小米汽车发布会落下帷幕,小米SU7系列车型的价格之谜终于揭晓。三款车型价格各异,以满足不同消费者的需求。其中,小米SU7后驱长续航智驾版售价为21.59万元;小米SU7Pro后驱超长续航高阶智驾版售价为24.59万元;而小米SU7Max高性能四驱超长续航高阶智驾版则定价为29.99万元。站长网2024-04-06 14:16:130000听说文心一言App霸榜了,那必须来一波全方位实测了
在大模型赋能的AI对话原生应用领域,文心一言App成为国内「首个」。8月31日凌晨,AI领域传来重磅消息:百度、百川智能、商汤等八家科技公司的大模型首批通过《生成式人工智能服务管理暂行办法》备案,即日起可以面向全社会开放服务。审批纷纷落地,多家公司抢跑,AI大模型有望在技术演进的同时加速进入原生应用、产业落地的新阶段。站长网2023-09-03 09:04:070000支付宝商家群升级:群功能免费免研发、可联动10大公私域场景
支付宝继合作伙伴大会宣布免费开放商家群后,10月12日,通过支付宝开放平台公众号宣布产品再度升级:商家群核心运营工具均免研发免费开放,还新增支付宝10大公私域入口与流量激励政策,进一步为商家私域运营降本增效。社群运营一直被认为是商家做私域的必经之路,此前商家做社群运营,需要自身具备相对成熟的私域流量体系,借助投放或营销活动等完成拉新。站长网2023-10-12 11:49:370000360智脑大模型面向公众开放 已接入360安全卫士、360安全浏览器等产品
360智脑大模型即日起将面向公众开放,用户可以通过360智脑官网(https://ai.360.cn/)、APP应用商店,下载“360智脑”APP;或升级360安全卫士、360安全浏览器、360搜索至最新版本,登录体验大模型服务。站长网2023-09-05 08:39:430000