智源联合共建单位开源可信中文互联网语料库CCI
站长网2023-11-29 14:10:581阅
智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),旨在为大数据和人工智能行业提供安全、可靠的语料资源。
该语料库经过严格的筛选和清洗,包括基于规则和模型的过滤,以及针对评测数据集的严格过滤。首期开放的数据规模为104GB,时间跨度为2001年至2023年。
图源备注:图片由AI生成,图片授权服务商Midjourney
智源研究院表示,将继续扩充数据来源、完善数据处理流程,提供更多高质量、可信的数据资源。
同时,智源研究院还开放了其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。
下载地址:
智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI
HuggingFace:https://huggingface.co/datasets/BAAI/CCI-Data
0001
评论列表
共(0)条相关推荐
哈佛研究发现GPT-4使得企业员工绩效提升了40%
文章概要:1.哈佛研究指出,GPT-4帮助波士顿咨询集团(BostonConsultingGroup)的顾问在任务完成率、速度和质量上获得40%的提升。2.这项由哈佛、沃顿和麻省理工等研究人员进行的研究是首次大规模探讨企业中生成式AI的实际应用,揭示了AI在提高绩效方面的重要潜力。站长网2023-09-26 09:52:050000印度亚洲首富旗下公司4月推出本土版ChatGPT
印度本土的ChatGPT时代即将来临。近日,亚洲首富、印度著名企业家安巴尼(MukeshAmbani)旗下的信实工业,将在下月与印度八所顶尖高校研究院共同推出类似ChatGPT的本土化语言服务。这一名为“BharatGPT”的印度语言模型已在近日的技术峰会上首次公开亮相。其以印度教神话角色哈奴曼命名,通过11种印度本地语言,覆盖医疗、金融、教育等领域。站长网2024-02-22 10:40:180001支付宝支持换皮肤 会员积分即可兑换哆啦A梦等IP主题皮肤
支付宝开放平台宣布,支付宝目前已支持换皮肤,用户上支付宝搜“皮肤中心”即可体验,目前有旅行日记、可爱萌宠、竹林熊猫、星空漫步、支生活等免费领取皮肤。此外,支付宝还开放了IP合作玩法,已上线的有哆啦A梦主题皮肤、变形金刚付款码皮肤/红包封面、小黄人付款码皮肤等多款数字产品,用支付宝会员积分即可兑换。站长网2023-06-10 08:46:480000华为版ChatGPT“盘古Chat”将于7月7日发布
据钛媒体消息,华为即将推出一款名为“盘古Chat”的多模态千亿级大模型产品,将于今年7月7日举办的华为云开发者大会(HDC.Cloud2023)上展示并进行内测,主要面向ToB/G政企端客户。站长网2023-06-05 23:57:140000理论物理学家称聊天机器人造福社会并提高生产力
据CNN报道,理论物理学家米奇奥·卡库认为,公众对新的人工智能技术的焦虑是没有道理的。在周日与CNN的法里德·扎卡里亚的采访中,这位未来学家说,像OpenAI的ChatGPT这样的聊天机器人将有利于社会和提高生产力。但是恐惧使人们主要关注这些程序的负面影响,他称之为“华而不实的录音机”。站长网2023-08-14 11:35:450001