智源研究院开源代码生成训练数据集与评测基准TACO
站长网2023-12-25 18:52:261阅
TACO 是一个专注于算法的代码生成数据集,旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。
与当前主流代码评测基准相比,TACO 在数据规模、数据质量和细粒度评测方案上具有明显优势。它包括更大规模的训练集和测试集,每个题目都具备多样化的解题答案,并提供了细粒度的标签,如任务主题、算法、编程技能和难度等级。
实验结果表明,当前流行的代码生成模型在 TACO 评测中与 GPT-4存在显著差异,说明这一领域仍有巨大的提升空间。
TACO 数据集不仅提供了一个挑战性的测试方法,还能作为研究和改进模型性能的训练数据。通过社区的共同努力,可以激发更多创新的解决方案,进一步推动代码生成领域的发展。
具体特性如下:
规模更大:TACO 包括训练集(25443道题目)和测试集(1000道题目),是当前规模最大的代码生成数据集。
质量更高:TACO 数据集中的每个题目都尽可能匹配多样化的解题答案,答案规模高达155万条,确保训练时模型不易过拟合以及评测结果的有效性。
提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签,为代码生成模型的训练与评测更精确的参考。
TACO 开源地址:
论文:https://arxiv.org/abs/2312.14852
智源开放数据仓库:https://data.baai.ac.cn/details/BAAI-TACO
GitHub:https://github.com/FlagOpen/TACO
Hugging Face:https://huggingface.co/datasets/BAAI/TACO
新鲜AI产品点击了解:https://top.aibase.com/
0001
评论列表
共(0)条相关推荐
Arc浏览器发布新空间共享功能 支持通过一个链接分享多个网页组合
Arc发布了新的空间共享功能,用户可以将他们的多个网页组合成一个链接,并与朋友共享。而且,无论接收方是否有Arc浏览器,都可以在查看时保持和你一样的浏览体验,他们看到的文件与你共享时的布局和文件结构相同。站长网2023-10-27 11:44:340001代购十年沉浮:从月入6万到月入6000
“你们中国人怎么不太喜欢来韩国做代购了?”今年7月,做了多年代购的小雪在韩国乐天免税店采购时,接到了乐天新闻部的采访邀请,他们迫切想知道,为什么来乐天的中国代购比疫情前少了那么多。“我6月去乐天,还看到热门品牌基本都有人在排队,7月就只有三四个品牌有人在排队了”,小雪也不理解为什么来韩国的中国代购突然少了这么多,但她知道,如今的代购行业光景已大不如从前。0000OpenAI 联合创始人警告未来 AI 可能超越人类智慧:人类可能成为人工智能的一部分
站长之家(ChinaZ.com)11月1日消息:OpenAI联合创始人IlyaSutskever表示,当未来超级智能机器崛起时,人类可能会选择与人工智能融合。他甚至可能是第一个这样做的人。OpenAI联合创始人IlyaSutskever最近提出了一个引人注目的理论,他认为未来超智能机器崛起时,人类可能会选择与AI融合。站长网2023-11-01 10:53:580000京东618战报:苹果品牌成交额1秒破亿 言犀虚拟主播超100位
昨日晚8点,京东618正式开售。据京东公布数据显示,美的、海尔、小米、格力、Apple等品牌瞬间破亿,10分钟破亿的品牌数量同比增加了23%,超六成的新商家10分钟成交额突破五月日均全天,近五成中小商家成交额增长超200%。同时,小米、荣耀、OPPO、vivo、华为、三星等手机,以及MiniLED和OLED显示器、微单相机成交额同比增长均超100%;站长网2023-06-01 16:16:460000欧盟要求Facebook、TikTok和谷歌开始标记AI内容,以打击深度造假
欧盟方面正致力于监管人工智能,并要求科技巨头帮助人们判断越来越多的假图像、视频和音频是否是由人工智能创建的。包括谷歌、Facebook和TikTok在内的主要科技公司必须在8月25日之前开始识别哪些图像、视频或音频包含深度造假,否则可能面临欧盟数百万美元的罚款。站长网2023-06-08 07:06:160001