智谱AI发布评分模型CritiqueLLM 可评估文本生成模型性能
站长网2023-12-12 14:41:501阅
近日,智谱AI发布了高质量、低成本的评分模型CritiqueLLM,用于评估文本生成模型的性能。
传统的评价指标如 BLEU 和 ROUGE 主要基于 n-gram 重合度来计算评分,缺乏对整体语义的把握。而基于模型的评价方法则对基座模型的选取非常依赖,只有顶级的大模型才能取得令人满意的效果。
为了解决这些问题,CritiqueLLM 提出了一种可解释、可扩展的文本质量评价模型。它能够针对各种任务生成高质量的评分和评价解释。在含参考文本的场景下,CritiqueLLM 将大模型生成文本和参考文本进行对比,并给出了评分。
在8类常见的任务中,CritiqueLLM 的评价分数与人工评分的相关系数显著超过了其他模型,尤其是在无参考文本设定下,CritiqueLLM 在3个任务上超过了 GPT-4,达到了最优的评价性能。
CritiqueLLM 的方法包括四个主要步骤:用户询问增广、含参考文本评价数据收集、无参考文本评价数据改写和训练 CritiqueLLM 模型。通过这些步骤,可以得到适用于含参考文本和无参考文本设定的两种 CritiqueLLM 模型,用于评估文本生成模型的性能。
论文链接:https://arxiv.org/abs/2311.18702
Github 链接:https://github.com/thu-coai/CritiqueLLM
0001
评论列表
共(0)条相关推荐
宣亚国际:正在加速推进OrangeGPT研发进度
宣亚国际在互动平台上称,公司技术团队正在加速推进OrangeGPT的研发进度,1.0版本将于近期启动内测。公司提醒广大投资者防范概念炒作。6月2日,传播机构宣亚国际宣布围绕主营业务相关应用场景,依托闭源及开源GPT人工智能底层关键技术全力打造OrangeGPT,预计1.0版本将于近期启动内测。站长网2023-06-13 14:24:240000微软抛出重磅消息:索尼PS5 Slim主机或将在今年推出
快科技7月3日消息,近日,微软在FTC诉微软收购案的听证会上,又抛出了一个重磅消息”。在微软提交的文件中指出:XboxSeriesS的售价比SwitchOLED机型低50美元,PlayStation同样以399.99美元的价格销售价格较低的数字版,预计今年晚些时候将以同样的价位发布PlayStation5Slim。”0000谷歌AI与机器人联手打造新材料
**划重点:**1.🌐谷歌DeepMind的AI系统GNoME预测了近40万种稳定物质,而A-Lab自主系统学会在实验室中制造这些物质。2.⚙️GNoME通过仿真计算提出了220万种潜在化合物,A-Lab则使用最新的机器人技术在18天内制备出41种新型无机材料,其中9种是通过主动学习改进合成过程而获得的。站长网2023-12-01 16:04:270000蜂花郁美净抖音翻红,老国货如何抓住新生意
能够快速地把握营销热点、短时间内接住流量的背后,是郁美净等国货品牌默默修炼内功、拥抱新时代新渠道、推进数字化转型的成果。你用过的第一款护肤品是什么?面对这个问题时,许多人给出的答案,并不是活跃在机场免税店或高端百货商场中的国际大牌,而是一枚塑料包装的小袋白色乳霜——郁美净儿童霜。站长网2023-09-21 09:04:510000微软 Bing 聊天不再需要 Microsoft 帐户 但未登录用户每个对话限制 5 次
微软推出了由ChatGPT技术驱动的BingChat,这款人工智能聊天机器人在100多天前面世。过去几个月,这个聊天机器人已经引起了人们的关注,并且新增了一些功能。但它只限于使用微软账户的用户。但现在情况已经发生改变。微软正在推出支持未经身份验证用户使用BingChat的功能,这意味着任何人都可以使用这个工具。站长网2023-05-18 10:22:260000