维基百科+大模型打败幻觉！斯坦福WikiChat性能领先GPT-4

站长网2024-01-04 09:59:340阅

要点:

1. 维基百科大模型打败幻觉，斯坦福WikiChat在事实准确性和其他指标上表现优秀。

2. 斯坦福研究人员利用维基百科数据训练大模型WikiChat，成功减轻了幻觉问题，并在事实准确性和对话性方面超过了其他模型。

3. 通过优化和改进，WikiChat在各个方面的性能都显著领先，尤其在事实准确性方面达到了97.3%。

斯坦福大学的研究人员利用维基百科数据训练了一个大模型，命名为WikiChat，通过优化和改进，成功解决了大模型的幻觉问题，并在事实准确性和其他指标上表现优秀。他们的最佳模型在新的基准测试中获得了97.3%的事实准确性，远远超过了GPT-4的66.1%。此外，WikiChat还在相关性、信息性、自然性、非重复性和时间正确性方面领先其他模型。

论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf

项目代码:https://top.aibase.com/tool/wikichat

为了解决幻觉问题，研究人员采用了检索增强生成（RAG）的方法，并添加了几个重要步骤来进一步减轻幻觉，并改进对话性指标。通过这些优化，WikiChat在事实准确性方面比微调后的SOTA RAG模型Atlas高出8.5%。此外，研究人员还将基于GPT-4的WikiChat提炼成7B参数的LLaMA模型，这个模型在事实准确性方面能达到91.1%的高分，并且运行速度提高了6.5倍，能效更好，可以本地部署。

然而，解决大模型的幻觉问题并不容易。一般情况下，当检索不到相关信息或知识库中没有相关信息时，大模型会产生幻觉来填补空白。为了解决这个问题，WikiChat通过汇总和过滤检索到的信息，而不是直接生成响应。同时，研究人员还教导了LLM理解时间背景，以及在必要时让系统说「我不知道」。

通过结合大模型和维基百科数据，研究人员成功地提高了聊天机器人的性能。WikiChat的成功表明，维基百科数据在大模型训练中发挥了重要作用，通过检索增强生成的方法，可以有效解决大模型的幻觉问题，提高模型的事实准确性和对话性能。

维基百科x2B大模型打败幻觉斯坦福WikiChat性能领先GPT4

0000

评论列表

共(0)条

相关推荐

站长资讯
DCI-VTON：基于扩散模型的高质量虚拟试衣技术保留衣物细节
DCI-VTON是一种结合了样例基础修复和变形模块的扩散模型，用于实现虚拟试穿任务。它能够将一张图像上的衣物转移到另一张图像上，并在更高分辨率下保留衣物细节，生成逼真的虚拟试穿图像。论文地址：https://arxiv.org/abs/2308.06101v1
站长网2023-08-17 11:10:33
0004
大模型的苦，创业的AI 科学家最懂
创业9个月不到，李洋光是技术研发投入就烧光了2000万元，8月现金流断裂后，离开大厂，曾经想“用AGI改变世界”的李洋，创业未半，中道还背上了债务。
站长网站长资讯2024-10-30 09:25:24
0000
站长资讯
研究发现：谷歌生成式AI搜索引擎占据84%的搜索查询
**划重点:**1.🚀**Gen-AI（生成式AI）搜索引擎统治搜索市场:**最新研究显示，谷歌的人工智能搜索引擎Gen-AI占据了84%的搜索查询，对品牌和发布者的搜索流量造成巨大冲击。2.💡**搜索引擎优化格局改变:**Gen-AI搜索引擎通过分析搜索的上下文、情感、意图和细微差别，提供基于事实的意见。
站长网2024-01-19 11:46:40
0000
除夕放假，大厂这次想明白了
2023年10月25日，国务院办公厅发布了2024年春节假日安排，今年的春节假期有足足8天，但是假期是从农历正月初一到初八，除夕当天并不放假。消息公布后，关于“今年除夕不放假”引发热议。官方给出的解释是，鼓励各单位结合带薪休假等制度落实，安排职工在除夕休息。
站长网站长资讯2024-02-06 18:05:16
0000
爽剧爆火，节点解析200万成本如何24小时创造2000万收益
过去四年时间，很久没有听到“鸡汤女神”咪蒙的消息，一则短剧的火爆，再次引出了背后的昔日鸡汤霸主。近日，主打复仇的古装短剧《黑莲花上位手册》上线后在短时间内上架、下架，引发业内外一片哗然，咪蒙又被动地博了一次眼球。《黑莲花上位手册》是一部主打庶女复仇的古装小程序短剧，讲述了女主角被家中亲人各种折磨后，成功复仇的故事。
站长网站长资讯2023-11-29 11:48:47
0001