维基百科+大模型打败幻觉!斯坦福WikiChat性能领先GPT-4
要点:
1. 维基百科 大模型打败幻觉,斯坦福WikiChat在事实准确性和其他指标上表现优秀。
2. 斯坦福研究人员利用维基百科数据训练大模型WikiChat,成功减轻了幻觉问题,并在事实准确性和对话性方面超过了其他模型。
3. 通过优化和改进,WikiChat在各个方面的性能都显著领先,尤其在事实准确性方面达到了97.3%。
斯坦福大学的研究人员利用维基百科数据训练了一个大模型,命名为WikiChat,通过优化和改进,成功解决了大模型的幻觉问题,并在事实准确性和其他指标上表现优秀。他们的最佳模型在新的基准测试中获得了97.3%的事实准确性,远远超过了GPT-4的66.1%。此外,WikiChat还在相关性、信息性、自然性、非重复性和时间正确性方面领先其他模型。
论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf
项目代码:https://top.aibase.com/tool/wikichat
为了解决幻觉问题,研究人员采用了检索增强生成(RAG)的方法,并添加了几个重要步骤来进一步减轻幻觉,并改进对话性指标。通过这些优化,WikiChat在事实准确性方面比微调后的SOTA RAG模型Atlas高出8.5%。此外,研究人员还将基于GPT-4的WikiChat提炼成7B参数的LLaMA模型,这个模型在事实准确性方面能达到91.1%的高分,并且运行速度提高了6.5倍,能效更好,可以本地部署。
然而,解决大模型的幻觉问题并不容易。一般情况下,当检索不到相关信息或知识库中没有相关信息时,大模型会产生幻觉来填补空白。为了解决这个问题,WikiChat通过汇总和过滤检索到的信息,而不是直接生成响应。同时,研究人员还教导了LLM理解时间背景,以及在必要时让系统说「我不知道」。
通过结合大模型和维基百科数据,研究人员成功地提高了聊天机器人的性能。WikiChat的成功表明,维基百科数据在大模型训练中发挥了重要作用,通过检索增强生成的方法,可以有效解决大模型的幻觉问题,提高模型的事实准确性和对话性能。
华为智界S7预订量破万 预售价25.8万起
华为于11月9日晚发布了首款纯电轿车智界S7,预售价为25.8万起。该车将于本月28日正式上市,预订可享受最高4万元的选装权益金。截至目前,智界S7的订单已经超过1万台。站长网2023-11-13 21:42:370000研究发现:人工智能的应用让乳腺癌的检出率提高了20%
根据一项在瑞典进行的研究结果显示,与传统的放射科医生筛查相比,人工智能能够准确地从乳房X光片中检测出更多的乳腺癌,提高了20%的检测率。这项研究是第一个探讨人工智能在乳腺癌筛查中的应用的随机对照试验。站长网2023-08-02 15:07:010000把这个看明白,你就能赚钱!
各位村民好,我是村长。绝大多数人,对于在朋友圈、公众号以及其他渠道看到别人打广告,内心都是抵触的。其一是你发布广告的时间、地点、方式不对,比如淘宝上都是广告用户不讨厌,大街上都是广告用户也不讨厌。但是你在看爱奇艺、腾讯、抖音视频的时候,让你看广告,你就心烦。其二是你发的内容,不符合一部人的内心需求,他们评价好坏的标准。0000任何“圣诞限定款”,其实都想赚你的钱
近几日,圣诞节的节日气氛越来越浓烈。而且这种氛围已经从购买圣诞树、圣诞鲜花逐渐“蔓延”到更多领域,比如瑞幸咖啡和库迪咖啡就推出圣诞限定饮品和周边,乐事更是推出了瞄准聚会场景的特供版薯片。作为西方重要节日,圣诞节影响力也已经从大洋彼岸传到我国,并逐渐引起了一股消费热潮。这个充满欢乐与浪漫的节日,不仅是文化和习俗的交流,也成为商家们一年中的重要销售节点。站长网2023-12-22 14:22:550000想让大模型在prompt中学习更多示例,这种方法能让你输入更多字符
站长网2023-09-13 09:29:440000