斯坦福大学研究:通过自动偏好排名和NLP进展,降低大语言模型错误率
**划重点:**
1. 🚀 斯坦福大学和UNC Chapel Hill的研究人员通过自动偏好排序和NLP进展解决了大语言模型(LLMs)产生的虚构性错误的问题。
2. 🔄 采用新颖的方法,研究人员通过对LLMs进行微调,在无人工标记的情况下提高在开放式生成环境中的事实准确性。
3. 📈 他们利用NLP的最新创新,通过与外部知识库的一致性评估事实性,并使用直接偏好优化算法进行微调,显著提高了Llama-2的事实性。
研究人员从斯坦福大学和UNC Chapel Hill共同努力解决了大语言模型(LLMs)产生的事实性错误的问题,这些错误被称为“幻觉”。在没有人工标记的情况下,研究人员通过微调LLMs,采用新颖的方法,以在开放式生成环境中提高事实准确性。利用自然语言处理(NLP)领域的最新创新,他们通过评估与外部知识库的一致性来判断事实性,并采用直接偏好优化算法进行微调。这一方法显著提高了Llama-2的事实性,在7B规模下大幅降低了传记和医学问题响应的事实错误率。
图源备注:图片由AI生成,图片授权服务商Midjourney
为减少语言模型的事实错误,研究人员采用了各种策略,包括提示,内部表示扰动和基于检索的方法。随着模型规模的增加,解决冲突和事实性维护方面存在挑战。FactScore变体在训练期间采用检索来解决推理时间复杂性。通过微调的偏好学习有效地减少了不正确的事实。该研究引入了一种无参考方法,利用语言模型的不确定性来估计真实性。从自动生成的偏好对中学习事实性成为一种经济有效的方法,展示了在无人工干预的情况下潜在的改进。
着眼于开放式生成环境,该研究提出在不进行人工标记的情况下微调语言模型以提高事实性。他们利用最新的NLP创新,包括通过外部知识库判断事实性和使用直接偏好优化算法。该方法涉及从自动生成的事实性偏好排序中学习,相比其他策略在基准数据集上生成传记和回答医学问题时显著降低了事实错误率。
该研究通过一致性评估外部知识库或模型置信度来判断事实性。采用直接偏好优化算法进行微调,关注超越监督模仿的目标。该研究建议通过现有检索系统或新颖的无检索方法学习从自动生成的事实性偏好排序中学到的方法。评估包括FactScore等自动化指标,人工评估者,以及与推理时间干预和对比层解码等方法的比较。
该方法展示了从自动生成的事实性偏好排序中学习在提高语言模型事实性方面的有效性。微调的Llama-2模型在传记的事实错误率上降低了58%,在医学问题上降低了40%,相比RLHF或解码策略。人工评估者评价FactTune-FS模型显著高于SFT模型。GPT-4的评估和FactScore评级显示高度相关,表明FactTune-FS在减少事实错误方面取得成功。
该研究提出了增强语言模型事实性的有效策略,强调了长篇生成。探讨了两种方法:使用外部知识的基于参考的真实性估计和使用模型不确定性的无参考估计。通过任一方法微调语言模型都能一致减少不正确的事实。无参考方法为事实性改进提供了一种可扩展的自我监督策略,无需黄金参考语料库。实验结果指出了未来研究的有望方向,建议探索联合事实性调谐方法,并将该方法扩展到更大的模型,如GPT-4。
未来的研究建议探索将事实性调谐与现有方法结合,例如事实性调谐DOLA实验。建议进一步研究将事实性增强的解码技术与事实性调谐过程相结合,以增强事实性。评估结合不同方法,如事实性调谐和推理时间干预,可以提供有关互补机制的见解。对提取原子事实的简化方法进行调查,并将事实性调谐方法扩展到更大的模型,如GPT-4,提出了进一步探讨的建议。
论文网址:https://arxiv.org/abs/2311.08401
OpenAI CEO与三星、SK高管会面 探讨AI芯片相关合作
OpenAI的首席执行官SamAltman前往韩国,与三星电子和SK集团的高层会面,探讨建立一个AI半导体联盟和投资机会的可能性。据ETnews报道,Altman参观了三星半导体在韩国平泽的工厂,并与两家公司的高管进行了交流。Altman称正在寻求制造自己的AI芯片的计划。这一计划尚未得到官方确认,但Altman最近表示担心现有的和可能增长的AI系统开发和部署所需的芯片短缺问题。站长网2024-01-30 09:14:590000B站京东再度深度合作京火计划双11期间正式上线
据报道,B站与京东在双11期间达成深度合作,共同推出了名为“京火计划”的数据生态共建项目。这也是继去年B站与淘宝推出“星火计划”后,B站与电商平台的数据合作再次升级。站长网2023-10-30 14:24:190000戴尔与英伟达合作扩展「Project Helix」 提供生成式人工智能解决方案
站长之家(ChinaZ.com)8月1日消息:戴尔科技希望通过周一宣布的新解决方案组合,帮助客户驾驭生成式人工智能领域。站长网2023-08-01 09:02:550000努比亚新旗舰即将发布:35mm定制光学系统
努比亚即将发布一款影像新旗舰。据官方透露,该机将搭载35mm定制光学系统,效果超越一英寸镜头。此前,努比亚Z50相机采用了相同技术,在23mm镜头的基础上提升了像素密度,效果提升123%。此次新机搭载骁龙8Gen2处理器,配备UFS4.0闪存和LPDDR5X性能铁三角。具体规格和发布时间尚未公布。站长网2023-07-02 10:12:390001英伟达的江山,还能坐多久?
当下的AI赛场上,英伟达无疑是最闪耀的一颗明星。十多年来,英伟达在生产能够执行复杂AI任务(如图像、面部和语音识别)的芯片方面,建立了几乎无法撼动的领先地位。然而,凡事总有变化。近期,随着谷歌、IBM等巨头开始在芯片方面一齐发力,GPU领域的竞争格局,开始有了些微妙的改变。最近,IBM推出一款全新的14nm模拟AI芯片,效率达到了最领先GPU的14倍。站长网2023-09-05 16:39:340000