斯坦福大学研究：通过自动偏好排名和NLP进展，降低大语言模型错误率

站长网2023-11-22 11:00:181阅

**划重点:**

1. 🚀 斯坦福大学和UNC Chapel Hill的研究人员通过自动偏好排序和NLP进展解决了大语言模型（LLMs）产生的虚构性错误的问题。

2. 🔄 采用新颖的方法，研究人员通过对LLMs进行微调，在无人工标记的情况下提高在开放式生成环境中的事实准确性。

3. 📈 他们利用NLP的最新创新，通过与外部知识库的一致性评估事实性，并使用直接偏好优化算法进行微调，显著提高了Llama-2的事实性。

研究人员从斯坦福大学和UNC Chapel Hill共同努力解决了大语言模型（LLMs）产生的事实性错误的问题，这些错误被称为“幻觉”。在没有人工标记的情况下，研究人员通过微调LLMs，采用新颖的方法，以在开放式生成环境中提高事实准确性。利用自然语言处理(NLP)领域的最新创新，他们通过评估与外部知识库的一致性来判断事实性，并采用直接偏好优化算法进行微调。这一方法显著提高了Llama-2的事实性，在7B规模下大幅降低了传记和医学问题响应的事实错误率。

图源备注：图片由AI生成，图片授权服务商Midjourney

为减少语言模型的事实错误，研究人员采用了各种策略，包括提示，内部表示扰动和基于检索的方法。随着模型规模的增加，解决冲突和事实性维护方面存在挑战。FactScore变体在训练期间采用检索来解决推理时间复杂性。通过微调的偏好学习有效地减少了不正确的事实。该研究引入了一种无参考方法，利用语言模型的不确定性来估计真实性。从自动生成的偏好对中学习事实性成为一种经济有效的方法，展示了在无人工干预的情况下潜在的改进。

着眼于开放式生成环境，该研究提出在不进行人工标记的情况下微调语言模型以提高事实性。他们利用最新的NLP创新，包括通过外部知识库判断事实性和使用直接偏好优化算法。该方法涉及从自动生成的事实性偏好排序中学习，相比其他策略在基准数据集上生成传记和回答医学问题时显著降低了事实错误率。

该研究通过一致性评估外部知识库或模型置信度来判断事实性。采用直接偏好优化算法进行微调，关注超越监督模仿的目标。该研究建议通过现有检索系统或新颖的无检索方法学习从自动生成的事实性偏好排序中学到的方法。评估包括FactScore等自动化指标，人工评估者，以及与推理时间干预和对比层解码等方法的比较。

该方法展示了从自动生成的事实性偏好排序中学习在提高语言模型事实性方面的有效性。微调的Llama-2模型在传记的事实错误率上降低了58%，在医学问题上降低了40%，相比RLHF或解码策略。人工评估者评价FactTune-FS模型显著高于SFT模型。GPT-4的评估和FactScore评级显示高度相关，表明FactTune-FS在减少事实错误方面取得成功。

该研究提出了增强语言模型事实性的有效策略，强调了长篇生成。探讨了两种方法:使用外部知识的基于参考的真实性估计和使用模型不确定性的无参考估计。通过任一方法微调语言模型都能一致减少不正确的事实。无参考方法为事实性改进提供了一种可扩展的自我监督策略，无需黄金参考语料库。实验结果指出了未来研究的有望方向，建议探索联合事实性调谐方法，并将该方法扩展到更大的模型，如GPT-4。

未来的研究建议探索将事实性调谐与现有方法结合，例如事实性调谐DOLA实验。建议进一步研究将事实性增强的解码技术与事实性调谐过程相结合，以增强事实性。评估结合不同方法，如事实性调谐和推理时间干预，可以提供有关互补机制的见解。对提取原子事实的简化方法进行调查，并将事实性调谐方法扩展到更大的模型，如GPT-4，提出了进一步探讨的建议。

论文网址：https://arxiv.org/abs/2311.08401

斯坦福大学研究通过自动偏好排名和NLP进展降低大语言模型错误率

0001

评论列表

共(0)条

相关推荐

2024年人工智能趋势展望:从炒作到现实的碰撞
2024年将是人工智能行业承前启后的关键一年，泡沫逐渐褪去，现实的锋芒开始显露。让我们一窥未来，看看AI将在哪些方面掀起波澜:1.商业化浪潮席卷OpenAI:告别学术沉稳，OpenAI将拥抱市场，推出类似苹果应用商店的平台，主推AI工具和模型的商业化。这无疑会加速AI的落地应用，但同时也引发对垄断和数据安全的担忧。
站长网站长资讯2023-12-20 09:45:57
0000
Mistral、AI2 发布新的开源 LLMs：更小，更便宜
站长之家(ChinaZ.com)1月31日消息：MistralAI和Allen人工智能研究所今天发布了新的大型语言模型（LLM），它们声称这些模型在各自类别中属于最先进的。Mistral的模型被称为MistralSmall3，而Allen人工智能研究所（通常简称Ai2）发布的则是Tülu3405B。这两款模型都可以在开源许可下使用。
站长网站长资讯2025-02-02 16:22:19
0000
站长资讯
小米将于5月23日晚8点开启618预售最高直降3000元
小米公司宣布，将在5月23日晚8点开启小米618科技焕新季预售活动，最高可享受3000元的直降优惠。这次预售活动很值得关注，小米官方海报中出现了RedmiK60系列和小米13标准版的图片。RedmiK60系列的标准版和Pro版本在此前已经降价了300元人民币，这次618购物节有望再次享受降价优惠。此外，小米旗下的新款机型小米Civi3将会在5月25日正式发布，也是一大亮点。
站长网2023-05-22 18:00:17
0001
站长资讯
吸引谷歌、 Salesforce 等巨头投资的生成式 AI 初创公司 Typeface 估值达 10 亿美元
站长之家(ChinaZ.com)6月30日消息:用于企业内容创作的生成式人工智能平台Typeface周四表示，在由Salesforce全球投资部门领投的B轮超额认购融资后，使公司估值达到10亿美元，融资总额达到1.65亿美元。
站长网2023-06-30 19:36:07
0003
站长资讯
OPPO发布安第斯大模型AndesGPT 将开源智能体框架
在今天的发布会上，OPPO推出了全新的ColorOS14，同时，OPPO还推出了自主训练的安第斯大模型（AndesGPT）。AndesGPT是OPPO自主训练的大模型，采用“端云协同”基础架构，基于千亿条知识与对话深度学习带来准确、自然的对话体验。它深度融合用户画像和个人数据，为每位用户打造专属的AI伙伴。
站长网2023-11-16 12:07:56
0000