腾讯 AI Lab联合多家学术机构发布大模型幻觉问题评估
要点:
1、大模型幻觉主要分为与输入、上下文及事实冲突的三类,研究热点在第三类。
2、相比传统模型,大模型幻觉评估面临数据规模大、通用性强、不易察觉等新难题。
3、缓解幻觉可从预训练、微调、强化学习、推理等方面入手,但仍有可靠评估等挑战。
近年来,大规模语言模型在许多下游任务上表现强劲,但也面临着一定的挑战。其中,大模型生成的与事实冲突的“幻觉”内容已成为研究热点。近期,腾讯 AI Lab 联合国内外多家学术机构发布了面向大模型幻觉工作的综述,对幻觉的评估、溯源、缓解等进行了全面的探讨。
论文链接:https://arxiv.org/abs/2309.01219
Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey
研究者根据大模型幻觉与用户输入、模型生成内容及事实知识的冲突,将其分为三大类。目前研究主要集中在与事实知识冲突的幻觉上,因为这最易对用户产生误导。与传统语言生成任务中幻觉问题不同,大模型幻觉面临数据规模巨大、模型通用性强以及幻觉不易被察觉等新难题。
针对大模型幻觉的评估,已提出多种生成式和判别式的基准,以问答、对话等不同任务形式检验模型的幻觉倾向。这些基准各自设计了判定幻觉的指标,但可靠的自动评估仍有待探索。分析认为,海量低质训练数据以及模型对自身能力的高估是导致幻觉的重要原因。
为减少幻觉,可从预训练、微调、强化学习等多个阶段进行干预。预训练可关注语料质量;微调可人工检查数据;强化学习可惩罚过度自信的回复。此外推理阶段,也可通过解码策略优化、知识检索、不确定度测量等方式缓解幻觉。尽管取得一定进展,可靠评估、多语言场景、模型安全性等方面仍存在诸多挑战。总体来说,大模型幻觉的评估与缓解仍有待深入研究,以促进大模型的实际应用。
苹果客服回应用户被App自动扣费8千:目前只能退450元
近日有报道称,一位苹果用户发现自己的银行账单中存在一笔苹果账户订阅费用,每周会自动从银行卡中扣款50元,已经持续了三年,累计金额高达8000元。经过查询,发现这笔扣款是用于一个名为"ScanGuru"的文件扫描软件。然而,用户表示自己完全不知道这个软件的扣款情况。站长网2023-11-02 11:31:230000V社改变Steam上处理AI内容的方式 开发者需披露详情
**划重点:**1.📋Valve要求游戏开发者在Steam页面上披露其游戏使用AI内容的方式。2.🕹️新的调查更新将要求开发者揭示其游戏如何使用生成式AI。3.🚫Valve除了成人内容外,将更加开放地发布使用AI技术的游戏。在针对技术的不断辩论中,Valve宣布了一系列改变,以更好地管理Steam平台上的AI内容。0000华为支付首批入驻伙伴包括滴滴美团同程猫眼等
据科技日报报道,近日华为支付正式开通。华为方面透露,花瓣支付公司支持下的华为支付是鸿蒙生态中的全场景支付服务,用户可以在华为钱包App开通使用。为加速鸿蒙生态建设,全新升级的负一屏也将支持华为支付。图源备注:图片由AI生成,图片授权服务商Midjourney站长网2023-10-18 21:20:130000人工智能与人工智能正在线上评价战场上对抗:「持续的猫鼠游戏」
线上评论战场上,人工智能与人工智能正在对抗。能够生成类似人类评论的生成式人工智能受到专门用于检测虚假评论的人工智能的对抗。这种对抗不仅影响着消费者,还关系着网络内容的未来。Fakespot的创始人兼CEOSaoudKhalifah表示,该公司已经看到大量生成式虚假评论。Fakespot正在努力找到一种方法来检测类似ChatGPT的人工智能平台生成的内容。0000AI视频创作应用Captions融资2500万美元
据外媒报道,AI视频制作应用Captions近日宣布获得2500万美元的B轮融资,由KleinerPerkins领投,SequoiaCapital、AndreessenHorowitz(a16z)和SVAngel也参与了融资。该公司目前已经筹集了总额为4000万美元的资金。Captions由Snap的前首席设计工程师兼微软前软件开发工程师GauravMisra创立。站长网2023-06-25 23:41:040000