基于 Transformer 的大模型如何从参数中提取知识
站长网2023-07-26 15:01:190阅
最近一项由 Google DeepMind、特拉维夫大学和 Google 研究人员进行的研究,旨在探究基于 Transformer 的大型语言模型(LLMs)如何存储和提取事实关联。研究采用信息流的方法,研究模型如何预测正确的属性,并观察模型在不同层次中的内部表示是如何演变的。
论文地址:https://arxiv.org/abs/2304.14767
研究发现,模型的关键计算点与关系和主体位置有关。研究人员使用 "阻塞" 策略,阻止最后一个位置在特定层次上与其他位置产生关联,并观察推理过程中的影响。通过分析这些关键点和前面的表示构建过程,研究人员进一步确定了属性提取发生的位置。
研究人员发现了一种基于主体丰富过程和属性提取操作的内部机制。在模型的早期层次中,关于主体的信息在最后一个主体标记中得到丰富,而关系则传递给最后一个标记。最后一个标记使用关系通过自注意力机制从主体表示中提取相应的属性。
这些发现揭示了 LLMs 内部如何存储和提取事实关联的机制。研究人员认为,这些发现可以为知识定位和模型编辑开辟新的研究方向。例如,可以利用这种方法来确定 LLMs 获取和存储偏见信息的内部机制,并开发缓解这种偏见的方法。
总之,这项研究强调了研究 Transformer 模型如何存储和提取事实关联的内部机制的重要性。通过了解这些机制,研究人员可以开发更有效的方法来提高模型性能并减少偏见。此外,这种方法还可以应用于其他自然语言处理领域,如情感分析和语言翻译,以更好地理解这些模型的内部运作。
0000
评论列表
共(0)条相关推荐
阿里影业完成收购大麦网全部股权
阿里影业在港交所发布公告,已于2023年11月30日完成收购大麦网。9月19日,阿里影业曾公告,计划收购经营“大麦”品牌的PonyMediaHoldingsInc.的全部股权。此次交易的总对价为1.67亿美元,约合13.07亿港元。0000Midjourney 推出独立网站对于人工智能艺术而言意义重大
被许多人认为是范围最广、准确性最高且输出惊人写实效果的AI图像生成器之一的Midjourney,现在解决了其主要缺点。Midjourney网站截图站长网2023-12-18 12:15:400000华为云盘古大模型通过金融大模型标准符合性验证
据华为官方消息,2023年12月,在中国信通院组织的可信AI大模型标准符合性验证中,华为云盘古大模型成功完成了金融大模型的验证,并获得了优秀级(4级)评分。这一成绩不仅突显了华为云盘古大模型在金融领域的卓越性能,还使其成为首批通过金融大模型及行业大模型标准符合性验证的产品。站长网2024-03-04 19:34:000000心动了!iPhone 15 Pro超窄边框感受下:1.5mm破历史纪录 “跑马框”再见
快科技8月6日消息,综合目前已知爆料来看,iPhone15系列将有7大升级。其中一个比较明显的直观变化是,新款iPhone全系边框都会更窄。iPhone15Pro、ProMax的边框宽度仅为1.55mm,破历史记录。站长网2023-08-06 10:25:400001HuggingFace推出最大的开放合成数据集Cosmopedia 250亿个tokens
划重点:-🌍Cosmopediav0.1是由Mixtral7b生成的最大开放合成数据集,包含超过3000万个样本,总共约250亿个tokens。-💻数据集汇编了来自网页数据集(如RefinedWeb和RedPajama)的信息,涵盖教科书、博客文章、故事和WikiHow文章等各种内容类型。站长网2024-02-21 17:02:590000