分解大模型的神经元！Claude团队最新研究火了，网友：打开黑盒

站长网2023-10-07 15:26:230阅

神经网络的不可解释性，一直是AI领域的“老大难”问题。

但现在，我们似乎取得了一丝进展——

ChatGPT最强竞对Claude背后的公司Anthropic，利用字典学习成功将大约500个神经元分解成了约4000个可解释特征。

具体而言，神经元具有不可解释性，但经过这一分解，Anthropic发现每一个特征都代表了不同的含义，比如有的分管DNA序列，有的则表示HTTP请求、法律文本等等，也就是具备了可解释性。

而通过人为地刺激其中任一特征，就能引导模型给出我们预期之内的输出。

比如开启DNA特征就能使模型输出DNA，开启阿拉伯文字特征就让模型输出阿拉伯文字。

Anthropic激动地表示:

他们这一方法很可能克服AI不可解释性这一巨大障碍。

而一旦我们能够了解语言模型的工作原理，就能很容易地判断一个模型是否安全，从而决定它是否应该被社会和企业所采用。

具体来看。

用字典学习分解语言模型

首先，光针对语言模型来说，它的不可解释性主要体现在网络中的大多数神经元都是“多语义的”。

即它们可以对多个不相关的事物进行响应。

例如，一个小型语言模型中的某个神经元会同时对学术引文、英语对话、HTTP请求、韩语文字等不同内容表现出强烈的激活状态。

而这会阻碍我们了解神经网络每一小部分的具体功能和交互过程，从而无法对整个网络的行为进行推断。

那么，是什么原因造成了多语义性这一特征?

早在去年，Anthropic就推测其中一个潜在的因素是“叠加”（superposition）。

这指的是模型将许多不相关的概念全部压缩到一个少量神经元中的操作。

同时，Anthropic也指出，字典学习——就是提取事物最本质的特征，最终让我们像查字典一样获取新知识，是解决这一问题的办法。

在此之前，他们已提出了一个叠加玩具模型，并证明:

如果一个对模型有用的特征集在训练数据中是稀疏的，那么该神经网络在训练过程中可以自然地产生叠加。

基于该玩具模型，他们提出了三种策略来找到一组稀疏且可解释的特征:一是创建没有叠加的模型，然后通过鼓励激活稀疏性;

二是使用字典学习在表现出叠加的模型中找到超完备的特征基础;

三是将前两种方法混合使用。

经过实验证明，方法一不足以杜绝多语义性，方法二则存在严重的过拟合问题。

于是在此，团队又采用了一种称为稀疏自动编码器的弱字典学习算法。

它能够从经过训练的模型生成学习特征，提供比模型神经元本身更单一语义的分析单元。

总的来说，该算法建立在大量先前的成果之上，尤其是在神经网络激活上使用字典学习的相关方法，以及解耦（disentanglement）相关的内容。

最终所得编码器在从叠加中提取可解释性特征方面取得了“令人信服的成功”。

具体来说，Anthropic采用一个具有512个神经元的MLP单层transformer，通过在具有80亿个数据点的MLP激活上训练稀疏自动编码器，最终将MLP激活分解为相对可解释的特征，扩展因子范围可以从1x（512个特征）增长到256x(131072个特征)。

Anthropic团队将他们得到的可解释性分析全部集中在一个称为A/1的运行中，共包含4096个特征，每个特征都注明了含义，它们可以按照预期被人工激活。

下面是它们的可视化图表:

集成长篇报告发布，7个关键结论

现在，Anthropic将以上全部成果以报告的形式发布。

报告题目为《迈向单义性:通过字典学习分解语言模型》（Towards Monosemanticity: Decomposing Language Models With Dictionary Learning）。

篇幅非常长，共分为四部分，分别为:

问题设置，阐述研究动机，以及他们训练的transformer和稀疏自动编码器。

特征详细调查，即“存在性证明”，证明他们发现的特征确实是功能上特定的因果单元。

全局分析，表明所得特征是可解释的，并且它们能够解释MLP层的重要部分。

现象分析，描述特征的几个属性，包括特征分割性、普遍性等，以及它们如何形成一个有趣的、类似“有限状态自动机”的系统。

总的来看，关键结论一共有7个:

1、我们能够用稀疏自动编码器提取相对单一语义的特征，但大多数学习到的特征都是相对可解释的。

2、稀疏自动编码器产生可解释的特征，在神经元基础中基本是不可见的。

3、稀疏自动编码器功能可用于干预和引导transformer的生成。

例如，激活Base64特征会导致模型生成Base64文本，激活阿拉伯文字特征会生成阿拉伯文本。

4、稀疏自动编码器产生相对通用的特征。特征彼此之间的相似性比它们与自己模型神经元之间的相似度更高（对应“普遍性”一节）。

5、当我们增加自动编码器的大小时，特征似乎会“分裂”。比如一个小型字典中的Base64特征在较大的字典中会分成三个，每个都具有更微妙但仍可解释的含义（对应“特征分割性”一节）。

6、仅512个神经元就可以代表数万个特征。

7、特征可以在类似“有限状态自动机”的系统中实现连接，从而完成复杂的行为（比如生成HTML功能）。

One More Thing

在评论区，有网友评价:

神经元就像一个神秘的盒子，Anthropic这项工作就相当于研究如何偷看盒子中的内容。

显然，这项工作还只是一个开头——

Anthropic同时还在加紧招聘可解释性相关的研究员和工程师。

点开来看，薪资在25万美元（约180万元）-52万美元之间，研究内容跟如上报告息息相关。

分解大模型的神经元Claude团队最新研究火了网友 打开黑盒

0000

评论列表

共(0)条

相关推荐

站长资讯
AI插件诱导注入数据外泄漏洞曝光攻击者可以将恶意指令注入Google Bard
近期，GoogleBard推出了强大的扩展功能，使其能够访问YouTube、搜索航班和酒店，以及用户的个人文档和电子邮件。然而，这也为潜在的安全漏洞敞开了大门。国外一博主介绍了一种称为间接提示注入的攻击方法，利用这一漏洞，攻击者可以将恶意指令注入GoogleBard，实现数据外泄。
站长网2023-11-08 17:02:13
0003
站长资讯
国内真无对手！比亚迪7月狂卖262161辆：能打十个新势力
快科技8月1日消息，比亚迪公布了其7月份销量，7月新能源汽车共交付262161辆，上年同期销量162530辆，同比增加61.3%；而比亚迪今年销量已累计达1517798辆，同比增长87.63%。据悉，比亚迪今年加大的海外业务布局，随着销售店的陆续建成，其海外销量也在逐步增加，比亚迪7月海外销售新能源车已达18169辆。
站长网2023-08-01 19:53:49
0000
站长资讯
特斯拉Model 3改款或半月内上市
据中国证券报报道，特斯拉门店已经开始接受Model3改款的预定。据知情人士透露，Model3改款有望在半个月内上市。新款Model3预计将在9月份开始批量供货，并在10月份开始交付。新款Model3的指导价预计在20万元左右，配备了更高容量的电池和HW4.0自动驾驶芯片。目前，特斯拉门店的现车虽然叠加多重优惠，但实际销售并不活跃，许多顾客选择持币观望等待改款上市。
站长网2023-08-16 11:08:38
0000
站长资讯
914种高熵合金（HEA）合金相速查
高熵合金(HEA)以其独特的成分和优异的性能应用于航空航天、核能、医药、船舶和海洋工程等领域。“增材研究”整理了2004年至今，914种高熵合金（HEA）以及合金相。其中包括：481个固溶体（SS）相，54个金属间相（IM），97个非晶相（AM），282个固溶体（SS）相金属间相（IM）。不同的生产和成形工艺会产生高熵合金相的变化，因此“增材研究”提供的高熵合金统一为冶炼状态下的结果。
站长网2023-05-25 07:33:39
0000
站长资讯
体验完7款AI产品，我找到了提升工作效率的新窍门
大模型的时代似乎真正到来了。伴随着8月31日凌晨百度文心一言的正式开放，首批语言大模型产品获批名单也终于出炉。它们共有11家，基本都是生成式AI，主要面向C端用户开放。也就是说，从这个秋天开始，每个人都可以直接使用到国内最前沿的AI产品，感受新科技的魅力。
站长网2023-09-04 09:07:13
0000