Gemma Scope:助力安全社区揭示语言模型的内部运作机制
语言模型可解释性团队
创建一个人工智能语言模型时,研究人员构建了一个能从海量数据中自主学习而无须人类指导的系统。因此,语言模型的内部工作机制常常是一个谜,甚至对训练它们的研究人员也是如此。机制可解释性是一个专注于解读这些内部工作机制的研究领域。该领域的研究人员使用稀疏自编码器作为一种“显微镜”,让他们能够看到语言模型的内部,并更好地了解其工作原理。
今天,我们宣布推出 Gemma Scope,这是一套新的工具集,旨在帮助研究人员理解我们的轻量级开源模型家族 Gemma 2 的内部工作原理。Gemma Scope 是为 Gemma 2 9B 和 Gemma 2 2B 提供的数百个可自由获取、开源的稀疏自编码器集合。我们同时开源了 Mishax,这是我们构建的一个工具,它促成了 Gemma Scope 背后的大部分可解释性工作。
我们希望今天的发布能够促成更具雄心的可解释性研究。进一步的研究有望帮助该领域构建更健壮的系统,开发更好的防护措施来应对模型幻觉,并防范来自自主AI代理(如欺骗或操纵)的风险。
解读语言模型内部发生了什么
当你向语言模型提出一个问题时,它会将你的文本输入转化为一系列“激活”。这些激活映射了你输入的词之间的关系,帮助模型在不同词汇之间建立连接,从而写出答案。
当模型处理文本输入时,模型神经网络不同层上的激活代表了多个日益复杂的“特征”。例如,模型的早期层可能学习回忆诸如迈克尔·乔丹打篮球这样的事实,而后面的层可能识别更复杂的概念,如文本的事实性。
然而,可解释性研究人员面临一个关键问题:模型的激活是许多不同特征的混合。在机制可解释性研究的早期,研究人员曾希望神经网络激活中的特征能与单个神经元(即信息节点)对齐。但不幸的是,在实践中,神经元会对许多不相关的特征做出反应。这意味着,没有明显的方法来判断哪些特征是构成激活的一部分。
这就是稀疏自编码器的用武之地。给定的一次激活只会是少量特征的混合,尽管语言模型可能能够检测到数百万甚至数十亿个特征——也就是说,模型稀疏地使用特征。例如,语言模型在回应关于爱因斯坦的询问时会考虑相对论,在写关于煎蛋卷时会考虑鸡蛋,但可能在写煎蛋卷时不会考虑相对论。
稀疏自编码器利用这一事实来发现一组可能的特征,并将每次激活分解为其中的一小部分。研究人员希望,稀疏自编码器完成此任务的最佳方式是找到语言模型实际使用的基础特征。
重要的是,在这个过程中,我们——研究人员——从未告诉稀疏自编码器要寻找哪些特征。因此,我们能够发现我们未曾预测到的丰富结构。然而,由于我们无法立即知道所发现特征的含义,我们会在稀疏自编码器指示该特征“触发”的文本示例中寻找有意义的模式。
Gemma Scope 的独特之处
先前关于稀疏自编码器的研究主要集中在探究微小模型的内部工作原理或大型模型中单个层的情况。但更具雄心的可解释性研究涉及解码大型模型中分层的、复杂的算法。
我们为 Gemma 2 2B 和 9B 的每个层和子层输出训练了稀疏自编码器,构建了 Gemma Scope,产生了超过 400 个稀疏自编码器,总计学习了超过 3000 万个特征(尽管许多特征可能重叠)。该工具将使研究人员能够研究特征在整个模型中如何演化,以及它们如何相互作用和组合以形成更复杂的特征。
Gemma Scope 还采用了我们新的、最先进的 JumpReLU SAE 架构进行训练。原始的稀疏自编码器架构难以平衡检测哪些特征存在以及估计其强度这两个目标。JumpReLU 架构使得更恰当地实现这种平衡变得更容易,显著减少了误差。
训练如此多的稀疏自编码器是一个重大的工程挑战,需要大量的计算能力。我们使用了大约 Gemma 2 9B 训练计算量的 15%(不包括生成蒸馏标签的计算量),将大约 20 个皮字节的激活数据保存到磁盘(大约相当于一百万份英文维基百科的数据量),并生成了总计数千亿的稀疏自编码器参数。
推动领域发展
通过发布 Gemma Scope,我们希望使 Gemma 2 成为开源机制可解释性研究的最佳模型家族,并加速社区在该领域的工作。
迄今为止,可解释性社区在使用稀疏自编码器理解小模型以及开发相关技术方面取得了巨大进展,例如因果干预、自动电路分析、特征解释和评估稀疏自编码器。借助 Gemma Scope,我们希望能看到社区将这些技术扩展到现代模型,分析更复杂的能力(如思维链),并发现可解释性的实际应用,例如解决只有在更大模型中才会出现的幻觉和越狱等问题。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)