东北大学与麻省理工学院联手破解AI“黑箱“

张开发
2026/4/18 8:06:12 15 分钟阅读

分享文章

东北大学与麻省理工学院联手破解AI“黑箱“
这项由美国东北大学与麻省理工学院联合开展的研究于2026年3月28日发布于预印本平台arXiv论文编号为arXiv:2603.27070v1研究方向归属于计算机视觉与多模态人工智能领域。感兴趣的读者可以通过该编号在arXiv平台检索完整论文。**一 被一堵黑墙挡住的问题**现在的AI已经能看图、能读文字、能回答这张照片里有几只猫这样的问题甚至能解读医学影像、分析卫星图片。这类能同时处理图片和文字的AI系统学术上叫做视觉-语言模型Vision-Language Model简称VLM。它们就像一个同时能听、能看、又能说话的助手表现相当出色。然而有一个令人困惑的问题一直悬而未解这个助手究竟是怎么在大脑里把看到的图和读到的字融合在一起、最终给出答案的换句话说它的内部运作究竟是怎样的这个问题不是纯粹的学术好奇心。如果我们不知道AI是如何思考的就很难解释它为什么有时候会出错也很难让它变得更可靠、更安全。就像你买了一台神奇的机器它大多数时候都工作得很好但偶尔会莫名其妙地出故障而你完全不知道里面的线路是怎么连的——这种感觉令人非常不安。以往的研究者们尝试过各种方法来看清楚这台机器的内部。他们会观察AI在处理图片时哪些像素区域受到了关注这叫做注意力图或者追踪哪个输入词对最终输出影响最大这叫做归因分析。这些方法有点像只盯着某一颗螺丝钉来理解整台发动机确实能发现一些局部信息但对于理解整体的协同运作远远不够。东北大学与麻省理工学院的研究团队提出了一个全新的视角——不再盯着某颗螺丝钉单个神经元或单个词的影响而是观察整台发动机里所有零件之间的协作关系网络。他们把这个方法叫做神经拓扑Neural Topology分析。**二 给AI大脑画一张关系图**研究团队提出的核心想法可以用一个生活场景来理解。假设一家公司里有几千名员工你想了解这家公司的运作模式。你可以选择研究每个员工的个人简历单神经元分析但这效率很低而且看不到全貌。更有效的方法是观察他们之间的协作关系谁经常和谁一起工作谁是核心枢纽哪些部门之间联系紧密谁被孤立这种关系网络图能让你一眼看出公司的真实权力结构和运作方式远比逐个读简历有效得多。研究团队对AI的每一个处理层都画了这样一张关系图。具体来说当一张图片配上一个问题被送入AI模型时AI内部会逐层处理这些信息每一层都有数千个处理单元即神经元在工作。研究团队记录了每一层里所有神经元的响应数据然后计算任意两个神经元之间的协同程度——简单说就是当一个神经元活跃时另一个神经元是否也倾向于活跃这种协同程度用皮尔逊相关系数来量化得到的结果就是一张以神经元为节点、以协同强度为边权重的关系图称为神经元相关性图Neuron Correlation Graph。每一层都有这样一张图整个模型从输入到输出的所有层组合在一起就形成了AI处理信息时的神经拓扑全景。这个视角既比单个神经元的分析丰富得多又比试图追踪AI内部每一条信号通路即电路级分析更加可操作。为了让分析更精细研究团队还对同一个处理层构建了三种不同的关系图一种基于图片对应的神经元响应视觉拓扑一种基于文字对应的神经元响应文本拓扑一种基于图片和文字合并后的整体响应多模态拓扑。这三种图之间的差异就能揭示AI是如何分别处理视觉信息和语言信息、以及如何将二者融合的。**三 用图网络读懂关系图**有了这些关系图下一步是从中提取有用的信息。研究团队选择了一种叫做图卷积网络Graph Convolutional NetworkGCN的技术来做这件事。可以这样理解一张关系图本身是一堆数字需要一个工具把它读懂并压缩成一个紧凑的数字摘要。GCN就是这个读图工具。它会逐个神经元地考察每个节点与其邻居节点之间的关系从而提炼出整张图的结构特征。关键的设计细节在于GCN并不直接读取每个神经元的激活数值即那个神经元有多兴奋而是只看神经元之间的相关结构。每个神经元被赋予一个独特的身份标签one-hot编码GCN的任务是通过关系图的连接结构来理解这些身份之间的组织方式。这样做的好处是分析结论来自于神经元之间的关系模式而不是某个神经元单独有多强或多弱。最后研究团队用两种方式把整张图的特征汇总成一个固定长度的数字向量一种是对所有节点特征求平均捕捉整体倾向另一种是取所有节点特征的最大值保留最突出的结构信号。把这两种汇总方式拼接在一起就得到了每一层的结构指纹。有了这个指纹就可以拿它去预测模型的行为或者研究其内部组织方式。为了处理计算上的挑战研究团队没有保留所有神经元之间的完整关系这会产生数以千万计的边计算上不可行而是只保留相关性最强的一小部分边。实验表明保留1%到20%的最强边时预测效果基本稳定这说明最有用的结构信号确实集中在最强的那些协作关系中。**四 关系图真的能预测AI的行为吗**研究团队拿这套方法做的第一个测试是看它能否预测AI模型对各类任务的回答是否正确。被测试的三个AI模型分别是InternVL3-1B、Qwen2.5-VL-3B和LLaVA-1.5-7B涵盖了从小型到中型的常见视觉-语言模型。测试任务涵盖了多个方向。CLEVR数据集用来测数数能力比如让AI数图片里有几个物体TDIUC数据集测语义理解比如识别图片里的运动类型或颜色MMMU和MMMU-Pro测试跨学科的综合推理能力BLINK和EMMA则是更具挑战性的视觉感知和多模态推理任务。每个任务的测试方式是这样的从AI模型里提取每一层的关系图用GCN读取结构指纹然后训练一个简单的探针分类器来预测AI最终会给出正确还是错误的答案。同时用一个最简单的线性分类器作为对照组。结果显示基于关系图的GCN探针在大多数任务和模型上都优于线性分类器。最明显的提升出现在CLEVR数据集上GCN探针相比线性分类器在LLaVA上提高了约7.7个百分点在Qwen2.5-VL上提高了约4.3个百分点在InternVL3上提高了约1.3个百分点。TDIUC上的表现同样出色InternVL3的GCN探针准确率高达96.5%Qwen2.5-VL达到97.6%LLaVA达到95.4%均高于各自的线性基线。不只是分类任务数数这件事也被测试了回归版本——即预测AI数出来的具体数字是多少。结果同样令人信服GCN探针在均方误差MSE越低越好、R?越高越好和皮尔逊相关系数越高越好三项指标上均优于线性基线。以InternVL3为例线性探针的MSE为0.020GCN探针降低到0.007R?从0.996提升到0.999。这说明关系图里包含的不只是对不对的粗略信号而是能精确反映数量判断的细粒度信息。对于更难的多模态推理任务如MMMU、BLINK、EMMAGCN探针的优势相对缩小表现更加参差不齐。这说明神经拓扑对于那些需要AI将视觉和语言紧密配合的接地气任务特别有效而对于那些更依赖抽象推理的任务其优势则相对有限。研究团队还按照层的深度分析了探针表现。发现不同模型的最优层深度不同Qwen2.5-VL在第27层附近的探针准确率最高随后略有下降而LLaVA和InternVL3的准确率曲线则比较平坦或逐渐下降。这说明不同架构的AI在哪一层积累了最多的任务相关信息是不同的。**五 能抓住说谎的AI吗**现在的视觉-语言AI有一个著名的问题它有时会幻觉也就是信口开河地描述图片里根本不存在的东西。研究团队把神经拓扑用于检测这种幻觉行为。使用的数据集叫做MHaluBench包含2110个样本其中一半是AI对图片的正常回答另一半是AI产生幻觉的回答。任务是训练一个分类器仅凭从AI内部读取的关系图结构判断AI的某个回答是否属于幻觉。作为对照研究团队还设计了两个只看文字的简单基线一种用Word2Vec提取问题和回答文本的平均词向量即文字的平均语义另一种直接用文本长度作为特征。这两种基线代表了只看表面文字特征能否判断幻觉。结果明确GCN探针在三个模型上都大幅优于文字基线。具体来说Qwen2.5-VL-3B的GCN探针准确率高达91.0%LLaVA-1.5-7B达到90.8%InternVL3-1B达到78.9%。相比之下文字平均向量基线只有65.4%、64.9%和66.4%文本长度基线更低InternVL3上甚至只有50.0%相当于瞎猜。这说明AI在说谎时它内部神经元之间的协作模式确实发生了某种可被捕捉的变化这种变化远比文字表面的特征更能暴露幻觉。**六 视觉和语言在AI大脑里是怎么融合的**上述实验证明了关系图能预测行为但一个更深层的问题是AI在处理图片和文字时内部的组织方式究竟是怎样演变的两种信息是如何从各自独立变成协同工作的研究团队从三个角度对这个问题进行了分析。第一个角度是观察不同类型的令牌token之间的相关性随层深度如何变化。这里的令牌可以理解为AI处理图片时会把图片切成一块块图像块每块对应一个视觉令牌处理文字时每个词或子词对应一个文本令牌。研究团队计算了视觉令牌之间、文本令牌之间、以及视觉和文本令牌之间的平均相关性并追踪这些数值随层深度的变化趋势。结果显示出一个清晰的规律随着层数加深视觉令牌与文本令牌之间的相关性持续增强文本令牌之间的相关性也随之增强而视觉令牌之间的相关性则相对平稳。这个规律在多个模型和多种规模上都一致出现。这意味着在AI的浅层视觉信息和语言信息还是相对独立地被处理随着层数加深视觉信息越来越多地渗入语言处理的过程两者逐渐融合。这种模式与研究者们对解码器式语言模型的理解是吻合的视觉令牌更像是条件输入随着深度增加越来越深刻地影响语言侧的表达。第二个角度是观察枢纽神经元hub neuron的稳定性。在一张关系图里一个神经元的度degree是指它与多少其他神经元有强关联度越高就意味着这个神经元是关系网络里的中心节点类似于公司里那个认识所有人、掌握所有信息的核心联络人。研究团队把每层中度最高的前1%神经元定义为枢纽神经元。关键问题是对于不同的输入图片和问题枢纽神经元是否总是那几个如果每次输入都对应不同的枢纽神经元那说明这种结构只是随机涌现没有稳定意义如果枢纽神经元在不同输入下高度重合那就说明AI内部存在一些固定的核心枢纽是多模态处理的稳定组织中心。实验结果显示基于关系图定义的枢纽神经元确实具有很高的跨样本稳定性远高于基于激活数值大小定义的高活跃神经元也高于基于单一模态视觉或文本定义的枢纽神经元。也就是说关系图揭示出了一批真正稳定的核心节点而单纯看哪个神经元叫得最响并不能找到这些节点。进一步按层深度分析发现枢纽神经元的稳定性在中间层达到峰值与视觉-文本相关性增强的区间大致吻合。这意味着AI在中间层存在一批特别稳定的核心联络员它们在处理不同输入时始终担任组织多模态信息的关键角色。第三个角度是测试视觉关系图和文本关系图在结构上是否对齐即它们是否处于一个共享的结构空间中。研究团队用一种对比学习的方式InfoNCE目标函数训练了一个对齐模型让来自同一样本、同一层的视觉关系图和文本关系图彼此靠近让来自不同样本或不同层的关系图彼此远离。然后用GAUC图级别排名指标来评估对齐程度。以LLaVA模型的第6层为例多模态-多模态自对齐的GAUC达到0.960作为参考上限文本-图像对齐的GAUC为0.819低于自对齐说明视觉和语言路径在结构上确实有差异并未完全融合成一体而将LLaVA的文本关系图与其骨干语言模型LLaMA的文本关系图对比GAUC进一步下降到0.680说明多模态训练确实改变了语言模型原本的内部结构。换句话说多模态微调并没有把视觉和语言焊死成一个均质的整体而是让它们部分靠近的同时保留了各自的结构特色。**七 找到关键节点一戳就痛**以上分析都是看的角度最有说服力的证据来自动手——主动修改AI的内部关系看看模型的输出是否会随之改变。研究团队设计了三种干预实验。第一种干预是直接把被选中的神经元激活值清零即让该神经元完全失声比较不同选神经元策略带来的效果差异。选法有三种随机选、按激活数值大小选选那些叫得最响的神经元以及按关系图中的度值选选真正的枢纽神经元。结果非常清晰无论在TDIUC还是CLEVR任务上让枢纽神经元失声带来的性能下降都是最大的远超随机选和按激活强度选。在InternVL3-1B的第11层和Qwen2.5-VL-3B的第0层上消除枢纽神经元后模型在某些任务上的准确率下降幅度达到数十个百分点有的甚至超过50%甚至80%而消除同数量的高激活神经元或随机神经元造成的影响则小得多。这清楚地说明关系图中的枢纽神经元在功能上的重要性要高于那些单纯激活值大的神经元。第二种干预针对的是边而非节点即对关系图中最强的一条边即全数据集中协作关系最强的那对神经元进行干预。方法是固定这对神经元中的一个对另一个做不同处理把它替换为对方的激活值IDENTICAL即两个神经元的信号完全一致把它替换为对方激活值的负数OPPOSITE即信号完全相反或者把它替换为一个随机向量RANDOM即完全无关的噪声。三种干预带来的效果形成了明显的梯度IDENTICAL干预对性能几乎没有影响甚至在某些情况下略有提升RANDOM替换带来中等程度的性能下降而OPPOSITE替换造成的破坏最大尤其是在Qwen2.5-VL-3B上颜色识别和计数任务的准确率都出现了大幅下降。这说明一对神经元之间的关系中不仅神经元的身份重要它们之间信号的协调方向同向还是反向同样至关重要——关系图在边的层面也承载了功能意义。第三种干预是直接缩放特定枢纽神经元的激活值看看它的大小变化如何影响模型输出。研究团队在InternVL3-1B上选了第11层的第62号神经元在Qwen2.5-VL-3B上选了第0层的第71、318、294、528、583号神经元分别将它们的激活值乘以不同的系数从-1到2覆盖抑制、正常、增强三种情形。结果出乎意料地直观即使是很小的扰动也会造成颜色识别和数数任务准确率的明显下降而且这种下降对放大和缩小都同样敏感——曲线呈现出以原始值为中心的U形左右两侧都是性能的坑。这说明这些枢纽神经元在一个很窄的舒适区内工作激活值稍微偏离正常范围就会打乱整个系统的平衡类似于乐队中的指挥——声音太小没人听声音太大反而乱了节奏。**八 它和既有研究的关系**在VLM可解释性研究这个领域以前的主流方法大致可以分为两类。一类关注注意力机制分析Transformer架构中哪些位置在关注哪些输入另一类关注梯度或显著性图追踪哪些像素或词汇对输出贡献最大。这些方法提供的都是局部解释只能告诉你这张图的哪个区域最重要而不能解释这些区域的信息是如何在整个网络中被组织起来。另有一类研究方向叫做机制可解释性试图找出AI内部实现某种功能的具体电路——比如哪条神经元连接链条负责处理否定语义。这类研究极度细粒度但计算成本极高而且往往只能分析模型的某一个极小子集。神经拓扑方法恰好处于二者之间比局部归因更丰富因为它考察的是整个层内神经元之间的组织模式比全电路分析更可操作因为它不需要枚举每一条信号通路。用研究团队自己的话说这是一个有意义的中间尺度——足够丰富又足够实用。在神经科学领域这种从单个神经元上升到群体动力学的思维转变经历了几十年的发展逐渐揭示了大脑中枢纽节点、小世界网络和功能模块等组织原则。研究团队的核心论点是AI的多模态推理也更适合被理解为一种有组织的群体动力学现象而非若干独立组件的简单叠加。说到底这项研究最令人印象深刻的地方不只是它给出了一套新工具而是它把三件事统一在了同一个框架下预测模型行为探针实验、理解内部组织方式多模态结构分析以及主动影响模型输出干预实验。这三件事彼此印证共同指向同一个结论神经元之间的协作关系网络是理解AI多模态推理的一个有效切入点。归根结底这项研究做的事情就是给AI的大脑画了一张社交网络图发现了一小批社交核心人物然后用各种方式验证了这些核心人物确实举足轻重。这不仅帮助我们更好地理解AI是如何工作的也为将来修正AI的错误行为、减少幻觉、提高可靠性提供了一条新的思路。当AI越来越多地参与到医疗诊断、法律分析、教育辅助等高风险场景时能看清它内部在想什么这件事其重要性将会越来越突出。对于想进一步了解这项研究的读者可以通过arXiv编号2603.27070查阅完整论文或访问研究团队公开的代码库github.com/he-h/vlm-graph-probing自行复现相关实验。---QAQ1神经拓扑方法和传统的注意力图分析有什么本质区别A传统注意力图分析关注的是某个输入位置被关注多少本质上还是在看单个信息通道的重要性就像只看一条高速公路的流量。神经拓扑方法关注的是整个层里数千个神经元之间的协作关系网络类似于观察整个城市的交通网络结构——谁和谁连通谁是枢纽哪些路段协同繁忙。这种视角能捕捉到注意力图完全看不到的群体组织模式因此在某些任务上能更准确地预测模型行为。Q2枢纽神经元被干预后模型性能下降这么厉害是不是说明可以用这个方法来修复AI的错误A这是一个很自然的延伸想法但目前的研究还停留在识别和验证阶段尚未直接给出修复方案。研究证明了枢纽神经元对模型输出有实质影响这为未来针对性地调整这些关键节点提供了思路。不过从知道哪里重要到如何精确纠正错误还有相当距离需要进一步研究来确定如何安全、有效地调整这些节点而不引入新的问题。Q3神经拓扑方法对所有类型的视觉-语言任务都有效吗A不完全是。研究结果显示神经拓扑对那些需要视觉和语言紧密配合的接地气任务比如数物体个数、识别颜色、判断运动类别效果最好GCN探针相比线性基线有显著提升。但对于MMMU这类需要复杂跨学科推理的任务提升幅度则比较有限甚至部分指标未能超过线性基线。这说明神经拓扑捕捉的是与多模态感知融合密切相关的结构信号对于更抽象的推理任务则覆盖不足。

更多文章