14.3 事后解释方法:LIME、SHAP、积分梯度与反事实解释
事后解释方法是可解释人工智能领域的主流技术路径,其核心特征在于不改变待解释的原始复杂模型(“黑箱模型”),而是通过在其输入和输出之间构建一个外部的、可理解的解释系统或分析其内部状态,从而生成对单个预测决策或模型整体行为的解释。这类方法具有通用性强、与模型解耦的优点,适用于深度神经网络、集成模型等复杂架构。本节将深入剖析四种具有理论基础和广泛影响的事后解释方法:LIME、SHAP、积分梯度与反事实解释。
14.3.1 LIME:局部可解释的模型无关解释
LIME的核心思想是:在待解释的单个预测样本附近,用一个简单的、可解释的模型(如线性模型、决策树)来局部地近似复杂黑箱模型的行为[1]。
14.3.1.1 方法原理
给定一个复杂模型fff和一个待解释的实例xxx,LIME的目标是找到一个可解释模型ggg(例如,具有KKK个特征的线性模型),使得在xxx的局部邻域内,ggg的预测尽可能接近fff的预测。
具体而言,LIME通过以下步骤生成解释:
- 生成扰动样本:在xxx附近(如对于图像,随机遮蔽部分超像素;对于文本,随机移除部分单词)生成一组扰动样本{ z1,z2,...,zm}\{z_1, z_2, ..., z_m\}{z1,z2,...,zm}。
- 获取黑箱预测:利用复杂模型fff计算每个扰动样本ziz_izi的预测值f(zi)f(z_i)f(zi)。
- 样本加权:根据ziz_izi与原始样本xxx的相似度(如使用指数核函数πx(z)=exp(−D(x,z)2/σ2)\pi_x(z) = \exp(-D(x, z)^2 / \sigma^2)πx(z)=exp(−D(x,z)2/σ2),其中DDD为距离度量)为每个扰动样本赋予权重。距离xxx越近的样本权重越大。
- 拟合可解释模型:在加权的扰动样本集{ (zi,f(zi),πx(zi))}\{(z_i, f(z_i), \pi_x(z_i))\}{(zi,f(zi),πx(zi))}上,训练一个可解释模型ggg。最终的解释即为该可解释模型ggg的参数(例如,线性模型的系数),它反映了在xxx附近,哪些输入特征的局部变化对