从归因到理解：抽象结构在AI可解释性与模型编辑中的角色

把握一件事物的抽象本质，意味着在其千变万化的表象下识别出某种恒定的共性。换言之，是在变化中寻找一种不变性。能够意识到这种不变性，正是我们所说的“透过现象看到真正的本质”，它是理解和建模复杂系统的关键所在，更是人类抽象思维能力的体现。

但问题来了：我们如何判断所找到的抽象表达是“合适的”本质？如果我们训练一个CNN神经网络，能够识别图片中的小鸟。那么把这幅小鸟的照片的像素一一判断，有些像素对于判断这是一只小鸟是重要的，我们给它们赋予一个灰度值，无关像素应该设为空白。利用下文中提到的工具，我们产生一张“像素重要性”地图。总体来说，我们能够看到一份模糊的小鸟外形，这没问题，可是，为什么有些与小鸟完全无关的像素也具有非零值？在多个实验中，与小鸟无关的像素，也在推理中发挥了重要作用。对它稍加更改，模型就无法识别小鸟。更有甚者，这种方法被利用来做对抗性破坏。所以，这个CNN模型不够精简，编码了无关模式。

可解释性工具：提供了“抽象”的一种方式

当前的神经网络模型是黑箱的，但我们仍想知道——它到底是靠什么做出判断的？比如：

识别“猫”时，是因为耳朵？胡须？毛发纹理？
预测“正面评论”时，是因为“amazing”这个词，还是语境？

我们尝试“归因”来找出关键特征，SHAP、IG、TCAV 等工具正是为这个目的设计的。

这些方法，某种意义上，是一种尝试去“抽象出模型决策逻辑”的方式。

MIT教授Been Kim 2023年受邀参加Stanford AI NLP Lab时，在她的演讲中提到：

Popular attribution tools like SHAP and IG are provably limited — they cannot achieve both high true positive and high true negative rates at the same time.

这里的两个关键指标，True Positive Rate（TPR）真正例率：模型成功识别出真正相关的特征的能力。True Negative Rate（TNR）真负例率：模型成功识别出真正不相关的特征的能力。一个好的解释工具应当：能突出真正重要的输入，具有高 TPR，又不错误地强调不重要的输入高 TNR。但 Been Kim 的研究指出：这两个目标在理论上是无法同时达到。换句话说，你可以有一个工具很好地指出重要特征，但它也会错误地认为一些无关特征也很重要。反之亦然。这意味着当前这些归因工具在解释复杂模型，尤其是深度学习模型时，无法给出既全面又精确的解释，这是一个本质上的理论限制。因此，即使某个解释看起来合理，它也可能完全错了。归因工具（如 SHAP、IG）试图告诉我们“模型看到了什么”，它们其实只是对函数形状的“局部假设检验” —— 看似合理，可能完全错误。

这种局限背后，是一个更深层的事实：

归因 ≈ 对模型函数的某种形状做“局部假设检验”。

你只是在当前输入附近做局部扰动，就想判断某个特征是否“重要”。这就像医生不做 CT、不查血，只问几句话就猜病因。极大可能会错判。

识别抽象结构：扰动，预测以及人类验证

那我们应该怎么做？一个可操作的双步骤检验：

Step 1: 扰动测试 (Perturbation)

我们可以对输入进行轻微扰动，观察模型输出是否稳定。

如果扰动的是无关部分，输出仍应保持不变；
如果输出变了，说明模型依赖了那些本不该重要的特征，归因失败。

这类似于同伦：你在“空间”上变动，但结构不应被破坏。

Step 2: 预测对抗 (Counterfactual Prediction)

我们可以设计几个对抗样本（counterfactuals）：

换掉我们认为“不重要”的特征
看模型是否仍能做出正确预测

如果预测成功，说明我们抽象对了；否则，说明我们的抽象表达还不够“稳”。

归因工具只是我们试图理解模型的一种方法，但它们自身也值得我们用科学方法来验证。抽象不是任意的，而是需要经受扰动测试和对抗预测的挑战，才能真正站稳脚跟。在这个意义上，抽象表达的正确性，就是扰动与回归中的“不变性”。

如果我们认同以上的观点，那么我们可以验证，语言模型是否真正的模拟了语言的抽象概念。那么首先要大致的估算：语言的深层次结构是什么？

语言的深层结构可以视为一个高维依存图（High-Dimensional Dependency Graph）：

高层编码语义、逻辑、篇章连贯性等
底层编码词法、句法结构

这种由人类定义的数据结构具有无尽的优点。如果用来验证抽象结构，具备可解释性，可复现性，可修补性。如果模型能够达到这一效果，可以说具备了抽象思维能力。

从这一视角来看，，目前的语言模型只针对自然语言建模，不针对大脑的抽象思维建模，因此它可以生成自然流畅的语言，但是不应该认为它真正理解了知识。网上很多人分享的经验里，针对大语言模型添加一些扰动，比如在最后面添加一些貌似无关的文本，就导致模型输出失准，因此，语言模型和上文提到的CNN模型一样具有弱点。进而证明了它并不具有抽象思维能力。严谨的说，语言模型是：在结构上编码了语言与事实之间的统计关联。

可编辑性是可解释性的后续

ROME 与 MEMIT 是两种从深度学习数据结构中定位并修改“知识单元”的技术，这和结构主义关于“结构比实体更真实”的观点相呼应。

ROME（Rank-One Model Editing）

出自 2022 年的论文《Editing Factual Knowledge in Language Models》
提出一种通过低秩矩阵修改（rank-one update）来直接编辑语言模型中某个事实知识的方法。
例如：将“巴黎是法国的首都”改成“巴黎是德国的首都”。
操作细节：找到模型中存储该事实的关键位置（如某层某个 MLP 层的激活），然后注入一个 rank-one 方向来替换掉旧的知识。

MEMIT（Mass-Editing Memory in Transformers）

出自 2023 年的论文《Mass-Editing Memory in a Transformer》
是对 ROME 的扩展：可以同时修改多个事实，而且更稳定。
用了一种类似 ROME 的线性更新机制，但通过优化目标和投影空间扩展，使其适用于成批编辑。
适合用于快速修复大型模型中的“幻觉”或过时知识。

编辑模型相当于政治操纵

给语言模型注入一个“错误的信念”，再改变它的意图目标，它的行为就会发生变化。这和政治操纵的方式如出一辙，上一轮政治操纵是：

选举被偷了，这相当于信念注入
我们要夺回国家，这是意图操纵
占领国会停止认证选举，这是后果，群体行为发生改变。

总结

如果一个模型的“知识”可以像数据库一样被编辑，那么：

“理解”是否还重要？
“知识”与“权重”之间是否能划上等号？
科学的“真理”是否可以从语言模型中的可编辑性重新理解？

语言模型的发展不仅是技术问题，更是一场认知和哲学的挑战。未来，真正通向“理解”的路径，不在输出的语言，而在我们是否能控制它内部的结构、变化和稳定性。这正是走向具有“抽象思维”的人工智能的关键路径。

从归因到理解：抽象结构在AI可解释性与模型编辑中的角色

可解释性工具：提供了“抽象”的一种方式

识别抽象结构：扰动，预测以及人类验证

Step 1: 扰动测试 (Perturbation)

Step 2: 预测对抗 (Counterfactual Prediction)

可编辑性是可解释性的后续

ROME（Rank-One Model Editing）

MEMIT（Mass-Editing Memory in Transformers）

编辑模型相当于政治操纵

总结

评论

发表评论取消回复

More posts

浣熊寓言-6

浣熊寓言-5

浣熊寓言-4

浣熊寓言-3

从归因到理解：抽象结构在AI可解释性与模型编辑中的角色

可解释性工具：提供了“抽象”的一种方式

识别抽象结构：扰动，预测以及人类验证

Step 1: 扰动测试 (Perturbation)

Step 2: 预测对抗 (Counterfactual Prediction)

可编辑性是可解释性的后续

ROME（Rank-One Model Editing）

MEMIT（Mass-Editing Memory in Transformers）

编辑模型相当于政治操纵

总结

分享到：

评论

发表评论 取消回复

More posts

浣熊寓言-6

浣熊寓言-5

浣熊寓言-4

浣熊寓言-3

发表评论取消回复