把握一件事物的抽象本质,意味着在其千变万化的表象下识别出某种恒定的共性。换言之,是在变化中寻找一种不变性。能够意识到这种不变性,正是我们所说的“透过现象看到真正的本质”,它是理解和建模复杂系统的关键所在,更是人类抽象思维能力的体现。
但问题来了:我们如何判断所找到的抽象表达是“合适的”本质?如果我们训练一个CNN神经网络,能够识别图片中的小鸟。那么把这幅小鸟的照片的像素一一判断,有些像素对于判断这是一只小鸟是重要的,我们给它们赋予一个灰度值,无关像素应该设为空白。利用下文中提到的工具,我们产生一张“像素重要性”地图。总体来说,我们能够看到一份模糊的小鸟外形,这没问题,可是,为什么有些与小鸟完全无关的像素也具有非零值?在多个实验中,与小鸟无关的像素,也在推理中发挥了重要作用。对它稍加更改,模型就无法识别小鸟。更有甚者,这种方法被利用来做对抗性破坏。所以,这个CNN模型不够精简,编码了无关模式。
可解释性工具:提供了“抽象”的一种方式
当前的神经网络模型是黑箱的,但我们仍想知道——它到底是靠什么做出判断的?比如:
- 识别“猫”时,是因为耳朵?胡须?毛发纹理?
- 预测“正面评论”时,是因为“amazing”这个词,还是语境?
我们尝试“归因”来找出关键特征,SHAP、IG、TCAV 等工具正是为这个目的设计的。
这些方法,某种意义上,是一种尝试去“抽象出模型决策逻辑”的方式。
MIT教授Been Kim 2023年受邀参加Stanford AI NLP Lab时,在她的演讲中提到:
Popular attribution tools like SHAP and IG are provably limited — they cannot achieve both high true positive and high true negative rates at the same time.
这里的两个关键指标,True Positive Rate(TPR)真正例率:模型成功识别出真正相关的特征的能力。True Negative Rate(TNR)真负例率:模型成功识别出真正不相关的特征的能力。一个好的解释工具应当:能突出真正重要的输入,具有高 TPR,又不错误地强调不重要的输入高 TNR。但 Been Kim 的研究指出:这两个目标在理论上是无法同时达到。换句话说,你可以有一个工具很好地指出重要特征,但它也会错误地认为一些无关特征也很重要。反之亦然。这意味着当前这些归因工具在解释复杂模型,尤其是深度学习模型时,无法给出既全面又精确的解释,这是一个本质上的理论限制。因此,即使某个解释看起来合理,它也可能完全错了。归因工具(如 SHAP、IG)试图告诉我们“模型看到了什么”,它们其实只是对函数形状的“局部假设检验” —— 看似合理,可能完全错误。
这种局限背后,是一个更深层的事实:
归因 ≈ 对模型函数的某种形状做“局部假设检验”。
你只是在当前输入附近做局部扰动,就想判断某个特征是否“重要”。这就像医生不做 CT、不查血,只问几句话就猜病因。极大可能会错判。
识别抽象结构:扰动,预测以及人类验证
那我们应该怎么做?一个可操作的双步骤检验:
Step 1: 扰动测试 (Perturbation)
我们可以对输入进行轻微扰动,观察模型输出是否稳定。
- 如果扰动的是无关部分,输出仍应保持不变;
- 如果输出变了,说明模型依赖了那些本不该重要的特征,归因失败。
这类似于同伦:你在“空间”上变动,但结构不应被破坏。
Step 2: 预测对抗 (Counterfactual Prediction)
我们可以设计几个对抗样本(counterfactuals):
- 换掉我们认为“不重要”的特征
- 看模型是否仍能做出正确预测
如果预测成功,说明我们抽象对了;否则,说明我们的抽象表达还不够“稳”。
归因工具只是我们试图理解模型的一种方法,但它们自身也值得我们用科学方法来验证。抽象不是任意的,而是需要经受扰动测试和对抗预测的挑战,才能真正站稳脚跟。在这个意义上,抽象表达的正确性,就是扰动与回归中的“不变性”。
如果我们认同以上的观点,那么我们可以验证,语言模型是否真正的模拟了语言的抽象概念。那么首先要大致的估算:语言的深层次结构是什么?
语言的深层结构可以视为一个高维依存图(High-Dimensional Dependency Graph):
- 高层编码语义、逻辑、篇章连贯性等
- 底层编码词法、句法结构
这种由人类定义的数据结构具有无尽的优点。如果用来验证抽象结构,具备可解释性,可复现性,可修补性。如果模型能够达到这一效果,可以说具备了抽象思维能力。
从这一视角来看,,目前的语言模型只针对自然语言建模,不针对大脑的抽象思维建模,因此它可以生成自然流畅的语言,但是不应该认为它真正理解了知识。网上很多人分享的经验里,针对大语言模型添加一些扰动,比如在最后面添加一些貌似无关的文本,就导致模型输出失准,因此,语言模型和上文提到的CNN模型一样具有弱点。进而证明了它并不具有抽象思维能力。严谨的说,语言模型是:在结构上编码了语言与事实之间的统计关联。
可编辑性是可解释性的后续
ROME 与 MEMIT 是两种从深度学习数据结构中定位并修改“知识单元”的技术,这和结构主义关于“结构比实体更真实”的观点相呼应。
ROME(Rank-One Model Editing)
- 出自 2022 年的论文《Editing Factual Knowledge in Language Models》
- 提出一种通过低秩矩阵修改(rank-one update)来直接编辑语言模型中某个事实知识的方法。
- 例如:将“巴黎是法国的首都”改成“巴黎是德国的首都”。
- 操作细节:找到模型中存储该事实的关键位置(如某层某个 MLP 层的激活),然后注入一个 rank-one 方向来替换掉旧的知识。
MEMIT(Mass-Editing Memory in Transformers)
- 出自 2023 年的论文《Mass-Editing Memory in a Transformer》
- 是对 ROME 的扩展:可以同时修改多个事实,而且更稳定。
- 用了一种类似 ROME 的线性更新机制,但通过优化目标和投影空间扩展,使其适用于成批编辑。
- 适合用于快速修复大型模型中的“幻觉”或过时知识。
编辑模型相当于政治操纵
给语言模型注入一个“错误的信念”,再改变它的意图目标,它的行为就会发生变化。这和政治操纵的方式如出一辙,上一轮政治操纵是:
- 选举被偷了,这相当于信念注入
- 我们要夺回国家,这是意图操纵
- 占领国会停止认证选举,这是后果,群体行为发生改变。
最近的例子:
1. 信念注入:“非法移民=犯罪者=资源掠夺者”⟶ 注入对“移民”的恐惧与仇恨
2. 意图操控:“必须站出来保卫边界/国家/文化”⟶ 将普通人推向主动支持驱逐/封锁政策
3. 行为结果:原本沉默的大众,开始支持极端立法,甚至参与网络暴力、举报邻居。
这就像在现实中运行的一个大型认知实验。AI的可解释性干预实验非常类似政治操纵手段,说明它们本质上遵守一个相似的抽象结构。
总结
如果一个模型的“知识”可以像数据库一样被编辑,那么:
- “理解”是否还重要?
- “知识”与“权重”之间是否能划上等号?
- 科学的“真理”是否可以从语言模型中的可编辑性重新理解?
语言模型的发展不仅是技术问题,更是一场认知和哲学的挑战。未来,真正通向“理解”的路径,不在输出的语言,而在我们是否能控制它内部的结构、变化和稳定性。这正是走向具有“抽象思维”的人工智能的关键路径。

发表评论