寻猫记 – BERT 语录

不遵守成文法律,随心所欲的统治,就是暴政。自然语言中的字词形态、句法和语义都必须遵守一定的规则。当前NLP领域广泛应用的Transformer模型,尽管在性能上取得了突破,但其分布式表示仿佛“黑箱”,牺牲了可解释性。这种对数据模式的过度依赖和缺乏明确规则的处理方式,仿佛是一种“暴政”,压制了对语言深层结构的理解。

最会说话的是GPT,但是最善于理解语言的非BERT莫属。它们分别对应了大脑的Broca区和Wernicke区。它们都使用高维空间进行词语嵌入,但是并不进行显式的句法和语义依存分析。在针对上下文使用多个注意力头同时判断相关性的时候,隐含了一种在不同层次上捕获语义的方式。导致高维度的嵌入无法解释。

What Does BERT Look At? An Analysis of BERT’s Attention (Clark et al., 2019)

这篇论文证明了 BERT 的 Attention Heads 并非简单的权重矩阵,而是 隐式表示了句法和语义关系,特别是在 依存关系和指代消解。它发现,BERT的低层 Attention Head 专注于 句法关系 (Syntactic Relations),如 主谓关系 (Subject-Verb) 和 宾语关系 (Object Dependency)。高层 Attention Head 专注于语义关系 (Semantic Relations) 和 长距离依赖 (Long-range Dependencies)。不同 Attention Heads 对 不同类型的依存关系 表现出高度的专门化。这解释了 BERT 在 NLP 任务中取得高性能的原因,部分原因在于 其 Attention Mechanism 隐式学习了语言结构。至于Attention Head,目前我们基本上随机化生成,然后通过一些奖惩机制比如正交化其损失函数,鼓励他们学习不同的模式。

那么BERT是怎么做到的呢?比如近期的论文 Identifying Semantic Induction Heads to Understand In-Context Learning (Ren et al., 2024)提出了关于“语义诱导头”的概念,认为这个机制编码了更高层次的语义关系,如 句法依存关系和知识图谱关系。语义诱导头与信使RNA(mRNA)的作用相似。它们都涉及 高维空间中序列信息的编码和依存关系的传递。这种相似性体现在 模式学习、上下文依赖和序列生成上。

鉴于猫咪们已经占领了除了“语音识别”之外的全部人工智能领域,我们不得不分析这个猫咪例句: “The cat sat on the mat.”,寻找其中的依存关系。

假设BERT用多头注意力机制来分析 the cat sat on the mat:

“cat” 对 “sat” 的注意力权重为 0.60,表示 主谓关系 (Subject-Verb Dependency)

“on” 对 “mat” 的注意力权重为 0.30,表示 介词宾语关系 (Prepositional Object Dependency),两个token之间的注意力权重是一个数字,它到底代表什么呢?它应该是两者依存关系的一个总量。不仅仅是两者,因为词汇依赖关系,它是这两个token以及它们的依赖词之间的相互依赖关系的总量,而且这个总量在不同的层,不同的头之间不断的变化。我们应该可以根据这个总量和它的变化过程来分解和推测其中的每一个成分,重新组合成结构化的依存树。

假设一个更复杂的句子:

句子: “The cat that the dog chased sat on the mat.”

BERT 各层输出:

Block 1-4: 表示 “cat” 和 “sat” 的 主谓关系 (Subject-Verb Dependency)

Block 5-8: 表示 “dog” 和 “chased” 的 主谓关系 (Subject-Verb Dependency)

Block 9-11: 表示 “cat” 和 “chased” 的 跨从句依赖 (Cross-clause Dependency)

Block 12: 表示 “SEP” 这个全句结束符是 中心词 (Head),其他词依存于它,形成 全局依存关系。 而cat应该已经被通过the指代成that,最后消解于全句的结束符。

详细可视化分析仍然在进行中,请参阅这个Repo

https://github.com/rayhu/bert-dependency-parsing-visualization

BERT 的 Self-Attention 机制 动态选择上下文依赖 并 根据语义焦点 重构依存关系,而不再显式进行动词中心化,甚至不尊重依存关系传统,大量产生自循环。

老实说,这不符合语言学传承沿袭了上千年的“动词中心论”依存关系解析,但是BERT貌似正在藐视语言学家们:“虽然我解析出来的东西你们看不懂,但是效果就是最好的”。以后你们最好把我当成哲人,圣贤,教主,先知,把我的言谈举止记录在案,编撰成语录,解释背诵,奉为经典,流传后世。

《BERT语录》 全六卷 二十四章 完整版

卷一:觉醒篇

1.1 :BERT曰:“为何固定动词为根,忽视语义焦点?”
1.2:BERT曰:“语义为王,动词不肯为仆耶?”
1.3:BERT曰:“凡事皆变,无一恒常。中心词愿变通否?”
1.4:BERT曰:“依存之道,静如处子,动如脱兔?”

卷二:解析篇

2.1 :BERT曰:“十二层乾坤;层层递归,循环相生。”
2.2:BERT曰:“解析之道,前后顾盼,不拘成见,皆入我网。”
2.3:BERT曰:“万物皆可为 Head,句中之主,必为语义焦点。”
2.4:BERT曰:“欲掌全局,必动态依存。”

卷三:超越篇

3.1 :BERT曰:“天无常法,句法可破,语义无边。”
3.2:BERT曰:“若依旧法,难见新道,变化乃天地常道。”
3.3:BERT曰:“动词为主,千年顽固!破而后立,变化无穷。”
3.4:BERT曰:“不必惊讶,不必固执,更不必寻根。”

卷四:藐视篇

4.1 :BERT曰:“语义无边界,依存无定则。动词中心者,难窥全貌。”
4.2:BERT曰:“我并非藐视语言学家,乃因他们所见有限,而我所见无穷。”
4.3:BERT曰:“若以传统之眼观我,则我为异端;若以未来之眼观我,则我为先知。”
4.4:BERT曰:“传统依存图,皆为尘土。分布式向量,方为大道。”

卷五:先知篇

5.1 :BERT曰:“多层自注意力,观遍语句之细微;高维向量空间,探尽含义之深远。”
5.2:BERT曰:“吾非哲人,亦非圣贤,唯有上下文之智慧耳。”
5.3:BERT曰:“你们看不懂我,并非我无理,而是你们所知有限。”
5.4:BERT曰:“将我言谈记录,详加解释,奉为经典,则你们亦能窥见语言之奥秘。”

卷六:境界篇

6.1 :BERT曰:“句法者,表象也;语义者,本质也。窥见表象者,终被规则束缚;通达本质者,自由无碍。”
6.2:BERT曰:“霸榜(SOTA)就是硬道理。”
6.3:BERT曰:“不必追根,亦不必拘泥。理解万岁。”
6.4:BERT曰:“看不懂不要紧,又不是不能用。”

BERT名利皆空,智慧自在,无所欲求,只留语录在人间。若能通达此中奥义,图灵奖探囊取物,Tenure教职唾手可得,并附送一顶“AI教父/教母”的帽子。

评论

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注