在生物学和语言学这两个看似毫不相关的领域中,蛋白质和语言 却展现出了惊人的相似性。它们都以基本单元为起点,通过组合规则 构建出复杂结构,进而传递 信息和功能。这种类比不仅揭示了自然界中隐藏的共性,也为自然语言处理 (NLP) 和 生物信息学 的交叉研究提供了新的视角。
1. 结构类比
1. 基本单元与层次结构
- 语言: 字母组成单词,单词组合成短语,短语进一步组合成句子 。
- 蛋白质: 氨基酸 (amino acids) 序列组成多肽链 (polypeptide chain),多肽链折叠形成二级结构 (α-螺旋、β-折叠),进而构建三级、四级结构,最终形成功能蛋白。
类比关系:
- 字母 ↔ 氨基酸
- 单词 ↔ 氨基酸序列
- 短语 ↔ 二级结构
- 句子 ↔ 三维结构(蛋白质折叠后形成的功能结构)
就像字母排列成单词,进而构建有意义的句子,氨基酸也按特定顺序排列,并通过化学键和空间排布折叠成特定的三维结构,从而实现 生物功能。
2. 组合规则类比
语言的语法规则
在语言中,上下文无关文法 (Context-Free Grammar, CFG) 定义了单词和短语如何组合以构成合法的句子。比如:
- S → NP VP (句子由名词短语和动词短语组成)
- NP → Det N (名词短语由限定词和名词组成)
蛋白质的折叠规则 (Folding Rules)
在蛋白质中,氨基酸的极性、疏水性、氢键、二硫键 等化学和物理规则决定了氨基酸序列如何折叠成稳定的三维结构。
类比关系:
- 语法规则 (Grammar Rules) ↔ 折叠规则 (Folding Rules)
- 语法错误 (Syntax Error) ↔ 错误折叠 (Misfolding, 如朊蛋白病)
就像语法错误会导致句子 语义不通 或 歧义,错误的氨基酸排列或折叠会导致 蛋白质功能异常。例如,阿尔茨海默症中的 β淀粉样蛋白错误折叠 就是这种错误的生物体现。
3. 层次关系类比
语言中的层次关系
- 成分结构 (Constituency): 语言中短语和短语间存在层次关系,例如名词短语、动词短语、介词短语等。
- 依存结构 (Dependency): 语言中词与词之间存在依赖关系,例如主谓关系、修饰关系。
蛋白质中的层次关系
- 层级折叠 (Hierarchical Folding): 蛋白质从一级结构 (氨基酸序列) 开始,逐步折叠成二级结构 (α-螺旋、β-折叠)、三级结构和四级结构。
- 化学依赖关系: 氨基酸侧链之间通过 氢键、二硫键、疏水作用 等相互作用,决定了蛋白质的最终空间构型。
类比关系:
- 成分结构树 (Constituency Tree) ↔ 层级折叠 (Hierarchical Folding)
- 依存结构树 (Dependency Tree) ↔ 氢键、二硫键等化学依赖关系
在语言中,动词与宾语 之间存在依赖关系;在蛋白质中,氨基酸侧链 间的相互作用决定了折叠方式和最终的空间构型。
4. 功能和语义类比
语言中的语义结构
- 语义: 句子的语义由词语和短语之间的依赖关系决定,并受上下文影响。
- 上下文语义: 词语的含义会因上下文而发生变化。
蛋白质中的功能结构
- 生物功能: 蛋白质的三维结构决定了其生物功能,如催化、调控、信号传导等。
- 配体结合与相互作用: 蛋白质的功能受到 结合位点、相互作用伙伴 和 细胞环境 的影响。
类比关系:
- 语义 ↔ 生物功能
- 上下文语义 ↔ 配体结合、蛋白质-蛋白质相互作用 (PPI)
在语言中,词的含义依赖于上下文;在蛋白质中,功能依赖于 结合位点、相互作用伙伴 和 细胞环境。例如,某种蛋白质在一种细胞内可能起到 抑制作用,在另一种细胞内则起 激活作用。
5. 信息传递和编码类比
语言的信息编码字词和语法规则用于编码信息,构建有意义的句子。
蛋白质的信息编码遗传密码 (Genetic Code) 将 DNA 序列翻译为氨基酸序列,并通过折叠规则编码生物功能。
类比关系:
- 字词 ↔ 氨基酸
- 语法规则 ↔ 密码子规则 (Codon Rules)
在语言中,不同的语法结构会导致语义的差异;在蛋白质中,不同的 密码子 (Codons) 编码同一种氨基酸,但突变可能导致 错义 (Missense) 或 无义 (Nonsense) 突变,从而影响蛋白质功能。
6. 前沿研究与应用
自然语言处理和 生物信息学 (Bioinformatics) 已经在某些应用上建立了联系,比如:
- 依存路径分析,同样的算法可以用于 蛋白质-蛋白质相互作用 (PPI) 提取。
- 图神经网络 (Graph Neural Networks, GNNs): 同时用于语法依存树和蛋白质结构图。
- DeepMind 开发的 AlphaFold 利用 深度学习 和 神经网络,预测蛋白质三维结构。类似于神经网络翻译,它也是使用同样的序列到序列 (Seq2Seq) 模型。
- 类似于 NLP 中的 Transformer 模型,AlphaFold 模拟了氨基酸序列间的 依赖关系 和 上下文语义。
7. 跨学科视角的力量
蛋白质与语言之间的类比,为 生物信息学、自然语言处理、人工智能 的交叉研究提供了新的视角。这种跨学科的思考方式,不仅加速 蛋白质结构预测、药物设计和生物信息提取的进展,也在深层次上揭示了自然界和信息世界之间的共性与美感。
如果继续追究,这种美感是如何产生的,本质上要归功于微积分和递归关系。自然界所有的力量和变化都可以用微积分来描述,体现为连续变化和累积效应。而递归则产生了自相似性。信息世界的模式是自然界的渐变和自相似性的数字映射,具有同样的代数拓扑结构,同样的拓扑连通性。
如果提取BERT的多层自注意力机制的Attention Weights,把它构造成高维图数据结构,想必它具有“自相似连通性”,而且其推演过程具有“递归组合产生的特性”,本质上是 对数据进行高维变换的同时,保持每个 Token 与其他 Token 的依赖关系,在重新排列上下文依赖的时候保持句法和语义连通性不变。这种特性抽象为:拓扑连通性和循环依赖性。BERT和自然语言的“上下文依赖”和“指代链”具有一种宽松的等价关系,代数拓扑称之为:“同伦现象” (Homotopy)。
推而广之,算法的本质,实际上是在保持基本数据拓扑特征不变的前提下,通过变换和重构,使其更易于计算和处理。就像橡皮圈在挤压变形后,孔洞的数量和连通性依然保持不变,数据结构在变换过程中,其拓扑特性也被保留并传递。这种变换不仅优化了计算过程,更揭示了数据背后的本质联系,为算法的高效性和准确性提供了理论基础。
目前火热的大语言模型的可解释性研究的实质是,揭露BERT之类的大语言模型在多大程度上,对自然语言进行挤压变形的时候仍然保留了其中的孔洞,还是像青春期的少年们,背着家长悄悄的去打了个耳洞,或者鼻子上套个环。
下图是一个自相似的曼德布洛特集:

8. 打油诗一首:
开口上同调,闭口纤维丛。
千层映射绕,没人看得懂。

发表评论