从语音到文字:降维的原理

为什么我们能在不同光照、角度下瞬间认出同一个朋友的脸以及他的情绪?或者为什么看似不同的手写数字,我们直觉就能分辨它们的含义,同时又知道是谁写的?又或者,当我们把生动丰富的口头语言变成简练的文字时,依旧能传递相似的意思?面对一张复杂的照片,我们可能只抓住了“某人 + 情绪”两个核心维度。听到一句话,我们提取的往往也是“句意 + 情感”。

例如:看一张照片:像素级别的信息量非常大(数百万像素),但大脑只提取了“这是某某人,表情开心”。

听一段话:声学波形极其复杂(数千维的频谱),但脑中印象只留下了“她在夸我,语气温柔”。

这些原始数据具有非常多的维度,极其庞大,我们在一瞬间把这些数据变成非常简单的少数维度的数据。比如,从上万维度的数据:{像素点1,像素点2,….像素点n}迅速压缩出{人物,光影,…背景},甚至最后只有两个维度的数据:{某人,情绪}。甚至,当我们回忆过往的对话时候,可能无法逐字复述,却能把大意讲得八九不离十。说明记忆也是降维存储的,把原始高维数据精炼成低维度的语义,并且予以复原。

流形(manifold),则是描述不同维度之间的关联,高维度的数据并不是相互独立的,它们受限在流形上,尤其是非线性流形。

比如,球面是一个 2 维流形,嵌入在 3 维空间。球面上每个点,可以用两个角度坐标(如纬度、经度)描述。这两个角度的变化,决定了球面上 3D 坐标 (x, y, z) 的联动变化。因此,三维坐标就降成了二维坐标。

联系曾经学习过的扩散模型,它在训练时学到的概率密度,等价于告诉它哪些数据模式是合理的。例如,生成一张人脸时,模型会自动排斥生理上不可能的形状,因为训练数据中就没有出现过。这些“合理模式”往往也体现了数据在高维空间的低维结构或者说流形。

什么是“非线性流形”?

流形就是一个空间的子集,比如一个面,一个形状。线性流形是理想化的欧氏空间子集,比如直线、平面、超平面,它们全局平直、没有弯曲。而非线性流形则是:在局部看上去像平面或欧几里得空间,但整体可能弯曲、扭曲。比如地球表面是球面流形。它局部看像平面,但整体是弯曲的。一张纸卷成螺旋,蚂蚁在上面走,感觉是 2D 的,但整体形状非常复杂。非线性流形就是这种整体弯曲的形状。在高维数据里,这种弯曲往往是由数据生成的隐藏因素造成的,而这种隐藏因素,实际上是科学规律或者自然规律。由于自然界中普遍存在的基本作用力,我们发现大量的数据生成具有自相似性,在不同尺度上呈现出同样的规律,这就是分形,分形不是线性组合,因此其对应的“秩”也是增长的,而且很难用常规的线性代数方法降维。这方面另有博文叙述。

在高维度数据中,手写数字、面孔图像、语音频谱等看似复杂,千变万化,但实际上它们的本质变化(写法弯曲、情绪、角度)只沿着少数几个“自由度”滑动,可以认为都分布在一个低维的、弯曲的流形上。数据的自由度受到限制,并不是完全高维度数据所具有的无穷可能。

我们可以如此理解,蚂蚁无法在3D空间里自由爬动达到每一个3D坐标点,它只能在卷曲的纸片上爬。同样,咧嘴而笑不可能把嘴巴咧到耳朵之后。虽然像素空间是高维的,似乎可以出现任何形状的“脸”。实际上,面部表情的变化被限制在生物结构允许的低维流形上。这也是低维流形对高维数据带来的限制,让人类或 AI 在处理数据时更容易聚焦核心的“概念维度”。

大脑是模式识别的降维计算引擎

大脑的工作方式像一个降维计算引擎。面对复杂、高维的外界输入(视觉、听觉、嗅觉等),大脑不会逐点分析,而是识别其模式和结构,迅速找到少数几个核心维度以及这上面的变量值,也就是心理学意义上的“感知维度”,而这就是映射到低维流形上的值。

用数据科学的语言来说,所有的像素点、光影、背景信息,组成一个高维空间,假设有10000 维,但这个面孔是谁和她是什么情绪这两个核心变量,其实是一个 2 维的非线性流形嵌入在高维空间中。这种感知模式,在机器学习中称为“流形假设”:所有这些复杂数据,其实都在一个低维的、弯曲的“流形”上滑动。大脑的本领在于,在一瞬间识别出这个流形,并投影到关键的“某人+情绪”两个维度上。

语音到文字也是自然的降维。当我们把一个生动的语音段落转写成文字时,实际上是把声音(声波)、语调(情绪)等高维复杂信号,压缩到一个相对“离散、静态”的文字表示。虽然这一步有损失(声调、表情等非文字信息丢失),但文字仍然保留了语言的局部结构。这也是日常交流中,语音到文字自然的“降维”过程。

人脑(以及先进的AI 算法)要做的就是:发现这个流形,并在一瞬间把复杂世界映射到核心维度上。

大脑在感知时,并不会遍历高维空间的每一个点,而是沿着这个流形“滑动”,迅速找到最核心的心理概念。能够在一瞬间做到这种复杂非线性映射,真正体现了生物智能的强大。

因为,人类对于复杂数据是分层治理和反应,大脑不一一处理每个像素,而是识别“模式”。视觉皮层的神经元对边缘、轮廓等模式更敏感,而不是对单个像素敏感。大脑同时进行多模态整合:将复杂输入简化成高层抽象。例如,面孔识别区(FFA)整合了光照、角度等变化,直接输出“这个人是谁”这样的低维概念。处理表情与情绪:额外维度,但依然是低维。面孔识别同时提取情绪的“肌肉张力模式”,迅速判断“他高兴”或“他紧张”。这些研究让我们明白:虽然输入是高维的,但大脑只关心“最有用的、最具区分度的那几个维度”。而这些维度,很难以特征工程的形式予以一一列举,必须从数据模式中学习。

AI的模式识别

AI的大规模预训练,就是在在统计上建立一个模型,人类的笑,从未出现把嘴巴咧到耳朵后面的情况。AI不理解肌肉和骨骼的生物极限,而只是在统计概率上,捕捉了这两种现象同时出现的概率。人类理解笑容的限制,是出于生理结构(面部肌肉、颅骨形状等)的深层认知。而 AI 只能从已知样本分布的频率中,推测某些情况是否常见。

创造力往往意味着,跳出训练数据中已存在的模式。组合新的概念或打破概率分布中的“高频模式”。但是,预训练模型的本质是最大化似然估计:越常出现的模式,越被模型重视。罕见的、未出现过的模式,模型几乎不会预测到。

所以,预训练 AI 不太可能有真正意义上的“创造力”。它只能重组或模仿已有的统计模式,而不是真正理解和突破物理、解剖学等深层规则。甚至包括人类,也很难有创造力,因为这需要明确的自我意识和反思能力,以强大的逻辑思维克服潜意识的障碍。


流形关注局部相关性

从日常经验出发:我们更在意“谁是邻居”而不是“离我大老远的都是谁”,这貌似很容易从进化生物学中找到解释。

流形的关键就是局部性,不同人手写的“2”,虽然像素差异巨大,但我们一眼能看出“都是 2”。手写数字“2”或“9”在像素空间是高维的,但写法的差别主要是局部变化:旋转、弯曲、笔画粗细等,心理学上形成“数字流形”。类似地,我们用语言交流,虽然口音、语速、用词不同,但彼此能理解。语言中的元音音色,也存在一个低维“声学流形”——人脑识别“a”或“o”的能力,就是在这个流形上判断相似度。

拓扑学关注的是:谁和谁是邻居(邻域结构),空间的连通性(比如有无孔洞),不在意角度、距离大小,只在意“谁粘在一起,谁分开”。

在高维数据分析中,这意味着手写数字簇:0~9 形成了不同的连通簇。人脸图像空间:同一人脸在不同光照下的变化,形成一个连续的流形。

如果以自然语言处理为例,虽然句法依存树、逻辑标签图,篇章关系图是离散图结构,和流形的连续结构不同。但是它们背后都是同样的“低维、局部邻居保持”的思想。

现代 NLP 越来越多地把这些图结构看作数据的骨架或“流形邻域”,在连续空间中做近似建模(比如 Graph-based Embedding、Diffusion Models for Graphs 等)。

因此,它们可以被看作“语言流形”的离散近似版本,并且可以用流形思想去做更深的理论建模和算法改进。

AI的流形感知算法

面对高维数据(成千上万维像素、音频频谱等),传统线性降维(PCA)只能捕捉直线型的“最大方差方向”,无法还原复杂的流形。

非线性降维算法恰恰解决了这一点:

t-SNE:通过高维邻居概率分布,重现局部“谁是邻居”的感知直觉。

Isomap:计算沿流形表面的测地距离,保留流形的整体形状。

UMAP:建立模糊单纯形的复合体,把“骨架”投影到低维空间。结果:手写数字、面孔等簇状结构被清晰可见。

模糊单纯形复合体的原理是:建立Fuzzy Simplicial Set把连通性的离散二值变成邻接概率,然后再拼成一个模糊的复合体,然后在低维空间建立一个“模糊邻居强度”,又尽量和高维空间保持一致,从而为高维数据创建出符合人类直觉的低维示意图。

这些技术不仅让可视化更自然、更接近直觉,也被应用在疾病分型(找出不同患者亚型)、用户群体行为模式分析、语义嵌入(自然语言处理里的上下文关系)等场景中。

大脑与AI的联系

一切都指向一个核心共识:

人脑处理世界的方式,靠局部邻居和连通性,这是“流形骨架”。
AI 降维算法借助拓扑学和信息论,模拟人类这种处理方式。
从语言到文字的过程,也是把多维、模糊的感觉世界,压缩成可交流的、简洁的“文字流形”。

当 AI 和心理学的直觉在降维工具中相遇,数据科学就不再是冰冷的数字,而是和人类感知同构的、直观的世界模型。

从心理学到拓扑学,再到 AI 科技,非线性流形不仅仅是一个抽象的数学概念,它更是人类感知世界的方式,也是文字、语言、数据科学中共同的底层逻辑。当我们把这些碎片拼在一起,就会发现:无论是 AI 还是人脑,它们都在回答同一个问题:我们如何在高维、复杂的世界里,找到自己最自然、最贴近心灵的解释?


参考

有损性与随机性:有损性是降维不可避免的副作用,但不必然导致随机性。非线性方程可能会导致多解,表现出较强的随机性。PCA 是线性有损,结果唯一、无随机性。

非线性降维与人脑的联系:大脑感知相似性更接近非线性测地距离。心理学实验表明:面孔、动作、语音都呈现低维流形。AI 中的非线性降维“模拟”了大脑的低维骨架提取过程。

拓扑学在 AI 中的实现:UMAP 使用模糊单纯形,保留高维邻居连通性。这让低维可视化结果更符合人类直觉。

日常类比例子:地球表面是球面流形;卷曲的纸片;文字是语言的压缩版,近似保留语义骨架。

评论

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注