分类: 爱好

  • 浣熊寓言-6

    如果自然不平等、文明追求平等、意识反叛自然——现代人如何在三套底层系统之间找到自我?

    心理学为这种“撕裂”给出了最新的答案。

    前沿心理学者 Daniel Kahneman、Lisa Feldman Barrett、Jonathan Haidt 等人研究了“心理整合(Psychological Integration)”:他们的结论是,真正成熟的人,不是选择沉溺于自然或逃离文明,而是能在不相容的系统中找到自己的稳定点。

    这需要“三步走”的自我校准:

    1. 接受世界的不平衡(生物学层面)

    我们首先要承认,自然从不是为了“公平”而设计。不再试图让冰冷的自然法则变得温柔,这是摆脱第一重愤怒的关键。

    2. 保持心中的平等理念(文明层面)

    将伦理的追求视为一项持续的行动。让自己成为世界中的“修补者”——那个能感知不公、并愿意为之努力的个体,而不是自然法则的冷漠复读机。

    3. 找到属于自己的意义路径(意识层面)

    这既不是回到动物的本能,也不是沉没于道德的焦虑,而是走向一种新的“人类自由”。

    心理学家 维克多·弗兰克尔(Victor Frankl) 总结道:

    “人类不是在自然法则里找意义,人类是在冲突之中创造意义。”

    我们最高的自由,就是超越本能的驱动、超越环境的约束,赋予存在以个人化的价值。

    浣熊寓言的最终解读:

    即使有人仍然是那个辛苦求生的浣熊,即使有人仍然是那个索取无度的浣熊。但是总有人能看懂它们行为、并选择写出这个寓言。

    这就是人类的自由。

  • 浣熊寓言-5

    自然追求生存效率的不平衡,适者生存的差异化,

    但人类大脑却进化出一种人为的“对称伦理”:

    平等、公正、互惠、尊重,以及超越本能算计的无条件之爱。

    这些概念在动物界不存在,却在人类文明中成为衡量理想社会的黄金标准。

    哲学家 康德(Immanuel Kant) 强调:

    “人不是工具,人具有绝对价值。”

    但这句话与自然的法则是尖锐冲突的:自然冷酷地将个体视为基因传播的工具,其价值是相对的、可牺牲的。而康德则把个体当成目的本身,赋予其绝对且神圣的价值。

    于是现代人进入一种双重撕裂:

    意识层面上:我们追求平等,崇尚道德

    生物本能上:我们服从等级制度,屈从于繁衍后代的本能

    许多人的情感痛苦,正是来自这两套底层操作系统在日常决策中的持久冲突。

    这引出了思想家们讨论的 “人类例外主义”(Human Exceptionalism):它的核心是“人类是特殊的,可以超越自然,是自然法则的例外。”

    这种想法创造了文明的结构:科学、法律、伦理、人权、技术。

    但它也让人陷入痛苦:我们拥有动物没有的自我反思,于是我们也拥有动物没有的自我折磨。哲学家 雷蒙德·盖塔(Raimond Gaita) 说过:

    “人类能看到世界的不完美,所以人类痛苦。”

    我们既不再是动物,却也还不是神。

  • 浣熊寓言-4

    生物体从对称到不对称,这不是孤例个案,宇宙的诞生本身就是一次对称性破缺。

    宇宙的极早期,一团没有尺寸,没有时间的混沌的能量中,物质与反物质,如电子与正电子、质子与反质子,数量相等,性质完美对称。

    诸多数学家和物理学家发现:自然界在基础层面就偏向一边。正是这种微小的偏向,最终打破了物质与反物质的完美平衡。

    数学与物理学家艾米·诺特(Emmy Noether)在数学上解释了破缺与结构的关系:每一种对称,对应一种守恒;每一次破缺,对应一种结构的诞生。时间的平移对称性,对应了能量的守恒。空间的平移对称性对应了动量的守恒,其它的角动量守恒,电荷守恒也都对应不同的对称性。

    在这个基础上,李政道和杨振宁提出了宇称不守恒(Parity Violation)的理论,由吴健雄实验证实。这说明,宇宙在基本层面上的确存在“偏向”,造成了以后的不对称性。

    物理学家南部阳一郎Yoichiro Nambu 将自发对称性破缺的概念引入粒子物理学。彼得·希格斯(Peter Higgs)则提出了希格斯机制(Higgs Mechanism)。这些理论解释了我们如今看到的世界。

    如果宇宙没有这个起初的偏向、没有破缺:

    不会有物质

    不会有星系

    不会有生命

    不会有人类

    不会有浣熊故事

    确实,在宇宙大爆炸的最初时刻,各个方向绝对相同,处处均匀。如果这种完美对称持续下去,则不可能有任何有意义的结构。天空不会有日月星辰,世界将是一片永恒的混沌。

    宇宙就是在“偏向”中变得丰富。

    而我们人类的故事,正是从这种丰富中开始:我们对自然的发现,其实就在于探索它的结构。

    自从人类文明诞生以来,自然界没有发生什么根本性的变化,但是我们对于自然规律的诠释,却发生了巨大的、革命性的变化。

  • 浣熊寓言-3

    性别不是自然的偏见,而是自然的计算。

    生命最初的形态是无性的,每个个体都能独立复制自身,子代完全继承亲代的基因,不存在雄雌角色、不存在依赖,也不存在不平等。

    这是一种绝对简洁、绝对对称的生殖方式,真正做到了“人人平等”。

    然而,这种完美缺乏真正意义上的基因多样性。

    在环境剧烈变动、气候突变或新型病原体来袭时,无性种群往往无法快速演化,从而集体灭绝。

    漫长的年代中,出现了有性生殖,带来基因重组,增加了适应力。

    从“人人平等”,到“两性差异”,这是一种生物学意义上的对称性破缺现象(Symmetry Breaking)

    生殖细胞本来大小相同、成本对称,但随着演化压力增加,系统中出现了两种极端的策略:

    策略 A:投资质量

    • 造少量昂贵、营养丰富的大型配子

    • 强调早期生存

    • 追求稳定与高成功率

    策略 B:投资数量

    • 造海量廉价、小型、高流动性的配子

    • 强调概率

    • 以数量优势弥补个体弱点

    进化生物学家 George C. Williams 和 Walter Bodmer 指出:

    这是资源分配不对称导致的破坏性淘汰(Disruptive Selection)

    中等大小的配子(不大不小、不贵不便宜)全被淘汰。

    系统的平衡被推向两端,最终形成:

    异配生殖(Anisogamy) —— 现代性别的根源

    形成了性别的数学本质:

    • 雌性:高资源投资、高风险、高损失成本

    • 雄性:低投资、低风险、高数量竞争

    英国进化学家 John Maynard Smith 在《The Evolution of Sex》中给出了结论:

    性别,是生命为了生存而主动选择的不对称。

    生殖策略从此固定在一个无法逆转的结构中:

    一方付出大,一方付出小。

    这并非偏见,而是生物系统经过数十亿年筛选后的最优解。

    电脑模拟证明:不对称是必然结果

    从 1980 年代起,Maynard Smith、Bell、Kirkpatrick 等人进行的大量计算机模拟表明:

    • 如不加入资源差异 → 配子大小保持对称

    • 只要加入竞争与环境波动随机性 → 系统必然两极化

    • 异配生殖出现后 → 性别无法退化回对称状态

    换句话说:

    性别不是出现了,性别是无法不出现。

    这是数学和生物学共同决定的。

    但是性别远比“雄/雌”还要复杂,在真菌,藻类等原始生物中,有成千上万种“性别”(mating types)。

    性别的核心逻辑是资源分配,而非数量多少。

    两性(male/female)只是资源不对称导致的一种进化结果,不是生命的唯一可能。

    性别乃是生命从完全对称,走向复杂、不对称、多样性的表现形式。

  • 浣熊的寓言-2

    感恩节夜里,一只浣熊辛苦推倒垃圾桶,另一只姗姗来迟,直接享用成果。前者畏畏缩缩,后者理所当然——却形成一种稳定的合作。

    显然不公平,却稳定。

    显然不对等,却和谐。

    违反现代人的平等直觉,却符合自然界的系统逻辑。

    博弈论中有一个经典的例子,智猪博弈,简直和浣熊寓言异曲同工。出力的大猪吃小头,清闲的小猪吃大头,看起来非常不公平,但是这是数学上的最优策略。

    数学家 约翰·纳什 (John Nash) 通过纳什均衡揭示了系统稳定状态的本质:

    对称是脆弱的: 在许多竞争和合作博弈中,如果所有参与者都采取完全相同的对称策略,系统往往处于一个不稳定的、次优的状态。任何一方都有动机偏离,从而引发连锁反应。

    不对称具有稳定性 : 纳什均衡通常是一个非合作博弈的最优解。在这个均衡点上,没有任何一方通过单方面改变自己的策略能获得更好的结果。这个均衡点,常常是一个不对称的策略组合,这些选择合起来,构成了系统整体的稳定。

    进化生物学的开创者约翰·梅纳德·史密斯(John Maynard Smith),用博弈论解释动物社会的行为模式,不是公平维持合作,而是最省冲突、能持续的策略维持合作。他给取名为Evolutionarily Stable Strategy进化稳定策略,ESS。

    正如理查德·道金斯(Richard Dawkins)在《自私的基因》中所说:
    “自然不会追求公平,自然只追求可被复制的策略。”

    博弈论以及进化生物学共同解释了浣熊行为,一个负责打开资源,一个负责享用,角色不对等,却减少争执。不公平,系统却稳定。就像某些婚姻、某些公司结构、甚至某些国家制度——权利和福利不平衡,却能持续。


    数学家 冯·诺伊曼 (Von Neumann) 等人在更广泛的系统理论中阐述这样的主张:

    1. 不对称是抵御扰动的机制。 一个高度对称的结构,任何一点的扰动都会迅速扩散并破坏整体。而不对称(如冗余备份、权力分层)能局部化风险。
    2. 不对称是结构性的最优解。 它使得系统资源能够高效地分配给最适合的角色,从而实现整体效益的最大化,确保了系统的长期、低成本、可持续运行。

    数学中的博弈论,可以在实际运用中用来衡量理性选择和成本效益分析,将其应用于生物学领域形成了进化生物学,罗纳德·科斯将其应用于微观经济学领域,则形成了交易费用理论,企业的本质也如同浣熊家庭。

  • 浣熊的寓言

    浣熊的寓言

    感恩节的晚上,看到一对浣熊夫妻。一只费力把垃圾桶推倒,却不敢翻。另一只姗姗来迟,直接上前享用。干活的那只缩在一旁,小心翼翼,像是早已习惯了:做得再多,也永远会被挑错。


    简单、安静,却让人说不出哪里不对劲。


    这对浣熊的关系,像人世间许多畸形的结合。建立在支配与屈从之上,却因长久的习惯而显得异常和谐。

  • 从语音到文字:抽象与认知

    从语音到文字:抽象与认知

    人类语言的本质是什么?这个问题在人类学、认知科学与语言学交汇之处延展出无穷的思考。在最近的研究与反思中,我开始重新审视“语音”与“语言”的关系,并进一步探究“文字”作为语言的形式化抽象,在语言习得与人类认知中扮演了什么样的角色。

    我们都知道,一个婴儿学会说话,完全不需要文字。婴儿通过听觉与他人的互动自然习得语言。他们从周围环境中感知声音、模仿音节、逐渐掌握词汇、句法乃至语用规则。这一过程不仅是一种自监督学习(Self-Supervised Learning, SSL),而且是在多模态感知种学习语音。人类的语言习得起点是语音,而非文字。

    相比之下,文字则是人类社会在历史过程中创造的一种文化工具。它是对语音的编码,但从来不是语音的简单复制。事实上,文字是一种不完全的抽象。以英语为例,其拼写与发音往往对应松散。“Knight”和“night”在语音上毫无差别,却在书写上承载着历史与语义的差异。这说明文字并非只是记录声音,而是在历史变迁中引入了额外的层次:词源、形态学、文化记忆。而且儿童学习读写文字并不完全是自监督学习,而是一种“混合式学习(Hybrid Learning)”,结合了自监督、他监督(Supervised)、以及交互反馈。

    从语言人类学的角度看,语音不仅是传递意义的载体,更是文化行为的体现。不同文化中的人以不同方式说话,同一种语言的不同社群也展现出不同的语音特征。这些语音特征不仅仅标示“怎么说”,更标示“谁在说”、“在什么语境下说”以及“说话者的身份和社会位置”。语言人类学特别关注这些社会因素如何塑造语音的使用与规范,从而揭示语言与社会之间的深层关系。

    而文字的引入,则彻底改变了语言的存在方式。首先,它将原本连续的语音流切割为离散的单位——字母、音节、词语。语音是连续的、流动的,而文字是离散的、稳定的。这种离散性不仅增强了语言的可传递性与可记录性,也带来了前所未有的形式结构性。语音中的停顿、语调、重音等信息,在文字中被标点、段落与结构逻辑所取代。这一转变不仅是表征方式的改变,更是思维方式的重构。

    语言学家指出,文字系统的出现带来了人类认知方式的跃迁。口语依赖即时的、具身的互动,而文字则可以被保留、回溯、引用、编辑,从而带来了跨代传播、系统整理与逻辑演绎的可能。从认知的角度看,文字使语言脱离了说话者本体,变成一种外部可操纵的符号系统。正如学者Walter Ong 所言,文字不是语言的演化终点,而是认知的外化工具,它重新组织了我们的记忆、思考与表达方式。

    更进一步地看,文字的形式化带来了许多原语音系统所不具备的“数据结构特征”:书写是线性的,从左到右、从上到下;它是可编辑的,允许我们回退、修改、归档;它是可引用的,使我们能够构建出知识的链条和层级结构。这些特征为逻辑学、法律、数学和计算机语言的发展奠定了基础。而这些领域中所使用的语言,已经远离了语音的生动性,转而进入了一种高度结构化、可编程的抽象世界。

    不过,这种抽象的代价,是语音所携带的情感、韵律、即时性被削弱乃至抹去。文字保留了语音中的音素结构(尤其是拼音文字),但对语调、节奏、语气的还原能力极其有限。这也意味着,语音中的许多文化与情感信息,在文字中要么被编码为间接符号(如标点),要么干脆被省略。所以说,文字既是语音的“冰封冻结形式”,又是认知的重构引擎。

    如果我们以一个比喻来理解这一过程:语音就像流动的水,而文字是将水冻结成冰块的模具。水本是自然、流动、变化的,而一旦冻结成冰,便可被搬运、组合、保存甚至交易。但无论模具多么复杂精巧,所形成的冰块,终究不能还原水原本的流动状态与温度触感。

    文字并不是语言的终点。相反,它是一种对语言的再组织、一种认知技术的产物。它使人类得以编织历史、构建法律、发展逻辑、编程机器,也让我们在抽象中失去了口语中那种临场的温度与复杂的语用场景。

    在人工智能与语音识别日益发展的今天,我们或许更应反思:我们对语言的理解是否过度依赖了文字的“形式化”逻辑?我们是否忽视了语音那种无法书写却极具意义的细节?当我们试图用机器模拟人类语言时,我们是在复制“说话的声音”,还是在模仿一个被“冰封的结构”?这一切,值得我们持续深入地思考。

  • 埃里克•萨蒂奇事

    埃里克•萨蒂奇事

    夫天地者,万物之逆旅。光阴者,百代之过客。而浮生若梦,为欢几何?

    ——李白

    法国作曲家埃里克•萨蒂(Erik Satie )在自画像旁边写道:

    Je suis venu au monde très jeune dans un temps très vieux.

    I was born into the world as a very old man.

    我一出生就很苍老

    也许菲兹杰拉德(F. Scott Fitzgerald)由此得到灵感,写出了《本杰明•巴顿奇事》。这是一个历经沧桑,返老还童的故事。本杰明出生就是个小老头,然后逆生长。小说纯属讽刺,本杰明的老婆就像《月亮和六便士》里的画家太太一样庸俗,哈佛耶鲁相互撬边,本杰明的儿子怕父亲显得太年轻给自己丢人,让他称自己为叔叔。而在电影里,这个故事被改编得温情脉脉,本杰明和黛西数次相遇又戏剧性的错位,他们的爱只属于那个刚刚好的片刻,而他们的每一次相逢,都是不同的爱。这世界荒谬庸俗,但是美无处不在。

    诗云:

    ————————

    蜷缩在子宫里,
    我叹息又思考。

    医生让我赶紧签字,
    这是婴儿合约第十三条。

    花儿打着节拍盛开,
    世界开始转动。

    一记绝美的暴击唤醒生命,
    我在沉默中微笑。

    时间经常错位,
    但相遇总是刚刚好。

  • 语音学的前生今世

    语音学的前生今世

    在人类语言的复杂系统中,语音是最基础、最直观的层面之一。他是文字的前身。从古典语言学的音位理论,到现代神经网络驱动的语音识别与合成系统,语音学始终贯穿其中,既是语言科学的根基,也是智能技术的前沿。

    在深度学习取得显著突破的今天,语音学的角色似乎被边缘化。但语音学并未过时,它只是换了一种方式嵌入我们的模型、算法与认知中。

    呼吸、发声与声音建模

    人类的发声系统本质上是一种气流驱动的机械装置。我们大多数语言的音流来自于肺部的呼气动作,称为“肺外呼气气流”。气流经过喉头(larynx),激发声带(vocal folds)产生振动,这个过程构成声音的源头。

    声带的振动是一个高度周期性的过程,其物理基础可由文丘里效应和伯努利原理解释:气流在通过狭窄的声门时加速,局部气压下降,从而导致声带周期性开合。这一过程构成音的基本来源。

    平均而言,成年男性的声带振动频率(F0)约为 100–130Hz,女性则为 200–250Hz。这一生理差异也是我们区分男女声的重要依据之一。

    共鸣与调音机制:从原始声波到语言音色

    声带产生的声波只是“原始材料”。这些声波在通过声道(vocal tract)时,被不同的腔体结构所修饰,形成我们所感知的各类语音单位。

    声带产生的是周期性振动声波,产生有声的音(voiced sound),或者是简单的气流产生的无声的音(voiceless),比如窃窃私语;

    共鸣现象使得某些频率成分在声道中被增强,形成共振峰(formants),决定了元音的音色。例如,[i] 与 [a] 虽然同为有声的音,但其 F1 和 F2 的频率显著不同,反映出舌位和开口度的区别。

    不同的声道形状(舌位、嘴型、唇圆等),会把这些声音塑形成不同的音素;国际音标(IPA)就是用符号记录这些音素,而不是记录声带发出的“原始材料”。

    调音动作则决定辅音与元音的边界特性。通过调整舌头、唇形、软腭等部位的位置与状态,气流在口腔与鼻腔中被不同方式地操控,构成丰富的音素类型。

    人体声学器官是一个动态的信号处理系统。声带是脉冲列或者白噪声。舌头,唇形,软腭是可调参数的数字滤波器,从而调制信号频谱。鼻子则是并联滤波器。唇与齿还是开关(门控器)。它们共同作用,构成一个具有时变激励 + 非线性滤波 + 多路径共振 + 动态调控等功能的复杂模拟系统。调音动作就是在修改这些参数。而数字信号处理DSP则用一系列模块化函数来逼近和模拟这种处理过程。

    音标并不是对解剖结构的直接描写,而是对“发音结果”(即我们能听出来的语音类别)做出的听觉+生理双重标记。音标反映了:舌头怎么动?嘴巴怎么开?气流怎么流?我们感知到了什么差异?

    阉伶歌手的声学奇迹

    17-18世纪的欧洲歌剧舞台上,曾有一类令人震撼的歌手——阉伶(Castrati)。他们在童年接受阉割手术,因此保留了童声时期的声带长度与张力,但随着年龄增长,胸廓和共鸣腔发育为成人男性的结构,形成兼具明亮高音与强大共鸣的独特音色。巴洛克歌剧的咏叹调结构复杂、旋律流畅、装饰音繁多,极需高超的技巧与音域控制,正契合阉伶的声乐优势。尤其是Farinelli,据记载其音色如“高音区的雷鸣”,在当时享有极高声誉,不仅技艺非凡,还以一种近乎超自然的方式,唤起贵族女性强烈的情感与生理共鸣,被称为“音乐高潮”的缔造者。

    然而,Farinelli的身份也充满悖论:他既拥有雄性躯体的力量感,又因失去性功能而脱离传统性别角色。这种身体与声音之间的错位,使他的舞台形象既迷人又令人困惑,强化了巴洛克歌剧中人性、欲望与牺牲的主题。这一戏剧张力在同名电影《Farinelli》中亦有深刻展现,影片在极致音乐之美之外,也直面了阉伶作为“非完整之人”的情感困境。

    为了尽量模拟Farinelli的传奇之声,剧组运用了数字信号处理(DSP)技术,将男高音与女高音的声音融合为一。这种前所未有的音色,虽仍无法真正还原Farinelli的完美,却已是人间难得一听的奇迹,彰显了科技与艺术的融合尝试。

    现存唯一一段阉伶录音录于约1900年,演唱者为当时年逾七旬的最后一位阉伶 Alessandro Moreschi,录音条件原始,嗓音也已退化。尽管如此,其在高音区的发声依然声带全开,展现出强烈的穿透力和开放共鸣,极具辨识度。即便现代的女高音或假声男高音能达到类似音高,却难以复现那种音色的饱满与力度。

    阉伶歌手的发声特征展示了解剖结构对声学表现的深刻影响,也成为后世研究发声生理与音色关系的重要案例。

    声音的物理特性与感知

    在语音学中,声音被看作一系列可测量的物理信号。其关键参数包括:

    • 频率:反映声波的周期,决定感知音高;
    • 振幅:反映声波的能量,决定响度;
    • 持续时间:反映语音单位的时间跨度;
    • 共振峰:反映声道形状对频率的选择性增强。

    声谱图作为语音可视化工具,是现代语音处理中的核心技术之一。它展示了频率与时间的二维分布,并以灰度或色阶反映强度,广泛用于语音识别、合成与说话人识别等任务。

    人类感知的 Pitch(音高)并非等同于频率。它是人类对基本频率(F0)的主观感知结果。在 100Hz 到 1000Hz 范围内,音高感知近似线性;而在更高频率上,则呈现出对数式增长趋势。

    为了更好地模拟这种感知,语音学中引入了 Mel 音阶:

    mel(f) = 1127 × ln(1 + f / 700)
    
    

    这一转换模型常用于语音识别中的声学特征提取,如 MFCC(Mel Frequency Cepstral Coefficients)。

    对数Mel倒谱是将语音信号的频谱信息经过 Mel 频率缩放、对数运算和离散余弦变换(DCT)得到的一组低维特征。它通常编码29个维度的特征向量,是针对人类听觉建立的模型,这些特征有效地保留了人类语音中最能区分音素的信息(尤其是共振峰的分布),而抑制了说话人、语速等冗余因素。是语音识别的基础。

    语音学的系统分类框架

    在对音素进行分类时,语音学采用三个正交维度:

    1. 发音部位:如唇音(labial)、齿龈音(alveolar)、软腭音(velar)等;
    2. 发音方式:如爆破音(stop)、摩擦音(fricative)、鼻音(nasal)、近似音(approximant);
    3. 发声状态:声带是否振动。

    这套系统不仅在语言学研究中使用,也是现代语音合成(TTS)与识别(ASR)系统设计的重要参考依据。
    例如,音素的发音方式和部位信息,常被用于辅助建模语音特征,提升系统的自然度和准确率。

    韵律与语调

    在自然语言交流中,语音并不只是音素的拼接,还包括句子层级的韵律系统(prosody)。Prosody 不是中文的单个字发音所用的调号,而是高于单字的语调韵,描述的是整体的特性。它包括三个关键方面:

    • Prominence(显著性):突出重读或语音强度的差异;
    • Structure/Boundaries(结构与边界):指话语中自然的分组与停顿;
    • Tune(语调曲线):句子的音高走向,如上扬疑问句或下降陈述句。

    其中,Tune(语调曲线)尤为关键,它承载了大量句法与语用的信息。

    WH-Question Tune

    WH疑问句(如who, what, where等)通常采用下降调(falling contour),与陈述句非常相似。这种语调传达出一种“我预期你有答案”的期待感,而不是开放式的疑惑。

    Rising Statements 与 Yes-No Questions

    另一方面,当陈述句带有高升调(High Rising Statement)时,往往意味着说话人寻求确认或认同。
    而标准的是非疑问句(Yes-No Question),则从主要重读(main accent)后开始上升,并在句末保持上升,表现出对肯定或否定回答的期待。

    Surprise-Redundancy Tune 与 Contradiction Tune

    不同的语境下,语调还会展现出更复杂的变化:

    • Surprise-Redundancy Tune:低起点,逐渐升高到句末,传达轻微惊讶或强调多余信息。
    • Contradiction Tune:陡然下降开头,之后保持平直,句末再上升,用以强调与先前信息的对立或质疑。

    根据 Ladd(1996)的定义,语调是一种超音段(suprasegmental)特征,承载的是句法与语用层级的意义表达。

    在韵律层次上,句子的划分也极为重要。

    • 单一语调片段(Single Intonation Phrase)
      整句话由一个完整的音调流覆盖,常见于简单广泛焦点的陈述句,如:
      “Many natural foods are healthy.”
    • 多语调分段(Multiple Intonation Phrases)
      更长的句子可被划分成多个小片段(phrases),每段带有独立的微调变化,帮助听众分辨信息单元,如:
      “I met Mary / and Elena’s mother / at the mall yesterday.”
      每个短语的停顿与音调边界清晰地提示了句法结构。

    这种划分有时也能帮助消歧义(Phrasing Helps Disambiguate),比如:

    • 平铺直叙:“Mary and Elena’s mother mall”,容易理解错。
    • 适当分块:“Mary / Elena’s mother / mall”,句子层次清晰,意义明确。

    在一个语调片段内部,通常不仅仅有一个重读点。

    • 核重音(Nuclear Accent)
      指的是最后一个最突出的重音,通常承担着语义焦点,如对比、强调等功能。
      例如:“I know SOMETHING interesting is sure to happen.”,其中“SOMETHING”是核重音。
    • 其他显著层次(Levels of Prominence)
      从强强调(emphatic accent)、普通重音(pitch accent)、无重音(unaccented)、到弱化词(reduced),构成了丰富的语音突出体系。

    在TTS系统中,这种多层次的重读建模也成为生成自然、富有表达力语音的关键。

    语音合成:TTS

    最早期的Text To Speech (TTS)不使用计算机而是机械,有了计算机之后产生程序化拼接发音,机器人味道很重。本世纪初产生了基于深度学习的TTS,首次出现了自然多变的声音。然后这两年产生了端到端的TTS,基本上达到了人类声音效果。

    历史TTS:在人类探索声音模拟的历史中,18世纪至20世纪的机械式语音合成器堪称先驱。

    1780 — Wolfgang von Kempelen 的发声机由小哨子模拟辅音发音。使用橡胶制成的嘴和鼻子调制元音,发非鼻音时需要用手指堵住鼻孔。无声音(如/p/, /t/)则由辅助风箱通过绳索驱动,制造气流爆破效果。

    1939 — Homer Dudley 的 VODER(Voice Operation Demonstrator)

    通过复杂的键盘手动控制,模拟不同语音单元。但是操作难度极高,操作员需长时间训练才能产生可理解的语音。演示时常用技巧:提前告诉观众即将听到的内容,显著提高理解率。

    1950年代 — Gunnar Fant 的 OVE Synthesizer由瑞典皇家理工学院(KTH)开发,进一步模拟声道动态变化。但是控制参数极为复杂,操作员训练依旧是主要瓶颈。

    这段历史清楚展示出一个事实:即使在最早期的TTS探索中,人类也意识到发音机制的复杂性,并不断努力在模型、控制与感知之间寻找平衡。

    早期拼接式TTS,把音素录音拼块拼接,听起来像机器人。TTS的恶名就是从那时候开始流传。然后发展出隐马尔可夫过程的HMM TTS利用音素参数建模,构造基准频率,共振峰,终于可以调节语气语调,它的机械感淡了一些,但是语音质量还是很差。

    自从2010年前后,基于深度学习的TTS开始流行起来。流行的模型比如早期的Tacotron系列和晚期的FastSpeech系列。深度学习模型不再依靠语音学规则,而是从数据中自动学习韵律、音色、节奏特征。

    它们通常把TTS分为两个阶段,第一个阶段是文本分析,第二个阶段是产生声音。第一阶段产生的结果是Mel频谱图。然后再通过它产生声音。这种使用中间表示层的处理方法有一定的好处,在文本处理阶段,可以单独收集文本数据(不需要声音),在音频生成阶段,可以单独收集语音数据(不需要文本对齐太精准)。同时Mel频谱图和人类识别声音的方式有诸多相似之处,易于操纵和处理。

    在第一个阶段里,第一步就是把文字清洗成干净的可表达的文字,一串数字,如果是当成日期时间,或者是电话号码,它们以声音的表达方式并不一样,因此需要被明确的标注出来,包括特殊符号之类的。如何把原始混乱的文本,转化成标准化的文本表示。有众多模型可以选择,尤其是NLP语言模型。下面是一个显式中间表示层的例子:

    {
      "text": "read",
      "pronunciation": "ɹiːd",
      "pitch": "medium",
      "pause_after": "150ms",
      "emphasis": "strong"
    }

    然后单个字符或者两三个字符一起被转变成对应的音素,类似从字母组合产生音标,这一步称作G2P,也有很多的G2P方案可供选择。

    同时,系统必须不仅产生正确的音素序列,还要在中间表示层显式或隐式地建模韵律信息——例如重读位置、停顿断句、音高轮廓变化等。否则,生成的语音即便发音准确,也会显得僵硬或不自然。这些音素需要被拼接起来,把基频率F0对齐。

    第二个阶段根据标准化文本 + 韵律信息 → 生成语音波形。这个部件称作声码器,Vocoder。尤其是基于生成式对抗网络GAN的vocoders是近年来最佳声码器。例子有MelGAN, Parallel WaveGAN, HiFiGAN等等。其中Mel频谱图,因为声音从时谱转换成频谱,经过了短期快速傅立叶变换,所以相位信息丢失,在产生语音的时候还需要进行相位对齐,好在人类对于相位不是特别敏感。这个阶段有代表性的TTS还有 Tortoise TTS,速度很慢,但是质量极高,性能极稳,用来配音很不错,适合离线高质量语音生成。

    端到端模型的出现:mel频谱难以捕捉长期韵律结构,且局部编辑困难。所以,近年来,端到端的TTS开始出现,这些TTS不再显式的训练Mel频谱这种中间表达方式,从连续变量走向离散变量。

    2021 年的NAVER发布的VITS是早期端到端模型的代表,它直接把中间层和最终输出同时进行训练,避免了显式中间层。VITS采用了当时最佳技术,比如使用Flow可逆模型,Flow类似扩散模型,但是使用可逆的映射,因此可以把原始信息还原出来。在比较的时候,从文字材料和录音材料中分别识别出潜变量,利用KL散度进行训练,然后生成的语音再通过GAN和原始语音予以比较。其损失函数包括训练损失和GAN的判别损失。因此做到了:在波形并不逐点相同的情况下,感知上比较真实。最终在推理阶段使用HiFI-Gan来产生波形音频。VITS 是第一个真正做到“高质量 + 高效率 + 端到端”的 TTS 模型,它成功融合了 VAE、Flow 和 GAN 三大生成模型思想,标志着 TTS 技术从模块拼接走向结构统一。虽然VITS端到端,它仍然是连续潜变量。在VITS基础上,StyleTTS, NaturalSpeech改进其部件,加入了扩散模型,风格建模,多模态。 

    而以微软亚洲研究院 VALL-E(2023年1月)为代表的新一代TTS系统,引入了离散声学码(Discrete Acoustic Tokens)的概念。把语音当作语言来处理。从它开始,我们发现TTS进入了一个新的“范式转变”,我们不再关心“如何发出声音”,而是开始考虑“怎么说话”。

    Vall-E通过神经编解码器,将音频压缩成离散的token序列,每个token大约数十毫秒,它不仅编码音色,还综合了局部的节奏、音高、能量特性。这种离散化方法,使得TTS系统像语言模型(GPT)一样操作声音序列:

    • 支持局部编辑(editing)
    • 支持风格迁移(style transfer)
    • 支持局部修复(inpainting)
    • 保持韵律自然流畅

    2023年4月面世的Bark也是基于相同的架构,但进一步扩展到多模态音频生成。suno.ai利用扩散模型,实现了统一音频生成,文本,音效,音乐统一建模。它甚至emoji、停顿标点、语气词、描述性词汇,相当于音频GPT,而且可以运行在消费级GPU上。

    2023年5月面世的XTTS是coqui.ai 开源的模型,它支持多语言,又引入了Prompt Token,可以实现多发言者的语言迁移。这个名字源于它的核心能力:用一段语言说话的样本,就可以用任意语言生成同样声音的人说话。技术上说,从参考音频提取说话人特征,注入到生成模型里。离散声学码的训练相当于大语言模型,成本高昂,创业公司难以与大公司竞争AI资源。

    2024年的亚马逊模型Base TTS通过扩大参数规模,在性能上达到了一个新的高度。

    离散声学码基本上遵循AudioLM结构,语音和声学Token单独训练,拼接生成。它的训练相当于大语言模型,成本高昂,创业公司的模型虽然设计精巧,屡有创新,但是它们往往不过数千万到数亿参数,更大的模型训练起来就太贵,大公司如微软,亚马逊,就可以凭借自身的AI显卡资源,成功训练十亿以上规模参数的模型,以算力霸榜。

    最近的半年以来又出现两个新趋势:

    统一语义和声学的Token

    复旦大学的 SpeechTokenizer 论文建立了统一处理声学和语义的Tokenizer,这将前沿研究推进了一步。以前的离散声学码比如EnCodec,音色很好,但是不理解语义。HuBERT理解语义,但是音色较差。SpeechTokenizer把语义Token蒸馏进声学Token,在一个统一的Token里同时表达水平可以接受的语音和语义,则可以统一处理,不仅语义自然,节奏合理,而且音色真实,可以迁移。

    流媒体式Token模型以Alibaba的CozyVoice2 和 Kyutai的Moshi为代表

    CozyVoice2 实现 text + speech token 的交错建模,支持流式与非流式的统一语言建模,使模型可边听边说、随时调整回复。

    Moshi 则是第一个端到端的语音到语音对话系统,彻底取消 ASR + NLP + TTS 的模块化流程,它实现 Inner Monologue 概念:模型在发声前内部先进行“内心语音推理”,建模了人类式“被打断-暂停-续说”的能力。

    通过这种 token 流(token stream)的组织方式,模型不再是“句子-输出”机器,而是具备 动态节奏感与连续互动能力的语音交互体,如同一个会思考的说话人。

    未来的TTS系统将不仅局限于语音合成,而是逐步走向全音频生成和多模态统一建模,融入动态粒度控制(Dynamic Granularity Editing)、零样本风格迁移(Zero-Shot Style Transfer)等前沿技术,进一步实现更真实、更个性化的人机交互。

    语音识别:ASR

    语音识别Audio Speech Recognition (ASR)同样经过了一系列的技术演进。ASR有独特的挑战,它要把连续的语音信号里离散化,找出有意义的实体,将其转变为文字。而语音信号里,每一个音素的发音并不是一成不变。同音词又如何选择合适的词?多人同时发声如何分离?对这些挑战的回应造就了今天的语音识别系统。

    自动语音识别最早由 Bell Labs 在 1952 年实现的单说话人数字识别器开启。当时的系统仅能识别 0–9 十个数字,使用模拟电路和简单能量分析。尽管精度很高,错误率仅2%,但只能用于非常受限的任务。

    1970年代早期,IBM 的 Jelinek 与 CMU 的 Baker 几乎同时独立地将隐马尔可夫模型(HMM)引入语音识别。这一创新提供了第一个能够严谨建模语音时序变化的统计方法。HMM 将语音看作一个状态序列,其中每个状态会生成某种概率分布下的声学观测。我们要做的,就是从可观测值,推算隐藏值的概率。

    1980年代,美国国防部高级研究所资助了大规模语音识别研究项目,促成了 TIMIT、WSJ 等语音语料库的建立。同时,高斯混合模型(GMM)被用于建模 HMM 中每个状态的发射概率,通过多个高斯分布的叠加,可以模拟多样化的分布。识别系统结构由:特征提取 MFCC + HMM-GMM 解码器组成。

    1990年代,随着计算能力提升和算法成熟,语音识别逐渐从“孤立词识别”走向“连续语音识别”,并支持更大的词汇表(1万~6万词)。同时,研究者发展了早期的语言模型n-gram来辅助词预测。n-gram计算常见词汇同时出现的概率,在声音相近的同义词中用来选择最合适的那个。对人类听觉感知的研究导致MFCC 作为主流声学特征广泛使用,它所使用的倒谱符合人体听觉对人类发声器官的识别规律,它保留共同的发音,去除个人的音色。这两种技术称霸排行榜很多年。接下来的十余年,系统性能趋于饱和。

    2011 年起,基于深度神经网络(DNN)的声学模型首次大规模被用于语音识别,它可以很好的拟合各种分布,取代了 GMM 成为主流。早期的结构为 DNN-HMM 混合模型:使用 DNN 来估计 HMM 状态的后验概率 ,通过贝叶斯定理转化为发射概率。这一时期的成果显著提升了 ASR 性能,尤其是在嘈杂环境和非理想发音条件下。

    2014年起,为了更好地处理长时依赖,循环神经网络(RNN)和 长短期记忆(LSTM)网络被引入语音识别。与此同时,CTC(Connectionist Temporal Classification)允许网络在无帧对齐标签下进行训练,催生了端到端(End-to-End)语音识别范式。它自动合并相邻的重复采样帧,因此,我们不再需要由模型明确的判断每一个音的开头和结尾时间。当然,带来的问题是,重复字符发音也一起被合并。

    其中,Google Deep Speech 采用 RNN-CTC 架构,首次提出不再依赖 HMM 的识别系统。

    2017–2020:Attention 与 Transformer 模型

    随着注意力机制的发展,基于 Transformer 的模型,如 Listen, Attend and Spell(LAS),Conformer,逐渐成为主流。它们提供了更强的建模能力,支持并行计算,也适合长距离上下文建模。端到端模型逐步成熟,结构包括:

    • CTC(无需对齐)
    • RNN-T(在线识别)
    • Encoder-Decoder(如 LAS)
    • Transformer / Conformer(注意力机制)

    这些模型常常集成语言模型、发音词典等组件,超越了传统系统的表现。

    2021–至今:大模型与预训练

    现代语音识别系统正与大型语言模型融合,如:

    • Whisper(OpenAI):使用大规模数据训练的多语种、多任务语音识别模型
    • wav2vec 2.0(Meta AI):利用自监督学习在大量未标注音频上进行预训练,再微调完成语音识别任务
    • SpeechLM、HuBERT、Data2vec 等多模态语音语言模型

    这些方法使 ASR 系统无需从头训练,能够更好地适应低资源语言与复杂环境。这些先进方法包括:为空白建模,无声也是一个因素。在语音Token之上训练出语义识别。

    ASR的总体技术发展趋势是:特征工程 → 概率建模 → 神经建模 → 数据驱动预训练

    这些语音识别的训练方式,越来越接近人类婴儿的语音学习方式。

    语音学的未来

    尽管现代深度学习系统能够自动从语音数据中学习字音映射、语调模式,甚至跨语言迁移特征,但当模型出现偏差或识别失败时,问题常常回到最基础的问题:模型是否理解了语言背后的语音机制?

    在这方面,语音学提供了两种重要支持:

    • 诊断工具:帮助工程师判断语音系统在哪个环节出现问题;
    • 设计参考:为模型架构、特征设计与数据增强提供语言层级的视角。

    语音学并非被深度学习取代的旧知识,而是在智能系统中以另一种形式延续并重构的框架。它不仅解释人类如何发声,也启发我们设计能「听懂」、「说出」甚至「模仿人类语调」的智能系统。

    另一方面,现在的计算机语音研究越来越多地涉及:

    • 深度学习 (Deep Learning)
    • 自监督学习 (Self-supervised Learning)
    • 大语言模型 (Large Language Models)
    • 多模态建模 (Multimodal Modeling)

    这些技术领域使用了语音学的术语(如音素、韵律),但已经不再主要关注语音本身的基础机理、声学与感知,而是关注于模型训练、数据驱动与神经网络结构优化。因此可以说:当前的TTS和ASR已经明显超出了传统语音学范畴,变成了一个高度跨学科的领域,包含语音学、语言学、深度学习、信号处理、机器学习、NLP 等众多交叉领域。TTS和ASR不仅限于语音学本身。

    而语音学成为基础知识,将在未来人与机器共同演化的过程中,持续提供其独特而不可替代的洞见。

  • 历数学 – Historithmatics

    历数学 – Historithmatics

    English version -> Clink here

    中国人都耳熟能详的马克思在《资本论》中写道:人类社会必然经过资本主义,社会主义,到达共产主义。他认为历史具有必然性。美国哲学家卡尔.波普尔则认为历史不能预先决定,他发表名著《历史决定论的贫困》来对抗马克思的理论。但是这些人都是空对空,都二十一世纪了,没有模型你说个锤子?

    已有的研究模型

    阿西莫夫在科幻小说《基地》中虚构了一位心理史学家:哈里.谢顿。它结合统计学、社会学和历史学,以神奇的元光体(实际上就是数学模型)来预测人类社会的大规模发展趋势。这种方法类似于统计力学在物理学中的应用,个体不可预测,但大规模群体的行为可以用概率和数学模型进行估算。

    真实世界里有些历史学者提出:历史计量学、克里奥动力学、复杂系统建模等,尝试用数学分析历史。

    • 克里奥动力学:试图用微分方程和人口模型解释国家兴衰。
    • 历史计量学:用统计回归模型分析过去的经济发展。
    • 复杂系统建模:通过概率论和博弈论研究历史的涌现现象。
    • 人工智能与大数据分析:结合机器学习、神经网络和文本分析进行历史预测。

    这些模型的选择有很大的问题。

    首先不具备可信度。学者没办法解释为什么他要选择这个模型。比如:微分方程通常意味着连续变化,历史是连续变化的吗?统计回归假定影响统计分布的因素不发生变化,这听上去就不合理。博弈论则是随心所欲选择数据,相当于手工打造特性,manual feature engineering,不具有代表性。至于那些用机器学习的学者,基本上放弃了建造抽象模型的努力,而仅仅依赖于数据特征。

    其次,这些模型往往比较微观,仅仅考察一个方面,不能捕捉历史实体的整体特征。人口是决定历史的主要因素吗?贸易是决定历史的主要因素吗?这些没有一个是主要因素。而且它们之间难道没有关联?

    历数学(以下是一本正经的胡说八道)

    如果非得要给历史建模的话,应该使用图数据结构(Graph)模型。这个灵感来源于著名历史学家斯塔夫里阿诺斯(Stavrianos)。他在全球史领域开创了研究的新方法。在他的名作《全球通史》中,他把自己当成一个站在月球上的历史学家,观察地球表面的历史变迁,关注那些影响所有文明的事件,比如:文明的交流,技术的进步。

    这种使用图数据结构研究历史的方法,我看可以称作历数学(historithmatics)。历数是历史和数学的合体简称,同时在中国古代文化中又是一个神奇的概念,主要涉及历法、数学、天文、哲学和命理,然后再加上神秘主义的阴阳五行、易学。代表了“天道运行规律”,所以是一个很合适的名字。

    图数据结构由 节点V(Nodes, Vertices) 和 边E(Edges) 组成。这些历史实体,就像是图结构中的节点。而它们之间的影响则是边。相较于传统的微分方程、统计回归和蒙特卡洛模拟,图模型更能捕捉历史发展中的复杂关系。例如:

    • 社会关系网络:帝国、国家、宗教、文化之间的影响。
    • 经济贸易网络:国家或地区之间的经济往来。
    • 战争与联盟网络:不同势力的战争、外交和联盟变化。
    • 科技与文化传播网络:科技、思想和文化的流动路径。

    节点所代表的历史实体可以是:国家 / 政权 / 城邦(如罗马帝国、中国、蒙古帝国)。宗教 / 思想流派(如基督教、佛教、马克思主义)。著名历史人物(如拿破仑、秦始皇)。重要城市或地理区域(如雅典、长安、巴黎)。经济实体(如东印度公司)

    边代表这些实体之间的关系,并且可以加上权重W(Weighted Edges)来表示强度。比如联盟:如美英结盟、欧洲联盟。战争:如拿破仑战争、一战、二战。经济贸易:如丝绸之路、大航海时代的贸易路线。文化科技传播:如文艺复兴、工业革命、AI 技术的全球扩散。

    用数学表达则是:

    运用图数据结构

    基于这个基本的数学表述,我们可以建立不计其数的模型,而且它们具有内在的一致性。

    影响力模型

    比如,借鉴Google的PageRank算法,我们可以这样建立影响力模型用来描述历史实体的影响力。

    一个节点的影响力来自于连接到它的节点。如果一个重要的节点指向它,它的影响力就会更大。一个节点的影响力被它的对外指向的边(出度)平分,如果一个节点指向很多其他节点,每个被指向的节点分到的影响力就少一些。其中d是Damping Factor,在模型中引入随机性。

    例如,二战的 影响力可能比某个局部战争(如越战)更高,因为它影响了世界格局,许多后续事件都与其有关。

    预测模型

    图神经网络(GNN, Graph Neural Networks) 可以用来预测历史模式

    • H是节点特征矩阵,分很多层,表示历史的演进
    • A是图的邻接矩阵,表示历史实体的连接关系。
    • W是学习到的权重矩阵。
    • σ 是激活函数,如 ReLU。

    这种模型可以用来预测下一次全球经济危机可能由哪个国家引发,预测未来可能的国家联盟和战争可能性,预测某种思想(如 AI 伦理观念)的全球扩散路径。

    传播模型

    传播模型可以有很多不同的传播模式,比如独立级联传播(概率),阈值模型(需要足够多的邻居被传播),不可逆传播,一次性传播,反覆传播等等。在计算机的进化游戏里,各种传播策略和生存策略都经过反复博弈。取决于这些策略的数学特征,可以建立不同的模型来模拟和可视化分析。

    正如谢顿无法预测银河帝国的历史异数“骡”一样,我们也无法给川普这种 outliar 建模。但是我们可以预测:美国弥漫的反智主义,迟早会导致一个民粹主义的骗子上台执政。