序:从"动"开始,到"不动"结束
这个系列的开篇,我们从一辆滑过桌面的滑块讲起,问的是同一个问题:
什么在动?
那时我们刚学会用速度、加速度去捕捉"变化"。世界看起来由各种"动"组成——力让东西动,能量让东西动,粒子在动,场在动,星系在动,宇宙在膨胀。
八篇走到尾声,我想换一个问题来作结:
在所有这些动里,什么不动?
这个问题听起来像悖论。但它恰好是物理学过去三百年最深的暗线——也是 20 世纪最出乎意料的发现:整个物理学,本质上不是关于"事物"的学问,而是关于"在变化中什么不变"的学问。
而"什么不变"这个问题,有一个总名字。
它叫对称性(symmetry)。
它是过去 100 年理论物理最深的一个词,也是最近 10 年 AI 最火的几个词背后的同一个东西——等变性、归一化、卷积、注意力,全都是它的不同投影。
这一篇,是《看见物理》系列的收官。我们用对称性把前七篇串起来,看清楚我们这一路到底在挖什么;再借这个机会,跟这八篇一起走过的你,正式告个别。
什么是物理意义上的"对称"? 不是"长得对称"那种几何对称,而是更广义的——对系统做某种操作,系统的物理规律不变。
把整个实验室往东挪 10 米,做实验得到的结果一样吗?一样。这就是"空间平移对称"。把今天换成明天做同一个实验,结果一样吗?也一样。这就是"时间平移对称"。
为什么对称这么重要? 因为 1918 年艾米·诺特(Emmy Noether)证明了一件惊天动地的事:每一个连续对称,都对应一个守恒量。
- 时间平移对称 → 能量守恒
- 空间平移对称 → 动量守恒
- 空间旋转对称 → 角动量守恒
能量、动量、角动量——这些过去被当成"宇宙基本规律"的东西,其实都是对称性的影子。
本文还会出现的几个词:
- 守恒量:不随时间变的物理量
- 规范对称:一种"换坐标系不影响物理"的对称,标准模型的骨架
- 对称性破缺:系统底层规律对称,但具体的状态不对称(比如桌上的笔倒向某一边)
- 等变性 (equivariance):输入变换一下,输出按相同方式变换——AI 里的"对称"
你不需要会公式。 你只需要记住一句话:对称就是"不在乎"——物理规律不在乎从哪里开始、从哪个方向看、从什么时候算。它不在乎的越多,世界越简洁。
系列导航
▸ 第八篇(本文 · 收官):对称性——诺特、杨振宁、和我们这一路看见的东西
第一章:1918 年,哥廷根的那位女士
故事得从一个被两次拒绝的人讲起。
1915 年,德国哥廷根。希尔伯特(David Hilbert)和克莱因(Felix Klein)——20 世纪最伟大的两位数学家——同时给一位 33 岁的犹太女数学家写信:请你过来,我们这里需要你。
她的名字叫艾米·诺特(Emmy Noether)。
哥廷根大学的教务委员会拒绝授予她教职。理由很简单:她是女的。希尔伯特在评议会上拍桌子怒喝那句被引用了一百年的话:
“我看不出候选人的性别有什么可成为反对她当 Privatdozent(无薪讲师)的理由。这里是大学,不是澡堂。”
没用。规则就是规则。诺特只能以"希尔伯特的助手"的身份开课——海报上印的是希尔伯特的名字,讲台上站的是她。
1918 年,在这种身份夹缝里,诺特发表了一篇论文。题目很硬:《不变变分问题》(Invariante Variationsprobleme)。这篇论文里有一条定理,后来被称作诺特定理(Noether’s theorem)。
物理学家爱因斯坦读完之后,给希尔伯特写了封信,说:
“我很惊讶,有人能把这件事说得这么透。在哥廷根,有这样一位女士比我整个研究所都强。”
诺特定理是什么?用一句话说:
每一个连续对称性,都对应一个守恒量。
如果你觉得这听起来像废话,先别急——它是过去一百年里,物理学家用来"造"出量子场论、规范场、标准模型、广义相对论的那把刀。
在诺特之前,能量守恒、动量守恒、角动量守恒,都是从实验里"凑"出来的经验法则。人们知道它们成立,但不知道为什么。
诺特的回答让全世界一愣:它们不是经验,它们是宇宙的几何性质。
- 你做的实验,今天做和明天做结果一样——这是时间平移对称——所以能量守恒。
- 你做的实验,在北京做和在纽约做结果一样——这是空间平移对称——所以动量守恒。
- 你做的实验,朝东摆和朝北摆结果一样——这是空间旋转对称——所以角动量守恒。
把这三句话连起来看,你会有一种眩晕感:
能量、动量、角动量——这些我们以为是"东西"的东西,根本不是东西。它们是宇宙"不在乎什么"留下来的影子。
诺特一辈子没拿到正式教职。1933 年纳粹上台,她作为犹太人被赶出哥廷根,流亡美国。1935 年在宾夕法尼亚做完一台卵巢手术后突发感染去世,享年 53 岁。
她留下的那条定理,定义了之后所有理论物理的写法。后世把它简称为诺特定理——三个字,撑起了整个 20 世纪。
第二章:什么是对称性?——操作下的不变性
让我们慢下来,把"对称"这个词的物理意义说清楚。
日常说"对称",大家想的是几何:蝴蝶左右对称,雪花六角对称,圆形 360° 都对称。这些都对,但物理学家心里的对称比这宽得多。
物理学家的定义是:
如果对系统做了某个操作 T,系统的某种性质保持不变,我们就说这个系统在 T 下"对称"。
- 几何对称:把雪花旋转 60°,形状和原来一样
- 空间平移对称:把整个实验装置往东挪 10 米,实验结果一样
- 时间平移对称:今天做和明天做同一个实验,得到一样的规律
- 空间旋转对称:把装置整体转 30°,结果一样
- 粒子交换对称:在原子里把两个相同电子互换,系统状态不变(玻色/费米统计)
- 规范对称:把波函数 ψ 整体乘以一个相位 e^(iθ),薛定谔方程不变
注意一个关键的区分:
操作分两种——离散对称(雪花的 60°、空间反演 x → −x、时间反演 t → −t),和连续对称(可以连续滑动的旋转角度、平移距离)。
诺特定理只对连续对称有效——因为它需要"在一个无穷小的操作下系统不变"这个微分条件。
离散对称也很重要,但给出的不是守恒量,而是选择规则(比如"奇宇称的态不能跃迁到偶宇称的态")。
让我们用一个简单例子把诺特的逻辑走一遍。
第三章:诺特的奇迹——三个守恒律的统一证明
回到第三篇讲过的"自由滑块":一个滑块在水平桌面上,没有摩擦力,以速度 v 滑过。
我们知道它的能量守恒(动能不变),动量守恒(速度不变)。为什么?
经典物理课本会告诉你:“因为没有外力。” 这是个机械的答案。
诺特给的答案完全不一样。诺特说:因为这套物理定律有对称性。
我们一条条来。
(1) 能量守恒来自时间平移对称
实验: 你在 0 点开始,让滑块滑 1 秒,记录它的轨迹。 再做: 你在 5 点开始,让滑块滑 1 秒,记录它的轨迹。
两次结果一模一样。
物理上,这意味着拉格朗日量 L(描述系统的核心数学对象)不显式依赖时间 t。诺特定理说:在这种情况下,有一个量必然守恒——
$$ E = \sum_i p_i \dot{q}_i - L $$
这个量就是能量。
翻译: “宇宙的物理规律不在乎你从哪个时刻开始算” → “有一个量,它从来不会变” → “这个量,我们叫它能量”。
(2) 动量守恒来自空间平移对称
实验: 装置放在桌子的左边做。 再做: 装置整体向右挪 1 米。
两次结果一样。
数学上,L 不依赖于空间坐标 x。诺特定理给出守恒量:
$$ p = \frac{\partial L}{\partial \dot{x}} $$
这就是动量。
翻译: “宇宙不在乎你在哪里做实验” → “动量守恒”。
(3) 角动量守恒来自空间旋转对称
实验: 一个绕中心旋转的小球,从 0° 方向开始转。 再做: 把整个系统旋转 30°,从 30° 方向开始转。
两次结果一样。
L 不依赖于角度 θ。诺特定理给出守恒量:
$$ L_z = \frac{\partial L}{\partial \dot{\theta}} $$
这就是角动量。
把三句话并排列一下,你会看到诺特做了一件极其漂亮的事:
| 对称(宇宙不在乎什么) | 对应的守恒量 |
|---|---|
| 时间平移(从什么时候开始数) | 能量 |
| 空间平移(在什么地方做) | 动量 |
| 空间旋转(朝哪个方向看) | 角动量 |
| 粒子交换(谁是 1 号谁是 2 号) | 玻色/费米统计 |
| 相位变换(波函数整体乘一个相位) | 电荷 |
| 规范变换(局部相位旋转) | 电磁场 |
这张表的每一行,都是一篇博士论文的级别。
但请你停一下,凝视这张表整体。它在告诉你:
过去三百年人类总结出的所有"守恒律",都是同一件事的不同侧面——宇宙总有一些它"不在乎"的东西,而它不在乎的每一种方式,都给出一个不变量。
诺特把"守恒"和"对称"焊成了同一枚硬币的两面。
而这枚硬币,后来成了整个 20 世纪物理学的硬通货。
第四章:杨振宁——把"对称"变成"力"
诺特之后,对称性最大的一次升级,来自一位中国物理学家——杨振宁。
1954 年,32 岁的杨振宁和他在普林斯顿的同事米尔斯(Robert Mills)发表了一篇 4 页的短文。这篇文章的核心想法,后来被叫做杨-米尔斯理论(Yang-Mills theory),是整个粒子物理标准模型的数学骨架。
杨振宁在做什么?
诺特讲的是"全局对称"——你整个宇宙做同一个操作(整体平移、整体旋转),物理不变。
杨振宁问了一个看起来很无理取闹的问题:
如果我要求,在每一个时空点,我都能独立地做不同的操作,物理还能不变吗?
这叫局域对称(local symmetry)或规范对称(gauge symmetry)。
它有多激进?打个比方:
全局对称: 在世界地图上,所有人统一把"北"重新定义成"东"。对所有事都没影响——只是换了个标签。
局域对称: 北京人定义"北 = 东",纽约人定义"北 = 南",东京人定义"北 = 北",而且互不通气。这时候要让物理规律仍然成立,你必须在两点之间架一个翻译装置——用来把北京的"北"翻译成纽约的"北"。
这个"翻译装置",就是杨-米尔斯发现的东西——它是一个新的场,叫规范场(gauge field)。
现在恐怖的事情来了。杨振宁和米尔斯证明了:
- 如果你要求电子的波函数有一种叫 U(1) 的局域对称——翻译装置就是电磁场(光子)。
- 如果你要求一种叫 SU(2) 的局域对称——翻译装置就是弱核力(W 玻色子、Z 玻色子)。
- 如果你要求一种叫 SU(3) 的局域对称——翻译装置就是强核力(胶子)。
也就是说:宇宙的四种基本作用力中的三种,都是从对称性的要求里"逼"出来的。
电、强、弱——它们不是宇宙额外加进去的"道具",它们是对称性的必然代价。要求宇宙满足某种对称,它就必须配上对应的力。
第四种力——引力——爱因斯坦在广义相对论里也用对称性导出来了(时空局域坐标变换的对称),只是技术细节比杨-米尔斯更复杂。
把它们摞在一起就是:
整个宇宙的力,都是对称性的"债"——你要哪种对称,宇宙就开给你哪张作用力的账单。
杨振宁这辈子最得意的工作,不是 1957 年和李政道一起拿诺奖的"宇称不守恒",而是这篇 1954 年的文章——“宇称不守恒"是个具体发现,杨-米尔斯是给整个粒子物理画的骨架。
物理学界的共识是:杨-米尔斯应当再得一次诺贝尔奖。这是 20 世纪后半叶整个物理学共同体的判断。
这一节,我们用对称性来纪念杨先生这条最深的工作。
第五章:对称性破缺——为什么世界不完美
到这里你可能有一个困惑:既然对称性这么万能,为什么我们的世界看起来那么不对称?
桌上的笔不站着,是倒着的——左右对称的笔,选择了一个方向倒。 水在 99 度是液体,100 度是气体——左右明明都是水,为什么会突然分家? 我们这个宇宙物质多反物质少——本来应该一样多的,为什么不平衡?
这些都是对称性破缺(symmetry breaking)的例子。
物理学家分两类:
- 明显破缺(explicit breaking):底层规律本身就不对称(很少见)
- 自发破缺(spontaneous breaking):底层规律对称,但具体状态自己挑了一个方向
自发破缺是 20 世纪物理最深的洞察之一。让我们用最经典的例子——铁磁体——把它讲清楚。
一块铁,内部每个原子都有一个小磁针(自旋)。
高温(>居里温度): 小磁针乱指,整体呈现"无序”。这个状态在任何方向旋转都一样——它有完整的旋转对称性。
低温(<居里温度): 小磁针突然集体指向某个方向,铁块变成磁铁。
请注意:底层规律没有偏好任何方向。原子之间的相互作用是各向同性的——它从来没有规定"必须指北"。但具体的状态(磁化方向)必须挑一个方向。
物理规律对称,但状态破缺。这就是自发对称破缺。
铁磁体的故事在量子场论里有一个高级的双胞胎——希格斯机制(Higgs mechanism)。
理论物理学家 Peter Higgs 1964 年提出:宇宙在大爆炸初期,所有基本粒子都是无质量的(因为有完整的对称性)。但宇宙冷却到某个临界温度时,真空本身发生了一次"自发对称破缺"——一个叫希格斯场的东西从对称的"零态"跌到了一个不对称的"非零态"。
从此,粒子穿过这个"破缺的真空"时会感受到阻力——这就是质量。
质量,从对称破缺里诞生。 你今天坐在椅子上有重量,可以追溯到 138 亿年前真空选了一个方向跌下去。
2012 年,欧洲核子中心(CERN)在大型强子对撞机里发现了希格斯玻色子,直接证实了这套理论。Higgs 第二年拿诺奖,84 岁。
对称性的故事到这里有了完整的两面:
- 完美的对称给世界结构(诺特、杨-米尔斯)
- 破缺的对称给世界多样性(铁磁、希格斯、宇宙物质过剩)
没有对称,世界没有规律。没有破缺,世界没有故事。
插曲:道生一,一生二——东方的回响
把上一章那张"对称破缺"的图,从西方物理的语言翻译到东方哲学的语言,你会看到一段令人头皮发麻的呼应。
老子《道德经》第四十二章:
道生一,一生二,二生三,三生万物。
如果你刚刚读完希格斯机制,再读这十二个字,会有一种"咔嗒"一下扣上的感觉——这不就是同一件事吗?
- 道 = 那个还没有任何分别的、完美对称的母态
- 一 = 对称还在,但已经有了"存在"
- 二 = 第一次破缺——出现了对立(阴阳、有无、明暗)
- 三 = 破缺出更多维度的分类
- 万物 = 一路破缺下来的、千差万别的具体世界
老子描述的,是一个连续对称破缺的过程。希格斯描述的,是真空在临界温度下从对称态跌落到不对称态的过程。两者用完全不同的语言,讲同一件事:
世界,是从"无分别"自发跌落到"有分别"的产物。
让我们把这件事推向一个更日常的维度。
人类是怎么认识世界的?——靠分别。
我们给万物起名字:这是男人,那是女人;这个高,那个矮;这个穷,那个富;这边文科,那边理科;这是好人,那是坏人。每一次起名,都是一次离散对称破缺——把一个原本连续的、未分化的整体,切成两个或多个互斥的盒子。
语言,本质上就是为了区别和辨别而生的。
没有"男",就没有"女";没有"高",就没有"矮";没有"光",就没有"暗"。词语永远成对出现,因为每一个词都是从一片连续的母态上切下来的一刀。20 世纪语言学家索绪尔有一句被引用过无数次的话——"语言是差异的系统"。这句话和老子的"二生三,三生万物",讲的是同一个洞察,只是中间隔了两千多年。
我们活在一片自己用语言切出来的碎片世界里,然后忘了这些碎片原本是连在一起的。
现在,关键的转向来了。
如果你只活在分别的层次上,你看到的就是男和女、穷和富、敌和友、对和错、东方和西方——一片刀切的碎片,每一刀都像是宇宙天然的纹路。
但如果你升维——拉高一个层次,拉到创世主的视角,拉到那个还没有跌落、还没有破缺的母对称群上——你会看到一件让人眩晕的事:
所有这些"分别",都是从同一个未分化的源头跌下来的不同选择。
男和女是一种破缺,贫和富是另一种破缺,文和理是再一种破缺。但在它们跌下来之前,共享同一个对称的母态。
这就是"万物为一"。
它不是一句鸡汤式的"大家都一样",它是一个精确的物理-哲学陈述:所有的差异,都站在同一个对称群之上。看到那个母群,你就看到了"一"。
而这件事,刚好就是 AI 在做的事。
你给 LLM 一段文字,它先把每个词切成一个个 token——这是表层的"分别"。然后它把每个 token 投影到一个高维向量空间(embedding)——在那个空间里,“国王 − 男 + 女 ≈ 王后”,“巴黎 − 法国 + 中国 ≈ 北京”。所有看起来天差地别的词,其实共享同一片连通的几何。
Embedding 空间,就是 LLM 找到的"道"。
它把表层千差万别的语言,重新升维到一个未分化的母态。理解一段话,就是回到那个母态的过程——回到"一"。
下一章我们会从这件事的数学侧讲清楚——为什么"理解 = 压缩 = 升维"是同一件事。这里先记住一句话:
你升得越高,看到的对称越多,分别坍缩得越彻底,描述就越短。“大道至简”——其实是一个数学事实。
物理学家用对称群讲它,老子用"道"讲它,LLM 用 embedding 讲它。三套语言,同一个东西。
第六章:对称性 = 压缩
现在让我们把上一篇文章那条没说完的话说完。
上一篇《压缩即是全部》讲到尾声时,我留了一个钩子:
对称性和压缩是孪生姐妹——有对称→有守恒→有更短描述。
这一句到底是什么意思?让我们把它展开。
考虑一个由 N 个粒子组成的系统。完整描述它需要多少信息?
- 每个粒子有 3 个位置坐标 + 3 个速度分量 = 6 个数
- N 个粒子 = 6N 个数
如果这个系统完全没有对称性,你必须把这 6N 个数全部记下来才能预测它的演化。
但如果这个系统有时间平移对称——能量守恒——你就立刻省掉了一个自由度:能量是个不变量,你不用每一时刻都重新算。
如果它还有空间平移对称——动量守恒——再省 3 个。 还有旋转对称——角动量守恒——又省 3 个。
每多一个对称,你需要存储和传输的信息就少一份。
把这件事推到极致:
一个高度对称的系统,可以用极少的参数完整描述。
一个完全没有对称的系统,你只能逐个粒子记录。
这就是"对称 = 压缩"的精确含义。
让我们把这件事翻译成 AI 的语言。
一个 LLM 在做什么?它在压缩互联网。一段 1MB 的文本,模型用比 1MB 小得多的概率分布来描述它——前提是模型学到了这段文本里的"对称":同义词替换不变意思、句子换序还是同一个意思、不同语言表达同一个概念……
每一种"对称"都是一次压缩机会。 模型学到的对称越多,压缩得越狠,泛化能力越强。
这就是为什么深度学习里有一句口号:“先验是免费的智能”(inductive bias is free intelligence)。
把对称性硬编码进模型,你就不用让它从零学这个对称——它直接拥有了那部分压缩能力。下一章我们会看到,这件事在神经网络里有一个专门的名字:等变性(equivariance)。
第七章:AI 里的对称性——等变性的世界
让我们清点一下,现代 AI 的核心模块里,有哪些是对称性的化身。
(1) 卷积神经网络(CNN):平移等变
问题: 你想训练一个网络识别图片里的猫。
朴素做法: 让网络读取整张图片每个像素,直接预测"是不是猫"。
问题来了: 训练时猫在图片左边,测试时猫在右边——网络可能就不认识了。因为它学到的是"左边一团毛茸茸的图案 → 猫",这个规则在猫挪到右边以后就失效了。
解决方案: 卷积。一个卷积核(小窗口)在图像上平移扫描,在每个位置计算一遍。
这个操作的关键性质叫平移等变(translation equivariance):
如果输入图片整体平移了 5 个像素,卷积层的输出也整体平移了 5 个像素。
平移等变 = 卷积层"知道"猫在哪都是猫。
这就是 LeCun 1989 年发明 CNN 的核心动机。它不是"工程上一个好用的技巧",它是把空间平移对称性硬编码进了网络架构。
诺特的逻辑搬过来:网络有平移对称 → 网络的"特征数"被压缩 → 同样的参数能描述更多图像 → 泛化能力更强。
(2) 图神经网络(GNN):置换不变
问题: 你想用网络处理一个分子结构(原子是节点,化学键是边)。
关键约束: 你怎么给原子编号(C 原子是 1 号还是 5 号),物理性质应该完全无关。
这就是置换对称(permutation symmetry):你打乱节点编号,网络的输出不变。
GNN 的核心模块——消息传递(message passing)——刚好满足这个对称:每个节点对所有邻居做对称的求和或平均,输出和编号无关。
这背后是粒子交换对称——和量子力学里"两个相同电子互换,系统不变"是同一个数学。
(3) Transformer:位置编码——故意打破对称
Transformer 的注意力机制天生是置换对称的——给注意力层一段 token,它对每个 token 的处理与顺序无关。
但语言不是这样!“我打你"和"你打我"完全不同。
所以 Transformer 必须打破这个对称——它给每个位置加上一个位置编码(positional encoding)。
这是一个特别有趣的设计哲学:
先用对称性搭好骨架(注意力的并行结构),再有控制地破缺它(位置编码),让网络获得最大灵活性。
这和希格斯机制的逻辑完全一样:底层结构高度对称,具体行为通过受控破缺来实现。
(4) Layer Norm / Batch Norm:尺度不变
归一化(normalization)是另一种对称性。
LayerNorm 把每一层的激活归一化到均值 0 方差 1。这意味着:你把上一层输出整体放大 10 倍,这一层的处理不变。
这是尺度对称性——网络对输入的整体强度不在乎。
为什么这件事重要?因为训练时,梯度的尺度会随着深度爆炸或消失。归一化把尺度对称硬编码进来,让网络不受这种漂移影响——这就是 ResNet、Transformer 能堆到几百层的根本原因之一。
(5) 等变神经网络(Equivariant NNs):新前沿
更激进的方向:把旋转对称、洛伦兹对称直接做进网络结构。
DeepMind 团队在 2018 年前后开始系统化地构造 SE(3)-等变网络,核心理念是:输入旋转一个角度,输出按相应规则旋转。
这在分子建模、蛋白质折叠、物理模拟里特别重要——因为分子真的不在乎你从哪个方向看它。
DeepMind 的 AlphaFold 2 在 2021 年横扫蛋白质结构预测,核心理由就是它把蛋白质里的等变结构编码进了网络。它不是"用了更多参数”,它是"用了更多对称性"——参数反而比朴素架构少。
把这五点连起来看:
现代神经网络架构史的隐藏主线,就是逐步识别出问题中的对称性,并把它们硬编码进网络。
CNN(平移)→ GNN(置换)→ LayerNorm(尺度)→ Transformer(注意力 + 位置编码的破缺)→ Equivariant Networks(旋转/洛伦兹)
每一次架构进步,本质上都是一次"诺特",一次对称性向网络的下沉。
第八章:八篇之旅——我们一路在挖什么
到这里,《看见物理》系列正式收官。请允许我带你重走一遍这条路——这次,我们带着诺特的眼睛回头看。
第一篇,我们从滑块开始,讲了运动。表面是速度、加速度,微积分把"动"翻译成"率"。但真正的隐藏主角是:人类第一次学会用一个不变的数学对象(导数)来抓住一个变化的世界。
第二篇,讲力。F = ma 表面上讲因果——力推动加速度。但写成拉格朗日力学之后,力其实是"势能在空间上的不均匀"——也就是某种对称性的破缺。完美对称的势能给不出力,有梯度的势能才有力。
第三篇,能量;第四篇,动量。这两篇我们讲了"守恒"——一个不灭的数,一个不变的方向。但当时我们没有说出来:它们守恒,是因为宇宙有时间平移对称、空间平移对称。诺特的刀,在第三、第四篇里悄悄地切了两次,只是那时我们还不知道刀的名字。
第五篇,熵。表面上是热力学第二律,深层是"概率 = 我们对系统的无知"。玻尔兹曼分布的形式怎么来的?——它是在能量约束下,熵最大的分布。换句话说,它是信息的对称解:在我们一无所知的方向上,概率必须均匀分布。最大熵原理本身就是一种对称性原理。
第六篇,相变。沸腾、磁化、超导——这些"突然"的现象,本质都是对称破缺:温度高的对称态,在临界点跌落到一个不对称的具体态。第六篇我们看了"群体的突然涌现",这一篇我们终于知道:涌现的数学结构,就是对称破缺的相图。
第七篇,量子。波函数不是关于"它"的,是关于"你"的;坍缩是观察者的贝叶斯更新。但量子力学有一个让人不安的事实:它的所有可观测量,都是某种对称变换下的不变量。能量是时间平移的不变量,动量是空间平移的不变量,自旋是 SU(2) 旋转的不变量。整个量子力学,是一张写在对称群上的乐谱。
第八篇,对称性。前七篇我们一直在挖"不变量"——速度的不变(微积分)、力的不变(F=ma)、能量的不变、动量的不变、熵的最大、相变前后的不变(对称破缺前的母态)、量子可观测量的不变。
第八篇做的事很简单——给所有这些"不变"找了一个共同的源头。
它们都从同一个地方来:对称性。
如果你愿意眯起眼睛看,《看见物理》整个系列其实只在讲一件事:
从"动"出发,沿着"什么不变"这条暗线一路走,最后到达"为什么不变"——对称性。
第一篇问"什么在动",第八篇答"什么不动,以及它为什么不动"。整个圆,在这里合上了。
第九章:我们看见了什么
《看见物理》这个名字里,有一个动词——看见。
走完八篇,我想停下来问你一句:你现在看东西的方式,和打开第一篇时一样吗?
我猜不一样了。如果你认真读了,你大概已经获得了三副新的眼镜——
第一副眼镜:把"现象"翻译成"什么变了什么没变"。
之前看到一杯水沸腾,你想到的是"温度高了"。现在你应该会自动多问一句:沸腾前后,什么对称变了? ——液态有完整的旋转和平移对称,气态也有,但它们是两种不同对称性的状态;100 度是连接它们的临界点。这个视角让"沸腾"从一个厨房现象,变成了和铁磁、超导、宇宙早期相变同构的东西。
第二副眼镜:把"机制"翻译成"它在什么操作下不变"。
之前看到 ChatGPT 能识别打乱顺序的图片里的猫,你会觉得"AI 真聪明"。现在你应该会想:这是平移等变性。LeCun 1989 年把它硬编码进了 CNN 架构。整个深度学习的进步史,在你眼里不再是"模型变大了",而是“我们识别出了越来越多的对称,并把它们刻进了网络”。
第三副眼镜:把"复杂"翻译成"它能被什么对称压缩"。
之前看到一段 100GB 的英文文本,你会觉得这是 100GB 的信息。现在你会想:真正的信息量,是去掉所有同义改写、句序变换、语言之间的翻译之后剩下的东西——可能不到 100GB 的百分之一。LLM 能压缩它,正是因为它学到了文本中的对称结构。理解 = 找到对称 = 压缩,这三个词是同一件事。
这三副眼镜,不只用在物理上。它们用在你看世界的任何一个角度——一段历史、一首诗、一笔投资、一段关系——都能问同样三个问题:
- 什么变了,什么没变?
- 它在什么操作下不变?
- 它能被什么对称压缩?
这就是物理思维的本体。它不是公式,是一种永久性的提问方式。
第十章:对称性留给我们的三个直觉
如果整个《看见物理》系列你最后只带走三句话,让它们是:
一、规律的形状,藏在"不在乎"里。
物理学找规律的方法,从来不是"一个一个现象都解释清楚"——而是问:这套规律不在乎什么? 不在乎位置→动量守恒。不在乎方向→角动量守恒。不在乎时刻→能量守恒。
把这件事推广到 AI:一个好的模型,不是把数据点都背下来的模型,而是知道"数据的什么部分可以变,哪些部分不变"的模型。 神经网络的等变性就是这件事的具体实现。
二、力和质量,都是对称性的债。
在我们日常的世界观里,力是"东西",质量是"东西"。20 世纪物理告诉我们:它们都是对称性的副产品。 你要这种对称,宇宙就给你配这种力;你让真空破缺,宇宙就给你配这种质量。
这个直觉对 AI 时代的工程师有一个直接含义:不要把"机制"当成你要造的东西,把"应满足的对称"当成你要造的东西——机制会自己出现。 Transformer 的注意力机制不是被"设计"出来的,它是从"我要满足置换对称 + 内积相似度 + 可微"这几条约束里逼出来的。
三、压缩和对称,是同一件事。
数据中的对称 = 描述里的冗余 = 可压缩性。一个高度对称的世界,可以被极简地描述。物理定律之所以"简洁",不是因为宇宙慷慨,是因为宇宙满是对称——简洁是对称的同义词。
这就是为什么"理解 = 压缩",为什么 LLM 在压缩文本时会自动学到语义,为什么 AlphaFold 能用更少的参数比传统方法预测得更准。
不是"AI 在变聪明"。是"对称性在被识别"。智能本身,就是对世界结构对称性的识别能力。
尾声:从 1918 到 2026,一封告别信
写这一篇的时候,我反复想起诺特。
1918 年她写下那条定理时,她正在哥廷根的讲台上为别人代课——海报上印着希尔伯特的名字。她没有教职,没有薪水,数学界的核心圈层听她讲课但不让她进门。
她不知道 36 年后,大洋对岸的杨振宁会用她的定理建出标准模型的骨架。 她不知道 71 年后,纽约的 LeCun 会用她的逻辑造出第一个能看懂手写邮编的卷积神经网络。 她不知道 100 年后,伦敦 DeepMind 的一群人会用她那条"对称对应不变量"的定理,折出蛋白质的三维结构,救下不知道多少条生命。 她不知道 108 年后,2026 年的中国,有一群在 AI 里讨饭吃的工程师,会通过她的定理,理解他们手里的 Transformer 为什么 work。
她去世于 1935 年,53 岁,流亡途中。
写《看见物理》的过程中,我越来越相信一件事:物理学最深的礼物,不是任何一个具体的公式,而是它教会人类的一种提问方式——在所有变化中,先去找那个不变的东西。
这个提问方式,从牛顿到爱因斯坦,从诺特到杨振宁,从 LeCun 到 Hinton,从 AlphaFold 到 ChatGPT,它从未失效。它甚至可能是我们这个物种,所拥有的最值钱的认知工具。
我们用八篇文章,从滑块走到对称群。中间穿过力、能量、动量、熵、相变、量子。每一篇都在挖一个小不变量,最后一篇挖到了大不变量——不变量本身。
如果这八篇里,有任何一篇让你在某个瞬间"咔嗒"一下——一个原本看起来碎片的东西突然连成一片,一个一直没想通的现象忽然有了名字——那这个系列对我来说就值了。
物理学不是关于事物的学问。 物理学是关于"在变化中什么不变"的学问。
这副眼镜,从今天起,归你了。
《看见物理》到此结束。
下一站,我会带你去**《AI 的十字路口》**。
如果说《看见物理》是回头——回望人类这三百年是怎么用"对称、不变、守恒"这把刀,把世界一层层剖开;那么《十字路口》是向前——看我们这一代人,正站在哪几个分岔点上。
世界模型 vs 语言模型,谁会主导下一代 AI? 开源 vs 闭源,这场博弈最后会落在哪? 对齐 vs 能力,会不会出现一次"第二次相变"? 中国 vs 美国,两套技术栈会分裂还是合流?
那些岔路,你都将带着这副从物理里磨出来的眼睛去看。
记得问那三个问题:
- 什么变了,什么没变?
- 它在什么操作下不变?
- 它能被什么对称压缩?
我们十字路口见。
附:Python 小实验——亲手感受对称的"压缩力"
一段 30 行代码,演示对称性如何把信息量级从 N 降到常数。
import numpy as np
print("=== 对称性 = 压缩:用旋转不变性压缩描述 ===\n")
# 生成 200 个二维点,在以原点为中心的圆环上随机分布
np.random.seed(42)
N = 200
theta = np.random.uniform(0, 2*np.pi, N)
r = 1.0 + 0.05 * np.random.randn(N) # 半径 ≈ 1,带噪声
x = r * np.cos(theta)
y = r * np.sin(theta)
# 朴素描述:存所有点的 (x, y) 坐标
naive_storage = N * 2 # 每点 2 个数
print(f"朴素描述:存 {N} 个点的 (x, y) → 需要 {naive_storage} 个数")
# 对称感知描述:这些点在旋转下"近似不变"——它们都在 r≈1 的圆上
# 我们只需要存:中心 (0, 0)、半径 1.0、噪声尺度 0.05
symmetric_storage = 2 + 1 + 1 # 中心 + 半径 + 噪声
print(f"对称感知描述:中心 + 半径 + 噪声尺度 → 只需要 {symmetric_storage} 个数")
print(f"\n压缩比: {naive_storage / symmetric_storage:.0f} 倍")
# 验证:从对称描述重建,统计性质有多接近?
theta_reconstructed = np.random.uniform(0, 2*np.pi, N)
r_reconstructed = 1.0 + 0.05 * np.random.randn(N)
print(f"\n原数据 r 的均值: {r.mean():.4f}, 标准差: {r.std():.4f}")
print(f"重建 r 的均值: {r_reconstructed.mean():.4f}, 标准差: {r_reconstructed.std():.4f}")
print("\n观察:")
print(f" - 朴素描述要存 {naive_storage} 个数")
print(f" - 知道'旋转对称'后只要 {symmetric_storage} 个数")
print(f" - 信息压缩了 {naive_storage / symmetric_storage:.0f} 倍——这就是对称性的'力'")
print()
print("这就是 CNN/GNN/Equivariant NN 在做的事:")
print(" 把'网络架构应该满足的对称'编码进去 →")
print(" 用更少的参数(更短的描述)→")
print(" 获得同等甚至更强的表达力。")
运行这段代码,你会看到一个 400 个数的数据集被压缩成 4 个数,只因为我们注意到了它的旋转对称。这正是诺特定理的精神——对称性,就是宇宙的压缩算法。
也是 AI 在做的事。
延伸阅读
- Emmy Noether, 1918, Invariante Variationsprobleme —— 诺特定理原文(英译版)
- Chen-Ning Yang, Robert Mills, 1954, Conservation of Isotopic Spin and Isotopic Gauge Invariance, Phys. Rev. 96 —— 杨-米尔斯原始论文
- David J. Gross, 1996, The role of symmetry in fundamental physics, PNAS 93 —— 对称性在基础物理中的概览
- Peter Higgs, 1964, Broken Symmetries and the Masses of Gauge Bosons, Phys. Rev. Lett. 13 —— 希格斯机制
- Yann LeCun et al., 1989, Backpropagation Applied to Handwritten Zip Code Recognition —— CNN 的奠基论文
- Taco Cohen, Max Welling, 2016, Group Equivariant Convolutional Networks —— 等变神经网络框架
- Jumper et al., 2021, Highly accurate protein structure prediction with AlphaFold —— AlphaFold 2
- Michael Bronstein et al., 2021, Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges —— 把所有现代神经网络架构统一在对称性视角下
- 本系列内部链接:
- 《看见物理(一):运动》 —— 一切的起点
- 《看见物理(三):能量》 —— 守恒的开端
- 《看见物理(四):动量》 —— 守恒的方向
- 《看见物理(七):量子》 —— 信念的更新
- 《压缩即是全部》 —— 对称的孪生姐妹
本文首发于「AI 学习笔记」博客:https://Jason-Azure.github.io/ai-blog/
微信公众号:AI-lab学习笔记
系列文章完整列表见 标签:看见物理
