一个牧师的未完成论文

1761 年,英国小镇滕布里奇韦尔斯(Tunbridge Wells),一位 59 岁的长老会牧师去世了。

他叫托马斯·贝叶斯(Thomas Bayes)。

他的一生平平无奇——在一个小教堂布道,偶尔研究数学,没有发表过什么重要论文。去世后,他的朋友理查德·普莱斯(Richard Price)在整理遗物时发现了一篇未完成的手稿。

普莱斯读完后意识到:这篇手稿可能改变人类理解世界的方式。

1763 年,普莱斯把这篇遗稿整理发表在英国皇家学会的 Philosophical Transactions 上。标题很朴素:“An Essay towards solving a Problem in the Doctrine of Chances”——《论解决概率论中一个问题的尝试》。

263 年后,这篇论文里的核心思想成了 GPT、BERT、Stable Diffusion 等所有现代 AI 的数学骨架之一。

贝叶斯没有想到的事:他为了解决赌博问题推导的公式,最终教会了机器如何学习。


一、一个反直觉的问题

在讲贝叶斯定理之前,让我先给你出一道题。

医学检测悖论

有一种罕见病,每 1000 人中只有 1 人患病(患病率 0.1%)。

现在有一种检测方法,准确率很高:

  • 如果你真的有病,检测显示阳性的概率是 99%(灵敏度)
  • 如果你没有病,检测显示阴性的概率是 99%(特异度)

你去检测,结果显示阳性

问:你真正患病的概率是多少?

大多数人的第一反应:“99%!检测那么准!”

直觉告诉你几乎一定患病了。

但正确答案是:大约 9%。

你没有看错。即使检测准确率高达 99%,阳性结果只意味着你有大约 十分之一 的概率真正患病。

为什么?让我们算一算。

算给你看:10000 人中发生了什么
10000 人参加检测
├── 10 人真有病(患病率 0.1%)
│   ├── 9.9 人 → 检测阳性(真阳性,灵敏度 99%)
│   └── 0.1 人 → 检测阴性(漏诊)
└── 9990 人没有病
    ├── 99.9 人 → 检测阳性(假阳性,误报率 1%)
    └── 9890.1 人 → 检测阴性(正确排除)

所有阳性结果 = 9.9 + 99.9 = 109.8 人
其中真正患病的 = 9.9 人

真正患病的概率 = 9.9 / 109.8 ≈ 9.0%

关键洞察: 虽然假阳性率只有 1%,但因为没病的人(9990 人)远远多于有病的人(10 人),1% 的 9990 人(≈100 人)仍然远超真正患病的 10 人。

你的直觉出了什么问题?

你忽略了一个关键信息——患病率本身就很低(0.1%)。在你做检测之前,你患病的概率就已经很低了。检测阳性只是在这个很低的基础上"升级"了概率,但没有把它翻转到 99%。

这就是贝叶斯定理要解决的核心问题:当你获得新证据时,你原来的信念应该怎样更新?

医学检测悖论的贝叶斯拆解:先验 × 似然 → 后验


二、贝叶斯定理——六个字就够了

贝叶斯定理

$$P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}$$

翻译成人话:

$$\text{新信念} = \frac{\text{证据的力量} \times \text{旧信念}}{\text{证据本身有多常见}}$$

用一个生活场景,把三个角色讲透

公式看起来吓人,但其实你每天都在用它——只是你的大脑自动帮你算了。让我用一个例子把三个角色讲清楚。

场景:早上醒来,你听到窗外有"哗哗"的声音。外面在下雨吗?

三个角色,一个故事

① 先验(Prior)—— 在听到声音之前,你觉得下雨的可能性有多大?

你昨晚看了天气预报,说今天晴天。所以你心里觉得:“下雨大概 10% 的可能吧。”

这就是先验——在看到任何证据之前,你根据已有知识做出的判断


② 似然(Likelihood)—— 如果真的在下雨,你听到"哗哗"声的可能性有多大?

如果外面真的在下雨,你听到哗哗声的概率很高——比如 90%(也有可能雨很小你听不到)。

但注意:如果外面没下雨,你也可能听到哗哗声——邻居在浇花、楼上在洗车,概率大约 20%

似然衡量的是:如果这件事为真,那我看到的证据有多合理?


③ 后验(Posterior)—— 综合考虑后,下雨的概率是多少?

$$P(\text{下雨}|\text{哗哗声}) = \frac{P(\text{哗哗声}|\text{下雨}) \times P(\text{下雨})}{P(\text{哗哗声})} = \frac{0.9 \times 0.1}{0.9 \times 0.1 + 0.2 \times 0.9} = \frac{0.09}{0.27} = 33%$$

从 10% 升到了 33%——证据(哗哗声)把你的信念从 10% 拉高到了 33%,但没有拉到 90%。因为你的先验(天气预报说晴天)在拉着另一头。

关键直觉: 后验 = 先验和似然的"拔河"结果。如果先验很强(天气预报非常准),证据需要很强才能推翻它。如果先验很弱(你对天气一无所知),一点点证据就能主导你的信念。

这就是为什么医学检测的例子让人惊讶——先验太低了(0.1%),即使似然很高(99%),后验也只有 9%。先验在拔河中占了上风。

贝叶斯公式的四个角色

让我把每个部分正式拆开:

贝叶斯公式的四个角色
符号名称医学检测的例子直觉解释
P(A)先验概率 (Prior)患病率 = 0.1%在看到任何证据之前,你对 A 的信念
P(B|A)似然 (Likelihood)有病→检测阳性 = 99%如果 A 为真,看到证据 B 的可能性
P(B)边际概率 (Evidence)总体阳性率 ≈ 1.1%不管 A 是否为真,看到 B 的概率
P(A|B)后验概率 (Posterior)阳性→真患病 ≈ 9%看到证据 B 之后,对 A 的更新信念

用医学检测验证:

$$P(\text{患病}|\text{阳性}) = \frac{P(\text{阳性}|\text{患病}) \times P(\text{患病})}{P(\text{阳性})} = \frac{0.99 \times 0.001}{0.011} ≈ 0.09 = 9%$$

完美吻合。

贝叶斯更新:每一条新证据都在"调焦"

贝叶斯定理最强大的地方在于:它可以反复使用。上一轮的后验,变成下一轮的先验——你的信念在一条条新证据的推动下,越来越精确。

贝叶斯更新:每多看一条证据,信念分布就更"尖锐"

上面这张动图展示了一个简单的例子:你有一枚硬币,不知道它是否公平。一开始你什么都不知道(平坦的先验),然后每次抛硬币得到新数据——每多看到一条证据,你的信念分布就从"宽而平"变得"窄而尖",越来越确定硬币的真实偏向。

这个过程就像相机调焦——一开始画面模糊(高不确定性),每一条新证据都在拧动对焦环,画面逐渐清晰。

但贝叶斯定理的深意不在这个计算——它在于它描述了一种思维方式:

带着旧知识(先验),拥抱新证据(似然),更新你的信念(后验)。

这六个字——先验 × 似然 → 后验——就是贝叶斯定理的全部。


三、贝叶斯 vs 频率学派——一场 260 年的战争

贝叶斯发表论文后的两百多年里,统计学界分裂为两个阵营:

两种概率观
频率学派 (Frequentist)贝叶斯学派 (Bayesian)
概率是什么事件在大量重复中的频率对事件的信念程度
“这枚硬币正面朝上的概率是 50%“意味着如果抛无穷多次,正面出现的比例趋近 50%我相信正面和反面一样可能
参数是什么一个固定的未知常数一个随证据更新的随机变量
核心方法最大似然估计 (MLE)后验推断
对先验知识排斥——“主观的东西不应该出现在科学中”拥抱——“不用先验知识才是浪费”
代表人物Fisher, Neyman, PearsonBayes, Laplace, Jaynes

这场争论持续了两个多世纪。频率学派长期占据主流——因为"主观先验"听起来不够科学。

但从 2010 年代开始,深度学习的崛起悄悄改变了一切。

因为 AI 做的事情,本质上就是贝叶斯更新。


四、AI 训练 = 贝叶斯更新

这是本文最重要的一节。

先验 = 预训练

GPT 在互联网文本上训练了万亿个 token。训练完成后,它的几十亿个权重(参数)中存储了"世界知识”——语法规则、常识推理、文学典故、科学事实……

这些知识就是先验——在看到你的具体问题之前,模型已经"相信"的东西。

$$\text{预训练后的权重} = P(\theta) = \text{先验分布}$$

似然 = 新数据

当你用特定领域的数据微调模型时(比如医学文献、法律条文、你公司的内部文档),你给了模型新的证据

$$\text{领域数据} = P(D|\theta) = \text{似然函数}$$

似然函数说的是:“如果模型的参数是 θ,那它生成这些新数据的概率有多大?”

后验 = 微调后的模型

微调的目标是找到一组参数,让模型既保留预训练的通用知识,又适应新领域:

$$P(\theta|D) = \frac{P(D|\theta) \cdot P(\theta)}{P(D)}$$

$$\text{微调后的模型} = \frac{\text{新数据对参数的要求} \times \text{预训练知识}}{\text{归一化常数}}$$

AI 训练的贝叶斯本质
贝叶斯公式          AI 训练流程
─────────────────────────────────────────────
先验 P(θ)        ←→  预训练权重(万亿 token 的通用知识)
似然 P(D|θ)      ←→  微调数据(领域/任务专用数据)
后验 P(θ|D)      ←→  微调后的模型
─────────────────────────────────────────────
先验 × 似然 → 后验    预训练 + 微调 → 专业模型

这不是比喻。这是数学等价。

你可能会说:“等等,实际训练中没人在算贝叶斯公式啊,用的不是 SGD(随机梯度下降)吗?”

没错。实际的训练算法不是直接计算后验分布——因为参数空间太大,精确贝叶斯推断在计算上不可行。SGD 是一种近似方法。但这种近似在数学上可以被理解为贝叶斯推断的一种特殊情况。

尤其是当训练加入了正则化(L2 regularization / weight decay)——

$$\text{Loss} = \text{交叉熵} + \lambda \sum \theta_i^2$$

这个正则化项的概率解释,恰好是给参数加了一个高斯先验

$$P(\theta) = \mathcal{N}(0, \sigma^2) \propto e^{-\frac{\theta^2}{2\sigma^2}}$$

——倾向于认为参数应该接近零(简单模型),不要太极端。

正则化 = 先验。 当你给损失函数加一个惩罚项来防止过拟合时,你其实是在说:“我先验地相信简单的模型更可能是对的。“这就是奥卡姆剃刀的数学表达。


五、In-Context Learning——贝叶斯定理的实时版

2020 年 GPT-3 论文中最惊人的发现不是模型有多大,而是一个叫 In-Context Learning (ICL) 的现象:

你不需要微调模型。只要在 prompt 里给几个例子,模型就能"学会"新任务。

比如:

输入:happy → 快乐
输入:sad → 悲伤
输入:beautiful → ?
输出:美丽

你没有改变模型的任何参数。但它"学会"了翻译。

这件事用贝叶斯框架看,清晰得惊人:

In-Context Learning 的贝叶斯解释
预训练知识(先验):
  模型知道英语和中文
  模型知道"翻译"是一种可能的任务
  模型见过大量翻译的例子

Prompt 中的例子(似然/证据):
  happy → 快乐    ← "这看起来像翻译任务"
  sad → 悲伤      ← "而且是英译中"

贝叶斯更新(后验):
  P(任务=英译中 | 看到的例子) → 非常高
  所以 beautiful → 美丽

2023 年,Xie 等人在论文 “An Explanation of In-context Learning as Implicit Bayesian Inference” 中严格证明了:Transformer 在做 In-Context Learning 时,其内部计算过程在数学上等价于贝叶斯推断。

每多看一个 example,模型就做一次隐式的贝叶斯更新——把"这是什么任务"的后验概率变得更尖锐、更确定。

这和你的大脑做的事情一模一样。当你走进一个陌生城市,看到第一个路牌是中文,你就开始假设这可能是中国。看到第二个中文路牌,假设变得更强。看到第三个——你已经非常确定了。你没有"重新训练"大脑,但你的信念更新了。


六、大语言模型的每一步预测,都是贝叶斯

让我把这个连接推得更远。

LLM 生成文本的过程——逐个预测下一个 token——本身就是贝叶斯过程。

$$P(w_{t+1} | w_1, w_2, …, w_t)$$

  • 先验:模型在预训练中学到的语言规律(语法、语义、世界知识)
  • 似然:前面已经生成的 token 提供的上下文信息
  • 后验:在给定所有上下文后,下一个 token 的概率分布

每生成一个新 token,上下文就增长一位,“证据"就多一条——模型对后续内容的预测就更精确。

文本生成 = 逐步贝叶斯更新
[开始]
先验分布很"宽"——下一个词可能是任何东西

"今天"
后验更新 → 大概率跟时间/天气/事件有关

"今天天气"
后验更新 → 几乎一定是天气描述

"今天天气真"
后验更新 → "好"的概率最高,"差"次之,"冷"也有可能

"今天天气真好"
✓ 后验最高概率的那个词被选中

每一步都是:旧信念(先验)+ 新证据(最新 token)→ 更新信念(后验)

如果你读过 《LLM 中的概率论》,你已经知道 LLM 的核心是预测下一个词的概率分布。现在你知道了:这个概率分布的数学本质,就是贝叶斯后验。


七、贝叶斯与 Shannon——两条暗线的交汇

如果你读过 《Shannon 没有想到的事》《信息论——从电报到 GPT 的一条暗线》,你可能已经隐约感觉到了——

贝叶斯和 Shannon 讲的是同一件事的两个面。

Shannon vs Bayes:同一枚硬币的两面
Shannon (信息论)Bayes (概率论)
核心问题数据能被压缩到多短?证据如何改变信念?
核心概念熵 H = -Σ p·log(p)后验 P(A|B) = P(B|A)·P(A)/P(B)
训练目标最小化交叉熵(尽可能好地压缩数据)最大化后验概率(找到最合理的参数)
对 LLM 的解释LLM 是一个压缩器LLM 是一个贝叶斯推理机
对预训练的解释压缩互联网文本的规律从数据中提取先验知识
对过拟合的解释记住了噪声,压缩效率下降似然压过了先验,信念太极端

事实上,交叉熵损失函数的数学推导可以从两条路走到同一个终点:

  • Shannon 路径:最小化预测分布和真实分布之间的 KL 散度 → 交叉熵
  • Bayes 路径:最大化数据的对数似然 → 交叉熵的负数

$$\text{最小化交叉熵} \equiv \text{最大化对数似然} \equiv \text{贝叶斯推断的近似}$$

《交叉熵损失函数》 中,我们从 Shannon 的公理出发推导了 -log(p)。现在你从另一个角度看到了同一个公式——-log(p) 既是"惊讶程度”(Shannon 视角),也是"数据反对当前模型的力度”(Bayes 视角)。

Shannon 告诉你"压缩即理解”。Bayes 告诉你"更新即学习”。LLM 同时在做这两件事。


八、我们的大脑也是贝叶斯机器

贝叶斯定理不只是 AI 的理论工具——越来越多的神经科学研究表明,人类的大脑也在用贝叶斯推断来感知世界。

视觉错觉:你的大脑在做贝叶斯

看过那些经典的视觉错觉图吗?两条一样长的线段,加上不同方向的箭头,你就觉得一条长一条短(Müller-Lyer 错觉)。

为什么?因为你的大脑不是在"看"——它是在做推断:

视网膜收到的光信号(似然) + 过去的视觉经验(先验) → 你"看到"的画面(后验)

你的大脑根据过去的经验(先验)“预期"带向外箭头的线段更远、因此更长。即使光信号告诉你它们一样长,先验的力量仍然影响了你的感知。

视觉错觉,本质上是你的先验在某些特殊情况下压过了似然。

语言理解:同样是贝叶斯

当你听到一句模糊的话——比如在嘈杂的酒吧里有人说了一句话,你只听清了 70%——你的大脑怎么"补全"剩下的 30%?

听到的声音片段(似然) + 语言知识和上下文(先验) → 你理解的句子(后验)

这就是为什么在中文环境里,即使你只听到"今天天…",大脑就已经在预测"气"或"是”。

LLM 的下一个 token 预测,和你的大脑在做完全相同的事。

Karl Friston(自由能原理的提出者)走得更远。他认为大脑的所有功能——感知、行动、学习、计划——都可以用一个统一的贝叶斯框架来描述:大脑在不断地最小化"预测误差"(自由能),而这在数学上等价于贝叶斯推断。这个理论叫做 Predictive Processing,目前是认知科学最具影响力的框架之一。


九、贝叶斯的"不可能"——计算困难

如果贝叶斯推断这么好,为什么不直接用?

因为精确的贝叶斯推断在高维空间中是计算地狱。

为什么精确贝叶斯推断不可行

贝叶斯定理的分母是:

$$P(D) = \int P(D|\theta) \cdot P(\theta) , d\theta$$

这意味着你要对所有可能的参数组合求积分。

  • GPT-2 有 1.5 亿个参数
  • GPT-3 有 1750 亿个参数
  • GPT-4 估计有超过 1 万亿个参数

在 1750 亿维空间里做积分?这比宇宙中原子的数量还要大不知道多少个数量级。

所以,整个深度学习的历史,就是一部"近似贝叶斯推断"的历史:

方法贝叶斯解释近似方式
SGD (随机梯度下降)寻找最大后验估计 (MAP)只找后验的峰值,忽略分布形状
Dropout模型平均随机丢弃神经元 ≈ 对大量不同模型求平均
L2 正则化高斯先验假设参数服从正态分布
Ensemble后验采样训练多个模型,投票
变分推断 (VI)用简单分布逼近后验把"求积分"变成"求优化"
MCMC从后验中采样随机游走探索参数空间

你在深度学习中见过的几乎所有"技巧"——正则化、Dropout、学习率调度、Ensemble——都有一个贝叶斯解释。

这不是巧合。这些技巧之所以有效,正是因为它们在不同程度上近似了正确的贝叶斯推断。


十、RLHF——贝叶斯更新的最新化身

如果你读过 《DeepSeek-R1:一个模型如何学会思考》,你知道现代 LLM 训练有三个阶段:

预训练 (Pre-training) → 有监督微调 (SFT) → 人类反馈强化学习 (RLHF)

用贝叶斯的眼光看:

三阶段训练 = 三次贝叶斯更新
第一次更新:预训练
  先验:随机初始化的权重(一无所知)
  似然:万亿 token 的互联网文本
  后验:通用语言模型("会说话"但不一定好用)

第二次更新:有监督微调 (SFT)
  先验:预训练后的模型
  似然:人类标注的高质量问答对
  后验:对话模型("知道怎么回答问题")

第三次更新:RLHF
  先验:SFT 后的模型
  似然:人类偏好数据("这个回答比那个好")
  后验:对齐后的模型("不仅会回答,还知道什么是好回答")

每一个阶段都是同一个故事:旧知识(先验)+ 新证据(似然)→ 更新的模型(后验)。

贝叶斯定理像一条暗流,从 1763 年的牧师遗稿,流过 263 年的统计学争论,最终流入了 2026 年全球每天被使用数十亿次的 AI 系统的核心。


十一、贝叶斯没有想到的三件事

回到标题。贝叶斯推导公式时,他没有想到——

第一件:他的公式适用于一切学习

贝叶斯只是想解决一个赌博问题——知道一些观测结果,推断骰子是不是公平的。他不知道同一个公式可以描述:

  • 婴儿学习语言
  • 科学家检验假说
  • 医生诊断疾病
  • AI 理解世界

贝叶斯定理不是一个概率公式。它是一个学习公式。

第二件:先验不是偏见,是智慧

在贝叶斯被争议了两百年的历史中,最大的批评是:“先验是主观的,不科学。”

但 AI 的发展证明了:先验是最珍贵的东西

没有先验的模型(随机初始化)什么都不会。预训练就是在积累先验。一个"有偏见"的模型(对世界有预期的模型)远比一个"无知"的模型强。

关键不在于有没有先验,而在于先验是不是合理的,以及你是否愿意根据新证据更新它。

这不也是做人的道理吗?

第三件:他的公式会成为 AI 的第一性原理

2026 年,当你向 ChatGPT 提问时:

  • 它的预训练知识是先验
  • 你的prompt是新证据
  • 它的回答是后验

每一次对话,都是一次贝叶斯更新。

一个 1761 年去世的英国牧师,用一篇未完成的遗稿,为 263 年后全球最强大的技术写下了第一性原理。

他不知道。但数学知道。


十二、一句话总结

贝叶斯定理的终极启示

学习,就是带着你已经知道的东西,拥抱你刚刚看到的证据,然后更新你的信念。

这是贝叶斯定理说的。

这是 AI 在做的。

这也是你每天在做的。

$$P(\text{新信念}|\text{新证据}) = \frac{P(\text{新证据}|\text{旧信念}) \cdot P(\text{旧信念})}{P(\text{新证据})}$$


参考与延伸

原始文献

  • Bayes, T. (1763). An Essay towards solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society, 53, 370-418. [由 Richard Price 整理发表的遗稿]
  • Laplace, P.-S. (1774). Mémoire sur la probabilité des causes par les événements. 独立重新发现并推广了贝叶斯定理
  • Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press. 贝叶斯学派的集大成之作

AI 中的贝叶斯

  • Xie, S. M. et al. (2022). An Explanation of In-context Learning as Implicit Bayesian Inference. ICLR 2022. 证明了 Transformer 的 ICL 等价于贝叶斯推断
  • Wilson, A. G. & Izmailov, P. (2020). Bayesian Deep Learning and a Probabilistic Perspective of Generalization. NeurIPS 2020. SGD 的贝叶斯解释
  • Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience. 大脑作为贝叶斯机器

博客相关文章