系列导航
第一幕(5 篇)+ 第二幕(5 篇)→ 查看全部▹ 第十一篇:向量——给万物一个坐标▹ 第十二篇:矩阵——空间的变形术▸ 第十三篇(本文):概率——拥抱不确定▹ 第十四篇:高维——超越想象力▹ 第十五篇:梯度下降——数学会学习▹ 第十六篇:终章——数学是人类的望远镜
第一章:赌桌上诞生的数学
1654 年,法国贵族梅雷骑士遇到一个问题:
两人赌博,约定先赢 3 局者拿走全部赌注。
现在 A 赢了 2 局,B 赢了 1 局。
比赛因故中断。
问:赌注该怎么分?
梅雷骑士写信给数学家帕斯卡。帕斯卡又写信给费马。两个人的通信,催生了概率论。
他们的回答:不是看"已经发生了什么",而是看"接下来可能发生什么"。
A 只差 1 局就赢。B 还差 2 局。
最多再打 2 局:
情况 1:A 赢 → A 胜(概率 1/2)
情况 2:B 赢, A 赢 → A 胜(概率 1/4)
情况 3:B 赢, B 赢 → B 胜(概率 1/4)
A 获胜的概率 = 3/4,B 获胜的概率 = 1/4
所以赌注应该按 3:1 分配。
概率论的出发点不是"预测未来",而是"在不确定中做出合理的决策"。
一句话记住: 概率不是给赌徒用的。概率是在"不知道结果"的时候,做出"最不坏的选择"的数学工具。
第二章:概率的直觉——从频率到信念
概率是什么?有两种理解方式:
| 视角 | 含义 | 例子 |
|---|---|---|
| 频率派 | 重复实验无穷次,事件发生的比例 | 抛硬币 10000 次,大约 5000 次正面 → P = 0.5 |
| 贝叶斯派 | 你对一件事的信念程度 | “我觉得明天下雨的概率是 60%” |
频率派的概率很"客观"——需要可以重复的实验。但现实中很多事不可重复:明天会下雨吗?这个病人有多大可能康复?这封邮件是垃圾邮件的概率有多大?
贝叶斯派说:概率是你的信念,而且信念可以更新。
早上起来,你觉得今天下雨的概率是 30%(基于天气预报)。
走出门,看到乌云密布 → 你更新信念:概率上升到 70%。
又看到邻居带了伞 → 再更新:概率上升到 80%。
每一条新信息,都让你的判断更准确。
这种"看到新证据就更新概率"的方法,叫做贝叶斯更新。
贝叶斯的故事: 托马斯·贝叶斯(1701-1761)是一位英国长老会牧师。他的论文在他去世后才由朋友发表。这位牧师大概没想到,他的方法会成为 21 世纪 AI 的基石——垃圾邮件过滤、医学诊断、自动驾驶、语言模型,全部建立在贝叶斯思想之上。
一句话记住: 频率派说"概率是客观事实",贝叶斯派说"概率是可以更新的信念"。AI 用的是贝叶斯思想——每看到一个新词,就更新对下一个词的"信念"。
第三章:条件概率——“知道了 A,B 会变吗?”
概率最强大的工具是条件概率:在已知某件事发生的条件下,另一件事发生的概率。
一个班 40 个学生。
戴眼镜的:20 人
学编程的:10 人
又戴眼镜又学编程的:8 人
P(学编程) = 10/40 = 25%
但如果你已经知道这个学生戴眼镜呢?
P(学编程 | 戴眼镜) = 8/20 = 40%
"知道他戴眼镜"这个信息,
让"他学编程的概率"从 25% 提升到了 40%。
这就是条件概率——新信息改变概率。
条件概率写作 P(B|A),读作"在 A 发生的条件下,B 发生的概率"。
这不是什么抽象概念——你每天都在用条件概率:
P(堵车 | 周一早高峰) >> P(堵车 | 周日凌晨)
P(迟到 | 没设闹钟) >> P(迟到 | 设了三个闹钟)
你的大脑时刻在做条件概率的计算,只是没写成公式。
第四章:连接 AI——GPT 的每个字都是概率
现在来看概率在 AI 里的核心角色。
GPT 生成文字的过程,就是反复做一件事:给定前面的所有词,预测下一个词的概率分布。
输入:"今天天气真"
GPT 计算:P(下一个词 | "今天天气真") =
好 → 0.45 (45%)
不错 → 0.25 (25%)
差 → 0.10 (10%)
热 → 0.08 (8%)
冷 → 0.05 (5%)
...其他 → 0.07 (7%)
然后从这个概率分布中"抽样"一个词。
假设抽到了"好"。
接着计算:P(下一个词 | "今天天气真好") =
, → 0.35
啊 → 0.20
! → 0.15
...
如此循环,一个字一个字地生成。
这里有一个你在 第七篇(指数爆炸) 里学过的关键工具:softmax 函数。
神经网络输出的是"原始分数"(logits):
好: 3.2, 不错: 2.1, 差: 0.8, 热: 0.5, ...
softmax 把它们变成概率(加起来等于 1):
好: 0.45, 不错: 0.25, 差: 0.10, 热: 0.08, ...
softmax 用的是什么?指数函数 e^x!
→ 分数高的词被指数放大,分数低的词被压缩
→ "赢家通吃"效应
还记得第八篇说的 temperature(温度)吗?
| 温度 | 效果 | 适合 |
|---|---|---|
| 低 (0.1-0.3) | 概率分布很"尖",几乎总是选最高分的词 | 翻译、代码——需要准确 |
| 中 (0.7-1.0) | 概率分布适度平坦,有一定随机性 | 聊天——自然但不乱来 |
| 高 (1.5-2.0) | 概率分布很"平",低概率词也有机会被选中 | 创意写作——需要意外 |
Temperature 不是改变"模型的知识",而是改变"从概率分布中抽样"的方式。 同一个模型,温度不同,输出完全不同。这就是为什么 ChatGPT 有时候很严谨,有时候很"跳脱"。
一句话记住: GPT 不"知道"下一个字是什么。它计算每个词的条件概率,然后掷骰子。它不是在"思考",而是在做概率抽样。
第五章:概率的古老智慧
概率思维在中国文化里有深远的根基。
《孙子兵法》的概率思维: “知彼知己,百战不殆”——不是说一定赢,而是说赢的概率极高。“不殆"不是"必胜”,是"不会有危险"。孙子的战略思想本质上就是概率思维:增大胜率,减小败率。
诸葛亮的"锦囊妙计": 不是未卜先知,而是穷举可能的情况,提前为每种情况准备对策——这就是条件概率的思维。“如果敌军从水路来(条件 A),则打开第一个锦囊(策略 B₁)。如果敌军从陆路来(条件 C),则打开第二个锦囊(策略 B₂)。”
“谋事在人,成事在天”: 这不是宿命论,而是对概率本质的深刻理解——你只能控制概率(谋事在人),不能控制结果(成事在天)。好的决策不是保证好的结果,而是让好的结果更可能发生。
动手实验
实验:模拟 GPT 的"下一个词预测"
import random
# 简化的"语言模型":给定前文,预测下一个词的概率分布
model = {
"今天": {"天气": 0.4, "我": 0.3, "是": 0.2, "很": 0.1},
"今天天气": {"真": 0.5, "不": 0.3, "很": 0.2},
"今天天气真": {"好": 0.5, "不错": 0.25, "差": 0.1, "热": 0.15},
}
def sample(probs, temperature=1.0):
"""从概率分布中抽样(带温度控制)"""
import math
words = list(probs.keys())
# 应用温度
logits = [math.log(p) / temperature for p in probs.values()]
# softmax
max_l = max(logits)
exps = [math.exp(l - max_l) for l in logits]
total = sum(exps)
adjusted = [e / total for e in exps]
# 抽样
r = random.random()
cumsum = 0
for word, prob in zip(words, adjusted):
cumsum += prob
if r < cumsum:
return word
return words[-1]
# 不同温度的生成效果
for temp in [0.3, 1.0, 2.0]:
print(f"\n温度 = {temp}:")
for i in range(5):
text = "今天"
while text in model:
next_word = sample(model[text], temperature=temp)
text += next_word
print(f" {text}")
本篇小结
一、概率论诞生于赌桌
- 帕斯卡和费马的通信,不是为了赢钱,而是为了在不确定中做合理决策
二、频率 vs 贝叶斯
- 频率派看重复实验的比例,贝叶斯派看可更新的信念
- AI 用的是贝叶斯思想
三、条件概率 = 新信息改变概率
- P(B|A):知道 A,B 的概率就变了
- 你每天都在做条件概率计算
四、GPT = 条件概率机器
- 给定前文,计算每个词的概率,然后抽样
- softmax 把分数变成概率,temperature 控制随机性
五、概率的古老智慧
- “知彼知己,百战不殆” = 增大胜率
- 好的决策不保证好的结果,只让好的结果更可能
下一篇预告
向量可以有 2 维、3 维……但 AI 里的向量动辄 768 维、几千维。
人类能直觉理解的空间最多到 3 维。超过 3 维的空间叫高维空间。
高维空间有很多反直觉的性质:几乎所有点都在"表面"上、随机的两个向量几乎总是"差不多垂直"、数据在高维里变得极度稀疏……
这些不是数学家的游戏——它们直接影响 AI 的设计。理解高维,就理解了为什么深度学习需要那么多数据,为什么降维那么重要。
下一篇:看见数学(十四):高维——超越想象力
《看见数学》系列 — 从结绳记事到 AI,看见数学之美。
本文首发于「AI 学习笔记」博客:https://Jason-Azure.github.io/ai-blog/
微信公众号:AI-lab学习笔记
系列文章完整列表见 标签:看见数学
