看见数学（十三）：概率——拥抱不确定

系列导航
第一幕（5 篇）+ 第二幕（5 篇）→ 查看全部
▹ 第十一篇：向量——给万物一个坐标
▹ 第十二篇：矩阵——空间的变形术
▸ 第十三篇（本文）：概率——拥抱不确定
▹ 第十四篇：高维——超越想象力
▹ 第十五篇：梯度下降——数学会学习
▹ 第十六篇：终章——数学是人类的望远镜

第一章：赌桌上诞生的数学

1654 年，法国贵族梅雷骑士遇到一个问题：

赌徒的困惑

两人赌博，约定先赢 3 局者拿走全部赌注。

现在 A 赢了 2 局，B 赢了 1 局。
比赛因故中断。

问：赌注该怎么分？

梅雷骑士写信给数学家帕斯卡。帕斯卡又写信给费马。两个人的通信，催生了概率论。

他们的回答：不是看"已经发生了什么"，而是看"接下来可能发生什么"。

A 只差 1 局就赢。B 还差 2 局。

最多再打 2 局：
  情况 1：A 赢 → A 胜（概率 1/2）
  情况 2：B 赢, A 赢 → A 胜（概率 1/4）
  情况 3：B 赢, B 赢 → B 胜（概率 1/4）

A 获胜的概率 = 3/4，B 获胜的概率 = 1/4

所以赌注应该按 3:1 分配。

概率论的出发点不是"预测未来"，而是"在不确定中做出合理的决策"。

一句话记住： 概率不是给赌徒用的。概率是在"不知道结果"的时候，做出"最不坏的选择"的数学工具。

第二章：概率的直觉——从频率到信念

概率是什么？有两种理解方式：

两种概率观

视角	含义	例子
频率派	重复实验无穷次，事件发生的比例	抛硬币 10000 次，大约 5000 次正面 → P = 0.5
贝叶斯派	你对一件事的信念程度	“我觉得明天下雨的概率是 60%”

频率派的概率很"客观"——需要可以重复的实验。但现实中很多事不可重复：明天会下雨吗？这个病人有多大可能康复？这封邮件是垃圾邮件的概率有多大？

贝叶斯派说：概率是你的信念，而且信念可以更新。

早上起来，你觉得今天下雨的概率是 30%（基于天气预报）。
走出门，看到乌云密布 → 你更新信念：概率上升到 70%。
又看到邻居带了伞 → 再更新：概率上升到 80%。

每一条新信息，都让你的判断更准确。

这种"看到新证据就更新概率"的方法，叫做贝叶斯更新。

贝叶斯的故事： 托马斯·贝叶斯（1701-1761）是一位英国长老会牧师。他的论文在他去世后才由朋友发表。这位牧师大概没想到，他的方法会成为 21 世纪 AI 的基石——垃圾邮件过滤、医学诊断、自动驾驶、语言模型，全部建立在贝叶斯思想之上。

一句话记住： 频率派说"概率是客观事实"，贝叶斯派说"概率是可以更新的信念"。AI 用的是贝叶斯思想——每看到一个新词，就更新对下一个词的"信念"。

第三章：条件概率——“知道了 A，B 会变吗？”

概率最强大的工具是条件概率：在已知某件事发生的条件下，另一件事发生的概率。

条件概率的直觉

一个班 40 个学生。
  戴眼镜的：20 人
  学编程的：10 人
  又戴眼镜又学编程的：8 人

P(学编程) = 10/40 = 25%

但如果你已经知道这个学生戴眼镜呢？
P(学编程 | 戴眼镜) = 8/20 = 40%

"知道他戴眼镜"这个信息，
  让"他学编程的概率"从 25% 提升到了 40%。

这就是条件概率——新信息改变概率。

条件概率写作 P(B|A)，读作"在 A 发生的条件下，B 发生的概率"。

这不是什么抽象概念——你每天都在用条件概率：

P(堵车 | 周一早高峰) >> P(堵车 | 周日凌晨)
P(迟到 | 没设闹钟)   >> P(迟到 | 设了三个闹钟)

你的大脑时刻在做条件概率的计算，只是没写成公式。

第四章：连接 AI——GPT 的每个字都是概率

现在来看概率在 AI 里的核心角色。

GPT 生成文字的过程，就是反复做一件事：给定前面的所有词，预测下一个词的概率分布。

GPT = 条件概率机器

输入："今天天气真"

GPT 计算：P(下一个词 | "今天天气真") =

  好     → 0.45  (45%)
  不错   → 0.25  (25%)
  差     → 0.10  (10%)
  热     → 0.08  (8%)
  冷     → 0.05  (5%)
  ...其他 → 0.07  (7%)

然后从这个概率分布中"抽样"一个词。
假设抽到了"好"。

接着计算：P(下一个词 | "今天天气真好") =
  ，     → 0.35
  啊     → 0.20
  ！     → 0.15
  ...

如此循环，一个字一个字地生成。

这里有一个你在第七篇（指数爆炸）里学过的关键工具：softmax 函数。

神经网络输出的是"原始分数"（logits）：
  好: 3.2,  不错: 2.1,  差: 0.8,  热: 0.5, ...

softmax 把它们变成概率（加起来等于 1）：
  好: 0.45,  不错: 0.25,  差: 0.10,  热: 0.08, ...

softmax 用的是什么？指数函数 e^x！
→ 分数高的词被指数放大，分数低的词被压缩
→ "赢家通吃"效应

还记得第八篇说的 temperature（温度）吗？

温度控制"创造力"

温度	效果	适合
低 (0.1-0.3)	概率分布很"尖"，几乎总是选最高分的词	翻译、代码——需要准确
中 (0.7-1.0)	概率分布适度平坦，有一定随机性	聊天——自然但不乱来
高 (1.5-2.0)	概率分布很"平"，低概率词也有机会被选中	创意写作——需要意外

Temperature 不是改变"模型的知识"，而是改变"从概率分布中抽样"的方式。 同一个模型，温度不同，输出完全不同。这就是为什么 ChatGPT 有时候很严谨，有时候很"跳脱"。

一句话记住： GPT 不"知道"下一个字是什么。它计算每个词的条件概率，然后掷骰子。它不是在"思考"，而是在做概率抽样。

第五章：概率的古老智慧

概率思维在中国文化里有深远的根基。

《孙子兵法》的概率思维： “知彼知己，百战不殆”——不是说一定赢，而是说赢的概率极高。“不殆"不是"必胜”，是"不会有危险"。孙子的战略思想本质上就是概率思维：增大胜率，减小败率。

诸葛亮的"锦囊妙计"： 不是未卜先知，而是穷举可能的情况，提前为每种情况准备对策——这就是条件概率的思维。“如果敌军从水路来（条件 A），则打开第一个锦囊（策略 B₁）。如果敌军从陆路来（条件 C），则打开第二个锦囊（策略 B₂）。”

“谋事在人，成事在天”： 这不是宿命论，而是对概率本质的深刻理解——你只能控制概率（谋事在人），不能控制结果（成事在天）。好的决策不是保证好的结果，而是让好的结果更可能发生。

动手实验

实验：模拟 GPT 的"下一个词预测"

import random

# 简化的"语言模型"：给定前文，预测下一个词的概率分布
model = {
    "今天": {"天气": 0.4, "我": 0.3, "是": 0.2, "很": 0.1},
    "今天天气": {"真": 0.5, "不": 0.3, "很": 0.2},
    "今天天气真": {"好": 0.5, "不错": 0.25, "差": 0.1, "热": 0.15},
}

def sample(probs, temperature=1.0):
    """从概率分布中抽样（带温度控制）"""
    import math
    words = list(probs.keys())
    # 应用温度
    logits = [math.log(p) / temperature for p in probs.values()]
    # softmax
    max_l = max(logits)
    exps = [math.exp(l - max_l) for l in logits]
    total = sum(exps)
    adjusted = [e / total for e in exps]
    # 抽样
    r = random.random()
    cumsum = 0
    for word, prob in zip(words, adjusted):
        cumsum += prob
        if r < cumsum:
            return word
    return words[-1]

# 不同温度的生成效果
for temp in [0.3, 1.0, 2.0]:
    print(f"\n温度 = {temp}:")
    for i in range(5):
        text = "今天"
        while text in model:
            next_word = sample(model[text], temperature=temp)
            text += next_word
        print(f"  {text}")

本篇小结

这篇文章讲了什么？

一、概率论诞生于赌桌

帕斯卡和费马的通信，不是为了赢钱，而是为了在不确定中做合理决策

二、频率 vs 贝叶斯

频率派看重复实验的比例，贝叶斯派看可更新的信念
AI 用的是贝叶斯思想

三、条件概率 = 新信息改变概率

P(B|A)：知道 A，B 的概率就变了
你每天都在做条件概率计算

四、GPT = 条件概率机器

给定前文，计算每个词的概率，然后抽样
softmax 把分数变成概率，temperature 控制随机性

五、概率的古老智慧

“知彼知己，百战不殆” = 增大胜率
好的决策不保证好的结果，只让好的结果更可能

下一篇预告

向量可以有 2 维、3 维……但 AI 里的向量动辄 768 维、几千维。

人类能直觉理解的空间最多到 3 维。超过 3 维的空间叫高维空间。

高维空间有很多反直觉的性质：几乎所有点都在"表面"上、随机的两个向量几乎总是"差不多垂直"、数据在高维里变得极度稀疏……

这些不是数学家的游戏——它们直接影响 AI 的设计。理解高维，就理解了为什么深度学习需要那么多数据，为什么降维那么重要。

下一篇：看见数学（十四）：高维——超越想象力

《看见数学》系列 — 从结绳记事到 AI，看见数学之美。
本文首发于「AI 学习笔记」博客：https://Jason-Azure.github.io/ai-blog/
微信公众号：AI-lab学习笔记
系列文章完整列表见标签：看见数学

第一章：赌桌上诞生的数学#

第二章：概率的直觉——从频率到信念#

第三章：条件概率——“知道了 A，B 会变吗？”#

第四章：连接 AI——GPT 的每个字都是概率#

第五章：概率的古老智慧#

动手实验#

实验：模拟 GPT 的"下一个词预测"#

本篇小结#

下一篇预告#