LLM 中的概率论:从掷骰子到生成文本

零基础理解大语言模型背后的概率论:条件概率、Softmax、交叉熵、Temperature、采样策略、大数定律与中心极限定理——用最直观的类比和动图,拆解 LLM 的数学骨架。

2026年3月13日 · 7 分钟 · 1281 字 · AI Lab

看见数学(番外):信息论——从电报到 GPT 的一条暗线

Shannon 1948 年证明了一件事:压缩 = 预测 = 理解。76 年后,我们用万亿参数的神经网络去逼近他的定理。这是贯穿「看见数学」所有篇章的那条暗线。

2026年3月26日 · 5 分钟 · 994 字 · AI Lab

为什么用 -log(p) 做损失函数?—— 从信息论到 Cross-Entropy 的完整推导

从 Shannon 1948 年的三条公理出发,理解为什么 GPT 的 loss 必须是 -log(p):它是满足「信息量」定义的唯一函数,用它做 loss 等价于最大似然估计和最小化 KL 散度——这不是经验选择,是数学必然。

2026年3月28日 · 5 分钟 · 1063 字 · AI Lab

看见物理(五):熵——承认无知的勇气

1865 年,一个德国人造了一个新词来形容世界的衰败;1948 年,一个美国人用同一个公式描述电报的成本;2025 年,你电脑里每一次 AI 推理,都在重演这条 160 年的暗线。熵不是公式——它是人类第一次承认「我不知道」,然后把这份无知量化成数学。

2026年4月17日 · 4 分钟 · 832 字 · AI Lab