AI 的数学语言(六):梯度下降——AI 怎么学习

从损失函数到反向传播:AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。

2026年2月22日 · 5 分钟 · 990 字 · AI Lab

看见数学(十五):梯度下降——数学会学习

AI 的"学习"其实是一个数学过程:计算误差、求导数、沿梯度方向调整参数。梯度下降就是"在高维山谷里摸索下山"。第九篇的导数、第十一篇的向量、第十二篇的矩阵——所有工具在这里汇合。

2026年3月22日 · 2 分钟 · 423 字 · AI Lab

为什么用 -log(p) 做损失函数?—— 从信息论到 Cross-Entropy 的完整推导

从 Shannon 1948 年的三条公理出发,理解为什么 GPT 的 loss 必须是 -log(p):它是满足「信息量」定义的唯一函数,用它做 loss 等价于最大似然估计和最小化 KL 散度——这不是经验选择,是数学必然。

2026年3月28日 · 5 分钟 · 1063 字 · AI Lab

看见物理(三):能量——不灭的守恒量

能量守恒不只是一条物理定律——它是一种思维方式:在一个不断变化的世界里,找到那个永远不变的东西。而 AI 的训练过程,本质上就是在一片「能量景观」上寻找最低点。

2026年4月7日 · 3 分钟 · 578 字 · AI Lab