损失函数 | AI 学习笔记

AI 的数学语言（六）：梯度下降——AI 怎么学习

从损失函数到反向传播：AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。

AI 的"学习"其实是一个数学过程：计算误差、求导数、沿梯度方向调整参数。梯度下降就是"在高维山谷里摸索下山"。第九篇的导数、第十一篇的向量、第十二篇的矩阵——所有工具在这里汇合。

从 Shannon 1948 年的三条公理出发，理解为什么 GPT 的 loss 必须是 -log(p)：它是满足「信息量」定义的唯一函数，用它做 loss 等价于最大似然估计和最小化 KL 散度——这不是经验选择，是数学必然。

能量守恒不只是一条物理定律——它是一种思维方式：在一个不断变化的世界里，找到那个永远不变的东西。而 AI 的训练过程，本质上就是在一片「能量景观」上寻找最低点。