AI 的数学语言(六):梯度下降——AI 怎么学习
从损失函数到反向传播:AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。
从损失函数到反向传播:AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。
AI 的"学习"其实是一个数学过程:计算误差、求导数、沿梯度方向调整参数。梯度下降就是"在高维山谷里摸索下山"。第九篇的导数、第十一篇的向量、第十二篇的矩阵——所有工具在这里汇合。
从 Shannon 1948 年的三条公理出发,理解为什么 GPT 的 loss 必须是 -log(p):它是满足「信息量」定义的唯一函数,用它做 loss 等价于最大似然估计和最小化 KL 散度——这不是经验选择,是数学必然。
能量守恒不只是一条物理定律——它是一种思维方式:在一个不断变化的世界里,找到那个永远不变的东西。而 AI 的训练过程,本质上就是在一片「能量景观」上寻找最低点。