AI 的数学语言(六):梯度下降——AI 怎么学习
从损失函数到反向传播:AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。
从损失函数到反向传播:AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。
微积分回答了一个人类追问了 2000 年的问题:在这一瞬间,变化有多快?从芝诺的乌龟到牛顿的苹果,从割线到切线,从导数到梯度——AI 训练的每一步,都在用微积分。
AI 的"学习"其实是一个数学过程:计算误差、求导数、沿梯度方向调整参数。梯度下降就是"在高维山谷里摸索下山"。第九篇的导数、第十一篇的向量、第十二篇的矩阵——所有工具在这里汇合。
用纯 Python 和 NumPy 从零搭了一个 10 个神经元的神经网络,识别手写数字,然后把它拆开——看清了模板匹配、投票矩阵和每一步计算。从这个最小的网络出发,聊聊 FNN、CNN、RNN、Transformer 的演进,以及可解释性的边界。
物理学不是从公式开始的,是从一个最朴素的问题开始的:东西为什么会动?一个意大利人决定不再问「为什么」,而是问「怎么动」——这个转向,开启了整个现代科学。
牛顿最反直觉的发现不是万有引力,而是第一定律:不受力的物体不会停下来,它会永远运动下去。两千年来人类都以为「运动需要力来维持」,牛顿说:错了,运动是天经地义的,停下来才需要解释。
二战时期,数学家诺伯特·维纳研究一个残酷的问题:飞机一直在动,炮弹也需要时间飞行,防空炮到底该打向哪里?这不是简单地预测飞机下一秒的位置,而是要持续计算拦截点,并在观测误差、动作延迟和敌人机动中不断修正。这个问题把他带向一个更深的概念:反馈。智能不是一次性给出正确答案,而是在行动之后被世界纠正。梯度下降、RLHF、DeepSeek-R1、Agent、自动驾驶,表面上差别很大,底层却都在同一个闭环里运行:行动、观察、误差、修正。