AI 学习笔记

从手写数字识别到 ChatGPT——一个最简单的神经网络能教会我们什么

用纯 Python 和 NumPy 从零搭了一个 10 个神经元的神经网络，识别手写数字，然后把它拆开——看清了模板匹配、投票矩阵和每一步计算。从这个最小的网络出发，聊聊 FNN、CNN、RNN、Transformer 的演进，以及可解释性的边界。

当数字学会了远近亲疏——从查表到 Embedding 的一步跨越

A=65, B=66——这些数字是死的。「大漠孤烟直，长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中，有一步跨越改变了一切：数字不再是编号，而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。

看见物理（一）：运动——世界从"动"开始

物理学不是从公式开始的，是从一个最朴素的问题开始的：东西为什么会动？一个意大利人决定不再问「为什么」，而是问「怎么动」——这个转向，开启了整个现代科学。

第一个词和第五个词有什么不同？——位置编码的数学与直觉

Transformer 天生是个色盲——它能看清每个词的颜色（语义），却分不清词的位置。‘猫吃鱼’和’鱼吃猫’在它眼中完全等价。为了让模型学会’谁在前谁在后’，研究者发明了一种优雅到不真实的方案：把位置信息编码成波，然后直接加到语义向量上。这一步看似暴力，实则深刻。

从一个取反说起——计算机如何从「只会加法」走到「AI 写诗」

~5 = -6？从这个小困惑出发，我们穿越 7 层抽象，看见逻辑门如何一步步堆叠成 ChatGPT。这是一篇写给所有人的计算机底层原理科普。

看见物理（二）：力——看不见的手

牛顿最反直觉的发现不是万有引力，而是第一定律：不受力的物体不会停下来，它会永远运动下去。两千年来人类都以为「运动需要力来维持」，牛顿说：错了，运动是天经地义的，停下来才需要解释。

一个加号拯救了深度学习——残差连接的前世今生

2015 年，何恺明发现了一件诡异的事：56 层的神经网络比 20 层的更差——不是过拟合，是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号：y = F(x) + x。就这一个加号，让网络从 20 层一路堆到 1000 层，让 Transformer 成为可能，让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。

看见物理（三）：能量——不灭的守恒量

能量守恒不只是一条物理定律——它是一种思维方式：在一个不断变化的世界里，找到那个永远不变的东西。而 AI 的训练过程，本质上就是在一片「能量景观」上寻找最低点。

欧拉的 e——一个数字如何同时出现在复利、衰变和神经网络里

2.71828… 这个数字出现在银行复利、放射性衰变、人口增长、Softmax 函数、学习率衰减里。它不是人造的常数——它是自然界「连续变化」的签名。读完这篇，你再看到 e 不会害怕，而会觉得亲切。

贝叶斯没有想到的事——一个牧师的赌博公式，如何成为 AI 的第一性原理

1763 年，一个英国牧师的遗稿里藏着一条公式。263 年后，这条公式成了 GPT 训练的数学骨架：先验 = 预训练，似然 = 数据，后验 = 微调。贝叶斯定理不只是一个公式——它是一种「带着旧知识拥抱新证据」的思维方式。而这正是 AI 学习的方式。