从手写数字识别到 ChatGPT——一个最简单的神经网络能教会我们什么

用纯 Python 和 NumPy 从零搭了一个 10 个神经元的神经网络,识别手写数字,然后把它拆开——看清了模板匹配、投票矩阵和每一步计算。从这个最小的网络出发,聊聊 FNN、CNN、RNN、Transformer 的演进,以及可解释性的边界。

2026年3月30日 · 5 分钟 · 928 字 · AI Lab

当数字学会了远近亲疏——从查表到 Embedding 的一步跨越

A=65, B=66——这些数字是死的。「大漠孤烟直,长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中,有一步跨越改变了一切:数字不再是编号,而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。

2026年4月1日 · 10 分钟 · 2042 字 · AI Lab

看见物理(一):运动——世界从"动"开始

物理学不是从公式开始的,是从一个最朴素的问题开始的:东西为什么会动?一个意大利人决定不再问「为什么」,而是问「怎么动」——这个转向,开启了整个现代科学。

2026年4月5日 · 4 分钟 · 779 字 · AI Lab

第一个词和第五个词有什么不同?——位置编码的数学与直觉

Transformer 天生是个色盲——它能看清每个词的颜色(语义),却分不清词的位置。‘猫吃鱼’和’鱼吃猫’在它眼中完全等价。为了让模型学会’谁在前谁在后’,研究者发明了一种优雅到不真实的方案:把位置信息编码成波,然后直接加到语义向量上。这一步看似暴力,实则深刻。

2026年4月2日 · 12 分钟 · 2366 字 · AI Lab

从一个取反说起——计算机如何从「只会加法」走到「AI 写诗」

~5 = -6?从这个小困惑出发,我们穿越 7 层抽象,看见逻辑门如何一步步堆叠成 ChatGPT。这是一篇写给所有人的计算机底层原理科普。

2026年3月23日 · 8 分钟 · 1699 字 · AI Lab

看见物理(二):力——看不见的手

牛顿最反直觉的发现不是万有引力,而是第一定律:不受力的物体不会停下来,它会永远运动下去。两千年来人类都以为「运动需要力来维持」,牛顿说:错了,运动是天经地义的,停下来才需要解释。

2026年4月6日 · 4 分钟 · 790 字 · AI Lab

一个加号拯救了深度学习——残差连接的前世今生

2015 年,何恺明发现了一件诡异的事:56 层的神经网络比 20 层的更差——不是过拟合,是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号:y = F(x) + x。就这一个加号,让网络从 20 层一路堆到 1000 层,让 Transformer 成为可能,让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。

2026年4月3日 · 9 分钟 · 1864 字 · AI Lab

看见物理(三):能量——不灭的守恒量

能量守恒不只是一条物理定律——它是一种思维方式:在一个不断变化的世界里,找到那个永远不变的东西。而 AI 的训练过程,本质上就是在一片「能量景观」上寻找最低点。

2026年4月7日 · 3 分钟 · 578 字 · AI Lab

欧拉的 e——一个数字如何同时出现在复利、衰变和神经网络里

2.71828… 这个数字出现在银行复利、放射性衰变、人口增长、Softmax 函数、学习率衰减里。它不是人造的常数——它是自然界「连续变化」的签名。读完这篇,你再看到 e 不会害怕,而会觉得亲切。

2026年4月5日 · 6 分钟 · 1219 字 · AI Lab

贝叶斯没有想到的事——一个牧师的赌博公式,如何成为 AI 的第一性原理

1763 年,一个英国牧师的遗稿里藏着一条公式。263 年后,这条公式成了 GPT 训练的数学骨架:先验 = 预训练,似然 = 数据,后验 = 微调。贝叶斯定理不只是一个公式——它是一种「带着旧知识拥抱新证据」的思维方式。而这正是 AI 学习的方式。

2026年4月6日 · 5 分钟 · 957 字 · AI Lab