一看就懂:矩阵乘法到底对 LLM 做了什么?

GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。

2026年3月12日 · 3 分钟 · 594 字 · AI Lab

从语言的本质到 Attention 的诞生——QKV 为什么长这样

语言是对世界的压缩,但用语言解释语言是死循环。40 年的规则尝试失败后,分布式假说绕过了这个问题,而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。

2026年3月5日 · 6 分钟 · 1270 字 · AI Lab

LLM 全流程可视化:逐步拆解大语言模型的每一步计算

用一个真实的 4.3M 参数模型(nanoGPT + 西游记),逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果,不是模拟。

2026年2月18日 · 5 分钟 · 971 字 · AI Lab

从加减乘除到预测下一个字:Attention 机制零基础拆解

用零基础也能懂的语言,拆解 Transformer 的核心:点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么,也讲机器自己学到了什么。

2026年2月21日 · 7 分钟 · 1446 字 · AI Lab

AI 的数学语言(四):矩阵乘法与 AI——理解 Transformer 的最后一块拼图

从矩阵乘法到 Attention 完整公式:softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。

2026年2月22日 · 3 分钟 · 635 字 · AI Lab

用 4192 个参数看透 Transformer:QKV、多头注意力、MLP 全拆解

用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。

2026年2月26日 · 9 分钟 · 1807 字 · AI Lab

从矩阵乘法到 Transformer:LLM 背后的数学直觉

不做证明,只建直觉。从矩阵乘法的三种视角出发,一步步搭建理解 Transformer 的完整数学框架:QKV 投影、多头注意力、残差连接、MLP,以及它们如何协作生成下一个 token。

2026年3月2日 · 7 分钟 · 1387 字 · AI Lab

看见数学(五):方程的力量——自然界的源代码

方程不是考试题。方程是人类发现的自然界的源代码。从《九章算术》的"方程"二字到 Transformer 的注意力公式,每一个方程背后都是人类对世界的一次深刻理解。第一幕收官之作。

2026年3月17日 · 5 分钟 · 1060 字 · AI Lab

第一个词和第五个词有什么不同?——位置编码的数学与直觉

Transformer 天生是个色盲——它能看清每个词的颜色(语义),却分不清词的位置。‘猫吃鱼’和’鱼吃猫’在它眼中完全等价。为了让模型学会’谁在前谁在后’,研究者发明了一种优雅到不真实的方案:把位置信息编码成波,然后直接加到语义向量上。这一步看似暴力,实则深刻。

2026年4月2日 · 12 分钟 · 2366 字 · AI Lab