一看就懂:矩阵乘法到底对 LLM 做了什么?
GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。
GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。
语言是对世界的压缩,但用语言解释语言是死循环。40 年的规则尝试失败后,分布式假说绕过了这个问题,而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。
用一个真实的 4.3M 参数模型(nanoGPT + 西游记),逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果,不是模拟。
用零基础也能懂的语言,拆解 Transformer 的核心:点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么,也讲机器自己学到了什么。
从矩阵乘法到 Attention 完整公式:softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。
用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。
不做证明,只建直觉。从矩阵乘法的三种视角出发,一步步搭建理解 Transformer 的完整数学框架:QKV 投影、多头注意力、残差连接、MLP,以及它们如何协作生成下一个 token。
方程不是考试题。方程是人类发现的自然界的源代码。从《九章算术》的"方程"二字到 Transformer 的注意力公式,每一个方程背后都是人类对世界的一次深刻理解。第一幕收官之作。
Transformer 天生是个色盲——它能看清每个词的颜色(语义),却分不清词的位置。‘猫吃鱼’和’鱼吃猫’在它眼中完全等价。为了让模型学会’谁在前谁在后’,研究者发明了一种优雅到不真实的方案:把位置信息编码成波,然后直接加到语义向量上。这一步看似暴力,实则深刻。