一看就懂:矩阵乘法到底对 LLM 做了什么?
GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。
GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。
很多人以为 LLM 只是"鹦鹉学舌"的概率机器。但研究证明,LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中,以一种只有模型自己能解读的"加密"方式。这篇文章拆开这个秘密。
用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。
A=65, B=66——这些数字是死的。「大漠孤烟直,长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中,有一步跨越改变了一切:数字不再是编号,而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。