Transformer

为什么 AI 离不开线性？因为人类的大脑也离不开

线性不是世界的本质，而是大脑的’操作系统’。从认知偏差到万能近似，从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图，一篇从认知科学到工程哲学的深度探索。

训练 ChatGPT 用的不是什么神秘的 AI 芯片，而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片，为什么成了 AI 革命的引擎？因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。

GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么？9 张动图，把 GPT 里最核心的数学拍给你看。维度变了，几何没变——看懂 2D，就看懂了 GPT。

很多人以为 LLM 只是"鹦鹉学舌"的概率机器。但研究证明，LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中，以一种只有模型自己能解读的"加密"方式。这篇文章拆开这个秘密。

深入了解大语言模型 (LLM) 的数据处理流程：从原始文本到 Tokenization，从 Embedding 到 Transformer，一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

语言是对世界的压缩，但用语言解释语言是死循环。40 年的规则尝试失败后，分布式假说绕过了这个问题，而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。

用一个真实的 4.3M 参数模型（nanoGPT + 西游记），逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果，不是模拟。

用零基础也能懂的语言，拆解 Transformer 的核心：点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么，也讲机器自己学到了什么。

一个 80 年的真实故事：被一本书判了死刑，被一个算法起死回生，靠改名字重获新生——科技的命运，终究也逃不过人性。

矩阵是向量的加工机：缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。