教程 | AI 学习笔记

从文本到模型：LLM 数据处理全流程详解

深入了解大语言模型 (LLM) 的数据处理流程：从原始文本到 Tokenization，从 Embedding 到 Transformer，一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

用零基础也能懂的语言，拆解 Transformer 的核心：点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么，也讲机器自己学到了什么。

从温度计上的刻度到 ChatGPT 里的词向量，理解 AI 的第一步：用一串数字描述万物。零基础线性代数系列第一篇。

从超市购物到 ChatGPT 的注意力机制：理解向量加减法、点积和余弦相似度。零基础线性代数系列第二篇。

矩阵是向量的加工机：缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。

从矩阵乘法到 Attention 完整公式：softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。

ReLU：一行代码 max(0, x) 让深度学习成为可能。理解激活函数为什么是神经网络不可或缺的非线性魔法。

从损失函数到反向传播：AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。

零基础理解大语言模型背后的概率论：条件概率、Softmax、交叉熵、Temperature、采样策略、大数定律与中心极限定理——用最直观的类比和动图，拆解 LLM 的数学骨架。