从文本到模型:LLM 数据处理全流程详解

深入了解大语言模型 (LLM) 的数据处理流程:从原始文本到 Tokenization,从 Embedding 到 Transformer,一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

2026年2月17日 · 3 分钟 · 481 字 · AI Lab

从加减乘除到预测下一个字:Attention 机制零基础拆解

用零基础也能懂的语言,拆解 Transformer 的核心:点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么,也讲机器自己学到了什么。

2026年2月21日 · 7 分钟 · 1446 字 · AI Lab

AI 的数学语言(一):用数字画地图——从数轴到高维空间

从温度计上的刻度到 ChatGPT 里的词向量,理解 AI 的第一步:用一串数字描述万物。零基础线性代数系列第一篇。

2026年2月22日 · 4 分钟 · 679 字 · AI Lab

AI 的数学语言(二):向量的加减法——数字世界的方向与距离

从超市购物到 ChatGPT 的注意力机制:理解向量加减法、点积和余弦相似度。零基础线性代数系列第二篇。

2026年2月22日 · 3 分钟 · 616 字 · AI Lab

AI 的数学语言(三):矩阵——空间的变形术

矩阵是向量的加工机:缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。

2026年2月22日 · 3 分钟 · 534 字 · AI Lab

AI 的数学语言(四):矩阵乘法与 AI——理解 Transformer 的最后一块拼图

从矩阵乘法到 Attention 完整公式:softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。

2026年2月22日 · 3 分钟 · 635 字 · AI Lab

AI 的数学语言(五):激活函数——神经网络的开关

ReLU:一行代码 max(0, x) 让深度学习成为可能。理解激活函数为什么是神经网络不可或缺的非线性魔法。

2026年2月22日 · 5 分钟 · 1003 字 · AI Lab

AI 的数学语言(六):梯度下降——AI 怎么学习

从损失函数到反向传播:AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。

2026年2月22日 · 5 分钟 · 990 字 · AI Lab

LLM 中的概率论:从掷骰子到生成文本

零基础理解大语言模型背后的概率论:条件概率、Softmax、交叉熵、Temperature、采样策略、大数定律与中心极限定理——用最直观的类比和动图,拆解 LLM 的数学骨架。

2026年3月13日 · 7 分钟 · 1281 字 · AI Lab