LLM 的知识藏在哪里?MLP 权重中的加密记忆

很多人以为 LLM 只是"鹦鹉学舌"的概率机器。但研究证明,LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中,以一种只有模型自己能解读的"加密"方式。这篇文章拆开这个秘密。

2026年3月11日 · 4 分钟 · 768 字 · AI Lab

从文本到模型:LLM 数据处理全流程详解

深入了解大语言模型 (LLM) 的数据处理流程:从原始文本到 Tokenization,从 Embedding 到 Transformer,一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

2026年2月17日 · 3 分钟 · 481 字 · AI Lab

从语言的本质到 Attention 的诞生——QKV 为什么长这样

语言是对世界的压缩,但用语言解释语言是死循环。40 年的规则尝试失败后,分布式假说绕过了这个问题,而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。

2026年3月5日 · 6 分钟 · 1270 字 · AI Lab

LLM 全流程可视化:逐步拆解大语言模型的每一步计算

用一个真实的 4.3M 参数模型(nanoGPT + 西游记),逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果,不是模拟。

2026年2月18日 · 5 分钟 · 971 字 · AI Lab

从加减乘除到预测下一个字:Attention 机制零基础拆解

用零基础也能懂的语言,拆解 Transformer 的核心:点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么,也讲机器自己学到了什么。

2026年2月21日 · 7 分钟 · 1446 字 · AI Lab

AI 的数学语言(一):用数字画地图——从数轴到高维空间

从温度计上的刻度到 ChatGPT 里的词向量,理解 AI 的第一步:用一串数字描述万物。零基础线性代数系列第一篇。

2026年2月22日 · 4 分钟 · 679 字 · AI Lab

函数的竞赛:人类试过的所有方法,和神经网络胜出的原因

人类 400 年来发明了无数拟合函数的方法——泰勒级数、傅里叶级数、多项式、样条、核方法。每一种都精妙绝伦。但当任务变成’在万亿维空间中学习生成规律’,只有一个选手能站到终点。这不是选择题,这是淘汰赛。

2026年3月17日 · 3 分钟 · 563 字 · AI Lab

AI 的数学语言(二):向量的加减法——数字世界的方向与距离

从超市购物到 ChatGPT 的注意力机制:理解向量加减法、点积和余弦相似度。零基础线性代数系列第二篇。

2026年2月22日 · 3 分钟 · 616 字 · AI Lab

神经网络沉浮录:从万众瞩目到无人问津,再到改变世界

一个 80 年的真实故事:被一本书判了死刑,被一个算法起死回生,靠改名字重获新生——科技的命运,终究也逃不过人性。

2026年3月19日 · 3 分钟 · 480 字 · AI Lab

AI 的数学语言(三):矩阵——空间的变形术

矩阵是向量的加工机:缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。

2026年2月22日 · 3 分钟 · 534 字 · AI Lab