万亿字节的压缩术:LLM 如何把互联网装进一个模型

你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量,相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容,还能写出从未存在过的文章。这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?

2026年3月27日 · 5 分钟 · 1030 字 · AI Lab

为什么把模型做大就能变聪明?—— 从过拟合悖论到压缩即智能

300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。

2026年3月13日 · 6 分钟 · 1075 字 · AI Lab

LLM 的知识藏在哪里?MLP 权重中的加密记忆

很多人以为 LLM 只是"鹦鹉学舌"的概率机器。但研究证明,LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中,以一种只有模型自己能解读的"加密"方式。这篇文章拆开这个秘密。

2026年3月11日 · 4 分钟 · 768 字 · AI Lab

从文本到模型:LLM 数据处理全流程详解

深入了解大语言模型 (LLM) 的数据处理流程:从原始文本到 Tokenization,从 Embedding 到 Transformer,一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

2026年2月17日 · 3 分钟 · 481 字 · AI Lab

从语言的本质到 Attention 的诞生——QKV 为什么长这样

语言是对世界的压缩,但用语言解释语言是死循环。40 年的规则尝试失败后,分布式假说绕过了这个问题,而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。

2026年3月5日 · 6 分钟 · 1270 字 · AI Lab

LLM 全流程可视化:逐步拆解大语言模型的每一步计算

用一个真实的 4.3M 参数模型(nanoGPT + 西游记),逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果,不是模拟。

2026年2月18日 · 5 分钟 · 971 字 · AI Lab

从加减乘除到预测下一个字:Attention 机制零基础拆解

用零基础也能懂的语言,拆解 Transformer 的核心:点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么,也讲机器自己学到了什么。

2026年2月21日 · 7 分钟 · 1446 字 · AI Lab

AI 的数学语言(一):用数字画地图——从数轴到高维空间

从温度计上的刻度到 ChatGPT 里的词向量,理解 AI 的第一步:用一串数字描述万物。零基础线性代数系列第一篇。

2026年2月22日 · 4 分钟 · 679 字 · AI Lab

AI 的数学语言(二):向量的加减法——数字世界的方向与距离

从超市购物到 ChatGPT 的注意力机制:理解向量加减法、点积和余弦相似度。零基础线性代数系列第二篇。

2026年2月22日 · 3 分钟 · 616 字 · AI Lab

AI 的数学语言(三):矩阵——空间的变形术

矩阵是向量的加工机:缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。

2026年2月22日 · 3 分钟 · 534 字 · AI Lab