一看就懂:矩阵乘法到底对 LLM 做了什么?

GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。

2026年3月12日 · 3 分钟 · 594 字 · AI Lab

LLM 的知识藏在哪里?MLP 权重中的加密记忆

很多人以为 LLM 只是"鹦鹉学舌"的概率机器。但研究证明,LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中,以一种只有模型自己能解读的"加密"方式。这篇文章拆开这个秘密。

2026年3月11日 · 4 分钟 · 768 字 · AI Lab

用 4192 个参数看透 Transformer:QKV、多头注意力、MLP 全拆解

用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。

2026年2月26日 · 9 分钟 · 1807 字 · AI Lab

当数字学会了远近亲疏——从查表到 Embedding 的一步跨越

A=65, B=66——这些数字是死的。「大漠孤烟直,长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中,有一步跨越改变了一切:数字不再是编号,而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。

2026年4月1日 · 10 分钟 · 2042 字 · AI Lab