用 4192 个参数看透 Transformer:QKV、多头注意力、MLP 全拆解

用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。

2026年2月26日 · 9 分钟 · 1807 字 · AI Lab