从零理解 | AI 学习笔记

用 4192 个参数看透 Transformer：QKV、多头注意力、MLP 全拆解

用一个只有 4192 个参数的 GPT 模型，展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活，所有数字都来自真实训练。