LLM 的知识藏在哪里?MLP 权重中的加密记忆
很多人以为 LLM 只是"鹦鹉学舌"的概率机器。但研究证明,LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中,以一种只有模型自己能解读的"加密"方式。这篇文章拆开这个秘密。
很多人以为 LLM 只是"鹦鹉学舌"的概率机器。但研究证明,LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中,以一种只有模型自己能解读的"加密"方式。这篇文章拆开这个秘密。
深入了解大语言模型 (LLM) 的数据处理流程:从原始文本到 Tokenization,从 Embedding 到 Transformer,一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。
语言是对世界的压缩,但用语言解释语言是死循环。40 年的规则尝试失败后,分布式假说绕过了这个问题,而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。
用一个真实的 4.3M 参数模型(nanoGPT + 西游记),逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果,不是模拟。
用零基础也能懂的语言,拆解 Transformer 的核心:点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么,也讲机器自己学到了什么。
从温度计上的刻度到 ChatGPT 里的词向量,理解 AI 的第一步:用一串数字描述万物。零基础线性代数系列第一篇。
人类 400 年来发明了无数拟合函数的方法——泰勒级数、傅里叶级数、多项式、样条、核方法。每一种都精妙绝伦。但当任务变成’在万亿维空间中学习生成规律’,只有一个选手能站到终点。这不是选择题,这是淘汰赛。
从超市购物到 ChatGPT 的注意力机制:理解向量加减法、点积和余弦相似度。零基础线性代数系列第二篇。
一个 80 年的真实故事:被一本书判了死刑,被一个算法起死回生,靠改名字重获新生——科技的命运,终究也逃不过人性。
矩阵是向量的加工机:缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。