Posts

大理石假说——为什么微调不是在教 AI 新东西

预训练用了 15 万亿 tokens，微调只用了 1000 条。数据量差了一百亿倍，但行为变化却翻天覆地。更诡异的是，微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用？答案简单到令人不安：因为你停了。

Prompt engineering 过时了。Context engineering 也快了。Agent 还能热多久？——你在追的每一个热词，都将被它自己所描述的技术淘汰。但有一类东西永远不会过时：你在深夜想过的那些"没用的问题"。

高考那年你勾了理科，从此再没翻开过一本诗集。二十年后一个 AI 告诉你：去掉诗歌数据，我的数学就变差了。——如果一个模型都需要通识才能涌现智能，你凭什么相信自己可以靠半个世界活一辈子？

你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量，相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容，还能写出从未存在过的文章。这是压缩吗？是理解吗？如果互联网消失了，能靠 LLM 复原吗？

线性不是世界的本质，而是大脑的’操作系统’。从认知偏差到万能近似，从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图，一篇从认知科学到工程哲学的深度探索。

300年的统计学理论说模型越大越差，但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景：大模型的真正力量不是记忆力，而是压缩能力。而压缩，就是理解。

训练 ChatGPT 用的不是什么神秘的 AI 芯片，而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片，为什么成了 AI 革命的引擎？因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。

GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么？9 张动图，把 GPT 里最核心的数学拍给你看。维度变了，几何没变——看懂 2D，就看懂了 GPT。

AI 学习笔记博客正式上线！在这里我会分享 AI 基础知识、大语言模型实战经验和实用工具教程。

一个师父花了十年磨出秘方，一个徒弟吃了一百顿饭就学会了。他偷了吗？从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解，从 DeepSeek 的坦诚到蒸馏指控的荒诞，这篇文章不给答案，只给视角。