Scaling Laws

大理石假说——为什么微调不是在教 AI 新东西

预训练用了 15 万亿 tokens，微调只用了 1000 条。数据量差了一百亿倍，但行为变化却翻天覆地。更诡异的是，微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用？答案简单到令人不安：因为你停了。

你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量，相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容，还能写出从未存在过的文章。这是压缩吗？是理解吗？如果互联网消失了，能靠 LLM 复原吗？

300年的统计学理论说模型越大越差，但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景：大模型的真正力量不是记忆力，而是压缩能力。而压缩，就是理解。