Chinchilla

大理石假说——为什么微调不是在教 AI 新东西

预训练用了 15 万亿 tokens，微调只用了 1000 条。数据量差了一百亿倍，但行为变化却翻天覆地。更诡异的是，微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用？答案简单到令人不安：因为你停了。

你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量，相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容，还能写出从未存在过的文章。这是压缩吗？是理解吗？如果互联网消失了，能靠 LLM 复原吗？