大理石假说——为什么微调不是在教 AI 新东西
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
微积分的第二面:把无穷多个无穷小的碎片加起来。矩形逼近面积,圆拆成细环变成 πr²,速度加回距离。微分和积分是同一枚硬币的两面——这是人类数学史上最美的定理。第二幕终曲。
1906 年,一位被整个学术界否定的物理学家在杜伊诺的度假村永远闭上了眼睛。他的墓碑上只刻了一个公式:S = k ln W。120 年后,这个公式每天在全球数十亿次 AI 推理中被执行——以 Softmax 的名义。

AI 画画不是从空白画布开始,也不是脑子里凭空想象出一只猫。扩散模型先学会一万种『猫如何被噪声毁掉』,再把这个毁掉的过程一步步倒放。生成的秘密,不是凭空创造,而是给噪声一个方向。