为什么把模型做大就能变聪明?—— 从过拟合悖论到压缩即智能
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
水加热到 99 度还是水,加到 100 度就成了水蒸气——这一度里发生了什么?磁铁加热到居里温度就突然失去磁性,为什么是突然?GPT-3 到 GPT-4 的『涌现能力』像凭空出现,又为什么?物理学用了一个多世纪建立了一套数学描述『量变到质变』——它叫临界现象。今天 AI 研究者在讨论的 emergent abilities,是它的直系后裔。