Double Descent

为什么把模型做大就能变聪明？—— 从过拟合悖论到压缩即智能

300年的统计学理论说模型越大越差，但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景：大模型的真正力量不是记忆力，而是压缩能力。而压缩，就是理解。

看见物理（六）：相变——量变到质变的数学

水加热到 99 度还是水，加到 100 度就成了水蒸气——这一度里发生了什么？磁铁加热到居里温度就突然失去磁性，为什么是突然？GPT-3 到 GPT-4 的『涌现能力』像凭空出现，又为什么？物理学用了一个多世纪建立了一套数学描述『量变到质变』——它叫临界现象。今天 AI 研究者在讨论的 emergent abilities，是它的直系后裔。