为什么把模型做大就能变聪明?—— 从过拟合悖论到压缩即智能
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。