为什么把模型做大就能变聪明?—— 从过拟合悖论到压缩即智能
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
Shannon 说「压缩 = 预测 = 理解」。但他假设观察者有无限算力。2026 年的一篇论文补上了这个前提,提出 epiplexity——衡量有限算力观察者能从数据中学到多少结构的新度量。
Shannon 1948 年证明了一件事:压缩 = 预测 = 理解。76 年后,我们用万亿参数的神经网络去逼近他的定理。这是贯穿「看见数学」所有篇章的那条暗线。
2026 年 3 月,菲尔兹奖得主 Michael Freedman 发了一篇只有 30 多页的论文,标题叫《Compression is all you need》。他用一个优雅的代数模型回答了三个古老问题:人类怎么构建数学?人类数学和形式数学的本质区别是什么?未来人类数学家如何和 AI 协作?答案只有两个字——压缩。
我们正在把 AI 越做越像一个带着巨大资料柜的天才:它能查资料、能翻历史、能接工具、能在一个长上下文里表现得很聪明。但查得到不等于学会了。真正的持续学习,不是让上下文窗口无限变大,而是让经验被压缩、抽象,并在未来变成能力。
压缩,是用低维形式保存高维信息的方式。大语言模型用向量与矩阵转存了人类语言中的统计规律,在解压时涌现出了我们称之为"智能"的东西。