压缩 | AI 学习笔记

为什么把模型做大就能变聪明？—— 从过拟合悖论到压缩即智能

300年的统计学理论说模型越大越差，但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景：大模型的真正力量不是记忆力，而是压缩能力。而压缩，就是理解。

Shannon 没有想到的事——当信息论遇上有限算力

Shannon 说「压缩 = 预测 = 理解」。但他假设观察者有无限算力。2026 年的一篇论文补上了这个前提，提出 epiplexity——衡量有限算力观察者能从数据中学到多少结构的新度量。

看见数学（番外）：信息论——从电报到 GPT 的一条暗线

Shannon 1948 年证明了一件事：压缩 = 预测 = 理解。76 年后，我们用万亿参数的神经网络去逼近他的定理。这是贯穿「看见数学」所有篇章的那条暗线。

压缩即是全部 —— 菲尔兹奖得主给数学和 AI 的一封信

2026 年 3 月，菲尔兹奖得主 Michael Freedman 发了一篇只有 30 多页的论文，标题叫《Compression is all you need》。他用一个优雅的代数模型回答了三个古老问题：人类怎么构建数学？人类数学和形式数学的本质区别是什么？未来人类数学家如何和 AI 协作？答案只有两个字——压缩。

AI 不是忘了你，是还没学会你

我们正在把 AI 越做越像一个带着巨大资料柜的天才：它能查资料、能翻历史、能接工具、能在一个长上下文里表现得很聪明。但查得到不等于学会了。真正的持续学习，不是让上下文窗口无限变大，而是让经验被压缩、抽象，并在未来变成能力。

压缩即智能 — 开篇语

压缩，是用低维形式保存高维信息的方式。大语言模型用向量与矩阵转存了人类语言中的统计规律，在解压时涌现出了我们称之为"智能"的东西。