为什么把模型做大就能变聪明?—— 从过拟合悖论到压缩即智能
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
AI会下棋、会写诗、会通过律师考试。但它真的在’思考’吗?从Chomsky的语言天赋论到LeCun的世界模型缺失,从随机鹦鹉到具身认知——这是一场关于智能本质的终极辩论。而70年AI之路的最深启示,也许不在技术之中。
AlphaFold 拿了诺贝尔奖,GPT 通过了律师考试——但 Sora 的玻璃穿过了桌子。LLM 到底懂不懂这个世界?LeCun 离开 Meta 创办 AMI Labs,李飞飞押注 World Labs,谢赛宁两次拒绝 Ilya——站在前沿的人给出了截然不同的答案。
2025 年 1 月底,一家此前在英文世界几乎没人念得对名字的中国公司,把英伟达推下悬崖。但故事不是『中国赢了』,也不是『开源赢了』。真正发生的事情是:那条所有人以为只有一条的路,在那一周分了岔。开源与闭源、通用与垂直、Transformer 之后、大模型与小模型、连发明者本身都散去了不同方向——AI 的未来不再是一个,而是同时有几个。这一篇,我们站在路口往几个方向看,听听站在路口的那些人怎么说,再画一张可以反复对照的地图。
ChatGPT 让 AI 学会了聊天,VLA 正在让 AI 学会干活。机器人终于从写死的动作脚本,走向能看、能听、能规划、能动手的通用模型。但物理世界没有撤回键,所以机器人的 GPT 时刻不会是一次突然刷屏,而是一场被数据、安全和工程慢慢推开的黎明。