大理石假说——为什么微调不是在教 AI 新东西
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量,相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容,还能写出从未存在过的文章。这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?
AI会下棋、会写诗、会通过律师考试。但它真的在’思考’吗?从Chomsky的语言天赋论到LeCun的世界模型缺失,从随机鹦鹉到具身认知——这是一场关于智能本质的终极辩论。而70年AI之路的最深启示,也许不在技术之中。
DeepSeek 给你编一个根本不存在的 API;国产大模型给研究生伪造 8 篇参考文献;自媒体因 AI 编造权威数据被封号 12 万粉。你以为 AI 在骗你 —— 不,它比骗更糟。骗人要先知道真相再刻意背离;AI 连真相这个坐标都没有。它是在胡诌。这篇把原理讲透。
二战时期,数学家诺伯特·维纳研究一个残酷的问题:飞机一直在动,炮弹也需要时间飞行,防空炮到底该打向哪里?这不是简单地预测飞机下一秒的位置,而是要持续计算拦截点,并在观测误差、动作延迟和敌人机动中不断修正。这个问题把他带向一个更深的概念:反馈。智能不是一次性给出正确答案,而是在行动之后被世界纠正。梯度下降、RLHF、DeepSeek-R1、Agent、自动驾驶,表面上差别很大,底层却都在同一个闭环里运行:行动、观察、误差、修正。
预训练让 AI 学会文字接龙,SFT 让它学会像助手一样接龙,RLHF 让它学会哪种接龙更容易被人类喜欢。但“被喜欢”不是“真实”,“听话”不是“善良”,“安全”也不是没有价值立场。对齐 AI 的过程,表面上是在训练机器,深处是在审问人类:我们到底希望一个更聪明的存在,服从谁的规则,继承谁的偏见,代表谁的文明?