大理石假说——为什么微调不是在教 AI 新东西
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
Prompt engineering 过时了。Context engineering 也快了。Agent 还能热多久?——你在追的每一个热词,都将被它自己所描述的技术淘汰。但有一类东西永远不会过时:你在深夜想过的那些"没用的问题"。
高考那年你勾了理科,从此再没翻开过一本诗集。二十年后一个 AI 告诉你:去掉诗歌数据,我的数学就变差了。——如果一个模型都需要通识才能涌现智能,你凭什么相信自己可以靠半个世界活一辈子?
你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量,相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容,还能写出从未存在过的文章。这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?
线性不是世界的本质,而是大脑的’操作系统’。从认知偏差到万能近似,从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图,一篇从认知科学到工程哲学的深度探索。
300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。
训练 ChatGPT 用的不是什么神秘的 AI 芯片,而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片,为什么成了 AI 革命的引擎?因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。
GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。
AI 学习笔记博客正式上线!在这里我会分享 AI 基础知识、大语言模型实战经验和实用工具教程。
一个师父花了十年磨出秘方,一个徒弟吃了一百顿饭就学会了。他偷了吗?从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解,从 DeepSeek 的坦诚到蒸馏指控的荒诞,这篇文章不给答案,只给视角。