大理石假说——为什么微调不是在教 AI 新东西
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。
线性不是世界的本质,而是大脑的’操作系统’。从认知偏差到万能近似,从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图,一篇从认知科学到工程哲学的深度探索。
训练 ChatGPT 用的不是什么神秘的 AI 芯片,而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片,为什么成了 AI 革命的引擎?因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。
GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。
AI 学习笔记博客正式上线!在这里我会分享 AI 基础知识、大语言模型实战经验和实用工具教程。
人类 400 年来发明了无数拟合函数的方法——泰勒级数、傅里叶级数、多项式、样条、核方法。每一种都精妙绝伦。但当任务变成’在万亿维空间中学习生成规律’,只有一个选手能站到终点。这不是选择题,这是淘汰赛。
一个 80 年的真实故事:被一本书判了死刑,被一个算法起死回生,靠改名字重获新生——科技的命运,终究也逃不过人性。
2025 年最大的 AI 突破不是更大的模型,而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature,证明了一件事:不需要人类手把手教推理步骤,只需要给对奖励,模型就能自己学会思考。
DeepSeek-V3 拥有 6710 亿参数,但每个 token 只激活 370 亿——不到总量的 6%。这不是偷懒,这是 AI 架构设计中最精巧的一课:不是所有神经元都需要同时工作。
1956年,十位科学家相信20年就能造出思考的机器。70年后回望,这条路比任何人想象的都要漫长。这是一群异端者的故事——他们在所有人都放弃的年代,选择继续相信。