AI 基础

大理石假说——为什么微调不是在教 AI 新东西

预训练用了 15 万亿 tokens，微调只用了 1000 条。数据量差了一百亿倍，但行为变化却翻天覆地。更诡异的是，微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用？答案简单到令人不安：因为你停了。

线性不是世界的本质，而是大脑的’操作系统’。从认知偏差到万能近似，从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图，一篇从认知科学到工程哲学的深度探索。

训练 ChatGPT 用的不是什么神秘的 AI 芯片，而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片，为什么成了 AI 革命的引擎？因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。

GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么？9 张动图，把 GPT 里最核心的数学拍给你看。维度变了，几何没变——看懂 2D，就看懂了 GPT。

AI 学习笔记博客正式上线！在这里我会分享 AI 基础知识、大语言模型实战经验和实用工具教程。

人类 400 年来发明了无数拟合函数的方法——泰勒级数、傅里叶级数、多项式、样条、核方法。每一种都精妙绝伦。但当任务变成’在万亿维空间中学习生成规律’，只有一个选手能站到终点。这不是选择题，这是淘汰赛。

一个 80 年的真实故事：被一本书判了死刑，被一个算法起死回生，靠改名字重获新生——科技的命运，终究也逃不过人性。

2025 年最大的 AI 突破不是更大的模型，而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature，证明了一件事：不需要人类手把手教推理步骤，只需要给对奖励，模型就能自己学会思考。

DeepSeek-V3 拥有 6710 亿参数，但每个 token 只激活 370 亿——不到总量的 6%。这不是偷懒，这是 AI 架构设计中最精巧的一课：不是所有神经元都需要同时工作。

1956年，十位科学家相信20年就能造出思考的机器。70年后回望，这条路比任何人想象的都要漫长。这是一群异端者的故事——他们在所有人都放弃的年代，选择继续相信。