大理石假说——为什么微调不是在教 AI 新东西

预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。

2026年4月11日 · 5 分钟 · 1012 字 · AI Lab

为什么 AI 离不开线性?因为人类的大脑也离不开

线性不是世界的本质,而是大脑的’操作系统’。从认知偏差到万能近似,从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图,一篇从认知科学到工程哲学的深度探索。

2026年3月13日 · 3 分钟 · 534 字 · AI Lab

为什么 LLM 要用 GPU?从游戏显卡到 AI 引擎

训练 ChatGPT 用的不是什么神秘的 AI 芯片,而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片,为什么成了 AI 革命的引擎?因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。

2026年3月12日 · 6 分钟 · 1249 字 · AI Lab

一看就懂:矩阵乘法到底对 LLM 做了什么?

GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。

2026年3月12日 · 3 分钟 · 594 字 · AI Lab

AI学习笔记— 博客正式上线

AI 学习笔记博客正式上线!在这里我会分享 AI 基础知识、大语言模型实战经验和实用工具教程。

2026年2月17日 · 1 分钟 · 75 字 · AI Lab

函数的竞赛:人类试过的所有方法,和神经网络胜出的原因

人类 400 年来发明了无数拟合函数的方法——泰勒级数、傅里叶级数、多项式、样条、核方法。每一种都精妙绝伦。但当任务变成’在万亿维空间中学习生成规律’,只有一个选手能站到终点。这不是选择题,这是淘汰赛。

2026年3月17日 · 3 分钟 · 563 字 · AI Lab

神经网络沉浮录:从万众瞩目到无人问津,再到改变世界

一个 80 年的真实故事:被一本书判了死刑,被一个算法起死回生,靠改名字重获新生——科技的命运,终究也逃不过人性。

2026年3月19日 · 3 分钟 · 480 字 · AI Lab

DeepSeek-R1:一个模型如何学会「思考」

2025 年最大的 AI 突破不是更大的模型,而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature,证明了一件事:不需要人类手把手教推理步骤,只需要给对奖励,模型就能自己学会思考。

2026年3月21日 · 6 分钟 · 1218 字 · AI Lab

MoE:671B 参数的模型,为什么只用 37B 就够了?

DeepSeek-V3 拥有 6710 亿参数,但每个 token 只激活 370 亿——不到总量的 6%。这不是偷懒,这是 AI 架构设计中最精巧的一课:不是所有神经元都需要同时工作。

2026年3月23日 · 5 分钟 · 960 字 · AI Lab

AI的70年(上):从达特茅斯的梦想到漫长的寒冬

1956年,十位科学家相信20年就能造出思考的机器。70年后回望,这条路比任何人想象的都要漫长。这是一群异端者的故事——他们在所有人都放弃的年代,选择继续相信。

2026年2月24日 · 3 分钟 · 595 字 · AI Lab