大理石假说——为什么微调不是在教 AI 新东西

预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。

2026年4月11日 · 5 分钟 · 1012 字 · AI Lab

那些"没用的问题",是理解 AI 的入场券

Prompt engineering 过时了。Context engineering 也快了。Agent 还能热多久?——你在追的每一个热词,都将被它自己所描述的技术淘汰。但有一类东西永远不会过时:你在深夜想过的那些"没用的问题"。

2026年4月7日 · 3 分钟 · 473 字 · AI Lab

你就是一个大模型——AI 给文理分科判了死刑

高考那年你勾了理科,从此再没翻开过一本诗集。二十年后一个 AI 告诉你:去掉诗歌数据,我的数学就变差了。——如果一个模型都需要通识才能涌现智能,你凭什么相信自己可以靠半个世界活一辈子?

2026年4月5日 · 2 分钟 · 247 字 · AI Lab

万亿字节的压缩术:LLM 如何把互联网装进一个模型

你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量,相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容,还能写出从未存在过的文章。这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?

2026年3月27日 · 5 分钟 · 1030 字 · AI Lab

为什么 AI 离不开线性?因为人类的大脑也离不开

线性不是世界的本质,而是大脑的’操作系统’。从认知偏差到万能近似,从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图,一篇从认知科学到工程哲学的深度探索。

2026年3月13日 · 3 分钟 · 534 字 · AI Lab

为什么把模型做大就能变聪明?—— 从过拟合悖论到压缩即智能

300年的统计学理论说模型越大越差,但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景:大模型的真正力量不是记忆力,而是压缩能力。而压缩,就是理解。

2026年3月13日 · 6 分钟 · 1075 字 · AI Lab

为什么 LLM 要用 GPU?从游戏显卡到 AI 引擎

训练 ChatGPT 用的不是什么神秘的 AI 芯片,而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片,为什么成了 AI 革命的引擎?因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。

2026年3月12日 · 6 分钟 · 1249 字 · AI Lab

一看就懂:矩阵乘法到底对 LLM 做了什么?

GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么?9 张动图,把 GPT 里最核心的数学拍给你看。维度变了,几何没变——看懂 2D,就看懂了 GPT。

2026年3月12日 · 3 分钟 · 594 字 · AI Lab

AI学习笔记— 博客正式上线

AI 学习笔记博客正式上线!在这里我会分享 AI 基础知识、大语言模型实战经验和实用工具教程。

2026年2月17日 · 1 分钟 · 75 字 · AI Lab

当模型学会「偷师」——知识蒸馏、版权战争与学习的边界

一个师父花了十年磨出秘方,一个徒弟吃了一百顿饭就学会了。他偷了吗?从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解,从 DeepSeek 的坦诚到蒸馏指控的荒诞,这篇文章不给答案,只给视角。

2026年3月25日 · 5 分钟 · 885 字 · AI Lab