大理石假说——为什么微调不是在教 AI 新东西

预训练用了 15 万亿 tokens,微调只用了 1000 条。数据量差了一百亿倍,但行为变化却翻天覆地。更诡异的是,微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用?答案简单到令人不安:因为你停了。

2026年4月11日 · 5 分钟 · 1012 字 · AI Lab

万亿字节的压缩术:LLM 如何把互联网装进一个模型

你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量,相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容,还能写出从未存在过的文章。这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?

2026年3月27日 · 5 分钟 · 1030 字 · AI Lab