LIMA | AI 学习笔记

预训练用了 15 万亿 tokens，微调只用了 1000 条。数据量差了一百亿倍，但行为变化却翻天覆地。更诡异的是，微调和预训练的算法完全一样——同样的反向传播、同样的梯度下降。那凭什么微调能起作用？答案简单到令人不安：因为你停了。