DPO | AI 学习笔记

预训练让 AI 学会文字接龙，SFT 让它学会像助手一样接龙，RLHF 让它学会哪种接龙更容易被人类喜欢。但“被喜欢”不是“真实”，“听话”不是“善良”，“安全”也不是没有价值立场。对齐 AI 的过程，表面上是在训练机器，深处是在审问人类：我们到底希望一个更聪明的存在，服从谁的规则，继承谁的偏见，代表谁的文明？