为什么用 -log(p) 做损失函数?—— 从信息论到 Cross-Entropy 的完整推导

从 Shannon 1948 年的三条公理出发,理解为什么 GPT 的 loss 必须是 -log(p):它是满足「信息量」定义的唯一函数,用它做 loss 等价于最大似然估计和最小化 KL 散度——这不是经验选择,是数学必然。

2026年3月28日 · 5 分钟 · 1063 字 · AI Lab