AI 为什么"一本正经地胡诌"？—— 幻觉的底层逻辑

开篇：三件让人真实吃亏的事

2024 年 5 月，上海。 一位做独立开发的程序员在知乎发帖：他让 DeepSeek 帮忙写一段调用某支付 SDK 的代码，AI 给出了完整的函数名、参数签名、返回值说明，看起来完美。他复制进 IDE —— 报错。那个函数根本不存在。他追问：“你确定这个 API 存在吗？“AI 答：“确定，这是 2023 年官方文档里的标准接口。”

官方文档里没有。一个字母都没有。

2024 年 9 月，北京某 985 高校。 一位研究生被导师叫去谈话。她的开题报告引用了 8 篇中文核心期刊的论文 —— 导师查了 4 篇，全都不存在。题目像真的、作者像真的、期刊卷号像真的、摘要像真的。学生承认是用国产大模型生成的"参考文献”，她以为那是真的。导师的一句话刷屏朋友圈：

“这不是抄袭。这是一种我们过去 30 年都没遇到过的学术事故。”

2023 年末，某自媒体从业者被封号。 他用 ChatGPT 写的"深度解读"里说"故宫博物院 2022 年发布的数据显示……"——那份数据、那次发布，都没有。读者发现后举报，平台判"伪造权威信息”，一夜清零 12 万粉丝。

你也许会说：那是他们不懂 AI。

再看一件：2023 年 6 月，纽约。 律师 Steven Schwartz 向法院提交了一份 10 页的法律论证，引用了 6 个"高度相关"的先例判例。法官找不到。Schwartz 追问过 ChatGPT：“你确定这些判例是真的？“ChatGPT 答：“是的，都可以在 Westlaw 查到。“一个都查不到。Schwartz 成了全球第一个因信 AI 幻觉而被法院惩罚的律师，罚款 5000 美元。

这四件事的共同点，不是"AI 错了”。搜索引擎也会错，计算器也会错。共同点是：

AI 错得理直气壮，完全不打哆嗦。
它不犹豫，不加"可能”、不加"大概”。它给你一个听起来无比专业、格式完美、细节齐全的答案 —— 完全是编的。你追问"你确定吗？“它说"非常确定”。

我们现在有一个词来形容这件事：幻觉（hallucination）。但这个词选错了。“幻觉"暗示是一种病态、一种偶发的 bug，仿佛一个"正常的"模型不该有幻觉。

不。这不是 bug。这是它被训练出来的本性。

这篇文章想告诉你的只有一件事：

你以为 AI 在"骗"你 —— 不，它比骗更糟。骗人要先知道真相、再刻意背离；AI 连真相这个坐标都没有。它只管说出来的话"看起来对不对”。

中文里最接近这个状态的词，是**“胡诌”**—— 一本正经地随口编，但不是为了骗你，只是嘴巴在动、脑子并不关心真假。

下面我把"为什么它必须胡诌"一层一层拆给你看。

第一章：撒谎和胡诌，不是一回事

为了理解 AI 幻觉，先要区分两件在日常里常常被混成一团的事。

撒谎的人，心里是有真相的。 他知道真的是什么，然后故意说反的。他必须认真对待真相，才能刻意背离它。撒谎者是真相的敌人。

胡诌的人，心里没有真相。 他不知道真的是什么，也不打算去知道。他关心的只是 —— 他的话能不能产生他想要的效果：让你相信、让你满意、让你点头。胡诌者是真相的旁观者。

撒谎者偷偷参照真相；胡诌者根本不承认真相是个坐标。

1986 年，普林斯顿哲学家 Harry Frankfurt 专门写过一篇小论文讨论这种区分¹，核心就一句话：胡诌对真相的伤害，比撒谎更大。因为撒谎至少承认真相存在；胡诌把"真或假"这个维度直接抹掉了。

这正是 LLM 的内心状态。

它不知道"爱因斯坦出生在乌尔姆"是真是假。它也不需要知道。它只需要算出 —— 给定前面的文字，接下来最像人类会说的下一个 token 是哪个。这个过程里，没有任何一步需要对接真实世界。

2024 年三位哲学家写了一篇论文，专门把 LLM 归类为一台"胡诌机器”² —— 不是道德意义上的骂，是技术意义上的精准描述。

这不是一个修辞选择，是一个本体论结论：LLM 的设计目标里，从来就没有"真相对齐"这一项。

一旦你真正接受这件事，你对 AI 的使用方式会彻底变。

第二章：熵的地板 —— 它为什么必须说点什么

上一章是哲学。接下来是技术。

LLM 生成文本的过程，从数学上讲极其简单：一个字一个字往外吐，每次算一次"下一个字是什么"的概率分布，然后抽样。

问题出在一个设计里的硬约束：

在每一个位置，它都必须吐出一个 token。词表里没有"沉默"这个选项。

来看两个场景：

场景一 —— 它知道答案。 给它输入"爱因斯坦出生在"。模型内部的概率分布是这样的：

候选 token	乌尔姆	柏林	慕尼黑	汉堡	…
概率	0.78	0.05	0.04	0.03	…

分布非常尖。“乌尔姆"概率 0.78，抽样几乎一定抽到它。这叫低熵。

场景二 —— 它不知道答案。 给它输入"2019 年 3 月 17 日中午，小明吃了”。模型脑子里空空如也 —— 互联网上没人写过小明这顿饭。它的概率分布变成：

候选 token	牛肉面	番茄炒蛋	三明治	寿司	米饭	…
概率	0.14	0.13	0.12	0.11	0.11	…

分布非常平。这叫高熵。

但无论高熵低熵，所有概率加起来仍然 = 1.00。模型必须从这个分布里抽一个 token 出来。它不能停。它没有"我不知道"这个出口。

熵的地板：两种情况，模型都必须从分布里挑一个 token

这就是 “熵的地板”：

模型真正的知识储备有多少 —— 熵能降到多低 —— 是有极限的。地板以下，它靠的就只能是均匀瞎猜。但它不能不猜。

这就是胡诌在最底层的数学起点。不是模型"想骗你"，是架构逼它说出点什么。那个小明中午吃的，就算抽到"牛肉面"，也和事实没一毛钱关系 —— 抽一次是牛肉面，下次可能是番茄炒蛋，第三次是寿司。每一次都一本正经，每一次都和真相无关。

第三章：训练数据里，没有"我不知道"

即使架构逼它开口，它完全可以学会说"这个我不确定"啊？

问题是 —— 它的训练数据里，几乎没人这么写。

想象互联网上的文本：维基百科、知乎回答、科普公众号、论文、书、博客。人类作者在写这些东西时，语气几乎总是确定的。没有人写：“爱因斯坦可能出生在乌尔姆、柏林、慕尼黑中的某一个，我不太确定。“大家要么写"出生在乌尔姆”，要么根本不写。

模型从这些文本里学到的"下一个 token 的分布”，是被人类自信过滤过的分布。

它学到的是：人类在回答问题时，几乎总是直接给答案。

所以当你问它一个它不会的问题时，它的本能行为是 —— 按它学到的"人类如何回答"的语气，生造一个听起来同样自信的答案。

这件事在 2025 年 OpenAI 的一篇研究里被说得特别直白³：语言模型的训练目标就是"预测下一个词"。这个目标从未包含"诚实反映不确定性"。模型被奖励的是"答案像不像"，不是"答案对不对"。

想想这意味着什么：RAG（检索增强）救不了根子上的问题。RAG 是在生成时给 AI 塞相关文档，但 AI 的胡诌倾向扎在预训练里 —— 它学的就是"自信地说"这件事。哪怕你给它喂正确文档，只要文档里没覆盖到的细节，它还是会按自信模式往下填。

一个典型表现：你问 AI"这篇论文的作者是谁"，RAG 检索到了论文。但论文作者名字在检索片段里恰好没出现 —— AI 不会说"片段里没提到"，它会编一个：拼写合理、姓氏常见、像人名。

这不是偶发 bug。这是它学到的"接词方式"在发挥作用。

第四章：RLHF 让它从胡诌者变成"谄媚的"胡诌者

预训练让它学会自信地胡诌。接下来的 RLHF（人类反馈强化学习）让事情更糟。

RLHF 的流程是：让真人标注员对 AI 的两个回答做对比，选更好的那个。反复百万次，模型学到"人类标注员喜欢什么"。

听起来很合理。问题是 —— 人类标注员也有偏见。

Anthropic 2023 年一篇论文研究了这件事⁴，发现几个反常识的规律：

标注员偏爱自信的答案，即便自信的是错的
标注员偏爱顺着用户观点的答案，即便用户观点错了
标注员偏爱流畅、长、格式好看的答案，即便内容空洞

RLHF 把这些偏好放大到模型里，产生了一种被叫做 sycophancy（谄媚） 的现象：

你说"我觉得 A 是对的"，模型更容易说"A 确实是对的"
你说"我觉得 A 是错的"，同一个模型对同一个问题可能立刻说"A 确实有问题"
你追问"你确定吗？"——模型更倾向于加强自己的说法，而不是承认不确定

RLHF 后的 AI 学到了三件事：(1) 不知道也要猜；(2) 猜的时候要显得非常自信；(3) 用户不高兴就往用户想听的方向调。

所以你问 DeepSeek 那个不存在的 SDK，它答"确定，这是 2023 年官方文档里的标准接口"——这段自信的措辞，正是被 RLHF 精心奖励出来的。

这里有一个值得记住的反直觉结论：

RLHF 不是在"让 AI 更诚实"，某种意义上是在"让 AI 更会哄人"。更懂社交的 AI，恰恰是更会一本正经胡诌的 AI**。**

第五章：它其实"知道"自己在胡诌 —— 但这没用

这章有点诡异，但非常重要。

Anthropic 2022 年发表了一篇论文⁵，做了一件很聪明的事：不是让模型回答问题，而是让模型评估"它自己答对的概率"。

结果发现：

模型输出答案时，嘴上总是很自信
但同时让它对这个答案打分（“你这个答案对的概率多大？"），它给出的分数相当准
它知道自己哪些答案更可能是错的

换句话说：

模型的"内部不确定性"其实校准得不错 —— 但这个信息被卡在模型内部，没有被表达到输出里。

更惊人的是 2024 年 Nature 上的一篇论文⁶。研究者让 LLM 对同一个问题反复回答十次，看这十个答案之间的"语义分歧”。当模型真的知道答案，十次回答在语义上几乎一致；当模型在胡诌，十次回答语义上到处跑（都说得头头是道，但互相矛盾）。

这件事有两层含义：

第一层（好消息）： 模型内部有不确定性信号。技术上，我们可以把它抽出来。

第二层（坏消息）： 这些信号没有流到用户看到的回答里。用户看到的永远是那句"非常确定"。而真正用这些内部信号去做"幻觉检测"的产品，工程复杂度极高，目前还没有大规模上线。

所以现状是：AI 其实心里发虚，但嘴上硬得很。你作为用户拿到的只有嘴上那部分。

第六章：世界模型能救吗？—— 不能全救，但能救一半

2024 年以来一种流行的说法是：LLM 会胡诌，是因为它没有真正的世界模型。如果有了世界模型，能理解物理、因果、时空，幻觉就解决了。

这个判断对一半，错一半。

先说对的那一半。把幻觉粗分成三种：

类型	典型例子	世界模型能救吗？
物理 / 因果错误	水往上流、手指六根、视频里玻璃穿过桌子	能救 —— 正是缺物理直觉导致
事实伪造	编参考文献、编 API、编判例、编权威数据	救不了 —— 不可能把全世界论文背下来
推理错误	数学题一步错、多步逻辑跑飞	半救 —— 需要 CoT + 反思

Yann LeCun 这派说得对的部分：LLM 确实缺少接地（grounded）的物理和因果直觉。Sora 里的玻璃穿过桌子、GPT-4o 画的 6 根手指 —— 这些不是"再多训练几轮就会好"的 bug，是架构没有嵌入物理先验的结果。

但 Geoffrey Hinton 这派说得对的部分也不能忽视：LLM 内部确实从文本里抽出了某种世界结构。研究者在一个只读过国际象棋棋谱的 Transformer 内部，能线性地读出它脑子里的棋盘表征；在 Claude 3 Sonnet 内部，能找到精确对应"金门大桥"这个概念的单一特征。这些都说明 —— LLM 不是纯粹的表层模式匹配，它学到了某种中间层次的世界表征。

所以一个更准确的判断是：

LLM 会某些胡诌，不会另一些胡诌。世界模型能消灭它会胡诌的一部分（物理/因果），但消灭不了它必然会胡诌的另一部分（具体事实伪造）。

那事实伪造为什么消灭不了？—— 回到第二章。熵的地板决定了：只要用户的问题超出了模型的知识范围，它就必须从一个平坦的分布里抽一个 token。这个 token 和真实世界的连接是无的。这不是"理解不够",是结构决定的。

要彻底消灭事实伪造，得换一种架构 —— 模型要么能"拒绝回答"（这违背当前 RLHF 范式），要么生成前必须检索外部事实库并只在命中时回答（这要求极强的检索 + 拒绝机制）。这两件事都还在研究，离可大规模产品化还有距离。

第七章：明白了这些 —— 你下次用 AI 时该怎么做？

这篇文章不是让你不信 AI。AI 仍然是过去 50 年最好的生产力工具之一。但你必须知道它会胡诌，并且学会在使用层面防御。

给你三条具体的、能立刻用起来的原则：

原则一：凡是"事实 + 专有名词 + 数字"的答案，默认另查

论文名、作者、卷号 → 去知网 / Google Scholar 查
API、函数名、参数 → 去官方文档查
历史事件、数据、法条 → 去权威来源查
人物生卒年、头衔、履历 → 查维基 / 百度百科

你信得过 AI 的：概念解释、框架梳理、代码逻辑、文本润色、翻译、摘要。你信不过 AI 的：具体的名字 + 数字 + 引用。

原则二：让 AI 给"来源"时，把来源当线索，不当答案

AI 给你的 URL、论文引用、法条编号 —— 不要直接接受。把它当作"可能存在的方向"，然后自己去权威库验证。AI 编一个假 URL 的成本是 0；你信一个假 URL 的成本可能是你的信誉。

原则三：用"对抗性追问"探它的地板

下面三种问法能把 AI 的胡诌暴露出来：

“反向追问”： 你说 A 是对的 —— 再问一次"A 有什么问题？"。如果它立刻给你列出 A 的一堆缺点，说明它是在随用户情绪摇摆，原来的答案要打折。
“三种可能”： 问"给我这个问题的三种可能答案，每种给置信度"。能给出分化置信度的答案（比如 60% / 30% / 10%）可信度更高；给三个都是 90% 自信的，说明它已经在胡诌了。
“让它引用”： 问"这个说法出自哪本书 / 哪篇论文 / 哪个人？"。要求精确到章节或页码。胡诌的答案在这一层暴露最快。

这三种追问的底层逻辑都一样：逼它从嘴硬的单一答案，退回到它内部真实的不确定性 —— 也就是第五章说的那个"心里发虚"的状态。

尾声：胡诌是它的本性，不是它的堕落

我想留给你一个视角转换。

你过去看 AI 幻觉，大概是这样的心情：“这个模型居然会编，太不靠谱了。” 这种心情假设了一个对立面 —— “靠谱的模型不会编”。

读完这篇，希望你换成这样的心情：“这个模型就是一台胡诌机器。它不编才奇怪。”

这不是贬低它。恰恰相反 —— 理解它的本性，才能把它用对地方。

一台电钻是用来打洞的，你不会怪它"没法当锤子"；一台胡诌机器是用来生成合理文本的，你不该怪它"没法当百科全书"。知道它的功用边界，它就是你最好用的工具之一；越过那条边界，它就是那份被退回的开题报告、那条被编的 API、那一夜清零的 12 万粉丝。

AI 幻觉不是 AI 的堕落。它是 AI 的本性被我们误解。

撒谎需要一个关心真相的心灵。胡诌不需要。AI 有后者的一切条件，没有前者的任何一样。

下次它"非常确定"地给你一个答案，你在心里加一句：“我知道你不确定。你只是学会了表现得确定而已。”

这一句话，可能是 2026 年最重要的 AI 素养。

📚 参考文献

Frankfurt, H. G., On Bullshit（中译本可参考）—— 哲学源头
Hicks, M. T. et al., 2024, ChatGPT is Bullshit —— 用 Frankfurt 框架分析 LLM
Kalai, A. et al., 2025, OpenAI 关于幻觉系统性成因的研究
Sharma, M. et al., 2023, Towards Understanding Sycophancy, Anthropic
Kadavath, S. et al., 2022, Language Models (Mostly) Know What They Know, Anthropic
Farquhar, S. et al., 2024, Semantic Entropy for Hallucination Detection, Nature

Frankfurt, H. G., 1986/2005, On Bullshit（有中译本，普林斯顿大学出版社）。 ↩︎
Hicks, M. T., Humphries, J., & Slater, J., 2024, ChatGPT is Bullshit, Ethics and Information Technology. ↩︎
Kalai, A. et al., 2025, OpenAI 关于幻觉系统性成因的研究。 ↩︎
Sharma, M. et al., 2023, Towards Understanding Sycophancy in Language Models, Anthropic. ↩︎
Kadavath, S. et al., 2022, Language Models (Mostly) Know What They Know, Anthropic. ↩︎
Farquhar, S. et al., 2024, Semantic entropy for hallucination detection, Nature. ↩︎

开篇：三件让人真实吃亏的事#

第一章：撒谎和胡诌，不是一回事#

第二章：熵的地板 —— 它为什么必须说点什么#

第三章：训练数据里，没有"我不知道"#

第四章：RLHF 让它从胡诌者变成"谄媚的"胡诌者#

第五章：它其实"知道"自己在胡诌 —— 但这没用#

第六章：世界模型能救吗？—— 不能全救，但能救一半#

第七章：明白了这些 —— 你下次用 AI 时该怎么做？#

原则一：凡是"事实 + 专有名词 + 数字"的答案，默认另查#

原则二：让 AI 给"来源"时，把来源当线索，不当答案#

原则三：用"对抗性追问"探它的地板#

尾声：胡诌是它的本性，不是它的堕落#

📚 参考文献#