当模型学会「偷师」——知识蒸馏、版权战争与学习的边界

📖 导读

2025 年 9 月，Anthropic 因使用盗版书籍训练 Claude，同意支付 15 亿美元和解——美国历史上最大的版权和解案。

半年后，同一个 Anthropic，指控三家中国公司从 Claude 那里"偷"知识。

一个因为"学了别人的东西"赔了 15 亿的公司，转头指控别人"学了自己的东西"——这个场景本身就值得深思。

这篇文章从一个看似简单的技术概念——知识蒸馏——出发，走进技术、法律、道德和文化的交叉地带。不给答案，只给视角。

① 一个隐喻 → ② 蒸馏到底是什么 → ③ 模型的内脏：什么能偷什么不能 → ④ 开源与闭源：两种哲学 → ⑤ 四场官司 → ⑥ 多维思辨 → ⑦ 三个带走的问题

一、师父与徒弟

一位老师傅花了十年，磨出了一道菜的秘方。

一个年轻厨师来这家店吃了一百顿饭。回去之后，琢磨出了一道味道几乎一样的菜。

请问——他偷了吗？

追问三层：

他没进过后厨，没看过配方单——他偷了吗？
他品尝到的那个味道，是谁的「知识产权」？
如果他公开说"我就是吃了一百顿饭学的"——这叫偷，还是叫学？

再加一层：

如果那个老师傅的菜，本身就是从别人那里学来的呢？

这不是一个虚构的故事。这正是今天 AI 世界里正在发生的事。

二、知识蒸馏：技术拆解

2.1 Hinton 的洞见——「暗知识」

2015 年，Geoffrey Hinton（深度学习三巨头之一）发表了一篇论文，标题很直白：《Distilling the Knowledge in a Neural Network》——把知识从一个神经网络里"蒸馏"出来。

核心思想出奇地简单：

一个大模型的输出，不只有「答案」，还有「答案的犹豫」。这些犹豫里，藏着真正的知识。

什么意思？举个例子。

假设你有一个图片识别模型，输入一张手写的 “2”：

硬标签（Hard Label）——传统做法：

答案是 2。句号。概率 100%。

软标签（Soft Label）——Hinton 的洞见：

数字	0	1	2	3	4	5	6	7	8	9
概率	0.1%	0.2%	93%	4.5%	0.3%	0.1%	0.5%	1.0%	0.2%	0.1%

看到了吗？那个 “3 的概率比 7 高” 的信息——这就是暗知识。

它告诉学生模型：“2” 和 “3” 在某种意义上是相似的（都有弧线），而 “2” 和 “7” 虽然看起来也有点像（顶部都有横线），但相似度低一些。

这种"哪些东西彼此像、哪些不像"的结构性信息，硬标签里完全没有。而软标签把它保留了下来。

2.2 温度的妙用

Hinton 引入了一个巧妙的参数——温度（Temperature）：

$$\text{softmax}(z_i / T)$$

T = 1：正常输出，高概率选项独占鳌头，低概率的几乎看不到
T > 1：分布被"软化"，那些被压得很低的概率重新浮出水面
T 越高，暗知识越多地被暴露出来

类比：你去吃师父做的菜——

T = 1（正常温度）：你尝到了"好吃"，但说不清为什么。
T = 3（高温蒸馏）：就像放慢了味觉，你开始品出层次——先是酱油的咸，然后是一丝糖的甜，最后是花椒的麻。每一层调味都被放大了。

这就是"温度"的含义：让隐藏的信息显现出来。

所以蒸馏的过程是：

大模型（Teacher）用较高的温度，输出"软化"的概率分布
小模型（Student）学着去模仿这个分布
学生模型学到的不只是"正确答案"，还有老师的"思维方式"

学生没有看到老师的参数。学生没有看到老师的训练数据。学生只看到了——老师在每道题前的犹豫。

但这些犹豫里，已经包含了足够多的知识。

🌡️ 交互演示：拖动温度滑块，看暗知识如何浮现

2.3 从 2015 到今天：蒸馏的变迁

Hinton 2015 年的蒸馏是白盒蒸馏——学生能看到老师的完整概率分布（所有 logits）。这就像在后厨看师父炒菜，能看到每一个细微的手势。

但在 LLM 时代，事情变了。

大模型的 API 通常只给你最终的文本输出——你看不到完整的概率分布。你只能品尝最后端上桌的那道菜。

这就是黑盒蒸馏：只用文本输出当训练数据，让小模型去模仿。

蒸馏在技术上的演变：

	经典蒸馏（Hinton 2015）	LLM 时代的蒸馏
传递什么	完整概率分布	通常只有文本
需要什么	白盒：模型内部	黑盒：API 调用
损失函数	KL 散度	监督微调（SFT）
类比	在后厨看师父炒菜	在前台品尝成品菜
信息量	极高	较低，但仍然有效

这个从"白盒"到"黑盒"的转变，恰恰是争议的源头。

因为白盒蒸馏需要访问模型内部——这通常意味着你得到了授权。而黑盒蒸馏？只需要一个 API 账号。任何人都可以。

三、模型的内脏——什么能"偷"、什么不能

要理解蒸馏争议，你需要先理解一个大模型到底由什么构成。

3.1 解剖一个大模型

一个 LLM = 架构 + 权重 + 训练数据 + 训练方法 + 对齐数据

让我把它们一个一个拆开：

① 架构（Architecture）——菜谱的格式

Transformer、MoE、Attention Mechanism……这些是公开发表的论文。任何人都可以照着论文实现一个 Transformer。

这就像你知道"红烧肉要放酱油和糖"——这是公共知识，不是秘密。

🔓 保护程度：几乎为零。论文是公开的，架构创新是学术贡献。

② 权重（Weights）——真正的秘方

几十亿到几千亿个浮点数，通过数月训练、消耗数百万美元算力得到。这是模型的全部"知识"所在。

🔒 保护程度：最高。对于闭源模型，这是核心商业秘密。

③ 训练数据（Training Data）——食材

从互联网上爬取的万亿 token 文本。数据的选择、清洗、配比本身就是重要的 know-how。

🔒 保护程度：高。数据来源通常不公开细节，配比是核心竞争力。

④ 训练方法（Training Recipe）——炒菜的火候

学习率、训练步数、课程学习策略、数据配比调整……论文通常只公开一部分，关键细节有意省略。

🔒 保护程度：中高。部分公开，关键细节保密。

⑤ 对齐数据（Alignment Data）——最后的调味

RLHF（基于人类反馈的强化学习）所用的偏好数据，是让模型从"会说话"变成"说人话"的关键。这些数据由数千名人类标注员花费数月标注，成本数百万美元。

🔒 保护程度：极高。不公开，也不可能通过 API 直接获取。

3.2 蒸馏到底"偷"的是哪一层？

重点来了。

当你通过 API 大量调用一个模型、收集它的输出、用来训练自己的模型——你获取的是什么？

❌ 不是架构（论文里早就有了）
❌ 不是权重（API 不会给你权重）
❌ 不是训练数据（你看到的是输出，不是输入）
❌ 不是训练方法（你不知道它怎么训练的）
❌ 不是对齐数据（你也看不到人类标注员标了什么）

你获取的是——输出分布的一个采样。

就是"最后端上桌的那道菜"。

根本悖论：

AI 公司的产品就是知识本身。每一次 API 调用都在"展示"模型的知识。

你不可能既卖知识，又不让人学到知识。

这就像一个餐厅——把菜端上桌的那一刻，就已经在"泄露"配方了。

区别只在于：食客是纯粹在吃饭，还是在系统性地"逆向工程"你的菜。

🔬 交互图解：大模型的五层结构——什么能偷，什么不能

四、开源与闭源——两种哲学

在理解蒸馏争议之前，还有一个关键背景必须弄清楚：不是所有模型都害怕蒸馏。

4.1 闭源模型：知识就是商品

ChatGPT（OpenAI）、Claude（Anthropic）、Gemini（Google）——这些是闭源模型。

它们的商业模式很清楚：

你不能看到模型权重
你不能下载模型
你只能通过 API 付费使用
知识被锁在黑盒里，按次收费

闭源模型的一切防线都建立在一个前提上：你只能用，不能学。

服务条款（ToS）白纸黑字写着：

“不得使用我们的服务输出来训练与我们竞争的模型。” —— Anthropic、OpenAI、Google 的 ToS（大意）

但问题是——ToS 是合同，不是法律。违反合同是民事纠纷，不是犯罪。而且，一家中国公司是否受一份美国公司 ToS 的约束？这是一个远没有答案的问题。

4.2 开源模型：知识就是公共品

Llama（Meta）、Qwen（阿里）、DeepSeek——这些是开源模型。

它们公开发布：

✅ 模型权重（所有人都能下载）
✅ 架构细节
✅ 训练方法论文
有些甚至公开训练数据配比

开源模型不怕蒸馏——蒸馏本身就是它们被使用的方式之一。

开源许可证的光谱：

许可证	代表模型	允许商用	允许修改	允许蒸馏
Apache 2.0	DeepSeek	✅	✅	✅
Llama 许可证	Llama 3	✅（有限制）	✅	⚠️ 灰色地带
商用限制	某些模型	❌（需申请）	✅	❌
闭源 API	GPT-4, Claude	❌（仅 API）	❌	❌（ToS 禁止）

4.3 两种哲学的碰撞

这不只是商业策略的差异。这是对知识本质的不同理解。

闭源哲学：知识是劳动的果实，创造者有权控制它的使用方式。没有知识产权保护，就没有创新的动力。

开源哲学：知识是人类的共同财富。知识流动得越快、越广，整个文明受益越大。封锁知识是逆历史潮流的。

一个有趣的事实：

Meta 把 Llama 开源，不是因为"善良"，而是一个精明的战略——它不靠卖 API 赚钱（它靠广告赚钱）。让模型开源，等于让全世界帮它完善技术生态，最终受益的是 Meta 自己的产品。

同样，DeepSeek 把模型开源，某种程度上也是在说：“我不怕你学。你学得越多，我的生态越强。”

开源不是慈善，是另一种竞争策略。

这个背景很重要，因为接下来我们要聊的蒸馏争议，几乎只发生在闭源模型身上。

没有人指控别人蒸馏了 Llama——因为 Meta 本来就让你用。

所有的蒸馏指控，本质上都是：你从我锁起来的黑盒子里偷看了。

问题是——如果你把一道菜端到食客面前，食客品尝了它，回去琢磨出了做法——你能说他"偷看"了你的黑盒子吗？

五、蒸馏的光谱——边界在哪里？

📊 蒸馏光谱：从完全合法到明显违规（点击展开详情）

“蒸馏"这个词在 LLM 时代已经被用得极其模糊。让我们认真梳理一下，到底哪些行为算蒸馏，哪些不算。

蒸馏的光谱——从"完全合法"到"明显违规”

行为	是蒸馏吗？	合法吗？
① 照论文复现 Transformer 架构	❌ 不是	✅ 完全合法
② 用开源模型（Llama/Qwen）做微调	❌ 不是	✅ 合法（遵循许可证）
③ 从自己的大模型蒸馏出小模型	✅ 经典蒸馏	✅ 合法
④ 网上训练语料恰好包含 AI 生成文本	❌ 偶然污染	✅ 合法
⑤ 收集公开分享的 ChatGPT 对话（如 ShareGPT）	⚠️ 间接蒸馏	⚠️ 灰色地带
⑥ 系统性调用 API 收集输出作为训练数据	✅ 黑盒蒸馏	⚠️ 违反 ToS，法律未定
⑦ 使用假账号大规模抓取	✅ 蒸馏+欺诈	❌ 涉嫌欺诈
⑧ 偷模型权重	不是蒸馏	❌ 违法（商业秘密盗窃）

看出来了吗？从①到⑧是一个连续光谱，不是非黑即白的。

而真正有争议的，恰恰是中间那些灰色地带——⑤和⑥。

特别值得注意的是③：从自己的大模型蒸馏出小模型——这是完全正当的技术实践。DeepSeek 公开做的正是这件事。

但在舆论中，③和⑥常常被混为一谈。一提到"DeepSeek"和"蒸馏"，人们就自动联想到"偷了 OpenAI 的东西"。实际上 DeepSeek 论文里写得清清楚楚——他们蒸馏的是自己的 R1 模型，用的基底是开源的 Qwen 和 Llama。

这两件事完全不同。但它们被有意无意地混在一起了。

六、四场官司——当「学习」变成「指控」

6.1 Anthropic 的"原罪"——Project Panama

在指控别人偷师之前，让我们先看看这家公司自己做了什么。

2026 年 1 月 27 日，Washington Post 报道揭露了 Anthropic 的机密项目——Project Panama。

内容令人震惊：

Anthropic 从 Better World Books 等在线书商购买了数百万本二手书
把书脊切掉，扫描每一页，用于训练 Claude
扫完之后，纸张回收
内部文件描述这个项目为"破坏性扫描世界上所有的书"
内部明确写道："不希望外界知道他们在做这件事"

2024 年 8 月，作家们发起了集体诉讼（Bartz v. Anthropic）。

2025 年 6 月，法官 William Alsup 做出了一个有趣的区分：

合法购买的书 → 用于训练 → 合理使用 ✅
盗版书的副本 → 用于训练 → 不构成合理使用 ❌

2025 年 9 月 5 日，Anthropic 同意支付 15 亿美元和解，每本书 3,000 美元加利息。

这是美国历史上最大的版权和解案。

6.2 音乐出版商 vs Anthropic

2023 年 10 月，Universal Music、Concord Music 等音乐出版商起诉 Anthropic——Claude 会输出完整的版权歌词。

Anthropic 的回应让人印象深刻：

“那是 bug。”

RIAA（美国唱片业协会）不买账，将此案比作 Napster 案——那场彻底改变了音乐产业的版权战争。

此案仍在审理中。

6.3 OpenAI 指控 DeepSeek

2025 年 1 月底，DeepSeek R1 发布后引发全球轰动。

OpenAI 迅速公开声称 DeepSeek 可能"不当使用"了其模型输出作为训练数据。

证据？

DeepSeek 有时会自称是 ChatGPT。

Anthropic CEO Dario Amodei 也在公开场合说 DeepSeek"很可能使用了 OpenAI 的模型进行蒸馏"。

但是——

“自称 ChatGPT"有多种可能解释：训练语料中大量包含 ChatGPT 对话记录（互联网上到处都是）
没有确凿的技术方法能证实蒸馏行为
截至目前，OpenAI 未对 DeepSeek 提起正式诉讼——只是公开指控

为什么不起诉？或许因为他们知道，在法庭上证明蒸馏，几乎不可能。

6.4 Anthropic 指控三家中国公司

2026 年 2 月 23 日，New York Times 报道：Anthropic 指控 DeepSeek 及另外两家中国公司——

使用数千个欺诈性账户
与 Claude 进行了数百万次对话
目的是收集输出数据用于蒸馏训练

注意用词。这次指控的核心不是"蒸馏"本身——而是**“欺诈性账户”**。这是一个聪明的法律策略：绕过"蒸馏是否合法"这个难以裁决的问题，把焦点转向"用假账号是否构成欺诈”。

七、多维思辨——不给答案，给视角

7.1 技术视角：蒸馏能被检测吗？

理论上有四种方法：

① 输出分布比对——如果两个模型在大量提示下的输出统计特征高度相似，可能说明存在蒸馏关系。

问题：在相似数据上训练的模型天然会趋同。相关不等于因果。

② 水印技术——在输出中嵌入统计水印（例如微妙地偏好某些词的选择），如果学生模型训练在这些带水印的输出上，水印会被"传承"。

问题：一轮 paraphrase（改写）就能洗掉。

③ 成员推理——测试学生模型是否"记住"了老师的特定输出。

问题：只能检测记忆，不能证明系统性蒸馏。

④ 行为指纹——模型有"口头禅"（特定的措辞习惯、格式偏好、犯错模式）。如果学生表现出老师的指纹行为，可能说明关联。

问题：DeepSeek 说自己是 ChatGPT ≠ DeepSeek 蒸馏了 ChatGPT。

结论：目前没有任何检测方法能达到法律标准的"确凿证据"。

这意味着蒸馏指控在技术上几乎不可能被证实或证伪。

一个不可证伪的指控，到底是技术概念，还是舆论武器？

7.2 法律视角：谁的规则？

让我们拆解法律层面的复杂性。

第一层：服务条款（ToS）

几乎所有大模型公司的 ToS 都禁止用输出训练竞争模型。但 ToS 是合同，不是法律。违反 ToS 是民事纠纷，不是犯罪。

第二层：版权法

美国版权局已裁定：纯 AI 生成的内容不可获得版权保护。

这就制造了一个有趣的悖论：如果模型的输出没有版权，那蒸馏侵犯的到底是什么权利？

商业秘密？但输出是通过公开 API 提供的。

第三层：跨国管辖

一家中国公司，使用了一家美国公司的 API，在中国的服务器上训练了模型——

适用哪国的法律？谁有管辖权？那份英文写的服务条款，对一个中国实体有约束力吗？

这些问题，目前没有任何法律先例可以参考。

第四层：合理使用（Fair Use）

讽刺的是，AI 公司在面对作者和艺术家的诉讼时，最常使用的抗辩理由就是合理使用——“我们只是学习了你的作品，没有复制它”。

而当其他人用同样的逻辑对待它们的模型输出时，它们又不接受了。

“我训练你的作品是合理使用。你训练我的输出是知识盗窃。”

——这个逻辑，站得住吗？

7.3 道德视角：谁有资格指控谁？

让我们把两个故事放在一起看：

	Anthropic	被指控的中国公司
做了什么	购买数百万本书 → 切掉书脊 → 扫描 → 训练	（被指控）大量 API 调用 → 收集输出 → 训练
来源	人类作者的作品	AI 模型的输出
对方知情？	❌ 作者们不知情	❌ Anthropic（据称）不知情
公开承认？	❌ “不希望外界知道”	⚠️ 未承认也未否认
后果	赔了 $15 亿	被公开指控

一家因为"从人类那里学习"赔了 15 亿的公司，转头指控另一家"从 AI 那里学习"。

我不是说谁对谁错。我是说——整个行业都站在同一个道德灰色地带里。

每一个大模型，无论出自哪家公司、哪个国家，都是从人类数千年积累的文本中"学"来的。没有任何一个模型的训练数据是 100% 原创的。

蒸馏只是把"从人类作品中学习"变成了"从 AI 输出中学习"——本质上，这仍然是人类知识的传递，只不过多了一层中介。

7.4 文化视角：学习 vs 偷窃

东方传统：

“学而时习之”——孔子说的"学"，就是模仿加实践。中国传统的师徒制，核心就是观察、模仿、琢磨。没有人觉得这是"偷"。

中国 AI 社区对开源有特别强的共鸣。DeepSeek 选择全面开源（MIT / Apache 2.0 许可），在国内广受赞誉。这不只是商业决策，也是一种文化态度：知识应该流动。

西方框架：

知识产权是现代资本主义的基石之一。“创新需要回报"是整个体系的逻辑起点。

但即使在西方，合理使用（Fair Use） 同样是重要传统。Google 扫描了数百万本书建索引——2015 年法院判定为合理使用。人类引用他人作品进行学术研究——这是天经地义的。

当一个中国公司和一个美国公司对"学习"的定义不同时——

这不只是法律问题。这是文明之间对知识本质的不同理解。

谁的理解更"正确”？这个问题本身可能就是错的。

7.5 来自 DeepSeek 的一个反面案例

值得注意的是，DeepSeek R1 论文（arXiv:2501.12948）坦诚地公开了自己的蒸馏方法：

用强化学习训练大模型 DeepSeek-R1（671B 参数，MoE 架构）
用 R1 生成推理思维链数据
用这些数据微调开源小模型（Qwen、Llama 系列）

发布了 6 个蒸馏模型，从 1.5B 到 70B 参数。

结果：DeepSeek-R1-Distill-Qwen-32B 在多项基准上超越了 OpenAI o1-mini。

这是从自己的大模型蒸馏到开源的小模型。完全合法，完全透明，完全正当。

但这个名字——“DeepSeek” + “蒸馏”——在舆论中被反复与"偷了 OpenAI 的东西"捆绑在一起。

技术语境和舆论语境的混淆，本身就是一个值得警惕的现象。

八、学习的本质

回到最开始那个隐喻。

一个人读了一万本书，内化了知识，写出新作品——我们叫他学者。

一个模型"读了"一万本书，压缩了知识，生成新文本——我们叫它侵权者。

差异在哪？

人类学习后，原始知识的形态已经消失，变成了神经连接
模型训练后，原始知识的形态也已经消失，变成了参数权重
人类可能逐字引用书中的话——我们叫"引用"
模型可能逐字输出训练数据——我们叫"侵权"

压缩即智能。

如果学习的本质是压缩——那人类的学习和 AI 的"训练"，区别到底在哪里？

也许区别不在于过程，而在于：

意识：人类知道自己在学习
意图：人类可以选择致敬还是抄袭
创造：人类可以在学到的基础上，真正地"创新"

AI 呢？它在"创新"吗？还是在"高级复述"？

这个问题——目前没有人能回答。

九、带走三个问题

我不打算给结论。

这篇文章探讨的每一个问题，目前都没有共识。法律框架没有跟上技术现实，技术检测不能证实指控，道德讨论还没有形成标准，东西方文化对知识的理解仍然不同。

所以我只给你三个问题。

问题一

如果一个模型读了全人类的书，学到了全人类的知识，然后用这些知识帮助全人类——这是偷窃，还是文明的延续？

问题二

如果"蒸馏"在技术上不可能被证实，在法律上没有框架，在道德上没有共识——那这个词的真正含义是什么？是技术概念，还是商业竞争中的武器？

问题三

当你读完这篇文章，你"学到"了一些东西。这些东西里，有我查阅的论文的知识、有法院判决书的事实、有我个人的思考。

你学到的东西，属于谁？

知识从来不属于任何人。

但在一个把知识变成产品的时代，我们不得不假装它属于某个人。

这个假装，还能维持多久？

📚 延伸阅读与引用

Hinton et al., Distilling the Knowledge in a Neural Network, arXiv:1503.02531, 2015
DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025
CNBC, Anthropic agrees to pay $1.5 billion to settle authors’ copyright lawsuit, 2025-09-05
Washington Post, Inside an AI start-up’s plan to scan and dispose of millions of books, 2026-01-27
NYT, Anthropic Accuses 3 Chinese Companies of Harvesting Its Data, 2026-02-23
NBC News, OpenAI says DeepSeek may have ‘inappropriately’ used its data, 2025-01-30
U.S. Copyright Office, Copyright and Artificial Intelligence reports

💡 相关文章

一、师父与徒弟#

二、知识蒸馏：技术拆解#

2.1 Hinton 的洞见——「暗知识」#

2.2 温度的妙用#

2.3 从 2015 到今天：蒸馏的变迁#

三、模型的内脏——什么能"偷"、什么不能#

3.1 解剖一个大模型#

3.2 蒸馏到底"偷"的是哪一层？#

四、开源与闭源——两种哲学#

4.1 闭源模型：知识就是商品#

4.2 开源模型：知识就是公共品#

4.3 两种哲学的碰撞#

五、蒸馏的光谱——边界在哪里？#

六、四场官司——当「学习」变成「指控」#

6.1 Anthropic 的"原罪"——Project Panama#

6.2 音乐出版商 vs Anthropic#

6.3 OpenAI 指控 DeepSeek#

6.4 Anthropic 指控三家中国公司#

七、多维思辨——不给答案，给视角#

7.1 技术视角：蒸馏能被检测吗？#

7.2 法律视角：谁的规则？#

7.3 道德视角：谁有资格指控谁？#

7.4 文化视角：学习 vs 偷窃#

7.5 来自 DeepSeek 的一个反面案例#

八、学习的本质#

九、带走三个问题#