2025 年 9 月,Anthropic 因使用盗版书籍训练 Claude,同意支付 15 亿美元和解——美国历史上最大的版权和解案。
半年后,同一个 Anthropic,指控三家中国公司从 Claude 那里"偷"知识。
一个因为"学了别人的东西"赔了 15 亿的公司,转头指控别人"学了自己的东西"——这个场景本身就值得深思。
这篇文章从一个看似简单的技术概念——知识蒸馏——出发,走进技术、法律、道德和文化的交叉地带。不给答案,只给视角。
一、师父与徒弟
一位老师傅花了十年,磨出了一道菜的秘方。
一个年轻厨师来这家店吃了一百顿饭。回去之后,琢磨出了一道味道几乎一样的菜。
请问——他偷了吗?
追问三层:
- 他没进过后厨,没看过配方单——他偷了吗?
- 他品尝到的那个味道,是谁的「知识产权」?
- 如果他公开说"我就是吃了一百顿饭学的"——这叫偷,还是叫学?
再加一层:
- 如果那个老师傅的菜,本身就是从别人那里学来的呢?
这不是一个虚构的故事。这正是今天 AI 世界里正在发生的事。
二、知识蒸馏:技术拆解
2.1 Hinton 的洞见——「暗知识」
2015 年,Geoffrey Hinton(深度学习三巨头之一)发表了一篇论文,标题很直白:《Distilling the Knowledge in a Neural Network》——把知识从一个神经网络里"蒸馏"出来。
核心思想出奇地简单:
一个大模型的输出,不只有「答案」,还有「答案的犹豫」。这些犹豫里,藏着真正的知识。
什么意思?举个例子。
假设你有一个图片识别模型,输入一张手写的 “2”:
硬标签(Hard Label)——传统做法:
答案是 2。句号。概率 100%。
软标签(Soft Label)——Hinton 的洞见:
| 数字 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|---|
| 概率 | 0.1% | 0.2% | 93% | 4.5% | 0.3% | 0.1% | 0.5% | 1.0% | 0.2% | 0.1% |
看到了吗?那个 “3 的概率比 7 高” 的信息——这就是暗知识。
它告诉学生模型:“2” 和 “3” 在某种意义上是相似的(都有弧线),而 “2” 和 “7” 虽然看起来也有点像(顶部都有横线),但相似度低一些。
这种"哪些东西彼此像、哪些不像"的结构性信息,硬标签里完全没有。而软标签把它保留了下来。
2.2 温度的妙用
Hinton 引入了一个巧妙的参数——温度(Temperature):
$$\text{softmax}(z_i / T)$$
- T = 1:正常输出,高概率选项独占鳌头,低概率的几乎看不到
- T > 1:分布被"软化",那些被压得很低的概率重新浮出水面
- T 越高,暗知识越多地被暴露出来
类比:你去吃师父做的菜——
- T = 1(正常温度):你尝到了"好吃",但说不清为什么。
- T = 3(高温蒸馏):就像放慢了味觉,你开始品出层次——先是酱油的咸,然后是一丝糖的甜,最后是花椒的麻。每一层调味都被放大了。
这就是"温度"的含义:让隐藏的信息显现出来。
所以蒸馏的过程是:
- 大模型(Teacher)用较高的温度,输出"软化"的概率分布
- 小模型(Student)学着去模仿这个分布
- 学生模型学到的不只是"正确答案",还有老师的"思维方式"
学生没有看到老师的参数。学生没有看到老师的训练数据。学生只看到了——老师在每道题前的犹豫。
但这些犹豫里,已经包含了足够多的知识。
2.3 从 2015 到今天:蒸馏的变迁
Hinton 2015 年的蒸馏是白盒蒸馏——学生能看到老师的完整概率分布(所有 logits)。这就像在后厨看师父炒菜,能看到每一个细微的手势。
但在 LLM 时代,事情变了。
大模型的 API 通常只给你最终的文本输出——你看不到完整的概率分布。你只能品尝最后端上桌的那道菜。
这就是黑盒蒸馏:只用文本输出当训练数据,让小模型去模仿。
蒸馏在技术上的演变:
| 经典蒸馏(Hinton 2015) | LLM 时代的蒸馏 | |
|---|---|---|
| 传递什么 | 完整概率分布 | 通常只有文本 |
| 需要什么 | 白盒:模型内部 | 黑盒:API 调用 |
| 损失函数 | KL 散度 | 监督微调(SFT) |
| 类比 | 在后厨看师父炒菜 | 在前台品尝成品菜 |
| 信息量 | 极高 | 较低,但仍然有效 |
这个从"白盒"到"黑盒"的转变,恰恰是争议的源头。
因为白盒蒸馏需要访问模型内部——这通常意味着你得到了授权。而黑盒蒸馏?只需要一个 API 账号。任何人都可以。
三、模型的内脏——什么能"偷"、什么不能
要理解蒸馏争议,你需要先理解一个大模型到底由什么构成。
3.1 解剖一个大模型
一个 LLM = 架构 + 权重 + 训练数据 + 训练方法 + 对齐数据
让我把它们一个一个拆开:
① 架构(Architecture)——菜谱的格式
Transformer、MoE、Attention Mechanism……这些是公开发表的论文。任何人都可以照着论文实现一个 Transformer。
这就像你知道"红烧肉要放酱油和糖"——这是公共知识,不是秘密。
🔓 保护程度:几乎为零。论文是公开的,架构创新是学术贡献。
② 权重(Weights)——真正的秘方
几十亿到几千亿个浮点数,通过数月训练、消耗数百万美元算力得到。这是模型的全部"知识"所在。
🔒 保护程度:最高。对于闭源模型,这是核心商业秘密。
③ 训练数据(Training Data)——食材
从互联网上爬取的万亿 token 文本。数据的选择、清洗、配比本身就是重要的 know-how。
🔒 保护程度:高。数据来源通常不公开细节,配比是核心竞争力。
④ 训练方法(Training Recipe)——炒菜的火候
学习率、训练步数、课程学习策略、数据配比调整……论文通常只公开一部分,关键细节有意省略。
🔒 保护程度:中高。部分公开,关键细节保密。
⑤ 对齐数据(Alignment Data)——最后的调味
RLHF(基于人类反馈的强化学习)所用的偏好数据,是让模型从"会说话"变成"说人话"的关键。这些数据由数千名人类标注员花费数月标注,成本数百万美元。
🔒 保护程度:极高。不公开,也不可能通过 API 直接获取。
3.2 蒸馏到底"偷"的是哪一层?
重点来了。
当你通过 API 大量调用一个模型、收集它的输出、用来训练自己的模型——你获取的是什么?
- ❌ 不是架构(论文里早就有了)
- ❌ 不是权重(API 不会给你权重)
- ❌ 不是训练数据(你看到的是输出,不是输入)
- ❌ 不是训练方法(你不知道它怎么训练的)
- ❌ 不是对齐数据(你也看不到人类标注员标了什么)
你获取的是——输出分布的一个采样。
就是"最后端上桌的那道菜"。
根本悖论:
AI 公司的产品就是知识本身。每一次 API 调用都在"展示"模型的知识。
你不可能既卖知识,又不让人学到知识。
这就像一个餐厅——把菜端上桌的那一刻,就已经在"泄露"配方了。
区别只在于:食客是纯粹在吃饭,还是在系统性地"逆向工程"你的菜。
四、开源与闭源——两种哲学
在理解蒸馏争议之前,还有一个关键背景必须弄清楚:不是所有模型都害怕蒸馏。
4.1 闭源模型:知识就是商品
ChatGPT(OpenAI)、Claude(Anthropic)、Gemini(Google)——这些是闭源模型。
它们的商业模式很清楚:
- 你不能看到模型权重
- 你不能下载模型
- 你只能通过 API 付费使用
- 知识被锁在黑盒里,按次收费
闭源模型的一切防线都建立在一个前提上:你只能用,不能学。
服务条款(ToS)白纸黑字写着:
“不得使用我们的服务输出来训练与我们竞争的模型。” —— Anthropic、OpenAI、Google 的 ToS(大意)
但问题是——ToS 是合同,不是法律。违反合同是民事纠纷,不是犯罪。而且,一家中国公司是否受一份美国公司 ToS 的约束?这是一个远没有答案的问题。
4.2 开源模型:知识就是公共品
Llama(Meta)、Qwen(阿里)、DeepSeek——这些是开源模型。
它们公开发布:
- ✅ 模型权重(所有人都能下载)
- ✅ 架构细节
- ✅ 训练方法论文
- 有些甚至公开训练数据配比
开源模型不怕蒸馏——蒸馏本身就是它们被使用的方式之一。
开源许可证的光谱:
| 许可证 | 代表模型 | 允许商用 | 允许修改 | 允许蒸馏 |
|---|---|---|---|---|
| Apache 2.0 | DeepSeek | ✅ | ✅ | ✅ |
| Llama 许可证 | Llama 3 | ✅(有限制) | ✅ | ⚠️ 灰色地带 |
| 商用限制 | 某些模型 | ❌(需申请) | ✅ | ❌ |
| 闭源 API | GPT-4, Claude | ❌(仅 API) | ❌ | ❌(ToS 禁止) |
4.3 两种哲学的碰撞
这不只是商业策略的差异。这是对知识本质的不同理解。
闭源哲学:知识是劳动的果实,创造者有权控制它的使用方式。没有知识产权保护,就没有创新的动力。
开源哲学:知识是人类的共同财富。知识流动得越快、越广,整个文明受益越大。封锁知识是逆历史潮流的。
一个有趣的事实:
Meta 把 Llama 开源,不是因为"善良",而是一个精明的战略——它不靠卖 API 赚钱(它靠广告赚钱)。让模型开源,等于让全世界帮它完善技术生态,最终受益的是 Meta 自己的产品。
同样,DeepSeek 把模型开源,某种程度上也是在说:“我不怕你学。你学得越多,我的生态越强。”
开源不是慈善,是另一种竞争策略。
这个背景很重要,因为接下来我们要聊的蒸馏争议,几乎只发生在闭源模型身上。
没有人指控别人蒸馏了 Llama——因为 Meta 本来就让你用。
所有的蒸馏指控,本质上都是:你从我锁起来的黑盒子里偷看了。
问题是——如果你把一道菜端到食客面前,食客品尝了它,回去琢磨出了做法——你能说他"偷看"了你的黑盒子吗?
五、蒸馏的光谱——边界在哪里?
“蒸馏"这个词在 LLM 时代已经被用得极其模糊。让我们认真梳理一下,到底哪些行为算蒸馏,哪些不算。
蒸馏的光谱——从"完全合法"到"明显违规”
| 行为 | 是蒸馏吗? | 合法吗? |
|---|---|---|
| ① 照论文复现 Transformer 架构 | ❌ 不是 | ✅ 完全合法 |
| ② 用开源模型(Llama/Qwen)做微调 | ❌ 不是 | ✅ 合法(遵循许可证) |
| ③ 从自己的大模型蒸馏出小模型 | ✅ 经典蒸馏 | ✅ 合法 |
| ④ 网上训练语料恰好包含 AI 生成文本 | ❌ 偶然污染 | ✅ 合法 |
| ⑤ 收集公开分享的 ChatGPT 对话(如 ShareGPT) | ⚠️ 间接蒸馏 | ⚠️ 灰色地带 |
| ⑥ 系统性调用 API 收集输出作为训练数据 | ✅ 黑盒蒸馏 | ⚠️ 违反 ToS,法律未定 |
| ⑦ 使用假账号大规模抓取 | ✅ 蒸馏+欺诈 | ❌ 涉嫌欺诈 |
| ⑧ 偷模型权重 | 不是蒸馏 | ❌ 违法(商业秘密盗窃) |
看出来了吗?从①到⑧是一个连续光谱,不是非黑即白的。
而真正有争议的,恰恰是中间那些灰色地带——⑤和⑥。
特别值得注意的是③:从自己的大模型蒸馏出小模型——这是完全正当的技术实践。DeepSeek 公开做的正是这件事。
但在舆论中,③和⑥常常被混为一谈。一提到"DeepSeek"和"蒸馏",人们就自动联想到"偷了 OpenAI 的东西"。实际上 DeepSeek 论文里写得清清楚楚——他们蒸馏的是自己的 R1 模型,用的基底是开源的 Qwen 和 Llama。
这两件事完全不同。但它们被有意无意地混在一起了。
六、四场官司——当「学习」变成「指控」
6.1 Anthropic 的"原罪"——Project Panama
在指控别人偷师之前,让我们先看看这家公司自己做了什么。
2026 年 1 月 27 日,Washington Post 报道揭露了 Anthropic 的机密项目——Project Panama。
内容令人震惊:
- Anthropic 从 Better World Books 等在线书商购买了数百万本二手书
- 把书脊切掉,扫描每一页,用于训练 Claude
- 扫完之后,纸张回收
- 内部文件描述这个项目为"破坏性扫描世界上所有的书"
- 内部明确写道:"不希望外界知道他们在做这件事"
2024 年 8 月,作家们发起了集体诉讼(Bartz v. Anthropic)。
2025 年 6 月,法官 William Alsup 做出了一个有趣的区分:
- 合法购买的书 → 用于训练 → 合理使用 ✅
- 盗版书的副本 → 用于训练 → 不构成合理使用 ❌
2025 年 9 月 5 日,Anthropic 同意支付 15 亿美元和解,每本书 3,000 美元加利息。
这是美国历史上最大的版权和解案。
6.2 音乐出版商 vs Anthropic
2023 年 10 月,Universal Music、Concord Music 等音乐出版商起诉 Anthropic——Claude 会输出完整的版权歌词。
Anthropic 的回应让人印象深刻:
“那是 bug。”
RIAA(美国唱片业协会)不买账,将此案比作 Napster 案——那场彻底改变了音乐产业的版权战争。
此案仍在审理中。
6.3 OpenAI 指控 DeepSeek
2025 年 1 月底,DeepSeek R1 发布后引发全球轰动。
OpenAI 迅速公开声称 DeepSeek 可能"不当使用"了其模型输出作为训练数据。
证据?
DeepSeek 有时会自称是 ChatGPT。
Anthropic CEO Dario Amodei 也在公开场合说 DeepSeek"很可能使用了 OpenAI 的模型进行蒸馏"。
但是——
- “自称 ChatGPT"有多种可能解释:训练语料中大量包含 ChatGPT 对话记录(互联网上到处都是)
- 没有确凿的技术方法能证实蒸馏行为
- 截至目前,OpenAI 未对 DeepSeek 提起正式诉讼——只是公开指控
为什么不起诉?或许因为他们知道,在法庭上证明蒸馏,几乎不可能。
6.4 Anthropic 指控三家中国公司
2026 年 2 月 23 日,New York Times 报道:Anthropic 指控 DeepSeek 及另外两家中国公司——
- 使用数千个欺诈性账户
- 与 Claude 进行了数百万次对话
- 目的是收集输出数据用于蒸馏训练
注意用词。这次指控的核心不是"蒸馏"本身——而是**“欺诈性账户”**。这是一个聪明的法律策略:绕过"蒸馏是否合法"这个难以裁决的问题,把焦点转向"用假账号是否构成欺诈”。
七、多维思辨——不给答案,给视角
7.1 技术视角:蒸馏能被检测吗?
理论上有四种方法:
① 输出分布比对——如果两个模型在大量提示下的输出统计特征高度相似,可能说明存在蒸馏关系。
- 问题:在相似数据上训练的模型天然会趋同。相关不等于因果。
② 水印技术——在输出中嵌入统计水印(例如微妙地偏好某些词的选择),如果学生模型训练在这些带水印的输出上,水印会被"传承"。
- 问题:一轮 paraphrase(改写)就能洗掉。
③ 成员推理——测试学生模型是否"记住"了老师的特定输出。
- 问题:只能检测记忆,不能证明系统性蒸馏。
④ 行为指纹——模型有"口头禅"(特定的措辞习惯、格式偏好、犯错模式)。如果学生表现出老师的指纹行为,可能说明关联。
- 问题:DeepSeek 说自己是 ChatGPT ≠ DeepSeek 蒸馏了 ChatGPT。
结论:目前没有任何检测方法能达到法律标准的"确凿证据"。
这意味着蒸馏指控在技术上几乎不可能被证实或证伪。
一个不可证伪的指控,到底是技术概念,还是舆论武器?
7.2 法律视角:谁的规则?
让我们拆解法律层面的复杂性。
第一层:服务条款(ToS)
几乎所有大模型公司的 ToS 都禁止用输出训练竞争模型。但 ToS 是合同,不是法律。违反 ToS 是民事纠纷,不是犯罪。
第二层:版权法
美国版权局已裁定:纯 AI 生成的内容不可获得版权保护。
这就制造了一个有趣的悖论:如果模型的输出没有版权,那蒸馏侵犯的到底是什么权利?
商业秘密?但输出是通过公开 API 提供的。
第三层:跨国管辖
一家中国公司,使用了一家美国公司的 API,在中国的服务器上训练了模型——
适用哪国的法律?谁有管辖权?那份英文写的服务条款,对一个中国实体有约束力吗?
这些问题,目前没有任何法律先例可以参考。
第四层:合理使用(Fair Use)
讽刺的是,AI 公司在面对作者和艺术家的诉讼时,最常使用的抗辩理由就是合理使用——“我们只是学习了你的作品,没有复制它”。
而当其他人用同样的逻辑对待它们的模型输出时,它们又不接受了。
“我训练你的作品是合理使用。你训练我的输出是知识盗窃。”
——这个逻辑,站得住吗?
7.3 道德视角:谁有资格指控谁?
让我们把两个故事放在一起看:
| Anthropic | 被指控的中国公司 | |
|---|---|---|
| 做了什么 | 购买数百万本书 → 切掉书脊 → 扫描 → 训练 | (被指控)大量 API 调用 → 收集输出 → 训练 |
| 来源 | 人类作者的作品 | AI 模型的输出 |
| 对方知情? | ❌ 作者们不知情 | ❌ Anthropic(据称)不知情 |
| 公开承认? | ❌ “不希望外界知道” | ⚠️ 未承认也未否认 |
| 后果 | 赔了 $15 亿 | 被公开指控 |
一家因为"从人类那里学习"赔了 15 亿的公司,转头指控另一家"从 AI 那里学习"。
我不是说谁对谁错。我是说——整个行业都站在同一个道德灰色地带里。
每一个大模型,无论出自哪家公司、哪个国家,都是从人类数千年积累的文本中"学"来的。没有任何一个模型的训练数据是 100% 原创的。
蒸馏只是把"从人类作品中学习"变成了"从 AI 输出中学习"——本质上,这仍然是人类知识的传递,只不过多了一层中介。
7.4 文化视角:学习 vs 偷窃
东方传统:
“学而时习之”——孔子说的"学",就是模仿加实践。中国传统的师徒制,核心就是观察、模仿、琢磨。没有人觉得这是"偷"。
中国 AI 社区对开源有特别强的共鸣。DeepSeek 选择全面开源(MIT / Apache 2.0 许可),在国内广受赞誉。这不只是商业决策,也是一种文化态度:知识应该流动。
西方框架:
知识产权是现代资本主义的基石之一。“创新需要回报"是整个体系的逻辑起点。
但即使在西方,合理使用(Fair Use) 同样是重要传统。Google 扫描了数百万本书建索引——2015 年法院判定为合理使用。人类引用他人作品进行学术研究——这是天经地义的。
当一个中国公司和一个美国公司对"学习"的定义不同时——
这不只是法律问题。这是文明之间对知识本质的不同理解。
谁的理解更"正确”?这个问题本身可能就是错的。
7.5 来自 DeepSeek 的一个反面案例
值得注意的是,DeepSeek R1 论文(arXiv:2501.12948)坦诚地公开了自己的蒸馏方法:
- 用强化学习训练大模型 DeepSeek-R1(671B 参数,MoE 架构)
- 用 R1 生成推理思维链数据
- 用这些数据微调开源小模型(Qwen、Llama 系列)
发布了 6 个蒸馏模型,从 1.5B 到 70B 参数。
结果:DeepSeek-R1-Distill-Qwen-32B 在多项基准上超越了 OpenAI o1-mini。
这是从自己的大模型蒸馏到开源的小模型。完全合法,完全透明,完全正当。
但这个名字——“DeepSeek” + “蒸馏”——在舆论中被反复与"偷了 OpenAI 的东西"捆绑在一起。
技术语境和舆论语境的混淆,本身就是一个值得警惕的现象。
八、学习的本质
回到最开始那个隐喻。
一个人读了一万本书,内化了知识,写出新作品——我们叫他学者。
一个模型"读了"一万本书,压缩了知识,生成新文本——我们叫它侵权者。
差异在哪?
- 人类学习后,原始知识的形态已经消失,变成了神经连接
- 模型训练后,原始知识的形态也已经消失,变成了参数权重
- 人类可能逐字引用书中的话——我们叫"引用"
- 模型可能逐字输出训练数据——我们叫"侵权"
压缩即智能。
如果学习的本质是压缩——那人类的学习和 AI 的"训练",区别到底在哪里?
也许区别不在于过程,而在于:
- 意识:人类知道自己在学习
- 意图:人类可以选择致敬还是抄袭
- 创造:人类可以在学到的基础上,真正地"创新"
AI 呢?它在"创新"吗?还是在"高级复述"?
这个问题——目前没有人能回答。
九、带走三个问题
我不打算给结论。
这篇文章探讨的每一个问题,目前都没有共识。法律框架没有跟上技术现实,技术检测不能证实指控,道德讨论还没有形成标准,东西方文化对知识的理解仍然不同。
所以我只给你三个问题。
问题一
如果一个模型读了全人类的书,学到了全人类的知识,然后用这些知识帮助全人类——这是偷窃,还是文明的延续?
问题二
如果"蒸馏"在技术上不可能被证实,在法律上没有框架,在道德上没有共识——那这个词的真正含义是什么?是技术概念,还是商业竞争中的武器?
问题三
当你读完这篇文章,你"学到"了一些东西。这些东西里,有我查阅的论文的知识、有法院判决书的事实、有我个人的思考。
你学到的东西,属于谁?
知识从来不属于任何人。
但在一个把知识变成产品的时代,我们不得不假装它属于某个人。
这个假装,还能维持多久?
📚 延伸阅读与引用
- Hinton et al., Distilling the Knowledge in a Neural Network, arXiv:1503.02531, 2015
- DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025
- CNBC, Anthropic agrees to pay $1.5 billion to settle authors’ copyright lawsuit, 2025-09-05
- Washington Post, Inside an AI start-up’s plan to scan and dispose of millions of books, 2026-01-27
- NYT, Anthropic Accuses 3 Chinese Companies of Harvesting Its Data, 2026-02-23
- NBC News, OpenAI says DeepSeek may have ‘inappropriately’ used its data, 2025-01-30
- U.S. Copyright Office, Copyright and Artificial Intelligence reports
💡 相关文章
