当模型学会「偷师」——知识蒸馏、版权战争与学习的边界
一个师父花了十年磨出秘方,一个徒弟吃了一百顿饭就学会了。他偷了吗?从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解,从 DeepSeek 的坦诚到蒸馏指控的荒诞,这篇文章不给答案,只给视角。
一个师父花了十年磨出秘方,一个徒弟吃了一百顿饭就学会了。他偷了吗?从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解,从 DeepSeek 的坦诚到蒸馏指控的荒诞,这篇文章不给答案,只给视角。
2025 年最大的 AI 突破不是更大的模型,而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature,证明了一件事:不需要人类手把手教推理步骤,只需要给对奖励,模型就能自己学会思考。
为什么 GPT-3 的中文只占训练数据的 0.1%?为什么同样一句话中文要花 13 倍的 Token?国内大模型是怎么用 15 万词表逆转这个劣势的?从训练语料、Tokenizer 到 Embedding,一篇讲透中英文 LLM 的底层差异。
DeepSeek 给你编一个根本不存在的 API;国产大模型给研究生伪造 8 篇参考文献;自媒体因 AI 编造权威数据被封号 12 万粉。你以为 AI 在骗你 —— 不,它比骗更糟。骗人要先知道真相再刻意背离;AI 连真相这个坐标都没有。它是在胡诌。这篇把原理讲透。
2025 年 1 月底,一家此前在英文世界几乎没人念得对名字的中国公司,把英伟达推下悬崖。但故事不是『中国赢了』,也不是『开源赢了』。真正发生的事情是:那条所有人以为只有一条的路,在那一周分了岔。开源与闭源、通用与垂直、Transformer 之后、大模型与小模型、连发明者本身都散去了不同方向——AI 的未来不再是一个,而是同时有几个。这一篇,我们站在路口往几个方向看,听听站在路口的那些人怎么说,再画一张可以反复对照的地图。