当模型学会「偷师」——知识蒸馏、版权战争与学习的边界
一个师父花了十年磨出秘方,一个徒弟吃了一百顿饭就学会了。他偷了吗?从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解,从 DeepSeek 的坦诚到蒸馏指控的荒诞,这篇文章不给答案,只给视角。
一个师父花了十年磨出秘方,一个徒弟吃了一百顿饭就学会了。他偷了吗?从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解,从 DeepSeek 的坦诚到蒸馏指控的荒诞,这篇文章不给答案,只给视角。
2025 年 1 月底,一家此前在英文世界几乎没人念得对名字的中国公司,把英伟达推下悬崖。但故事不是『中国赢了』,也不是『开源赢了』。真正发生的事情是:那条所有人以为只有一条的路,在那一周分了岔。开源与闭源、通用与垂直、Transformer 之后、大模型与小模型、连发明者本身都散去了不同方向——AI 的未来不再是一个,而是同时有几个。这一篇,我们站在路口往几个方向看,听听站在路口的那些人怎么说,再画一张可以反复对照的地图。
2021 年 OpenAI 发布 CLIP,让 AI 第一次’看懂’了图片。但它公开了模型权重,却藏起了 4 亿对训练数据。这引发了一场全球性的’造眼睛’军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据,Google 发明了新的训练方法,Meta 证明不需要文字也能学会看……一个模型的开源,如何改变了整个视觉 AI 生态?‘开源’到底意味着什么?