开源 | AI 学习笔记

当模型学会「偷师」——知识蒸馏、版权战争与学习的边界

一个师父花了十年磨出秘方，一个徒弟吃了一百顿饭就学会了。他偷了吗？从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解，从 DeepSeek 的坦诚到蒸馏指控的荒诞，这篇文章不给答案，只给视角。

AI 的十字路口

2025 年 1 月底,一家此前在英文世界几乎没人念得对名字的中国公司,把英伟达推下悬崖。但故事不是『中国赢了』,也不是『开源赢了』。真正发生的事情是:那条所有人以为只有一条的路,在那一周分了岔。开源与闭源、通用与垂直、Transformer 之后、大模型与小模型、连发明者本身都散去了不同方向——AI 的未来不再是一个,而是同时有几个。这一篇,我们站在路口往几个方向看,听听站在路口的那些人怎么说,再画一张可以反复对照的地图。

谁给了 AI 一双眼睛——从 CLIP 到开源军备竞赛

2021 年 OpenAI 发布 CLIP，让 AI 第一次’看懂’了图片。但它公开了模型权重，却藏起了 4 亿对训练数据。这引发了一场全球性的’造眼睛’军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据，Google 发明了新的训练方法，Meta 证明不需要文字也能学会看……一个模型的开源，如何改变了整个视觉 AI 生态？‘开源’到底意味着什么？