DeepSeek

当模型学会「偷师」——知识蒸馏、版权战争与学习的边界

一个师父花了十年磨出秘方，一个徒弟吃了一百顿饭就学会了。他偷了吗？从 Hinton 的暗知识到 Anthropic 的 15 亿美元和解，从 DeepSeek 的坦诚到蒸馏指控的荒诞，这篇文章不给答案，只给视角。

DeepSeek-R1：一个模型如何学会「思考」

2025 年最大的 AI 突破不是更大的模型，而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature，证明了一件事：不需要人类手把手教推理步骤，只需要给对奖励，模型就能自己学会思考。

中文 vs 英文：大语言模型的语言鸿沟与技术突围

为什么 GPT-3 的中文只占训练数据的 0.1%？为什么同样一句话中文要花 13 倍的 Token？国内大模型是怎么用 15 万词表逆转这个劣势的？从训练语料、Tokenizer 到 Embedding，一篇讲透中英文 LLM 的底层差异。

AI 为什么"一本正经地胡诌"？—— 幻觉的底层逻辑

DeepSeek 给你编一个根本不存在的 API；国产大模型给研究生伪造 8 篇参考文献；自媒体因 AI 编造权威数据被封号 12 万粉。你以为 AI 在骗你 —— 不，它比骗更糟。骗人要先知道真相再刻意背离；AI 连真相这个坐标都没有。它是在胡诌。这篇把原理讲透。

AI 的十字路口

2025 年 1 月底,一家此前在英文世界几乎没人念得对名字的中国公司,把英伟达推下悬崖。但故事不是『中国赢了』,也不是『开源赢了』。真正发生的事情是:那条所有人以为只有一条的路,在那一周分了岔。开源与闭源、通用与垂直、Transformer 之后、大模型与小模型、连发明者本身都散去了不同方向——AI 的未来不再是一个,而是同时有几个。这一篇,我们站在路口往几个方向看,听听站在路口的那些人怎么说,再画一张可以反复对照的地图。