一个越来越常见的挫败
你可能已经遇到过这种事。
你花半小时把背景讲清楚:
项目怎么来的。
代码在哪个目录。
客户为什么这么要求。
上一次为什么失败。
你喜欢什么风格。
哪些话不要说。
哪些坑已经踩过。
AI 在那个窗口里表现得很好。它像一个终于进入状态的同事,能接住你的上下文,能顺着你的思路往下走,能把前面讨论过的细节用起来。
然后第二天,你重新打开一个窗口。
它又变回了一个聪明的陌生人。
你不得不再讲一遍。
不是完全从零开始,当然不是。现在很多产品已经有了 memory、项目文件、知识库、长上下文、RAG、Agent 工作区。它们可以记住更多东西,也可以把过去的材料重新塞回 prompt。
但那种感觉还在:
它能查到我的过去,却不一定真正长出了经验。
这就是今天这篇文章要讲的问题。
我们正在把 AI 做成一个越来越大的资料柜。
但智能最珍贵的部分,可能不是资料柜。
而是资料被反复使用之后,终于变成了手感、判断、直觉和能力。
这件事,在 AI 研究里有一个名字:
持续学习(Continual Learning)。
这篇文章可以先压缩成三句话:
上下文让 AI 临时进入状态。
记忆让 AI 找回过去的信息。
持续学习让 AI 把过去变成未来的能力。
如果只记住一句,就是:
查得到,不等于学会了;能压缩,才算真正长进了身体里。
先别急着否定上下文
讲持续学习之前,必须先承认一件事:
上下文真的很有用。
这不是客套。
大语言模型(LLM)本来就是在一段序列上预测下一个 token。你给它什么上下文,它就基于什么上下文继续推理。模型权重没有变,但行为会发生巨大变化。
同一个模型:
- 你什么都不给,它只能泛泛而谈
- 你给它项目文档,它能像项目成员
- 你给它示例风格,它能模仿语气
- 你给它代码结构,它能定位 bug
- 你给它上一次讨论记录,它能延续思路
这就是为什么 prompt engineering、RAG、长上下文、Agent harness 会这么重要。
它们本质上是在回答同一个工程问题:
在模型权重不变的情况下,怎样把最有用的信息放到模型眼前?
Cursor、Claude Code、OpenClaw 这类工具的进步,很大一部分不是因为底层模型突然换了灵魂,而是因为它们更会组织上下文:
当前目标是什么
已有文件是什么
上一步做了什么
下一步该检查什么
哪些信息该保留
哪些信息该压缩
哪些工具该调用
哪些结果该写回
这是一门真实的工程学。
所以这篇文章不是要说:
上下文没用,RAG 没用,Agent 没用。
恰恰相反。
上下文是今天 AI 应用最成熟、最可靠、最容易落地的学习方式。
但问题是:
它可能不是终点。
查得到,不等于学会了
想象两个人学做菜。
第一个人有一个巨大的资料柜。里面有所有菜谱、所有调味比例、所有厨师访谈、所有失败案例。他每做一道菜之前,都可以把相关资料抽出来摊在桌上。
第二个人没有那么多资料,但他真的在厨房里做了十年。火候、油温、咸淡、锅气、什么时候该关火,他未必能完整写成文字,但手一动就知道。
第一个人更像今天的很多 AI 系统。
第二个人更像我们说的“学会了”。
资料柜当然有用。
没有菜谱,你可能连第一步都不知道。
但资料柜和经验之间,有一道关键的门槛:
资料只是被保存了。经验是被压缩了。
这句话很重要。
一个人真正学会一件事,不是把每一次经历原封不动地存下来。
如果你学开车,脑子里不会保存每一次转方向盘的完整录像。
如果你学写作,脑子里不会保存每一篇文章的每一个字。
如果你学诊断,脑子里也不会保存每一次病例讨论的逐字记录。
真正发生的是另一件事:
很多具体经历
↓
反复比较、试错、反馈
↓
抽出共同结构
↓
形成可迁移的判断
这就是压缩。
有损压缩。
你丢掉了大量细节,却保留了结构。
而结构,才是能力。
这正好接上“压缩即智能”
如果你读过前面的《压缩即是全部》,会知道我们一直在讲一个核心命题:
理解就是压缩。
牛顿把苹果落地、月亮绕地、炮弹飞行,压缩成同一套力学公式。
Shannon 把通信中的不确定性,压缩成信息熵。
数学家把一长串证明,压缩成一个定理名字。
LLM 训练时,把互联网上海量文本,压缩进一组参数。
这也是为什么训练有效。
模型不是把互联网逐字背下来。
如果它只是背下来,它就只是一个巨大的数据库。
训练真正强大的地方在于:
它被迫从数据中找结构。
它要预测下一个 token,就必须在海量文本里提取语法、常识、风格、事实、推理模式、代码模式、社会关系、隐含规律。
这些东西最后不以“原文”的形式存在,而以参数、表示、方向、分布、激活模式的形式存在。
这就是为什么一个模型可以没见过你这个具体问题,却能用学到的结构回答你。
问题来了:
训练阶段允许模型压缩世界。部署之后,我们却通常把这个能力关掉了。
模型发布之后,权重冻结。
你和它聊了十万字,它不会因此改变参数。
它帮你改了一百次代码,它不会因此真正成为“你的项目专家”。
它陪你写了十篇文章,它不会因此把你的写作风格内化到自己身体里。
最多是:
把历史记录找出来
把项目文件读一遍
把你的偏好塞进 prompt
把上一次结论放回上下文
这当然有用。
但它更像“带资料上考场”。
不是“真的学会了这门课”。
持续学习到底在问什么
所以,持续学习要问的不是:
AI 能不能记住更多聊天记录?
而是:
AI 能不能在部署之后,继续把经验压缩成能力?
这中间有三层不同的路线。
第一层:Context
经验仍然在外部,通过上下文临时调用
第二层:Modules
经验被压缩到可插拔模块里,核心模型不大动
第三层:Weights
经验进入模型参数,模型本身真的改变
我们一个一个看。
第一层:上下文,最成熟的路线
这是今天最现实的一层。
RAG、知识库、长上下文、Agent 工作区、多 Agent 协作,基本都属于这一类。
核心思路是:
模型不变
资料在外面
需要时检索
再塞进上下文
这条路的优点很明显:
- 好部署
- 好调试
- 好删除
- 好审计
- 不容易把模型本体弄坏
如果知识错了,删掉那条文档就行。
如果用户不想让系统记住,清掉 memory 就行。
如果某个项目结束了,把项目上下文移除就行。
这也是为什么企业最喜欢这条路。
它像给 AI 配一个资料室。
资料室可以很大,可以有索引,可以有权限,可以有版本,可以有审计。
但资料室也有天花板。
因为 AI 每次真正能“看见”的,仍然是上下文窗口里那一部分。
就算窗口从 128K 变成 1M,再变成 10M,问题也没有消失,只是推迟了。
你仍然要决定:
哪些东西放进去?
哪些东西丢掉?
哪些东西摘要?
哪些东西保持原文?
哪些过去经验真正相关?
上下文越大,管理上下文本身就越像一门学问。
这不是坏事。
但它说明一件事:
更大的桌面,不等于更好的大脑。
第二层:模块,中间道路
第二条路,是在资料柜和核心模型之间加一层东西。
可以把它理解成:
不直接改大脑,但给大脑装一个可以替换的专门插件。
比如:
- 压缩过的 KV Cache
- Adapter 层
- LoRA 模块
- 外部记忆模块
- 面向某个任务的专业子网络
它的目标不是把所有历史原封不动塞进上下文,而是把某类经验压缩成一个更短、更可调用的东西。
这很像公司里的“岗位手册”。
新员工当然可以每次都翻全部历史邮件。
但更好的做法,是有人把过去的经验整理成 SOP、模板、检查清单、常见错误、决策原则。
这些东西不是原始资料。
它们是资料的压缩。
模块路线的好处在于:
比纯上下文更深
比直接改权重更安全
可以按领域加载
可以单独更新
可以单独回滚
比如,一个通用模型可以接上医学模块、法律模块、某家公司代码库模块、某个用户风格模块。
核心模型保持稳定。
模块负责专业化。
这可能是未来几年最实际的一条路。
因为它承认两件事:
- 只靠 prompt 不够深
- 直接改模型太危险
第三层:权重,最深也最难的路线
第三条路最激进:
让模型参数真的更新。
也就是说,模型部署之后,不只是回答问题,而是从回答结果、用户反馈、任务成败、新数据里继续学习。
这听起来很自然。
人不就是这样吗?
医生看病例,复盘,改判断。
程序员写 bug,排错,形成经验。
老师讲课,看到学生反应,调整讲法。
作者写文章,看读者反馈,慢慢知道什么开头抓人、什么比喻有效、什么地方会让人掉队。
人类的学习不是“训练一次,终身冻结”。
人类是在部署中学习。
如果 AI 也能这样,它的能力会产生复利。
但这里马上撞上一堵墙。
为什么不能简单地“每次聊完就训练一下”
直觉上,持续学习很简单:
用户纠正一次,模型就更新一次。
但真正做起来,会遇到一串硬问题。
1. 灾难性遗忘
模型如果对新信息太敏感,就可能学会新的,忘掉旧的。
你教它一个公司的内部缩写,它可能影响别的语义。
你让它适应一个人的写作偏好,它可能在不该使用这种风格的地方也使用。
神经网络的知识不是像文件一样一条条放在抽屉里。
它更像一张巨大的织物。
你拉动一个地方,别的地方也会变形。
这叫灾难性遗忘。
2. 稳定性和可塑性的矛盾
一个系统要学习,就必须可塑。
但一个系统要可靠,就必须稳定。
太稳定,它学不动。
太可塑,它乱学。
这就是持续学习最核心的矛盾:
你希望模型能吸收新经验
但不希望它被每一次新经验带歪
一个医生助手不能因为一个错误病例就改掉医学常识。
一个代码助手不能因为一个项目里的特殊写法,就把通用编程规范忘了。
一个公众号写作助手不能因为一篇爆文,就以后所有文章都写成同一种腔调。
3. 事实更新不等于理解更新
假设你告诉模型:
公司 A 已经改名为公司 B。
它也许记住了这句话。
但真正难的是:
旧产品文档里的 A 要不要改?
历史案例里的 A 要不要保留?
合同里的 A 是旧主体还是新主体?
搜索结果里出现 A 时该不该映射到 B?
之前关于 A 的推理结论还能不能用?
人类理解一个事实,会把它接进一张概念网络。
模型更新一个权重,却不一定能保证所有逻辑后果都同步更新。
这就是持续学习的深水区:
更新一句话容易,更新一句话背后的世界模型很难。
4. 删除比添加更难
外部记忆有一个好处:
错了可以删。
数据库里有一条错记录,删掉。
知识库里有一篇过期文档,下线。
上下文里有敏感信息,不再注入。
但如果信息已经进入权重,删除就没那么简单。
你很难对一个神经网络说:
请只忘掉这一条,不要影响别的东西。
人的记忆也是这样。
你不可能把一个经历像文件一样拖进回收站。
模型也一样。
这就是为什么“让模型持续学习”同时也是隐私问题、安全问题和治理问题。
持续学习不是单点突破,而是分层系统
所以,未来不太可能只有一种答案。
更合理的形态,是一个分层系统:
即时适应:上下文
短期工作记忆:会话状态、项目状态、Agent 工作区
中期专业化:模块、Adapter、LoRA、压缩记忆
长期能力变化:权重更新、反馈学习、测试时训练
安全边界:评估、回滚、审计、权限、隐私保护
这和人很像。
你临时记一个电话号码,是工作记忆。
你为了考试背一组知识,是短期记忆。
你反复写作形成风格,是长期能力。
你在某个岗位干了十年形成判断,是经验。
你睡一觉之后,大脑重新整理白天的经历,是巩固。
AI 现在强在前两层。
未来真正值得期待的,是后面几层。
不是更长的聊天记录。
而是更好的经验巩固机制。
这件事为什么和会行动的 AI 有关
现在越来越多 AI 产品正在从“聊天窗口”走向“行动系统”。
它们不只是回答一句话,而是会读文件、调工具、写代码、点网页、执行命令、观察结果,然后继续下一步。
这类系统常被叫作 Agent。
它的关键不是“会聊天”,而是“会行动”。
这就把 AI 推进了一个新阶段:
过去:输入 → 输出
现在:行动 → 观察 → 修正 → 再行动
这正好接上《维纳没有想到的事》里讲的反馈闭环。
只要 AI 开始行动,它就一定会遇到反馈:
- 代码测试通过还是失败
- 用户点了接受还是拒绝
- 客户回复满意还是不满意
- 医生认为判断有价值还是没价值
- 文章发布后读者转发还是沉默
这些反馈是金矿。
今天大多数系统只是把反馈当成日志。
未来的持续学习系统,会把反馈当成训练信号。
也就是:
经验不是结束在一次任务里
经验要回流到系统本身
这句话对 AI 公司重要。
对个人使用 AI 也重要。
如果你只是每次让 AI 帮你干活,干完就关掉窗口,你得到的是一次性效率。
如果你把每次任务里的成功、失败、偏好、模板、判断标准沉淀下来,你得到的是复利。
真正会用 AI 的人,不只是会提问。
而是会设计自己的反馈闭环。
这也能解释今天很多 AI 使用问题
很多人觉得 AI “不稳定”。
有时特别懂你。
有时又像第一天认识你。
有时能做出惊艳方案。
有时连基本约束都忘。
这不是单纯的智商问题。
而是系统状态问题。
你以为你在和同一个 AI 对话。
实际上你每次面对的是:
同一组冻结权重
+
不同的上下文
+
不同的检索结果
+
不同的工具状态
+
不同的历史摘要质量
所以它像一个聪明但失忆的人。
某个窗口里,它有完整线索。
换一个窗口,线索断了。
某个项目里,它读到了本地文件。
换一个项目,它又只能凭常识。
某次回答特别好,不一定是它“永久变聪明了”。
可能只是那次上下文组织得好。
理解这一点之后,你会更会用 AI:
不要只追问“模型聪不聪明”
还要追问“系统有没有记住正确的东西”
不要只堆更多资料
还要整理哪些资料应该变成规则、模板、样例
不要只让 AI 生成
还要让 AI 复盘、归纳、更新项目记忆
这也是我现在建议把长期写作、公众号草稿和项目协作的状态沉淀到本地项目记忆里的原因。
聊天会过去。
窗口会关闭。
但项目记忆要沉淀在本地。
否则每一个新窗口,都是一次轻微失忆。
对普通人来说,前路在哪里
持续学习听起来像实验室问题。
其实它会很快影响每个普通用户。
未来的 AI 产品,会分出层次。
最低一层,是普通聊天机器人:
你问什么
它答什么
窗口结束
经验结束
再往上一层,是有项目记忆的助手:
它知道你的文件
知道你的项目
知道你的偏好
知道上次做到了哪里
再往上一层,是有模块化经验的助手:
它有你的写作模块
你的代码模块
你的业务模块
你的医学/法律/教育领域模块
最高一层,可能是会持续变强的系统:
它从每次任务中学习
它知道哪些方法真的有效
它能把反馈压缩成能力
它有版本、审计、回滚和安全边界
这时候,“模型”这个词本身都会变。
我们过去以为模型就是一份权重文件。
未来的模型更像一个系统:
基础模型
+
上下文管理器
+
外部记忆
+
专业模块
+
反馈学习算法
+
评估和安全机制
它不是一个静止的东西。
它是一个会积累经验的组织。
但别忘了另一半:人也要持续学习
这篇文章表面上在讲 AI。
其实也在讲人。
当 AI 越来越能替我们查资料、写总结、生成方案、执行任务,我们很容易把“使用 AI”误解为:
我把问题交出去,它把答案交回来。
这当然能提高效率。
但如果每一次都停在这里,人就会变成一个更高效的答案消费者。
前面《主体性》那篇文章讲过:
AI 可以替你减少低价值摩擦,但不能替你形成主体性。
放在持续学习这个话题里,就是:
AI 可以帮你调出资料,但不能替你把经验长进自己身上。
如果你每次只是复制答案,你没有学习。
如果你让 AI 解释为什么这样做,你开始学习。
如果你比较几种方案的得失,你在学习。
如果你把一次失败复盘成规则,你在学习。
如果你把规则沉淀成下一次可复用的模板,你在持续学习。
人和 AI 的未来关系,不应该是:
人越来越不学
AI 越来越会学
更好的关系是:
AI 帮人降低摩擦
人把更多精力放到判断、抽象和复盘
人和 AI 一起形成更好的反馈闭环
这才是“人机协作”真正有价值的地方。
尾声:从失忆的天才,到有经验的同事
现在回到开头。
为什么你觉得 AI 有时像一个终于进入状态的同事,有时又像第一天见面的陌生人?
因为今天的大多数 AI,还没有真正拥有“经历”。
它更像一个失忆的天才。
它拥有惊人的基础能力。
它读过巨量文本。
它能在一个窗口里迅速进入状态。
但它的很多经验仍然留在外面:
聊天记录里。
项目文件里。
知识库里。
prompt 里。
工具日志里。
这些东西有用,但它们还没有完全变成能力。
持续学习真正指向的,是下一代 AI 的形态:
不是只会查资料的 AI。
不是只会背历史的 AI。
不是窗口越开越大的 AI。
而是能把经验压缩成结构,把反馈沉淀成判断,把一次次行动变成长期能力的 AI。
换句话说:
上下文让 AI 记得这一刻。持续学习让 AI 拥有过去。
这不是对 context 的否定。
恰恰相反。
context 是第一步。
RAG 是第一步。
Agent 是第一步。
反馈闭环是第一步。
但真正的终点,不是把资料柜越做越大。
而是让资料经过压缩,长成经验。
这也是智能最像生命的地方:
它不是拥有更多信息。
它是被经历改变。
这句话也许才是持续学习最动人的地方。
它让我们重新区分三件事:
信息:我见过。
记忆:我还能找回来。
经验:它已经改变了我下一次怎么做。
今天很多 AI 还停在前两层。
它见过很多东西,也能找回很多东西。
但未来真正值得期待的,是第三层:
它被自己的经历改变。
这不是要否定上下文。
上下文会继续变长,RAG 会继续变强,Agent 会继续变成熟,工具调用会继续扩展。
这些都会留下来。
只是它们可能不是终点。
它们更像脚手架。
真正的大楼,是一个能把经验沉淀成结构、把结构迁移到新问题、把反馈变成下一次判断的系统。
下一次你觉得 AI “又忘了”的时候,也许可以换一个问法:
不是问它为什么记不住。
而是问:
这次经历,有没有被压缩成下一次可以调用的能力?
如果没有,它只是一个资料柜。
如果有,它才开始接近我们真正说的“学习”。
本公众号延伸阅读
如果你想顺着这条线继续读,可以看这几篇:
- 《压缩即是全部 —— 菲尔兹奖得主给数学和 AI 的一封信》:理解“压缩为什么不只是工程技巧,而是智能的核心”。
- 《维纳没有想到的事——从防空炮到 ChatGPT,反馈如何变成智能》:理解“为什么行动之后的回声,会把系统推向学习”。
- 《马尔可夫的幽灵——从预测下一个词到预测下一步行动》:理解“状态、转移、下一步”这条暗线。
- 《AI 为什么“一本正经地胡诌”?》:理解“为什么只有上下文和语言概率,还不等于真实世界里的可靠判断”。
- 《世界模型之争》:理解“为什么下一代 AI 可能需要比语言更深的世界表征”。
- 《把自己留在场:AI 时代最稀缺的不是效率,而是主体性》:理解“为什么人也不能只把答案外包给工具”。
参考文献
- Malika Aubakirova and Matt Bornstein, Why We Need Continual Learning, a16z, 2026-04-22.
- YouTube 视频《为什么我们需要持续学习 | a16z万字长文 | Continual Learning | 记忆碎片 | 上下文学习 | SSM | 文件柜谬误 | 核心是压缩 | 参数化 | 为什么权重更新不通》,最佳拍档。
- McCloskey, M., & Cohen, N. J. (1989). Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem.
- Kirkpatrick, J. et al. (2017). Overcoming catastrophic forgetting in neural networks. PNAS. 这篇提出 EWC,是持续学习里讨论“稳定性/可塑性”矛盾的经典工作。
- Sun, Y. et al. (2020). Test-Time Training with Self-Supervision for Generalization under Distribution Shifts. ICML.
- Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. ICML.
- Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS.
