最近在看a16z的一篇研究,里面有个比喻挺有意思——LLM其实活在永恒的当下,就像电影《记忆碎片》里面那个失忆的主角。训练完就冻结了,新信息进不去,只能靠聊天记录、检索系统这些外挂来应急。但这样真的够吗?



越来越多研究者认为不够。上下文学习确实有用,但它本质上是在检索,不是在学习。想象一个无限大的档案柜,什么都能查到,但它从来没被迫去理解、去压缩、去真正内化新知识。对于那些需要真正发现的问题——比如全新的数学证明、对抗性场景,或者那些太隐性、无法用语言表达的知识——光靠检索肯定不行。

这就是为什么持续学习这个研究方向越来越受关注。核心问题很简单:**压缩发生在哪里?** 当前的系统把压缩外包给了提示工程、RAG管道、智能体外壳。但训练时让LLM强大的那个机制——有损压缩、参数级学习——在部署那一刻就被关掉了。

研究界大概分成三条路。一端是情境学习,团队在优化检索管线、上下文管理、多智能体架构。这是最成熟的,基础设施验证过了,但天花板就是上下文长度。另一端是权重级学习,走的是真正的参数更新——稀疏记忆层、强化学习循环、测试时训练。中间还有模块化路线,通过可插拔的知识模块实现专业化而不动核心权重。

权重级的研究方向特别多。有正则化方法(EWC那套),有测试时训练(在推理时做梯度下降),有元学习(训练模型学会如何学习),还有自蒸馏、递归自我改进这些。这些方向正在汇聚,下一代系统很可能会混合多种策略。

但这里有个关键问题:朴素的权重更新在生产环境会出一堆问题。灾难性遗忘、时间解耦、逻辑整合失败,还有遗忘操作根本不可能这类根本性难题。更麻烦的是安全和治理层面——一旦打开训练和部署的边界,对齐可能崩塌,资料投毒攻击面暴露,可审计性没了,隐私风险加剧。这些都是开放问题,但也都在研究议程里。

有意思的是,创业生态已经在这些层级上动起来了。情境端有Letta、mem0这类外挂公司在管理上下文策略;参数端有团队在试验部分压缩、RL反馈循环、数据中心方法,还有激进派在重新设计架构本身。没有哪种方法已经赢出来,考虑到用例的多样性,可能也不应该只有一个赢家。

从某个角度看,我们现在站在一个转折点。检索系统确实强大,但检索永远不等于学习。一个真正能在部署后继续压缩经验、内化新知识的模型,会以现有系统做不到的方式产生复利价值。这意味着稀疏架构、元学习、自我改进循环的进步,也可能意味着我们要重新定义“模型”本身——不是一组固定权重,而是一个演化中的系统。

持续学习的前景就在这里。档案柜再大也只是档案柜,突破在于让模型在部署后做训练时让它强大的那件事:压缩、抽象、真正的学习。否则我们就会困在自己的永恒当下里。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论