2026 年的 AI 范式,或许已悄然剧变。
在过去的一年里,我们目睹了上下文窗口(Context Window)的疯狂内卷,从 128k 到 1M 再到 10M。
然而,这种基于 Transformer 注意力机制的线性扩张,正面临物理与效果的双重边际递减。能塞进去并不代表能理解。
MIT CSAIL 的最新论文直击这一痛点,指出了“上下文腐败” (Context Rot) 的客观存在。随着输入长度增加,模型的有效推理能力在杂讯干扰下呈指数级衰减。
这两项工作共同指向了一个可能定义 2026 年 AI 范式的新方向:递归主义 (Recursion)。即从单纯依赖预训练的静态参数,转向依赖推理时的动态递归计算。
研究背景
要理解递归范式的必要性,首先要看清当前长文本模型的真实瓶颈。MIT 的研究者指出,模型的有效上下文长度严重依赖于任务的计算复杂度。
在简单的大海捞针 (NIAH) 任务中,复杂度为 ,现有模型表现尚可。但在更贴近现实的复杂任务中,性能崩塌触目惊心:
线性复杂度 :如 OOLONG 任务,需要聚合全篇信息。
平方复杂度 :如 OOLONG-Pairs 任务,需要对文中实体进行两两配对分析。
如下图所示,在 任务(深蓝色线)中,GPT-5 的性能在远未达到物理窗口上限时就已归零。
这说明限制模型能力的并非显存,而是注意力机制无法在长序列中维持高密度的逻辑关联。
〓 图1. GPT-5 在物理窗口(红色区域前)内已出现显著性能腐败,而 RLM 在 1M Token 规模仍保持高水平表现。
把Prompt当作外部环境
为了突破这一瓶颈,MIT 提出了递归语言模型 (Recursive Language Models, RLM)。
其核心思想是借鉴计算机科学中的“外存算法” (Out-of-core algorithms),不要把长 Prompt 直接喂给神经网络,而是把它放在一个外部的 Python REPL 环境里。
- 交互式环境
Prompt 被加载为环境中的变量 context 。模型不再像以前那样生吞整个字符串,而是通过编写代码(如 len(context) , context.split() , re.search() )来按需读取数据。
- 递归自调用
当模型判断任务过于复杂或文本过长时,它可以生成代码调用 llm_query() 函数。这相当于启动了一个新的子模型实例 (Sub-LM) 来处理切分后的文本片段。
这种分而治之的策略将 的复杂问题拆解为多个 的子问题。
〓 图2. Root LM 通过代码将长文本切分,并发起递归调用处理子任务,最终汇总结果。
实验结果:逻辑制胜与性价比之选
RLM 到底有多强?我们来看一组硬核的对比数据。
在最具挑战性的 OOLONG-Pairs () 任务中,原生 GPT-5 和 Qwen3-Coder 的 F1 分数几乎为 0 (),而 RLM 让 GPT-5 的分数直接从 0 拉升到了 58.00%,实现了从不可用到可用的质变。
〓 表1. 各方法在长文本基准上的性能与成本横向评测,RLM 在高复杂度与超长文本任务上均展现出显著的综合优势。
请注意 OOLONG-Pairs 一栏,Base Model 全军覆没,只有 RLM 能打。
同时在 BrowseComp+ (1K) 这种超长任务中,RLM(GPT-5) 以 91.33% 的准确率碾压了 Summarization Agent (70.47%)。
除了性能,这笔成本账也算得过来。在 BrowseComp+ (1K) 任务(6M-11M Tokens)中,RLM (GPT-5) 的平均成本约为 $0.99。
虽然这一数字略高于简单的摘要模型($0.57),但它换来了从 0 分到 91 分的巨大性能飞跃,且远低于让模型硬读全文的昂贵代价(理论上需 $2.00+)。
RLM 之所以能做到这一点,是因为它学会了选择性阅读。
如下图所示,它能通过写正则代码过滤无关信息,只对关键片段发起递归调用,从而大幅节省了 Token 消耗。
〓 图3. RLM 的省钱逻辑与推理轨迹:(a) 展示模型通过写正则代码过滤噪声,只读关键信息;(b)© 展示模型如何将复杂逻辑拆解为递归子任务。
趋势观察
MIT 的这项工作并非孤例,近期涌现的几项重磅研究,正不约而同地指向同一个技术风向。
就在 MIT 论文发布后,Prime Intellect 团队迅速跟进,将 RLM 称为 “The Paradigm of 2026” [3]。
他们认为,未来的 Agent 核心能力在于 Context Folding(上下文折叠)——即不再被动接收信息,而是通过 RLMEnv 这样的环境,主动将海量上下文压缩、折叠为可操作的知识。
这被视为通向 Long-Horizon Agency(长程智能体)的关键一步。
Samsung SAIL 提出的 Tiny Recursive Model (TRM) 则提供了递归范式的另一块拼图——推理深度。
如果说 RLM 是用递归解决“读得长”的问题,TRM 则是用递归解决“想得深”的问题。
TRM 摒弃了庞大的参数规模,使用一个仅有 2 层、7M 参数的微小网络,在潜空间 (Latent Space) 中进行多步递归推理。
这个 7M 参数的小模型,在 ARC-AGI、Sudoku-Extreme 等高难度任务上,击败了 Deepseek R1、O3-mini 等千亿参数级巨兽(在 Sudoku-Extreme 上,TRM 达到了 87.4% 的准确率,而对比的大模型几乎全部为 0)。
关于 TRM 如何通过隐变量迭代实现复杂推理的详细机制,欢迎点击阅读我们此前的深度解读。
结语
MIT、Samsung 以及 Prime Intellect 等先锋团队,正从不同维度共同逼近同一个终局。这清晰地勾勒出 **Inference-time Scaling(推理时扩展)**的两条汇合路径:
显式递归 (Explicit Recursion):以 MIT 的 RLM 和 Prime Intellect 的工程实践为代表,利用外部环境(代码解释器)和显式的子任务拆解,突破 Context Window 的物理限制。
隐式递归 (Implicit Recursion):以 Samsung 的 TRM 为代表,利用内部状态的循环迭代,在不增加参数量的情况下突破推理深度的限制。
这标志着大模型正在从单纯的 System 1(直觉反应,依赖预训练参数)向 System 2(慢思考,依赖递归与搜索)演进。
展望 2026 年,如何设计高效的递归机制,或许将比单纯堆砌 KV Cache 显存更具决定性意义。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。