本文来自 Andrej Karpathy
https://karpathy.bearblog.dev/year-in-review-2025/
转自:赛博禅心
2025 年是大语言模型突飞猛进的一年
以下是我个人认为最值得关注的几个「范式转变」,这些变化重塑了整个行业格局,也在概念上给我留下了深刻印象
可验证奖励的强化学习(RLVR)
2025 年初,各大实验室训练 LLM 的标准流程大致是这样的:
1. 预训练(Pretraining),GPT-2/3 时代约 2020 年确立的基础
2. 监督微调(Supervised Finetuning, SFT),始于 InstructGPT,约 2022 年
3. 基于人类反馈的强化学习(RLHF),同样始于约 2022 年
这套流程久经验证,是训练生产级 LLM 的稳定配方
而到了 2025 年,可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)正式成为这条流水线上的新主力环节
RLVR 的核心思路是让 LLM 在一系列「答案可以自动验证」的环境中训练,比如数学题、编程挑战等。神奇的是,经过这种训练,模型会自发地「学会思考」:它们开始把复杂问题拆解成中间步骤,并摸索出各种解题策略,比如反复推敲、来回验证(详见 DeepSeek R1 论文中的案例)
这些能力在之前的训练范式下很难实现,因为我们根本不知道对于这个模型而言「最优的推理路径」长什么样,它必须自己在优化奖励的过程中摸索出来
与 SFT 和 RLHF 这两个相对轻量的阶段不同,RLVR 的训练对象是客观的、无法被刷分的奖励函数,模型没法通过投机取巧来骗取高分,必须真正解决问题,因此可以进行更长时间的优化。实践证明 RLVR 的性价比极高,它像饕餮一样吞噬了原本留给预训练的算力
因此 2025 年的能力提升主要来自实验室们消化这个新阶段带来的红利,模型参数规模没怎么变,但 RL 训练跑得更久了
RLVR 还带来了一个全新的调节旋钮和配套的 Scaling Law:
通过生成更长的推理链条、增加「思考时间」,我们可以在推理阶段用更多算力换取更强的能力
OpenAI 的 o1(2024 年底发布)是 RLVR 模型的首次亮相,但真正让人直观感受到质变的是 2025 年初发布的 o3
「召唤幽灵」vs「培育动物」/ 参差不齐的智能
2025 年,我以及整个行业开始真正在直觉层面理解 LLM 智能的「形状」。我们不是在培育、进化某种动物,而是在召唤幽灵
LLM 的一切都与生物智能不同,神经网络架构、训练数据、训练算法,尤其是优化目标。所以我们得到的是一种在智能空间中截然不同的实体,用动物的思维模式去理解它们并不合适
从监督信号的角度看,人类神经网络是为了让部落在丛林中存活而优化的,但 LLM 的神经网络是为了模仿人类的文字、在数学谜题中拿分、在 LM Arena 上获得点赞而优化的
由于可验证领域允许 RLVR 训练,LLM 在这些领域附近的能力会尖峰式飙升,整体呈现出一种令人啼笑皆非的参差不齐特征。它们可以同时是学富五车的天才博学家,又是一个困惑懵懂、随时可能被越狱攻击骗走你数据的小学生
下图,展示了人类智能「蓝色」和 AI 智能「红色」的对比
这张 meme 的有趣之处在于,它也指出了人类智能同样是参差不齐的,只是参差的形状不同
与此相关的是我在 2025 年对基准测试产生了普遍的冷感和不信任。核心问题在于基准测试几乎从定义上就是可验证的环境,因此天然容易被 RLVR 或通过合成数据生成的弱化版本攻克
在典型的刷榜流程中,实验室团队不可避免地会在基准测试所占据的嵌入空间小角落周围构建训练环境,然后长出覆盖它们的尖刺。在测试集上训练已经成为一门新的艺术形式
如果我们刷爆了所有基准测试,却依然没有实现 AGI,那会是什么样子?
关于这一节的话题,可参考之前的内容:
• Animals vs. Ghosts(动物 vs 幽灵)
https://karpathy.bearblog.dev/animals-vs-ghosts/• Verifiability(可验证性)
https://karpathy.bearblog.dev/verifiability/• The Space of Minds(心智的空间)
https://karpathy.bearblog.dev/the-space-of-minds/
Cursor / LLM 应用的新层级
Cursor 今年最让我印象深刻的地方,除了它火箭般的增长,是它令人信服地揭示了 LLM 应用的一个新层级,人们开始讨论「X 领域的 Cursor」
正如我今年在 Y Combinator 演讲中所说,像 Cursor 这样的 LLM 应用会针对特定垂直领域打包和编排 LLM 调用:
• 它们负责上下文工程(Context Engineering)
• 它们在底层编排多次 LLM 调用,串联成越来越复杂的有向无环图,在性能和成本之间精细权衡
• 它们为人在回路中(Human in the Loop)提供针对特定应用的图形界面
• 它们提供一个自主性滑块,让用户决定 AI 可以自己做多少决定
2025 年有大量讨论围绕这个新应用层有多厚展开。LLM 实验室会不会通吃所有应用场景?还是说 LLM 应用创业者仍有广阔天地?
我个人的判断是 LLM 实验室倾向于培养出能力全面的大学毕业生,而 LLM 应用则会通过组织、微调,并结合私有数据、传感器、执行器和反馈回路,把这些毕业生真正培训成特定垂直领域的专业人士
Claude Code / 住在你电脑里的 AI
Claude Code 是第一个令人信服地展示了 LLM 智能体面貌的产品,它以循环的方式串联起工具调用和推理,进行持续的问题求解
此外 Claude Code 让我印象深刻的一点是它运行在你自己的电脑上,使用你的私有环境、数据和上下文。我认为 OpenAI 在这一点上走错了路,他们早期的 Codex / Agent 工作重心放在了云端部署,在 ChatGPT 调度的容器里运行,而不是简单地跑在本地
诚然在云端运行的智能体集群感觉像是 AGI 的终极形态,但我们活在一个参差能力的中间世界,takeoff 足够缓慢,因此让智能体直接跑在开发者的电脑上更为合理
注意,真正关键的区别不在于 AI 操作碰巧在哪里运行(云端、本地还是别处),而在于其他一切:那台已经开机、配置好的电脑,它的安装环境、上下文、数据、密钥、配置,以及低延迟的交互
Anthropic 正确把握了这个优先级,并将 Claude Code 打包成一个精致、极简的命令行工具,改变了 AI 的面貌。它不再只是一个你去访问的网站,而是一个住在你电脑里的小精灵。这是一种与 AI 交互的全新范式
氛围编程(Vibe Coding)
2025 年是 AI 跨越能力门槛的一年,人们可以纯用英语说出各种令人惊叹的程序,甚至忘记代码的存在。有趣的是「vibe coding」这个词是我在一条灵光乍现的推文里随手造的,完全没想到它能传播这么远
有了氛围编程,编程不再是受过高度训练的专业人士的专属,而是任何人都能做的事。从这个意义上说它又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所写内容的又一例证。与以往所有技术形成鲜明对比,普通人从 LLM 中获得的收益远远超过专业人士、企业和政府
但氛围编程不仅仅赋能普通人接触编程,它还让训练有素的专业人士能够写出大量本来永远不会被写出的软件。在 nanochat 项目中,我氛围编程用 Rust 写了一个高度定制、极其高效的 BPE 分词器,而不必去学习现有的库或真正精通 Rust
今年我氛围编程写了很多项目作为快速演示,比如 menugen、llm-council、reader3、HN time capsule。我甚至氛围编程写过一次性的临时程序只为找到一个 bug,为什么不呢?代码突然变得免费、短命、可塑、用完即弃
氛围编程将重塑软件业,改变职位描述
Nano Banana / LLM 的图形界面
Google Gemini Nano Banana 是 2025 年最令人惊叹、最具范式转变意义的模型之一
在我的世界观里 LLM 是下一个重大计算范式,类似于 1970 年代、80 年代的计算机。因此我们将看到类似的创新浪潮,出于本质上相同的原因。我们将看到个人计算的等价物、微控制器的等价物(认知内核)、互联网的等价物(智能体互联网)等等
具体到用户界面,与 LLM 聊天有点像 1980 年代在计算机控制台上敲命令。文本是计算机和 LLM 偏爱的原始数据表示,但它不是人类偏爱的格式,尤其是在输入端。人们其实不喜欢阅读文字,它慢且费力。相反人们喜欢以视觉化、空间化的方式消费信息,这正是传统计算中发明图形用户界面的原因
同理 LLM 应该用我们偏爱的格式与我们交流:图像、信息图表、幻灯片、白板、动画视频、Web 应用等等。当然目前早期和现有的版本是 emoji 和 Markdown 这类东西,它们是装扮和排版文字的方式,用标题、粗体、斜体、列表、表格等让阅读更轻松。但谁真正会去构建 LLM 的 GUI 呢?
从这个视角看 Nano Banana 是一个早期的雏形,暗示了未来可能的样子。重要的是它不仅仅关乎图像生成本身,而是关乎文本生成、图像生成、世界知识三者融合在模型权重中所产生的联合能力
小结
2025 年是 LLM 令人兴奋的一年
LLM 正在作为一种全新的智能形态浮现,它们同时比我预想的聪明得多,也比我预想的蠢得多。无论如何它们极其有用,而我认为即便在当前的能力水平下,整个行业也远未实现其 10% 的潜力
与此同时有太多想法值得尝试,从概念上看这个领域依然广阔开放。正如我今年早些时候在 Dwarkesh 播客中提到的,我同时相信我们将继续见证快速而持续的进步,但同时仍有大量工作要做
系好安全带
END
分享
收藏
点赞
在看