东营市网站建设_网站建设公司_百度智能云_seo优化
2025/12/24 16:15:37 网站建设 项目流程

2025年在大语言模型(LLM)领域是强劲且充满变数的一年。以下是一份我个人认为值得注意且略感惊讶的“范式转变”清单——这些是在概念上改变了格局并让我印象深刻的事情。

1. 基于可验证奖励的强化学习 (RLVR)

在2025年初,所有实验室的 LLM 生产技术栈大概是这样的:

  1. 预训练 (GPT-2/3, 约2020年)
  2. 监督微调 (InstructGPT, 约2022年)
  3. 基于人类反馈的强化学习 (RLHF, 约2022年)

这曾是一段时间内训练生产级 LLM 的稳定且行之有效的配方。但在2025年,基于可验证奖励的强化学习 (RLVR)成为了事实上必须加入这一组合的新主要阶段。通过在许多环境中针对可自动验证的奖励(例如数学/代码谜题)训练 LLM,模型自发地发展出了在人类看来像是“推理”的策略——它们学会了将解决问题的过程分解为中间计算步骤,并学会了许多用于反复推敲以弄清问题的解题策略(参见 DeepSeek R1 论文中的例子)。这些策略在以前的范式中很难实现,因为对于 LLM 来说,最佳的推理路径和纠错方式是什么并不清晰——它必须通过针对奖励的优化来找到适合自己的方法。

与 SFT(监督微调)和 RLHF 阶段不同(这两个阶段都在计算上相对较轻/较短),RLVR 涉及针对客观(不可被轻易利用/欺骗)的奖励函数进行训练,这允许进行更长时间的优化。事实证明,运行 RLVR 提供了很高的“能力/成本”比,它吞噬了原本打算用于预训练的算力。因此,2025年的大部分能力进步都是由 LLM 实验室消化这一新阶段的红利所定义的,总体而言,我们看到了模型尺寸相似但强化学习(RL)运行时间长得多的现象。此外,这一新阶段独有的是,我们获得了一个全新的旋钮(以及相关的缩放定律),可以通过生成更长的推理路径和增加“思考时间”来控制作为测试时计算量(test time compute)函数的能力。OpenAI o1(2024年底)是 RLVR 模型的首次演示,但o3 的发布(2025年初)是明显的拐点,在那时你可以直观地感受到差异。

2. 幽灵 vs 动物 / 参差不齐的智能 (Jagged Intelligence)

2025年是我(我想整个行业也是)第一次开始以更直观的感觉内化 LLM 智能的“形状”。我们不是在“进化/培育动物”,我们是在召唤幽灵。关于 LLM 技术栈的一切都是不同的(神经网络架构、训练数据、训练算法,尤其是优化压力),所以不足为奇的是,我们在智能空间中得到了非常不同的实体,用动物的视角来思考它们是不恰当的。就监督信号的比特而言,人类神经网络是为了部落在丛林中的生存而优化的,但 LLM 神经网络是为了模仿人类文本、在数学谜题中收集奖励以及在 LM Arena(大模型竞技场)上获得人类的点赞而优化的。由于可验证领域允许 RLVR 的存在,LLM 在这些领域附近的能力会“突刺”般暴涨,总体上表现出有趣的参差不齐 (Jagged)的性能特征——它们同时是天才博学家,又是困惑且认知受损的小学生,只需几秒钟就会被越狱攻击欺骗从而泄露你的数据。

人类智能是蓝色的圆,AI智能是红色的刺状图形

与此相关的是我在2025年对基准测试(Benchmarks)普遍产生的冷漠和信任丧失。核心问题在于,基准测试几乎在构建上就是可验证的环境,因此立即容易受到 RLVR 的影响,以及通过合成数据生成带来的较弱形式的影响。在典型的“刷榜(benchmaxxing)”过程中,LLM 实验室的团队不可避免地构建了与基准测试所占据的嵌入空间小口袋相邻的环境,并长出“锯齿”来覆盖它们。在测试集上训练成了一门新的艺术形式。

“碾压所有基准测试但仍然没有实现 AGI(通用人工智能)”,这究竟意味着什么?

3. Cursor / LLM 应用的新层级

关于 Cursor(除了它今年通过流星般的崛起),我觉得最值得注意的是它令人信服地揭示了“LLM 应用”的一个新层级——人们开始谈论“X 领域的 Cursor”。正如我在今年的 Y Combinator 演讲中所强调的,像 Cursor 这样的 LLM 应用为特定的垂直领域打包并编排了 LLM 调用:

  1. 它们做“上下文工程”
  2. 它们在幕后编排多个 LLM 调用,将其串联成日益复杂的有向无环图(DAG),仔细平衡性能和成本的权衡。
  3. 它们为参与其中的人类提供了特定于应用程序的 GUI(图形用户界面)。
  4. 它们提供了一个“自主性滑块”。

2025年有很多关于这个新应用层有多“厚”的讨论。LLM 实验室会捕获所有应用,还是说 LLM 应用仍有广阔天地?就我个人而言,我怀疑 LLM 实验室将倾向于培养出具有普遍能力的“大学毕业生”,但 LLM 应用将通过提供私有数据、传感器、执行器和反馈循环,将这些毕业生组织、微调并真正“赋予生命”,使其成为特定垂直领域的部署专家团队。

4. Claude Code / 活在你电脑上的 AI

Claude Code (CC) 作为一个令人信服的演示出现了,它展示了 LLM Agent(智能体)应该是什么样子的——某种能以循环方式将工具使用和推理串联起来以解决扩展问题的东西。此外,CC 对我来说值得注意的是,它运行在你的电脑上,并且拥有你的私有环境、数据和上下文。我认为 OpenAI 搞错了,因为他们早期的 Codex/Agent 努力集中在从 ChatGPT 编排的云端容器部署,而不是简单的localhost。虽然在云端运行的智能体集群感觉像是“AGI 的终局”,但我们生活在一个能力参差不齐、起飞速度足够慢的中间世界,直接在开发者的电脑上运行智能体更有意义。请注意,重要的主要区别不在于“AI 运算”在哪里运行(云端、本地或其他),而在于其他所有东西——已经存在并启动的电脑、其安装环境、上下文、数据、密钥、配置以及低延迟的交互。Anthropic 搞对了优先级顺序,并将 CC 打包成一个令人愉悦的、极简的 CLI(命令行界面)形式,改变了 AI 的样子——它不再只是你像访问 Google 那样去的一个网站,它是一个“活”在你电脑里的小精灵/幽灵。这是一种与 AI 交互的全新、独特的范式。

5. Vibe Coding (氛围编码 / 凭感觉写代码)

2025年是 AI 跨越能力阈值的一年,使得仅仅通过英语就能构建各种令人印象深刻的程序成为可能,甚至可以忘记代码的存在。有趣的是,我在那条洗澡时的随想推文[1]中创造了“Vibe coding”这个词,当时完全不知道它会走多远 😃 。有了 Vibe coding,编程不再是受过高度训练的专业人士的专利,而是任何人都可以做的事情。在这种能力下,它是我在权力归于人民:LLM 如何翻转技术扩散剧本[2]一文中写的又一个例子,即(与迄今为止的所有其他技术形成鲜明对比)普通人从 LLM 中受益的程度远高于专业人士、公司和政府。但 Vibe coding 不仅让普通人能够接触编程,它还让受过训练的专业人士能够编写更多(Vibe coded)软件,而这些软件原本是永远不会被写出来的。在nanochat中,我用 Vibe coding 用 Rust 写了我自己定制的高效 BPE 分词器,而不是不得不采用现有的库或去学习那种水平的 Rust。今年我用 Vibe coding 写了许多项目,作为我希望存在的某种东西的快速应用演示(例如 menugen[3], llm-council[4], reader3[5], HN time capsule[6])。我也曾为了找出一个 Bug 而用 Vibe coding 写了整个临时的 App,因为为什么不呢——代码突然变得免费、短暂、可塑、一次性使用后即可丢弃。Vibe coding 将重塑软件并改变职位描述。

6. Nano Banana / LLM GUI (大模型图形界面)

Google 的Gemini Nano Banana是2025年最令人难以置信、最具范式转变意义的模型之一。在我的世界观中,LLM 是下一个主要的计算范式,类似于1970年代、80年代的计算机等。因此,我们将出于根本上相似的原因看到类似类型的创新。我们将看到个人计算、微控制器(认知核心)或互联网(智能体网络)等的等价物。特别是,在 UI/UX(用户界面/体验)方面,与 LLM “聊天”有点像是在1980年代向计算机控制台发出命令。文本是计算机(和 LLM)的原始/偏好数据表示,但它不是人类偏好的格式,尤其是在输入端。人们实际上不喜欢阅读文本——它既慢又费力。相反,人们喜欢在视觉和空间上消费信息,这就是为什么传统计算中发明了 GUI。同样地,LLM 应该以我们偏好的格式与我们交谈——通过图像、信息图表、幻灯片、白板、动画/视频、Web 应用等。当然,这种方式的早期和当前版本是像表情符号和 Markdown 这样的东西,它们是用来“打扮”和布局文本以便更容易消费的方法(标题、粗体、斜体、列表、表格等)。但是谁来构建 LLM 的 GUI 呢?在这个世界观中,Nano Banana 是这种未来可能样貌的第一个早期暗示。重要的是,它值得注意的一个方面是,它不仅仅关于图像生成本身,它是关于来自文本生成、图像生成和世界知识的联合能力,所有这些都纠缠在模型权重中。


TL;DR (摘要版)

2025年是 LLM 令人兴奋且略感惊讶的一年。LLM 正在作为一种新型智能涌现,同时比我预期的要聪明得多,也比我预期的要笨得多。无论如何,它们极其有用,而且我认为即使以目前的能力,整个行业也没有挖掘出其潜力的 10%。与此同时,有太多的想法可以尝试,从概念上讲,这个领域感觉完全开放。正如我今年早些时候在 Dwarkesh 的播客中提到的,我同时(表面上矛盾地)相信我们将看到快速且持续的进步,但仍有大量工作要做。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询