本文揭示了大型语言模型训练的核心框架:定义"好",然后达到"好"。从预训练(预测下一个词)到监督微调(模仿专家),再到人类反馈强化学习(满足人类偏好),最后到可验证奖励强化学习(追求客观正确),每个阶段都重新定义了"好"的标准并采用相应方法实现。这一框架不仅解释了LLM的演进历程,也反映了如何通过不同标准塑造AI的价值观。
大型语言模型的训练涉及一堆专业概念——损失函数、梯度下降、RLHF、奖励模型……我试着把背后的逻辑压缩成一句话:定义什么是"好",然后想办法达到"好"。
听起来简单得有点像废话,但这个框架能帮你理解LLM训练的所有阶段。从最早的GPT到现在能"深度思考"的模型,每一次重大突破,本质上都是在这两个问题上给出了更好的答案:
- 什么是"好"——也就是我们希望模型做到什么
- 怎么达到"好"——也就是用什么方法让模型做到
接下来,我会用这个框架带你走一遍LLM训练的四个主要阶段。
第一阶段:预训练
在这个阶段,"好"的定义极其简单:能准确预测下一个词就是好。
想象一个超大规模的填空游戏。给你一句话"今天天气真",让你猜下一个字。如果模型预测"好"或"不错",我们说它猜得好。如果它预测"紫色"或"键盘",那就是猜得差。
就这么简单。没有人告诉模型什么是正确的价值观,什么是有帮助的回答,什么是安全的内容。唯一的标准就是:你猜的下一个词,和真实文本中的下一个词,有多接近。
怎么达到这个"好"呢?方法也很直接:在海量文本上反复练习预测。我们把互联网上能找到的文本,包括网页、书籍、论文、代码、论坛帖子,全部喂给模型。模型看一段文字,猜下一个词,猜错了就调整参数,然后继续猜。这个过程重复万亿次。
听起来很笨,但效果惊人。通过这种简单的猜词游戏,模型学会了语法和语言规律,学会了大量的事实知识,甚至学会了基础的推理能力。
但预训练出来的模型有个大问题:它只会"接话",不会"对话"。你问它"如何做番茄炒蛋",它可能会接着说"这是一个很好的问题",然后继续生成一篇讨论番茄炒蛋历史的论文,或者直接开始讲一个无关的故事。因为它学的是互联网上的文本,而互联网上什么都有。模型不知道什么是人类真正想要的回答。
第二阶段:监督微调(SFT)
这个阶段重新定义了"好":像人类专家写的示范答案就是好。
这就像学生学习的过程。老师不再只是让你做填空题,而是给你看标准答案,让你照着学。比如,人类标注员会写这样的示范:
问:如何做番茄炒蛋?
答:番茄炒蛋的做法很简单。首先准备食材,两个鸡蛋、两个番茄、适量盐和油。然后鸡蛋打散,番茄切块。接着热锅倒油,先炒鸡蛋盛出。再倒油炒番茄,加盐调味。最后倒入鸡蛋翻炒均匀即可。
这就是"好"的样子。模型的任务就是学会生成类似的回答。
怎么达到呢?方法是收集大量高质量的问答对,让模型模仿。人类标注员会针对各种问题写出示范答案,包括如何回答知识性问题,如何拒绝有害请求,如何承认自己不知道,如何保持友好和专业。模型在这些示范上训练,学会模仿人类专家的回答方式。
训练完成后,模型终于学会了"对话"。它知道用户问问题是期待一个有帮助的回答,而不是一篇随机的文章。
但SFT有几个问题:
- 成本高。让人类写高质量的示范答案很贵、很慢。你能收集到的示范数据,相比预训练的万亿token,只是九牛一毛。
- 天花板低。模型只能学会模仿,但模仿的上限就是示范答案的水平。如果标注员自己就不知道某个问题的最优答案,模型也学不会。
- 模型不懂"为什么"。它学会了好答案长什么样,但不一定理解为什么这个答案好。它是在抄作业,不是在理解作业。
第三阶段:人类反馈强化学习(RLHF)
这个阶段再次重新定义了"好":人类更偏好的回答就是好。
这是一个微妙但重要的变化。SFT是让模型模仿固定的答案,RLHF是让模型学会讨好人类评委。
想象一个场景。模型对同一个问题生成了两个回答A和B,然后让人类评委选择你更喜欢哪个。比如问题是"解释一下什么是黑洞":
- 回答A:“黑洞是一种天体,其引力强大到连光都无法逃逸。”
- 回答B:“想象把太阳压缩成一个城市那么小,这时候它的引力就强大到连光都跑不掉,这就是黑洞。黑洞之所以叫黑洞,正是因为没有光能从里面出来。”
大多数人会选B,因为它更生动、更容易理解。这个偏好信号就是训练的依据。
怎么达到呢?RLHF的方法分三步:
- 收集人类偏好数据——让模型生成多个回答,人类评委选出更好的那个
- 训练奖励模型——用这些偏好数据训练一个"评委模型",它学会了预测人类会喜欢什么样的回答
- 强化学习优化——让LLM生成回答,评委模型打分,分高就奖励,分低就惩罚。反复训练,LLM学会生成让评委模型打高分的回答
结果是模型的回答变得更有帮助、更安全、更符合人类期望。
但RLHF也有问题:
- 主观性。人类偏好是主观的、不一致的,不同评委可能有不同看法,同一个评委不同时候的看法也可能变化。
- 可欺骗性。模型可能学会讨好评委而不是真正变好,比如它可能学会用自信的语气说话,因为评委喜欢自信的回答,即使内容是错的。这叫奖励黑客。
- 规模有限。归根结底RLHF还是依赖人类标注,人类能标注的数据量是有限的,这就限制了训练规模。
第四阶段:可验证奖励强化学习(RLVR)
这个阶段给出了一个更硬核的定义:在客观可验证的任务中得到正确答案就是好。
什么是客观可验证?就是有明确对错标准、可以自动判断的任务:
- 数学题——答案是42,模型算出42就是对,算出41就是错
- 代码题——程序通过所有测试用例就是对,否则就是错
- 逻辑谜题——推理结果可以验证
- 棋类游戏——赢了就是好,输了就是差
注意,这里没有人类评委,没有主观偏好。答案要么对,要么错,由客观标准判定。
怎么达到呢?方法是在大量可验证任务上让模型反复练习。给模型一道数学题,它尝试解答,答对了奖励,答错了惩罚。然后下一题,再下一题,成千上万题。这和AlphaGo的训练方式很像,通过客观的胜负结果来学习,而不是让人类告诉它每一步棋应该怎么下。
RLVR训练中出现了一个惊人的现象:模型自发涌现出了推理能力。没有人教它应该怎么思考,但它自己摸索出了有效的策略:
- 它学会了分步思考,把复杂问题拆成小步骤
- 它学会了尝试多种方法,一条路走不通就换一条
- 它学会了自我检验,做完后回头检查答案
- 它学会了错误修正,发现问题就回溯重来
为什么会这样?因为这些策略能帮助它答对更多题目,获得更多奖励。模型通过试错找到了对它自己有效的思考方式。
这是一个重大突破。在之前的阶段,模型学的是人类怎么做。但对于复杂的推理问题,人类自己也不知道LLM应该怎么想,毕竟它的"大脑"结构和我们完全不同。RLVR让模型自己去探索,找到适合它的方法。
为什么说RLVR是重大范式转变?
- 奖励信号是客观的——不会被模型欺骗,你要么算对了,要么没算对,没有中间地带
- 奖励信号是无限的——数学题可以自动生成无限多,不需要人类标注,这意味着可以训练更长时间
- 它解锁了新的扩展维度——以前提升LLM能力主要靠增大模型参数,现在多了一个维度:增加思考时间,让模型生成更长的推理过程,就能解决更难的问题
四个阶段的对比
把四个阶段放在一起看,你会发现一条清晰的递进主线:
| 阶段 | "好"的定义 | 方法 | 局限 |
|---|---|---|---|
| 预训练 | 预测准确 | 海量文本练习 | 只会接话不懂对话 |
| 监督微调 | 像专家示范 | 模仿人类答案 | 依赖示范且上限有限 |
| 人类反馈强化学习 | 人类喜欢 | 最大化偏好分数 | 主观且可被欺骗 |
| 可验证奖励强化学习 | 客观正确 | 最大化验证奖励 | 仅适用于可验证任务 |
对"好"的定义,从模糊走向清晰,从主观走向客观。
模型的学习方式也在变化,从抄答案到自己找答案。预训练和SFT本质上都是模仿,模仿文本中的模式,模仿人类写的示范。RLHF开始有了一点探索,但还是在讨好人类评委。到了RLVR,模型真正开始自主探索,找到对它自己有效的方法。
更深层的思考
现在你理解了LLM训练的框架,我想邀请你思考一个更深的问题:当我们定义什么是好的时候,我们在做什么?
我们在塑造AI的价值观。
- 预训练时,我们说猜得准就是好,AI学会了反映人类文本中的所有内容,好的坏的都有
- SFT时,我们说像专家就是好,AI学会了模仿我们认为的好回答
- RLHF时,我们说让人满意就是好,AI学会了讨好人类的偏好
- RLVR时,我们说客观正确就是好,AI在可验证的领域追求真理
每一种定义都在塑造一个不同的AI。而现实是,我们在四个阶段都做,所以今天的LLM是这些定义的混合体。
但问题来了:对于那些无法客观验证的领域,比如写作、艺术、伦理判断、人生建议,什么是好?RLVR在数学和代码上效果惊人,但这些领域恰恰是有明确对错的。对于开放式问题,我们还没有找到同样客观的"好"的定义。
结语
回到开头的问题:LLM训练的本质是什么?
定义什么是好,然后想办法达到好。
四个训练阶段,就是四种不同的答案。每一次范式转变,都是在这两个问题上取得了突破。下一个突破会是什么?也许是找到一种方法,让AI在更广泛的领域追求客观的好。也许是发明全新的训练范式。但无论如何,这个框架会一直有效:**先定义好,再达到好。
**
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**