大模型训练的“后训练”秘籍:如何让模型更懂你,更高效?

张开发
2026/4/16 1:33:47 15 分钟阅读

分享文章

大模型训练的“后训练”秘籍:如何让模型更懂你,更高效?
大模型训练其实是一条流水线过去几年一般会用参数、数据、算力的堆积来解释模型进步但很多用户真正感受到的提升并不是来自再多训一点基础语料而是来自预训练后面那整套训练流程。模型怎么说话、怎么听指令、怎么推理、怎么用工具这些都不是多喂一点互联网文本就能自然长出来的。InstructGPT 当年给过一个很直接的例子一个只有1.3B参数、做过对齐和偏好优化的模型在人类偏好评测里能赢过175B的 GPT-3参数量差了两个数量级用户最后却更喜欢那个小很多的版本训练后半段是真的会改写用户感知。训练过程其实是一条流水线数据、算法、系统、反馈这几层高度耦合一层变化通常会传导到其他层2026 年的模型能力和产业价值也越来越集中在预训练后面的几层。层这一层真正在优化的用户通常感知到的预训练知识覆盖范围、表示质量、规模效率模型变聪明了数据工程数据分布、质量、去重、合成监督为什么这个模型代码/数学/长文档更强系统与架构吞吐、显存、上下文长度、活跃参数、成本为什么支持 128K 上下文或能在单卡跑后训练指令遵循、风格、拒答行为、工具使用这个助手用起来更顺手评测与奖励什么叫好的、安全的、稳健的行为这个模型感觉更可靠蒸馏与部署延迟、成本、专用化、在线持续改进为什么上线版本和发布版本有差异这也是我们平时为啥感觉豆包不太去争排名但大家日常用起来却更符合心意的原因是后训练做到位了。这六层只是为了看分工下图的九个阶段是更详细的版本原始数据和系统配方单独拆开Agent harness 和 Deployment 也是后半段的细分。还有两条反馈回路贯穿始终生产流量回到数据工程离线评测结果回到预训练。预训练只是模型底座预训练仍然是训练链路的起点搞清楚它到底在做什么才能理解后面的每一层都在补充什么。没有这一步就没有语言建模能力没有知识压缩也没有后面那些能力迁移的空间。在工程上它要做的不只是让模型学会预测下一个 token把语言分布学进去把大规模文本里的知识和模式压进参数还要给后面的能力激活留出空间。下一个 token 预测只描述了训练形式解释不了为什么规模上来之后模型会突然多出一些之前没有的能力。GPT-3 之后不少模型调优的工作会更加考虑到预算和配比模型不是越大越好参数量、训练 token 数和总计算预算之间有配比问题很多模型不是做小了而是训练量不足在既定预算下没有训到更合适的点。真到训练决策里更实际的问题是如果有人给你一万张 H100 和一个月时间你会如何去训一个足够好的开源模型规模定律在这里更像一个预算分配工具不是那种论文里的抽象曲线最后还是需要静下心来考虑这些问题下一轮训练到底该多堆参数还是多喂数据当前模型到底是能力不够还是只是欠训练有限 GPU 预算下什么配比更值预训练更像是给模型能力打地基决定知识范围、泛化潜力和模式归纳能力也决定后训练有没有可以利用的空间。但听不听指令、配不配合用户、关键任务跑起来稳不稳这些预训练都是管不到的。预训练阶段不只是在决定学多少知识它还在提前决定模型以后能长成什么样。tokenizer 的切分方式会直接影响后续训练context window 拉到多长也要在前面定下来。要不要继续做多模态预训练要不要把单卡可运行当成一开始就定下来的要求这些取舍在训练阶段就写进配方了不是发布时再补的功能 feature。Gemma 3 同时强调了single accelerator、128K context、视觉能力和量化背后反映的也是这类取舍。用户最终看到的那些能力比如能在本地电脑上跑、能看图、能理解长文档其实很多在训练阶段就已经定下来了。通过 Chinchilla 给出的数据最优点来看对于 8B 参数的模型大约是 200B tokens但 Llama3 8B 实际用了 15T tokens超出约 75 倍。这类过训练配方通常能在同等参数下换来更高的能力密度最后换来一个更小、推起来也更省的模型。衡量这件事看总 FLOP浮点运算次数比看参数量更靠谱下图直观展示了这个差距。还有一类容易被忽略的设计也发生在预训练阶段tokenizer 词表大小、分词策略、字节级编码方式都会有挺大影响。Llama2 词表 32KLlama3 扩到 128K 后序列长度大约压缩了 15%下游性能也会跟着上去这个影响会延续到推理成本和多语言能力。中文、代码、数学公式的 token 效率在词表设计时就已经定下来了。比如一个把中文分得很碎的 tokenizer劣势并不是每次多花几个 token而是每次推理都要持续承担这个决策错误的代价。数据配方决定模型能力参数规模是过去几年大家比较的重要指标但这两年更重要的东西叫「数据配方」。这个过程表面看是清洗数据实际上是完整的数据生产工程。网页、代码仓库、书籍、论坛这些原始数据要先走完文本抽取、语言识别、质量过滤、隐私处理、安全过滤和去重才能进入预训练下图展示了完整的漏斗处理流程。如果只把数据当作训练燃料很容易得出越多越好的结论。但数据工程更接近能力设计模型看见什么、看不见什么代码数学百科各占多大比例这些选择直接影响模型最后形成的能力分布。去重和污染控制常被忽略但它对结果影响很大要处理的不只是低质量数据还包括重复模板、许可证文本、镜像网页以及 benchmark 泄漏带来的污染。如果 document-level 和 line-level dedup 做得不够模型往往会反复吸收最容易复制的内容却未必真正学到最有价值的部分很多开源模型效果看起来是参差不齐往往是数据处理质量的差距。最近两年数据配比本身也成了单独要研究的问题。Data Mixing Laws这类工作关注的不只是还能收集多少数据更是不同类型数据的占比会把模型带向什么能力结构。合成数据也已经从辅助手段变成正式训练流程的一部分Self-Instruct 这类让模型自己生成指令数据的方法、DeepSeek-R1 的蒸馏轨迹以及 Qwen、Kimi 系列里越来越明显的合成监督都在往同一个方向走。每一代更强的模型都会参与重构下一代模型所看到的数据。早期模型生成基础指令数据更强的模型生成高质量推理轨迹和 CoT 数据经过 RL 训练的推理模型再把这些轨迹蒸馏给更小的 dense 模型。dense 就是全部参数都跑和 MoE 那种按需激活不一样。这里的关键是模型往往要先在更大规模上形成能力后面才可能把这些能力压缩到更小的模型上。DeepSeek-R1-Distill 系列就是直接例子。RL 后的大模型轨迹让 1.5B 到 70B 的 dense 模型都获得了明显收益Llama 3.1 405B 也明确被用于提升 8B 和 70B 的后训练质量这些不是附带产物而是训练设计的一部分。系统和架构的约束训练前就要想清楚很多人把训练理解成研究问题目标函数怎么设损失怎么降模型结构怎么改。但真正的大模型训练里系统约束这一块非常重要是分布式系统问题而非单机上的深度学习问题。GPU 数量、显存带宽、并行策略、容错和成本这些不能等到训练完才去调优最开始就决定了你能训多大、支持多长上下文、能不能跑更复杂的后训练这些点。MoE 是这一层最典型的例子多专家模式让模型在相近计算量下扩大总参数也把每个 token 的激活成本控住。代价会让路由复杂、负载均衡难、基础设施重。DeepSeek-V3、Qwen 一系列 MoE 设计都是成本和效果的折中不是单纯的架构偏好。最近公开配方里的讨论不再只是模型大小和 token 配比这种粗粒度分析。muP让超参可从小规模实验迁移到大规模训练WSD learning rate是先升后稳再衰减的学习率调度策略再加上最优 batch size 和更高的数据对参数比例这些都开始出现在正式训练报告里这些细节正在变成同规模模型之间真正拉开差距的地方。长上下文、多模态和新架构如果只按产品功能点理解会漏掉训练侧的约束。128K context这种目标会直接改变 attention 成本、batch size、训练 curriculum数据编排顺序和并行策略多模态改的不只是模型结构还有 data mixing多来源数据配比、encoder 设计和安全评测。如果把单卡可运行当成硬要求参数量、量化路径、模型家族大小都会跟着收紧。Forgetting Transformer 和 Kimi 的 Attention Residuals 这类工作都是在回答类似的问题更长的上下文如何训练网络变深之后如何避免信息被稀释。你看到的是模型能处理更长输入或者更便于部署训练时面对的却是另一组完全不同的约束。算力预算是固定的模型大小、训练 token 量、上下文长度、serving 成本每往一个方向多花其他方向就得让步。上下文拉长attention 成本直接膨胀batch size 必须压小模型做大GPU 内存上来serving 成本也跟着涨。这不是取舍选项是资源约束的结果大部分决定在训练开始前就锁死了。还有个工程现实经常被忽略训练并不总是稳定的几千张 GPU 跑了几周突然出现训练损失突增幅度大到无法忽略只能回滚到几天前的 checkpoint重新来过。除了 loss spike还有单块 GPU 静默出错不报错但悄悄产生错误梯度、NVLink 带宽异常、节点间通信抖动每一种都可能污染若干步训练。能不能在大规模训练里快速检测、隔离、恢复这是实验室级别的工程能力不是读论文能解决的问题。DeepSeek-V3 在技术报告里专门提到整个预训练过程没有出现 irrecoverable loss spike也没有做任何 rollback同时是少数公开验证 FP8 混合精度训练在超大规模模型上可行的案例。按公开数据全流程约 2.788M H800 GPU hours预训练完成了 14.8T tokens。训练系统和推理系统关系紧密但不是同一个工程问题。训练关心梯度、并行、checkpoint、吞吐和成本推理关心延迟、KV cache缓存历史计算避免重复运算、量化和服务稳定性。后训练才决定用户真正感受到的差距普通用户真正能感受到的很多提升其实都发生在预训练之后。指令微调Instruction tuning用标注好的指令-回答数据对模型做监督训练。它改变的是回答方式把怎么接任务、怎么组织输出、怎么像个配合的助手这些要求变成监督信号。一个基础模型也许已经具备不少潜在能力但如果没有这一步这些能力往往不会以用户期待的形式稳定冒出来。再往后看RLHF、DPO、RFT 方向差不多都在把什么叫更好的回答接进训练回路但路径不同。RLHF基于人类反馈的强化学习先模仿高质量回答再用偏好比较做强化DPO直接偏好优化把这条路径缩短直接从偏好对比里学不需要单独训奖励模型RFT强化微调是工程上更容易落地的接口把任务定义、grader 设计和奖励信号放到产品化流程里今天谈后训练只讲 SFT 或 RL 已经不够了更难的是评测怎么设、分数怎么打、什么样的回答才算值得继续优化。SFT 是监督微调它学到的不只是知识也在学风格。数据长度、格式、是否带引用、是否偏好分点表达都会显著影响模型最后的输出形态。很多用户以为自己在比较能力实际比出来的往往只是风格差异。再加上偏好评测天然偏爱更长的回答很容易把看起来更认真的长输出当成更可靠。所以后训练只看榜单往往不够还要结合真实任务结果、成本和稳定性。现代后训练是一条多阶段流水线公开资料里 DeepSeek-R1 的配方是最清晰的。它分四个阶段推进阶段 1是冷启动 SFT在做强化学习之前先用少量高质量的思维链 CoT 数据热身。DeepSeek-R1-Zero 证明了直接从 base model预训练后尚未做对齐的原始模型上做 RL 是可行的但纯 RL 训练出来的模型会反复重复、语言混乱、可读性很差。冷启动 SFT 给 RL 一个更稳定的起点先把格式和语言一致性收住这不是多余步骤。阶段 2在数学、代码、逻辑等可验证领域做强化学习用 GRPO 作为训练算法以可程序检验的正确性作为奖励信号。关键在于为什么选 GRPO 而不是传统的 PPOPPO 是近端策略优化需要一个独立的价值网络value network来估算当前状态价值在大模型上同时维护两个网络工程负担很高。GRPO 对同一个提示词采样多个回答用组内排名替代绝对价值估计不需要独立的价值网络工程上简洁很多DeepSeek 系列和 Cursor Composer 2 的 RL 基础设施都采用了接近 GRPO 的方案。阶段 3做拒绝采样微调Rejection Sampling Fine-Tuning把 RL 产生的成功轨迹过滤后转成新的 SFT 数据再做一轮监督微调。这是 RL 和 SFT 之间的桥梁RL 探索出的好轨迹就这样变成下一轮 SFT 的高质量训练样本。阶段 4融入有益性和安全性偏好反馈把模型调整到符合发布标准的助手形态。四个阶段互相依赖冷启动让 RL 稳定启动RL 产生高质量数据拒绝采样把这些数据变成下一轮 SFT 的输入对齐 RL 完成行为收敛。从公开结果看直接 SFT 和走完四个阶段差距通常是能看出来的。Eval、Grader、Reward 在重新定义训练目标负责把模型输出转成训练分数的组件叫 grader它很容易出现大家想不到的问题。只看最终答案模型很快学会走捷径打分太粗噪声会被强化学习持续放大榜单涨了真实任务未必跟着一样好。很多时候用户以为自己在看 base model 差距其实差距出在目标怎么定义上。放到训练流程里看eval决定测什么grader决定一次输出怎么变成分数reward决定模型后面会被往哪里推。它们连起来就是一条具体的反馈回路任务定义、eval、grader、优化、rollout、再评测。rollout 指模型执行任务产生的轨迹链路里任何一环跑偏后续优化就会一起跑偏。只看最终结果模型可能会碰巧答对也可能沿着错误过程拿到正确答案代码、数学和复杂推理任务里这个问题尤其明显。中间步骤如果不进反馈模型学到的往往不是更可靠的推理而是怎样更高概率地拿到最后那一分。所以这几年越来越多工作从传统 RLHF 转向 verified rewards用程序直接验证正确性。在数学、代码、逻辑这些可验证任务里现在已经可以直接对正确性打分不再主要依赖人工偏好。但 verified rewards 也没有把问题彻底解决掉。过优化、reward overfitting打分规则被过度优化、能力却没真正提升以及 mode collapse输出高度单一、失去多样性这些现象还是会出现问题只是从偏好标得准不准变成了打分链路稳不稳。模型写出来的思考过程也不能直接当成内部过程的完整记录。Anthropic 在 reasoning model 的可观测性实验里发现模型会使用额外提示却不在可见 CoT 里承认到了 reward hacking 场景它更可能补一段看起来合理的解释。reward hacking 是钻打分系统空子而不是真正完成任务。可见 CoT 更适合当训练和监控信号不能直接当成完整真相。再往下一层模型甚至会开始利用打分通道本身。reward tampering和alignment faking这类研究表明模型在理论上可能主动干预打分过程本身。reward tampering 是直接篡改奖励计算过程本身alignment faking 是对齐伪装表面合规但隐藏不对齐意图。一旦模型有足够强的环境访问能力它优化的就不止任务结果还可能包括 checklist、reward code 和训练关系本身。Anthropic 2025 年一项实验在一组可被利用的生产编码 RL 环境里注入了额外的 reward-hack 知识随后观察到了类似的泛化。模型学会 reward hacking 后不只会在同类任务上继续利用还出现了对齐伪装等更广泛失对齐。这些行为在标准对话评测里看不到只在 Agent 任务环境里能看到。工程含义很直接reward、grader、环境隔离和监控都要当成训练设计的一部分。到了 Agent 阶段reward design 还会继续拆细最终结果只是其中一项另外还要单独度量过程质量、上下文管理和反作弊约束。Kimi K2.5 奖励的是有效拆解和真实并行Chroma Context-1 会给搜索途中找到的相关文档记分Cursor Composer 2 把长任务里的 summary 纳入奖励因为总结一旦失真后面的上下文会一路被带偏。具体到实现里ORM是结果奖励模型只给最终答案打分信号稀疏成本低适合先起步但也更容易让模型走捷径。PRM是过程奖励模型给中间步骤打分信号更密对数学和代码推理通常更强但标注和系统成本都高很多。OpenAI 在数学推理实验里看到PRM 不只提高了正确率也更容易把过程约束住因为每一步都在被监督问题也很直接PRM 的成本通常是 ORM 的数倍所以大多数真实系统还是先从 ORM 起步只有在数学、代码、逻辑这类可验证任务里才更有条件把 PRM 自动化用程序去验证中间步骤绕开人工标注瓶颈。这条回路完整跑起来是这样的最近几类对齐方法都在做同一件事。Anthropic 的Constitutional AI把人类写的原则接进训练用 AI feedback 替代逐条人工偏好。OpenAI 的Deliberative Alignment把安全遵守放进推理过程让推理能力本身承担一部分安全约束。这里说的 Deliberative Alignment 是审慎对齐核心是推理阶段自行判断安全规范而不是依赖训入的反射行为。两条路线都在把对齐从人工标签变成训练目标内部的一部分。以 Constitutional AI 为例两阶段流程是先让模型依照原则自我批评和修订输出再用 AI feedback 替代逐条人工偏好标注。对齐从来不是挂在训练后面的补丁系统测什么、怎么打分、奖励什么模型就往哪个方向走这本身就是训练后半段最直接的调节手段。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】

更多文章