彰化县网站建设_网站建设公司_漏洞修复_seo优化
2026/1/22 15:53:24 网站建设 项目流程

本文系统拆解大模型微调(SFT)与强化学习(RL)的核心技术要点,聚焦实操落地能力,专为程序员及大模型入门者打造。SFT部分重点拆解Prompt设计、高质量数据集构建、参数调优逻辑;RL部分深入讲解奖励函数设计、KL散度控制、学习率配置等关键环节。同时覆盖多场景问题解决方案,如模式崩溃、奖励黑客、数据不平衡等常见痛点,并结合不同模型规模给出针对性建议,是一份可直接落地的大模型训练调优手册。

SFT(监督微调)

先调 prompt,保证让模型可以按照你想输出的样式先输出。如果怎么调都不行建议换模型,说明能力不行。

正常来说,通过prompt至少有20%以上的答案是正确的,才有SFT成功的可能性。但是,如果prompt不太复杂就能够有不错的效果,prompt不用构造太复杂。模型就可以遵循指令。

可以通过更强大的模型造一些数据,然后,再多个模型对其进行打标,判断产生的QA对是否符合要求这样就可以构造一批高质量的样本。如果有人力的支持,可以进行人工检验,更加保险。

调参的时候,可以对learningrate,weight decay从大往小调,通常lr从1E-4开始,weight decay从0.25开始。

模型越大,肯定是效果越好,在模型很大情况下可以开 ds。

事实上loss,对于大模型训练仅能做一个基本的判断了,基本上,到了中后期,loss小,效果不一定好甚至还会出现loss先下降后上升的情况,即使是在训练集。

所以,正确的判断方法还是,从小步数的checkpoint,进行accuray或者其他业务指标的判断,正常情况,只要模型在正常训练,该指标通常也是下降逐渐到收敛的一个状态。

因此,不能太依赖loss指标,仅仅做初步参考。

数据的多样性非常重要,再三强调,训练集的数据分布一定要包括测试集的数据分布,这样测试集才会有好的效果,所以,当你的测试集效果不好,但是训练集数据还可以的时候,记得去检查测试集有没有类似的数据。

如果没有,ok,手动人工针对性添加数据吧,先5个,10个的先加,再看训练效果数据集的风格一定要统一,输出的答案风格一定要单一。

比如,每次答案都是以ison格式的,确保数据都是“js犢洧锹啇婚 xxx`这种格式。如果sql的答案都是select a,b,c,那么就不要出现select*。保证你数据的统一性,纯洁性是模型不学偏的根本。

思维链+fewshot肯定是可以提高原始模型能力的但是,SFT就不用加思维链和fewshot了,直接用样本堆死它。而且思维链+fewshot也超级耗时啊,标注也是一个超级麻烦的事情。

所以,还不如直接造大量高质量样本,直接让模型学习。暴力但是很有效对于多任务问题,可能有的同学会问到底多少条数据才合理,个人经验,每个垂域400条高质量数据足矣。

可以对数据集设置一个难易程度,让模型先学简单后学难的,有利于模型的加速收敛在小模型上面。

如果纯用某一类数据去SFT,效果可能还会下降,这是因为小模型能力差,泛化能力也差,一旦数据分布相差太大,模型基础能力都gameover了。

解决方式是要不换更大模型,要不增加一些base模型产生的数据。

用GRPO训练过的模型去rollout,再选择高分的数据去SFT的效果比纯用原始数据SFT的效果可能会更好。

而且用这个SFT后的模型去再进行RL,效果更佳。但是这个过程不能够重复,因为越到后面,模型产生的答案越单一,其实效果没有那么好。

RL

和 SFT一样,做RL的模型本身就对数据集回答的超级差,可能20%都达不要,那就果断换模型吧。

这里着重说一下,SFT是为了让模型有能力去回答问题,而RL仅仅是将这个能力推到上限。

就和我们打篮球一样,一个经过训练的篮球运动员,在发挥好的时候,可以10中8,但是他可能平时就5中5,而RL做的就是让该运动员长期处在10中8等状态。

但是如果运动员只能10中2,且从来没有10中8,那么他怎么都到不了10中8。

对于reward的设计,对于有明显规则可以作为critic的问题,比如数学或者逻辑问题,RL是有效果的,但是如果没有明显规则,需要用大模型或者other模型打分的问题,可能RL就没有那么大的效果了。

特别是那些非常主观问题的,比如,C罗比梅西伟大吗?

reward的规则一定要考虑完整,且不能太多rewardrule,否则会让模型彻底偏向某个规则,或者直接reward hacking。

比如,对于仅有1个正例或者1个负例的数据集,如果完成正例的回答是很难的,而回答负例是很简单的,且正例数据比负例少,模型就倾向于全部数据都打负例,这样模型依然可以得到高分。

对于没有经过SFT的模型,kl散度可以不用开,因为没有经过SFT的模型产生的数据实际多样性还是有的,不会像SFT那么统一RL训练的模型更应该关注reward是否快速增长到收敛,而不是看loss。

对于有确定性rule reward的数据集,可能纯RL也能起到效果,不用再去SFT。反之,必须SFT,再RL。

如果SFT都没有效果,那么别指望RL了。一定记得取不同训练步骤的checkpoint针对某些问题进行检验,好记性不如烂笔头,看指标终究抵不过bad case的研究。

reward是基石,KL散度是尺度器,reward直接决定了RL能够达到的上限,KL是让模型的生成不要太单一或者太杂乱。通常KL是从小到大调,一般0.001足够了。

如果Base-RL的效果想要更进一步,可以试试用base-RL拒绝采样一批样本,然后对Base模型进行简单的冷启动微调,随后再继续RL。

这就是先挑出reward擒窮助高的样本先微调冷启动一把。

reward始终不上涨,在排除了一切可能的原因后建议用训练前的模型针对一些case rollout出多个回复(n可以大一点),看下这些回复的奖励是不是都特别低。

如果都特别低,那说明基模的能力上限就如此,想要通过探索来提升表现是行不通的,建议换模型或者对 SFT模型进行优化。

当出现训练不稳定(如损失值突然飙升),可启用梯度裁剪,裁剪值一般为 0.2。

PPO的学习率通常需要比SFT小一个数量级。例如,如果SFT阶段的学习率是2e-5,PPO阶段的初始学习率建议设置为1e-6到3e-6之间。

过高的学习率极易导致模式崩溃(Mode Collapse)为防止能力遗忘,可以在RL的prompt池中混入5%-10%的通用SFT数据。

这是一种简单有效的方法,可以在优化特定偏好的同时,通过让模型回顾通用任务来“锚定”其基础能力。

在PPO训练前,务必对RM的输出进行归一化处理。这可以防止因奖励模型打分范围不固定而导致的梯度爆炸或消失,极大提升训练稳定性。

RLHF阶段的batch size宁大勿小。更大的批次可以提供更稳定的梯度估计,尤其对于PPO。如果显存不足,应优先使用Gradient Accumulation来等效扩大批次大小。

在RLHF中可能经常碰到Reward Hacking,解决方案是在奖励函数中加入惩罚项,或者调低某个reward的权重系数,或者将这些作弊样本作为负例,重新训练奖励模型。

Reward持续上升,并且KL散度爆炸式增长,这需要增加KL惩罚项的权重,通常建议从一个较小的值(如0.001)开始,逐步增加。

KL散度很低,奖励几乎不增长或者增长缓慢,KL惩罚太过了,模型被过度束缚,调低系数,同时可以检查下学习率,如果学习率非常低,模型更新步子太小,可能也会导致reward增长缓慢。

模型训练初期就输出大量重复或者无意义的内容,习率过高。过大的学习率可能导致模型参数更新过于剧烈,跳出了有效的参数空间,导致mode collapse。这需要降低学习率。

对于大模型微调,学习率通常设置得非常小,例如 1e-6 到 1e-5 之间。可以从一个保守的值开始尝试。

同时,使用warmup和decay策略通常是个好主意,一般推荐cosine策略。

模型响应的长度变得非常短或非常长,这是因为奖励模型可能存在length bias,需要修正奖励模型:在RM训练数据中加入不同长度的优质样本,消除长度偏见。

或者在RL阶段加入长度惩罚/奖励。reward持续上涨,但人工评估发现生成内容存在事实错误或逻辑混乱,这是因为RM过拟合或偏好数据存在偏差,导致模型学习到“欺骗性策略”。

这时候需要根据你的具体任务,把奖励拆分多个独立维度,分别标注并加权融合。

Critic的 Value Loss波动剧烈,难以收敛,这是因为reward方差过大,导致Critic难以准确估计长期价值,这时候需要对reward或者advantage进行归一化。

策略熵快速下降,生成内容同质化严重,这是因为entropy_coef过低,导致策略过早收敛到局部最优,探索能力不足。

可以增大熵系数:或者采用DAPO的Clip-Higher策略:解耦PPO的clip上下界,放宽低概率token的提升空间,缓解熵崩溃DPO中,模型对 chosen和rejected 的概率差增长缓慢,这是因为 beta 值过高。

DPO中的 beta 参数扮演着类似PPO中KL散度惩罚的角色,它控制着隐式奖励模型的温度。beta 过高意味着策略更新过于保守。可以调低 beta。

降低 beta可以让模型更大胆地学习偏好,拉开 chosen 和 rejected 的差距。DPO中,DPO训练损失下降很快,但生成效果差甚至不如 SFT模型,这是因为beta 值过低 或 学习率过高。

beta 过低导致模型过于激进,偏离SFT模型太远,丢失了通用能力。学习率过高同样会破坏预训练模型的结构。

可以调高 beta:增加对SFT模型的约束。降低学习率:使用更小的学习率(如1e-7到 5e-6)进行微调。

GRPO训练,batch size越大,其实效果越稳定,尤其是模型能力没有那么好的情况下。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询