保亭黎族苗族自治县网站建设_网站建设公司_测试上线_seo优化
2025/12/17 19:16:52 网站建设 项目流程

本文详解大模型训练的"预训练-对齐"核心框架:预训练使用海量数据奠定模型基础,决定能力上限;对齐则通过少量高质量资料微调,调整模型表达风格和行为模式。对齐如同"画龙点睛",能显著提升模型表现,但难以教授新知识,更像是在已有能力上添加约束。预训练资料的品质和多样性至关重要,而对齐存在知识边界和预训练"烙印"等局限,理解这对大模型学习至关重要。

一、模型训练的核心框架:预训练与对齐

今天我们要分享的是“预训练-对齐”(Pretrain-Alignment) 这一模式的强大之处与及极限。

大家知道,今天在训练语言模型时,基本上就是分成三个阶段:

  1. 预训练 (Pre-training):通过大量网络爬到的资料,让机器有基本的文字接龙的能力。
  2. 监督式微调 (Supervised Fine-tuning, SFT):也叫指令微调 (Instruction Fine-tuning),就是告诉模型,看到某个输入的时候,某个样子的输出才是对的。
  3. 基于人类回馈的强化学习 (RLHF):由使用者来告诉机器,什么样的回答是比较好的,什么样的回答是比较不好的。

在第二阶段跟第三阶段会引入人类。在第二阶段需要人类提供正确的答案,在第三阶段需要人类提供回馈。我们把需要人类参与的阶段叫做对齐 (Alignment)

在这里,我们所谓的对齐指的是第二阶段的监督式微调加上第三阶段的 RLHF。对齐指的是我们想要达成的一个目标:我们希望机器的输出是与人类的价值观和需求对齐的。这个步骤很多时候又叫做微调 (Fine-tune),所以等一下课程里面讲到微调的时候,指的也就是对齐这个步骤。在第二阶段和第三阶段,只是根据预训练已经得到的参数进行微调。

二、对齐的“画龙点睛”之效:少量高质量资料的力量

有人可能会想说,预训练根本没什么用,预训练完的模型根本就没有办法使用。举例来说,如果你拿一个只有做预训练、没有做对齐的模型,比如LLaMA-2-7b-base,问它“what is machine learning”,它虽然知道基本概念,但讲着讲着就会不断重复,停不下来。

而对齐确实大幅改变了模型的行为。LLaMA-2-7b-chat是做过对齐的版本,你问它同样的问题,它会好好地、条列式地回答你,看起来非常像模像样。

在数据上,对齐前后的影响也非常大。以 LLaMA-3-70B 在 MT-Bench 上的表现为例,仅预训练的 Base 模型得分是 2.7,而经过对齐的 Instruct 模型得分高达 8.63,这是天与地的差别。看到这里你可能会觉得对齐是 MVP,Base 模型就是“躺赢狗”。

但实际上,相对于预训练,对齐这个步骤做的事情非常少。LLaMA 2 的技术报告里告诉你,他们在做 SFT 的时候只用了 27,540 笔资料而已。另一篇论文《Less is More for Alignment》中,作者只用了一千笔精挑细选的资料来微调模型,就让模型表现得非常好。

所以对齐就像是“画龙点睛”。龙的主体是预训练画出来的,但光画龙的身体是没有用的,得把眼睛点上去,龙才会飞起来。这个点睛的步骤就是对齐。但是点的位置也很重要,意味着对齐的资料虽然不用多,但它的品质很重要

什么样的对齐资料才是好的呢?今天仍然非常难说清楚。有一篇论文发现,用来自“弱智吧”的 240 笔问题,比用数千笔“知乎”的问答资料微调模型效果更好。作者猜测,也许是“弱智吧”的问题特别丰富多样。但一个更重要的细节是,它的答案是用 GPT-4 生成的。所以实际上,这相当于对 GPT-4 做了知识蒸馏 (Knowledge Distillation),把 GPT-4 当作你的老师,也许这才是模型进步飞速的原因。

曾经有很长一段时间,大家不知道怎么做对齐,后来有人就想说,ChatGPT 那么强,我们来对它做逆向工程,跟 ChatGPT 学习,这就是知识蒸馏。很多知名的模型,尤其是那些炫耀只用了一点点钱就训练起来的模型,通常就是指他们去对 ChatGPT 或其他很强的模型做对齐,模型就可以瞬间得到能力的暴增。

清理资料也是必要的。老师模型不一定能够得到好的答案,所以你会挑品质比较高的资料。有趣的是,一篇名为《Long is more for alignment》的论文发现,从 Alpaca 的五万多笔资料里,只挑选答案长度最长的那一千笔资料来训练,得到的模型竟然可以打败其他用更复杂方法筛选资料的模型。

我们实验室甚至发现,那些用来提问的“问题”根本就不重要。我们做了一个实验:从网络上随便选一个句子,把后半段截掉,只把前半段丢给 GPT-4 让他自己做文字接龙,把后半段接出来,然后让我们的模型学习“前半段 -> GPT-4 的续写”。你可能会想,这输入甚至不是一个问题,有用吗?非常有帮助。我们用这种莫名其妙的资料去微调 Mistral 的 Base 模型,得到的分数比 Mistral 官方自己微调出来的 Instruct 模型还要更高。

为什么对齐前后,虽然模型的答案好像很不一样,但对齐却这么容易呢?因为模型实际的行为,也许差异没有这么大。一篇论文分析发现,对齐前后,绝大多数词汇(Token)的输出机率是没有变化的(Unshifted)。只有极少数词汇的机率有很大变化(Shifted),而这些词汇通常是一些连接词,或者打招呼的词汇,以及很关键的结束符号。模型做文字接龙时,一步错,步步错,中间有个地方错了,接下来接的东西就会非常不一样。所以虽然答案看起来差很多,但模型的行为并没有非常大的差距。

这也解释了为什么自对齐 (Self-Alignment)这个技术是可能成功的。这个技术让没有对齐的模型自己生成多个答案,再自己评分,然后用好的答案来强化学习。如果你了解从没有对齐变成有对齐的变化其实没有那么大,就比较容易想象为什么这个方法可行。

三、真正的基石:预训练决定模型能力的上限

我们知道对齐并没有对预训练的模型造成非常大的变化,所以今天之所以对齐以后模型能力很强,是因为预训练非常的有效。那么,要怎么样才能够做出有效的预训练模型呢?

一篇名为《Physics of Language Models》的系列论文提供了一个思考方向。他们发现,假设在你的预训练资料里面,每个人只出现一次,模型会有巨大的误解。比如它会认为“高松灯是宇秋女子学员高一学生、是天文社的一员”这些东西合起来,才是一个实体,才是“MyGO 的主唱”。

但是,如果今天同一个人的资讯,有各种不同的介绍方式,模型就知道原来“高松灯”是一个实体,他有不同的性质。我们发现,同样的资料,同一个人有很多不同的介绍方式,其实对于预训练是一件重要的事情。而且不需要所有的角色都有多种版本的介绍,只要训练资料里面有一部分角色有多种版本的介绍,就足以让模型学到更泛用的知识,强化模型理解的能力。

现在一个好的预训练模型,都需要大量的资料。LLaMA 3 用了 15T (兆) 个 Token。这个资料量多到已经有人担心,会不会网络上所有可以取得的资料,已经要被用尽了。有篇论文估测,大概在 2028 到 2030 年,我们就会用尽网络上所有能够训练的 Token。不过你可能会想,我上哪里去找 15T 的资料呢?我告诉你,Hugging Face 已经释出了一个叫做 FineWeb 的资料集,正好有 15T,所以现在资料是唾手可得的,你差的只是算力而已。

资料的品质也是非常重要的。微软一篇名为《Textbooks Are All You Need》的论文发现,他们用 GPT-3.5 生成的、类似教科书风格的高品质资料来预训练模型,效果远好于网络上爬取的大量代码。这告诉我们,只要你的资料像是教科书,在预训练的时候就很有用。

另外,直接从网络上爬到的资料,往往没有办法直接用,需要经过多个步骤进行清理。一篇名为 Refined the Web 的论文就展示了他们打造模型时复杂的资料清理过程,其中好几个步骤都是在去除重复的文章。为什么去除重复的文章很重要呢?因为已经有文献发现,在固定的算力下,你应该要尽量让你的模型看不同的资料,而不是让他反复看一样的内容。我们的实验室在语音模型上也得到了同样的结论:模型看过越多不同的声音,它的表现就越好。

四、对齐的极限与预训练的“烙印”

我们已经看到,对齐主要就是改变了模型书写的风格。既然如此,那对齐这件事情,会不会非常有极限呢?

早在 2023 年年初就已经有人发现,那些 fine-tune 过后的模型,表面上看起来很强,但实际上他输出的答案看起来像模像样,内容却是错的。所以看起来对齐是有它的极限的。

到底什么事情是可以通过对齐影响模型,什么是学得会的,什么是学不会的呢?一篇论文将知识分成四类:模型本来就会的 (Highly known),问对方法就会的 (Maybe known),采样有机会答对的 (Weakly known),和怎么都学不会的 (Unknown)。你直觉可能会觉得应该拿 Unknown 的资料训练模型才有用,但实验结果跟人类正常的直觉是相反的。

研究发现,当模型开始学习这些 Unknown 资料的时候,就是它在开发集上坏掉的时候了。看起来,让模型学这些他本来就有可能知道的东西是有帮助的,但当你让模型去学那些他不知道的东西的时候,你反而在破坏模型的能力。其中,最有帮助的是那些“Maybe known”的资料,就是模型本来就知道,只是你没有用很懂它的问法去问。

这样说起来,其实 RLHF 是一个很烂的好方法。在做 RLHF 的时候,每一笔拿来训练的资料,都是模型自己的答案。所以 RLHF 的目标并不是叫模型会它本来完全不会的东西,而是激发模型本来的潜力。他有时候做得好,有时候做得不好,做得好就鼓励他,做得不好就惩罚他,但是你不会硬逼他做一个他本来就做不到的事情。

预训练可能会留下一些后遗症。一篇论文指出一个现象,GPT-4 你叫他做 ROT13 的解码(字母移动 13 个位置),他可以做到,但你叫他做 ROT8 的解码,他就没办法答对。作者去分析资料集发现,ROT13 相关的资料在网络上出现的特别多,正好对应到 GPT-4 的能力。所以资料的分布对模型造成了一定程度的影响。

这也意味着,模型看到不该看的东西以后,你很难真的抹除模型的记忆。网络上有很多不该看的东西,你以为对齐可以让模型避免讲出这些话,但也许这些知识都藏在模型的心中。一篇论文就分析发现,对齐确实可以让模型表面上比较不会说脏话,但这些不该讲的词汇仍然存在模型的参数里面。他们发现,与脏话有关的参数(神经元)在对齐后不见了吗?没有,它们还在模型的心里。真正改变的是激发这些参数的通路被抑制了。他只是不去激发这些参数而已,这些参数仍然在模型的心里。

这就是为什么你常常会看到这样的一个梗图:模型在网络上得到大量的资讯,他就像是一个怪物一样,对齐只是给他戴了一个面具,让他看起来人模人样,但是你不知道实际上,在他的参数里面,在他的心里,他在想什么样的事情。

总结来说,Pretrain-Alignment 非常强大,预训练时模型就已经很厉害,对齐只是画龙点睛。但它也有很大的极限,对齐往往只是强化模型本来就会的能力,难以让模型学会新的技能。那么,怎么透过微调教语言模型新的东西,怎么做有效的微调,我们就下回分解。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

适用人群

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询