嘉义县网站建设_网站建设公司_阿里云_seo优化-中卫市网站建设公司

简介

Transfromer架构在 2017 年由 Google 提出的一种基于自注意力机制的深度神经网络架构，目前Transformer已经成为了NLP领域的基础架构。基于Transformer架构也衍生出了著名的Transformer模型，例如GPT(The Generative Pretrained Transformer)、BERT(Bidirectional)、 Encoder Representations From Transformer)

自注意力机制

Transformer的核心特点就是自注意力机制，自注意力机制的核心作用就是让序列中的每个元素都可以动态的关注到整个序列中的其他元素，从而更好的理解上下文信息。

例如输入一个句子：“The animal didn’t cross the street because it was too tired.”，这个句子里有一个it，自注意力机制的目标就是判断句子中的it指的是谁，是animal还是street。在处理it的时候，自注意力会让模型“回头看”前面的词并发现animal和it之间存在强关联，street和it之间的关联很弱。

自注意力机制工作的时候，每个词都会生成3个关键向量：Q（Query），K（Key），V（Value）

• Q向量表示：我想要寻找什么信息
• K向量表示：我能提供什么信息，可以被谁匹配
• V向量表示：我实际是什么内容

仍以上文的it为例，输入的语句的每个词都会生成自己的QKV向量。例如animal和it：

词	Q	K	V
animal	处理animal的时候关注谁	表示自己是名词、主语、有生命的	表示自己的语义是动物
it	处理it的时候关注谁（找主语）	表示自己是一个代词	没有特殊语义

拆解完QKV之后，就是自注意力的计算过程：计算注意力得分、归一化、加权求和

注意力得分

为了判断it到底是什么，这时候模型用it的Q向量去和每个词的K向量计算相关性（做点积计算），这里算出来的就是it和每个词的“注意力得分”，得分越高，说明关联性越大。

归一化

上面的注意力分数通过softmax函数转成一组总和为1的权重向量，这个权重表示在理解当前词的时候，应该给其他的词分配多少“注意力”

加权求和

将权重分别乘以每个词的V向量并求和得到新的向量。这个向量是it带上和所有词关系的一种向量表示，只是这个表示里面，it和animal的关联最大

上述计算过程的数学公式表示为：

注意力机制代码：

def scaled_dot_product_attention(query, key, value, query_mask=None, key_mask=None, mask=None): dim_k = query.size(-1) scores = torch.bmm(query, key.transpose(1, 2)) / sqrt(dim_k) if query_mask is not None and key_mask is not None: mask = torch.bmm(query_mask.unsqueeze(-1), key_mask.unsqueeze(1)) if mask is not None: scores = scores.masked_fill(mask == 0, -float("inf")) weights = F.softmax(scores, dim=-1) return torch.bmm(weights, value)

这段代码还考虑到了Q、K、V序列的Mask，填充字符不应该参与计算，因此将对应的注意力分数设置为负无穷，这样softmax计算后对应的注意力权重就变成0。

Transformer结构

原始的Transformer架构模型包括Encoder和Decoder两部分，Encoder负责理解输入的语句，Decoder负责生成目标句子，利用Encoder提供的语义和已经生成的内容，来推测下一步输出的内容。

场景的模型分为纯Encoder、纯Decoder、Encoder-Decoder三类

• 纯Encoder：适合语义理解的模型，例如语句分类
• 纯Decoder：适合纯文本生成任务，例如GPT
• Encoder-Decoder：适合根据给定输入得到输出的任务，例如翻译

Encoder

多头注意力

因为词语之间的关系错综复杂，所以仅仅靠一组Q、K、V计算出来的相关性可能不够。因此出现了多头注意力。

多头注意力会把Q、K、V进行线性投影，切分成h份。每一份进行独立的自注意力计算。相当于每一份头都对应一个领域的问题，获取到不同方面的信息，最后把这h个头的信息拼接成一份，达到增强表达能力的目的。

多头注意力的伪代码，最终会保证矩阵计算输入输出维度一致：

def multi_head_attention(query,key,value,num_heads,d_model): head_dim=d_model batch_size=query.shape[0] seq_len_q = query.shape[1] seq_len_k = key.shape[1] seq_len_v = value.shape[1] #1.线性投影 W_Q=create_parameter(d_model,d_model) W_K=create_parameter(d_model,d_model) W_V=create_parameter(d_model,d_model) W_O=create_parameter(d_model,d_model) #输出矩阵投影 #2.投影输入 Q=matmul(query,W_Q) #shape: (batch_size, seq_len_q, d_model) K=matmul(query,W_K) #shape: (batch_size, seq_len_k, d_model) V=matmul(query,W_V) #shape: (batch_size, seq_len_v, d_model) #3.维度拆分，矩阵转置 Q=reshape(Q,(batch_size, seq_len_q, num_heads, head_dim)) K=reshape(Q,(batch_size, seq_len_k, num_heads, head_dim)) V=reshape(Q,(batch_size, seq_len_v, num_heads, head_dim)) Q = transpose(Q, (0, 2, 1, 3)) #shape: (batch_size, num_heads, seq_len_q, head_dim) K = transpose(K, (0, 2, 1, 3)) #shape: (batch_size, num_heads, seq_len_k, head_dim) V = transpose(V, (0, 2, 1, 3)) #shape: (batch_size, num_heads, seq_len_v, head_dim) #4.计算注意力分和加权求和 attention_scores = matmul(Q, transpose(K, (0, 1, 3, 2))) #shape: (batch_size, num_heads, seq_len_q, seq_len_k) attention_scores = attention_scores / sqrt(head_dim) attention_weights = softmax(attention_scores, dim=-1) #shape: (batch_size, num_heads, seq_len_q, seq_len_k) attention_output = matmul(attention_weights, V) #shape: (batch_size, num_heads, seq_len_q, head_dim) #5.转置回原始顺序，合并所有头 attention_output = transpose(attention_output, (0, 2, 1, 3)) #shape: (batch_size, seq_len_q, num_heads, head_dim) attention_output = reshape(attention_output, (batch_size, seq_len_q, d_model)) #6.线性投影 output = matmul(attention_output, W_O) #shape: (batch_size, seq_len_q, d_model) return ouput

形式化表达为：

FNN前馈层

FNN前馈层全称是 position-wise feed-forward layer，包含了两层全连接神经网络。注意力机制聚合上下文信息后，通过前馈层对每个token的向量表示做非线性的变换，目的就是弥补注意力机制表达上的不足。

FNN工作流程分为三步：

• 扩维：线性变换，常见做法是让第一层的维度扩4倍，目的获取更高维度组合更加复杂的特征
• 非线性激活函数
• 降维：线性变换，确保FNN输出的维度和输入一致

FNN层的伪代码：

class FeedForward(nn.Module): def __init__(self, config): super().__init__() self.linear_1 = nn.Linear(config.hidden_size, config.intermediate_size) self.linear_2 = nn.Linear(config.intermediate_size, config.hidden_size) self.gelu = nn.GELU() self.dropout = nn.Dropout(config.hidden_dropout_prob) def forward(self, x): x = self.linear_1(x) x = self.gelu(x) x = self.linear_2(x) x = self.dropout(x) return x

残差连接和层归一化

每一层在多头注意力和FNN子层后面都会存在一个残差连接和层归一化

• 残差连接

把输入直接加到输出，始终保持原始信息特征还在

• 层归一化

对单个样本的所有特征进行归一化，使其均值为0，方差为1。目的是减小波动，避免后面张量运算出来的值梯度爆炸

残差连接和层归一化的顺序在不同的架构不同，两种主要顺序为Post-LN(层归一化在残差之后) 和 Pre-LN(层归一化在残差之前)

• Post-LN：理论上表示能力更强，训练不稳定，需要学习率预热
• Pre-LN：训练稳定，不需要学习率预热

在现代大模型场景下，主流更选择更适合深层模型的Pre-LN架构，也就是先层归一化，再做残差连接

Post-LN伪代码；

def forward(self,x): attn_output=self.self_attn(x) x=x+attn_output #残差连接 x=self.norm(x) #层归一化 ffn_output=self.feed_forward(x) x=x+ffn_output x=self.norm(x) return x

Pre-LN伪代码

def forward(self,x): residual=x x=self.norm(x) attn_output=self.self_attn(x) x=residual+attn_output residual=x x=self.norm(x) ffn_output=self.feed_forward(x) x=residual+ffn_output return x

Decoder

Decoder的结构和Encoder大致相同，区别在于Encoder只有一个注意力层，Decoder有2个注意力层。

• 掩码多头自注意力层：

和Encoder的自注意力层基本一致，但是会掩盖输入的注意力权重。在decoder的工作中，每次训练都会把完整的输入给到模型，例如生成的句子是"I love cats",当预测到cats到时候，模型只能看到"~~ I love"，否则就会变成作弊。假设原始注意力分数为：~~

t1 t2 t3 t1 [1, 2, 3] t2 [4, 5, 6] t3 [7, 8, 9]

t1只能看到t1，t2只能看到t1，t2，t3只能看到t1，t2，t3，应用掩码后，此矩阵就会变成

t1 t2 t3 t1 [1, x, x] t2 [4, 5, x] t3 [7, 8, 9]

• 编码器-解码器注意力头：

连接Encoder和Decoder，他的K和V来自Encoder到输出，表示Encoder对输入语句的理解。这一层只有Encoder-Decoder类型的模型才有。

总结

理解Transformer对于普通开发者来说，可以：

• 更好地使用大模型
• 理解提示工程背后的逻辑

在未来构建自己的智能应用时，知道“模型是怎么看懂一句话的”

这个世界正在被“注意力”重新定义——而你，已经迈出了理解它的第一步。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例：带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

0690+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发

嘉义县网站建设_网站建设公司_阿里云_seo优化

简介

自注意力机制

Transformer结构

Encoder

多头注意力

FNN前馈层

残差连接和层归一化

Decoder

总结

普通人如何抓住AI大模型的风口？

为什么要学习大模型？

最后

大模型全套学习资料展示

01教学内容

02适学人群

03入门到进阶学习路线图

04视频和书籍PDF合集

05行业报告+白皮书合集

0690+份面试题/经验

07 deepseek部署包+技巧大全

热门文章

文章分类

标签云

需要专业的网站建设服务？

嘉义县网站建设_网站建设公司_阿里云_seo优化

简介

自注意力机制

Transformer结构

Encoder

多头注意力

FNN前馈层

残差连接和层归一化

Decoder

总结

普通人如何抓住AI大模型的风口？

为什么要学习大模型？

最后

大模型全套学习资料展示

01教学内容

02适学人群

03入门到进阶学习路线图

04视频和书籍PDF合集

05行业报告+白皮书合集

0690+份面试题/经验

07 deepseek部署包+技巧大全

热门文章

文章分类

标签云

相关文章

收藏！大模型必学：一文搞懂Text2SQL与RAG的本质区别，面试官听了都点头

LobeChat热图分析工具集成：了解用户点击偏好

39、ODBC编程：从基础到实战

需要专业的网站建设服务？