滁州市网站建设_网站建设公司_交互流畅度_seo优化-江西省网站建设公司

本文系统介绍了大模型推理优化技术，从Roofline模型评估硬件效率，到模型层面的剪枝、量化和蒸馏等优化方法，再到快速解码算法如早停、MOE和并行解码，最后详述系统层面的算子融合、批处理优化和内存管理等技术。这些方法共同构成了提升大模型推理效率的综合技术体系，为不同场景下的模型部署提供了全方位优化思路。

前排提示，文末有大模型AGI-CSDN独家资料包哦！

当我们在谈大模型推理优化技术的时候，可以从如图几个层面来考虑。

一、Roofline模型

评估大语言模型部署到特定硬件上的效率需要综合考虑硬件和模型特性。通常采用了 Roofline 模型。 Roofline 模型作为一个有效的理论框架来评估在特定硬件上部署模型的潜在性能。

如图所示，在硬件设备上执行神经网络层需要将数据从内存（DDR 或HBM）传输到片上缓冲区，然后由片上处理单元执行计算，最终将结果输出回内存。因此，评估性能需要同时考虑内存访问和处理单元能力。如果某个层涉及大量计算但内存访问最少，则称为计算瓶颈。这种情况会导致内存访问空闲。相反,当某个层需要大量内存访问而计算需求较少时，它被称为内存瓶颈。在这种情况下，计算单元仍未得到充分利用。我们可以根据Roofline模型清楚地区分这两种场景，并提供不同情况的性能上限。

二、Model 层面

剪枝（Pruning）：就像给树枝剪去多余的枝叉一样，把模型中相对不那么重要的参数去掉，使模型变得更紧凑，减少计算量。

结构化与非结构化（structured & unstructured）剪枝：这是剪枝的两种方式。结构化剪枝是指按照某种规则或模式去除模型中的参数。这种规则通常是可以明显地改变模型的拓扑结构的，比如移除整个神经元、整个卷积核或整个通道。非结构化剪枝是指随机或基于某种启发式方法选择性地去除模型中的单个参数（如权重或偏置），而不改变模型的拓扑结构。

量化（Quantization）：把模型参数用更少的比特数表示，比如从 32 位浮点数量化到 8 位甚至更少位的整数，从而降低存储空间和计算复杂度。

QAT、PTQ、Q-PEFT：它们是量化过程中的不同方法。QAT（量化感知训练）是在训练阶段就考虑量化因素；PTQ（后训练量化）是直接对训练好的模型进行量化；Q-PEFT 则是在量化的基础上应用一种叫 PEFT（参数高效微调）的技巧，以在压缩模型的同时尽量保留其性能。

模型蒸馏（Knowledge Distillation）是一种用于提高机器学习模型效率的技术，特别是在深度学习中广泛应用。它通过将一个大型复杂模型（称为“教师模型”）的知识传递给一个更小、更简单的模型（称为“学生模型”），使学生模型能够在保持较高性能的同时，减少计算资源和时间的消耗。

模型的Factorization（分解）是一种用于压缩和优化模型的技术。它通过将模型中的某些组件（如权重矩阵、激活等）分解为更小的子组件，从而减少模型的复杂度和计算量。从不同的角度可以理解其含义：参数矩阵分解（Parameter Matrix Factorization）、核分解（Kernel Factorization）、低秩近似（Low-Rank Approximation）、张量分解（Tensor Factorization）…

三、快速解码算法层面

减少参数使用（Parameter Usage Reduction）：想办法降低模型在推理时对参数的调用量，比如采用更高效的数据编码方式等。

早停（Early Exiting）：在模型还没完全把所有计算都做完、但已经能得出一个相对可靠结果的时候就提前结束推理过程，从而节省计算时间。

上下文稀疏性（Contextual Sparsity）：利用模型在处理不同输入时，有些部分的参数其实并不关键这个特点，只保留关键部分的计算，让模型变 “轻”。

MOE（Mixure of Expert）：一种用于提升模型性能和效率的架构设计方法。它通过结合多个专家模型（Expert Models）的预测结果，形成一个更强大的整体模型。MoE 的核心思想是“分而治之”，即让不同的专家模型专注于处理输入数据的不同部分或特征，然后通过一个门控网络（Gating Network）动态地选择或组合这些专家模型的输出，从而提高模型的表达能力和效率。

最大化解码令牌（Maximizing Decoding tokens）：尽可能一次生成多个解码令牌，而不是一个一个慢慢生成，提高生成速度。

Parallel Decoding（并行解码）：小模型（草稿模型）先生成多个 token，然后大模型（目标模型）对这些 token 进行验证并生成一个 token 。若小模型生成的 token 被大模型接受，生成多个 token 的时间就会缩短，因为小模型的推理时间低于大模型。比如 Medusa 和 Eagle2。

Speculative Decoding（投机解码）：草稿模型先生成多个 token，然后目标模型一次性并行验证这些 token 的合理性，并根据验证结果接受或拒绝这些 token。如果草稿模型生成的 token 被接受，就直接作为输出；如果被拒绝，目标模型会重新采样生成新的 token 。

Constrained Decoding（约束解码）：在生成 token 的过程中，对模型的下一个 token 预测进行限制，使其只预测不违反所需输出结构的 token。例如，生成符合特定 schema 的 JSON 或 XML 数据时，只从符合 schema 要求的 token 中采样。

四、系统层面

算子融合（Operator Fusion）：把模型中多个连续的算子合并成一个大操作，减少中间步骤的开销，就像把多个工序合并成一道工序来提高效率。

工作负载卸载（Workload Offloading）：把一部分计算任务分给其他更适合的设备去处理，比如把一些计算交给 GPU 或专门的硬件加速器，而不是全让 CPU 承担。

Baching的优化：包括了Continus baching，Dynamic batching，Nano-baching和Chunked prefill。之前的static batching 处理固定数量的请求，新请求需要等待当前批请求完成后，才能开始推理，增加了推理时延。dynamic batching, continuous batching 实时自适应批请求，可以减少推理时延、提升效率。
Continus baching允许在生成过程中动态调整批处理的大小。一旦一个序列在批处理中完成生成，就可以立即用新的序列替代它，从而提高了 GPU 的利用率。这种方法的关键在于实时地适应当前的生成状态，而不是等待整个批次的序列都完成。
Dynamic batching将多个用户的请求组合成单个批次以最大化吞吐量。新请求到达时，会与现有批进行合并或添加到正在处理的进程中。
Nano-batching对算子级别切分，单卡上并行计算、访存、网络通信操作，最大化利用资源和提高吞吐率。动态调整 nano-batch 大小，优化每类资源。
Chunked prefill 将长提示词拆分成多个片段，增量式处理。第一个片段开始解码的同时，后续的片段也可以进行预填充，两个阶段可以并发计算，增强了资源利用率。
Attention层面的优化，包括KV Cache 的优化：PagedAttention, TokenAttention和ChunkedAttention; 以及减少I/O访问的FlashAttention；使得KV Cache可重复利用的RadixAttention和其他等Attention。

内存管理（Memory Management）：合理分配和使用内存，避免出现内存不足或者内存浪费的情况，让模型能更顺畅地运行。通常会使用到缓存（Caching）技术：包括提示缓存、前缀缓存、KV 缓存等，简单来说就是把一些经常用到的数据先存起来，下次用的时候直接拿，不用再重新计算或获取。

Prompt Caching 将提示（prompt）的中间计算结果缓存起来，以便在后续相同的或相似的请求中复用。当模型处理多个具有相同前缀的请求时，可以避免重复计算提示部分的 Key 和 Value 向量，直接使用缓存结果，从而提高效率。
Prefix Caching 通过缓存请求的共享前缀对应的键值缓存（KV Cache）块，当新请求的前缀与之前请求相同时，直接复用这些缓存块。它扩大了 KV Cache 的生命周期，使其不再局限于单个请求，而是可在多个请求间共享。
在 Transformer 模型的自注意力机制中，KV Caching 将已计算的 Key 和 Value 向量缓存起来，避免在自回归生成过程中重复计算。在生成新 token 时，只需计算当前 token 的 Query 向量，并与缓存的 Key 和 Value 向量进行注意力计算。

并行服务（Parallel Serving）：采用数据并行、张量并行、流水线并行、序列并行、专家并行等不同的并行方式，让多个计算单元同时为模型服务，提高推理速度。

最后, 常见的大模型推理引擎使用的优化方法参考表：

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：