邢台市网站建设_网站建设公司_ASP.NET_seo优化
2026/1/10 3:02:18 网站建设 项目流程

一、冗余计算的产生(KV Cache 的诞生背景)

Decoder 架构的大模型生成文本时,存在大量重复计算:以输入 “中国的首都是” 为例,模型生成过程是逐 token 自回归的:

  1. 输入 “中国的首都”,计算每个 token 的注意力,预测下一个 token “是”;
  2. 将 “是” 拼接后,用其 embedding 计算新 token;
  3. 重复上述过程。

而注意力计算中,每个新 token 的计算需依赖之前所有 token 的 K(Key)、V(Value)(结合 Mask 机制,新 token 仅能关注前文):

  • Token₁的计算:依赖 Q₁、K₁、V₁;
  • Token₂的计算:依赖 Q₂、K₁、K₂、V₁、V₂;
  • Token₃的计算:依赖 Q₃、K₁~K₃、V₁~V₃。

每生成一个新 token,都要重复计算之前所有 token 的 K、V,造成大量冗余计算

二、KV Cache 的本质与作用

  1. 定义:将大模型推理过程中产生的 token 对应的 K、V,缓存到 GPU 的高速缓存中。
  2. 本质<

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询