宿迁市网站建设_网站建设公司_留言板_seo优化-陇南市网站建设公司

Conditional Memory via Scalable Lookup：给大模型新增一条“记忆稀疏”轴

这篇论文在解决什么问题

当前 MoE 通过条件计算扩大模型容量，但 Transformer 缺少“知识查表”的原生能力，导致模型用计算去模拟检索，效率低下。作者提出条件记忆作为与 MoE 互补的稀疏轴：让静态知识走检索，动态推理走计算。

核心贡献一览

提出 Engram：将经典N NN-gram 嵌入现代化，做到O ( 1 ) O(1)O(1)可扩展查表。
给出Sparsity Allocation（稀疏分配）问题，发现 MoE 与 Engram 的最优配比呈 U 型规律。
在 27B 规模上，Engram 在等参数、等 FLOPs 下显著超过 MoE。
机制分析显示 Engram 让网络“有效变深”，并释放注意力容量，显著提升长上下文能力。
系统层面可把超大表放在 CPU 内存，通过确定性索引预取，几乎无吞吐损失。

方法总览：Engram 是怎么工作的

图解：Engram 在特定层插入，先做N NN-gram 检索，再用上下文门控融合到隐状态，和主干残差相加。

1) 稀疏检索：哈希N NN-gram

通过 tokenizer 压缩把等价 token 合并，提高语义密度。
对每个N NN-gram 进行多头哈希，落到多个 embedding 表。
拼接所有检索到的向量得到记忆表示e t \mathbf{e}_tet。

核心公式：

z t , n , k = ϕ n , k ( g t , n ) , e t , n , k = E n , k [ z t , n , k ] z_{t,n,k} = \phi_{n,k}(g_{t,n}), \quad \mathbf{e}_{t,n,k} = \mathbf{E}_{n,k}[z_{t,n,k}]zt,n,k=ϕn,k(gt,n),et,n,k=En,k[zt,n,k]

e t = ∥ n = 2 N ∥ k = 1 K e t , n , k \mathbf{e}_t = \mathop{\Vert}_{n=2}^{N} \mathop{\Vert}_{k=1}^{K} \mathbf{e}_{t,n,k}et=∥n=2N∥k=1Ket,n,k

2) 上下文门控融合

Engram 不直接把记忆加进去，而是让当前上下文决定是否启用：

α t = σ ( RMSNorm ( h t ) ⊤ RMSNorm ( k t ) d ) \alpha_t = \sigma\left( \frac{\text{RMSNorm}(\mathbf{h}_t)^\top \text{RMSNorm}(\mathbf{k}_t)}{\sqrt{d}} \right)αt=σ(dRMSNorm(ht)⊤RMSNorm(kt))

再经过短卷积提升非线性：

Y = SiLU ( Conv1D ( RMSNorm ( V ~ ) ) ) + V ~ \mathbf{Y} = \text{SiLU}\left( \text{Conv1D}( \text{RMSNorm}(\tilde{\mathbf{V}}) ) \right) + \tilde{\mathbf{V}}Y=SiLU(Conv1D(RMSNorm(V~)))+V~

3) 与多分支架构融合

在多分支 mHC 中共享W V \mathbf{W}_VWV，分支独立W K ( m ) \mathbf{W}_K^{(m)}WK(m)，既保持多样性又可融合成单次矩阵乘。

4) 系统效率与可扩展性

图解：训练期在 GPU 间分片并 All-to-All 拉取；推理期用确定性索引提前预取 CPU 内存表项，通信与计算重叠。

稀疏分配定律：MoE 与 Engram 怎么配最优

图解：左侧是 allocation ratioρ \rhoρ与验证损失的 U 型曲线；右侧是 Engram 在“大记忆”下的对数线性 scaling。

定义三个量：

P t o t P_{\mathrm{tot}}Ptot：总参数
P a c t P_{\mathrm{act}}Pact：每 token 激活参数（对应 FLOPs）
P s p a r s e = P t o t − P a c t P_{\mathrm{sparse}} = P_{\mathrm{tot}} - P_{\mathrm{act}}Psparse=Ptot−Pact：稀疏预算

分配公式：
P M o E ( s p a r s e ) = ρ P s p a r s e , P E n g r a m = ( 1 − ρ ) P s p a r s e P_{\mathrm{MoE}}^{(\mathrm{sparse})} = \rho P_{\mathrm{sparse}}, \quad P_{\mathrm{Engram}} = (1-\rho) P_{\mathrm{sparse}}PMoE(sparse)=ρPsparse,PEngram=(1−ρ)Psparse

关键结论：

最优ρ \rhoρ约在75 % ∼ 80 % 75\% \sim 80\%75%∼80%，即MoE 为主、Engram 为辅。
ρ → 100 % \rho \to 100\%ρ→100%会缺少知识查表，ρ → 0 % \rho \to 0\%ρ→0%会缺少动态推理，两端都差。
在“无限记忆”设定下，Engram 规模继续增大仍能稳定下降损失。

大规模预训练结果（27B / 40B）

作者在 262B tokens 上训练 4 个模型：Dense-4B / MoE-27B / Engram-27B / Engram-40B。

下面是核心任务的代表性对比（Acc 或 EM）：

任务	MoE-27B	Engram-27B	增益
MMLU	57.4	60.4	+3.0
CMMLU	57.9	61.9	+4.0
BBH	50.9	55.9	+5.0
ARC-Challenge	70.1	73.8	+3.7
HumanEval	37.8	40.8	+3.0
MATH	28.3	30.7	+2.4

图解：最后 10k 步训练曲线，Engram 在损失和稳定性上持续领先。

结论非常稳定：Engram 在知识类、推理类、代码数学类全线胜出，且 Engram-40B 还有进一步提升空间。

长上下文能力：释放注意力后优势更明显

长上下文训练在 32k context 上评测 LongPPL 与 RULER。

核心对比（Iso-Loss 设置）：

Multi-Query NIAH：97.0 97.097.0vs84.2 84.284.2
Variable Tracking：87.2 87.287.2vs77.0 77.077.0

这说明 Engram 把局部模式交给查表后，注意力资源更集中到全局依赖上。

机制分析：为什么 Engram 有效

1) 有效深度提升

图解：LogitLens 早期 KL 更低，CKA 显示 Engram 浅层对应 MoE 深层，说明“有效深度”变大。

关键公式（CKA）：
CKA ( K , L ) = HSIC ( K , L ) HSIC ( K , K ) HSIC ( L , L ) \text{CKA}(K, L) = \frac{\text{HSIC}(K, L)}{\sqrt{\text{HSIC}(K, K)\text{HSIC}(L, L)}}CKA(K,L)=HSIC(K,K)HSIC(L,L)HSIC(K,L)

2) 结构消融与层敏感性

图解：单层插入最优在 Layer 2，多层插入（2 和 6）更稳；去掉多分支融合或门控损失明显。

3) 模块敏感性

图解：去掉 Engram 后，事实性任务大幅崩溃，而阅读理解保留大多性能，说明事实知识主要由 Engram 承担。

4) 门控可视化

图解：门控对固定短语或命名实体触发明显，例如 “Alexander the Great” 或中文成语，证明查表是有效触发的。

系统效率：巨表也能跑得快

作者在 nano-vLLM 上测试 100B Engram 表完全 CPU offload：

模型	基线 tok/s	加 100B Engram tok/s	降幅
4B Dense	9031.62	8858.28	1.9%
8B Dense	6315.52	6140.02	2.8%

关键结论：确定性索引 + 预取机制让通信被计算隐藏，规模化记忆几乎不影响吞吐。

总结与展望

Engram 提供了一个非常清晰的新轴：条件记忆。它不像 MoE 依赖动态路由，而是用确定性哈希查表处理静态模式，让模型把计算预算留给真正需要推理的部分。实验上，它在多域全面获益，机制上解释清晰，系统上可扩展性强。对于下一代稀疏模型设计，Engram 基本已经给出了一条可落地的路线。

原文见 Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

宿迁市网站建设_网站建设公司_留言板_seo优化

Conditional Memory via Scalable Lookup：给大模型新增一条“记忆稀疏”轴

这篇论文在解决什么问题

核心贡献一览

方法总览：Engram 是怎么工作的

1) 稀疏检索：哈希N NN-gram

2) 上下文门控融合

3) 与多分支架构融合

4) 系统效率与可扩展性

稀疏分配定律：MoE 与 Engram 怎么配最优

大规模预训练结果（27B / 40B）

长上下文能力：释放注意力后优势更明显

机制分析：为什么 Engram 有效

1) 有效深度提升

2) 结构消融与层敏感性

3) 模块敏感性

4) 门控可视化

系统效率：巨表也能跑得快

相关工作脉络

总结与展望

热门文章

文章分类

标签云

需要专业的网站建设服务？

宿迁市网站建设_网站建设公司_留言板_seo优化

Conditional Memory via Scalable Lookup：给大模型新增一条“记忆稀疏”轴

这篇论文在解决什么问题

核心贡献一览

方法总览：Engram 是怎么工作的

1) 稀疏检索：哈希N NN-gram

2) 上下文门控融合

3) 与多分支架构融合

4) 系统效率与可扩展性

稀疏分配定律：MoE 与 Engram 怎么配最优

大规模预训练结果（27B / 40B）

长上下文能力：释放注意力后优势更明显

机制分析：为什么 Engram 有效

1) 有效深度提升

2) 结构消融与层敏感性

3) 模块敏感性

4) 门控可视化

系统效率：巨表也能跑得快

相关工作脉络

总结与展望

热门文章

文章分类

标签云

相关文章

为什么同内容的两个目录，ls和du显示的大小不一样？

基于霜冰优化算法改进DBSCAN聚类附Matlab代码

对比学习搞定乡村儿科影像诊断

需要专业的网站建设服务？