乌海市网站建设_网站建设公司_网站备案_seo优化-扬州市网站建设公司

SparseTrim: A Neural Network Accelerator Featuring On-Chip Decompression of Fine-Grained Sparse Model with 10.1TOPS/W System Energy Efficiency

CICC–2025
doi={10.1109/CICC63670.2025.10982861}}

SparseTrim围绕“压缩-解压-均衡” 三个维度协同优化：
压缩侧：通过XORNet实现高压缩比，降低片外带宽压力；
解压侧：以极小硬件开销实现快速权重恢复与误差校正；
均衡侧：通过滤波器对级策略缓解并行负载不均衡，提升硬件利用率

由于日益增大的模型规模与高昂的片外存储器访问成本，高能效神经网络加速器的开发面临重大挑战[1]。一种行之有效的解决思路是采用细粒度模型剪枝，并辅以稀疏权重压缩，以显著降低存储占用[2]-[6]。该方法允许加速器将压缩后的稀疏权重从片外存储器加载至片上，并在计算前即时解压，从而大幅降低片外权重加载的开销。然而，现有的稀疏权重压缩方法仍普遍存在压缩率较低或串行解压速度过慢的问题：前者限制了片外权重加载成本的降低幅度，后者则无法适应神经网络加速器所需的大规模并行计算模式。

针对上述挑战，本文提出SparseTrim——一种高能效稀疏神经网络加速器，其具备以下三项关键特性：

第一，为降低片外权重加载开销，本文采用目前最先进的稀疏权重压缩方法XORNet[7,8]。 XORNet利用剪枝后产生的“无关”权重，将较长的稀疏原始向量（NoriN_{\text{ori}}Nori位）编码为更短的压缩向量（NcmpN_{\text{cmp}}Ncmp位）。该方法采用高压缩比（即Nori/NcmpN_{\text{ori}}/N_{\text{cmp}}Nori/Ncmp较大）的激进压缩策略，允许产生一定的编码误差，并在解压过程中进行校正，从而实现无损压缩。[8]进一步改进了XORNet的压缩率，通过仅选择性校正重要编码误差，在保证神经网络精度无损的前提下，实现了更高的压缩效率。如图1（上）所示，XORNet在60%–90%的稀疏度范围内，对INT8和INT4权重分别实现了1.7–5.3倍和1.3–3.7倍的压缩率提升。

第二，基于XORNet编码方案，本文设计了一种轻量级片上解压器，其核心为动态解码密钥构建硬件。该硬件能够实时动态构建所需解码密钥，相比基于查找表（LUT）的方案[7]（需静态存储全部解码密钥），硬件面积减少了52倍。

第三，为缓解因并行处理单元间滤波器级工作负载（即非零乘累加操作数）不均衡而导致的吞吐量下降问题，本文提出了滤波器对级权重稀疏度均衡策略。该策略根据稀疏度将两个滤波器配对并交错排列，从而在滤波器对级别实现更均衡的稀疏度分布。随后，我们对每个滤波器对进行压缩，并将滤波器对级别的工作负载分配至并行处理单元。实验结果表明，该方法有效提高了处理单元间的工作负载均衡性，在ResNet50上实现了22%的吞吐量提升。

SparseTrim可支持50%–93.75%稀疏度下的高压缩率。如图1左下方所示，在压缩过程中，我们首先将细粒度稀疏权重分解为二进制位平面，并生成用于掩膜剪枝后权重的位图。随后，将每个位平面切片为NoriN_{\text{ori}}Nori位的稀疏向量，并基于预定义的随机二进制矩阵，将其编码为更短的NcmpN_{\text{cmp}}Ncmp位压缩向量。在解压过程中，使用相同的矩阵从压缩向量重建NoriN_{\text{ori}}Nori位的中间向量。由于采用高压缩比，中间向量与原始稀疏向量间存在由编码误差导致的不同比特。为降低此类误差，编码时亦利用前一个压缩向量参与当前向量的编码，从而将编码空间扩大一倍。综合考虑编码误差的存储开销，设定Nori/Ncmp=1/(1−稀疏度)N_{\text{ori}}/N_{\text{cmp}} = 1/(1 - \text{稀疏度})Nori/Ncmp=1/(1−稀疏度)时可实现最高压缩率。为适配不同稀疏度，本文固定Ncmp=8N_{\text{cmp}} = 8Ncmp=8，并相应调整NoriN_{\text{ori}}Nori为16至128。图1右下方展示了解压表达式：，其中⊕\oplus⊕表示二进制乘累加运算。为重建中间向量中位置PPP处的权重，需将拼接向量与矩阵第PPP行进行二进制乘累加运算。

图2展示了SparseTrim的整体架构，主要包括控制模块、存储模块与计算模块。压缩后的权重通过存储接口加载至存储模块。计算模块包含四条处理单元线，用于权重解压与乘累加运算，以及一个输入特征分发器和一个负责ReLU激活的激活单元。每条处理单元线包含本地缓存、位图解压器和四个处理单元，这些处理单元共享输入特征但接收不同权重。当稀疏度≥85%时，位图解压器将对以四叉树结构存储的位图进行解压；在稀疏度较低时，该模块被旁路。在每个处理单元内部，XORNet解压器每个时钟周期可生成四个非零权重。非零权重与输入特征对被暂存于先入先出队列中，以提高乘累加阵列的利用率。为实现解压权重的复用，处理单元内的四个乘累加单元共享权重并同时处理四个输出像素。各处理单元采用输出固定的数据流，并配有局部的部分和寄存器。

我们设计了一个轻量级的XORNet解压器，用于直接恢复非零权重。该解压器由优先级编码器、动态密钥构造逻辑、XOR解码器以及误差校正单元组成（见图2右下角）。图3展示了其详细的电路结构。

优先级编码器接收位图信息，并在每个时钟周期内，从NoriN_{\text{ori}}Nori个稀疏INT8权重中定位出四个非零权重的具体位置。随后，系统根据对应的解码密钥KPK_PKP（即预定义随机矩阵MXOR\mathbf{M}{\text{XOR}}MXOR的第PPP行）来解码位于位置PPP的权重WdPW_d^PWdP。该矩阵可通过离线随机种子生成，并静态存储于片上查找表中。然而，高压缩比会导致查找表规模过大（即Nori×16N{\text{ori}} \times 16Nori×16比特的表项），显著增加面积开销。因此，在保持矩阵中0与1随机分布特性的前提下，我们利用行索引来动态构造矩阵的每一行，从而能够根据非零权重的位置PPP，在片上实时生成16比特的解码密钥KPK_PKP。位置PPP的位宽为7比特，以支持Nori=128N_{\text{ori}}=128Nori=128（对应93.75%稀疏度）的最大需求。动态密钥构造逻辑仅由简洁的布尔逻辑门构成（见图3右上角），其面积相比查找表方案减小了52倍。

在获得共享的解码密钥KPK_PKP后，XOR阵列执行二进制乘累加操作，生成一个INT8权重的8个比特位（见图3左下角）。

为了支持选择性编码误差校正，我们设计了位并行误差校正单元及定制的误差存储格式（见图3右下）。每个误差以9比特数据存储，其中包含32个权重内的5比特权重位置、3比特位位置，以及1比特用于标识是否为该32个权重组内最后一个误差的标志位。在校正过程中，位置匹配逻辑会判断四个待解压权重中每个权重的位置是否与四个误差位置中的任何一个匹配。若匹配，则生成一个8比特校正码，其中“1”表示对应比特位存在误差。随后，误差位反转单元执行该校正码与待解压权重间的位级异或运算，以翻转错误比特。

稀疏神经网络加速器普遍面临因分配给并行计算单元的滤波器级工作负载不均衡而导致的吞吐量下降问题。这一负载不均衡源于分配给不同计算单元的滤波器之间权重稀疏度的差异，进而导致非零乘累加操作数量不同。为缓解此问题，我们提出了一种滤波器对级权重稀疏度均衡策略（见图4上方）。具体而言，我们根据稀疏度将两个滤波器配对，从而在滤波器对之间实现更均衡的稀疏度分布。接着，我们将配对中的两个滤波器展平并交错排列，以供XORNet压缩。在片上计算阶段，我们将滤波器对级别的工作负载分配给各处理单元进行并行乘累加运算，相较于滤波器级分配方案，处理单元间的工作负载均衡性得到显著提升。每个处理单元内的乘累加阵列由配对的两个滤波器共享，其中权重位置的最低有效位用于指示滤波器索引，并控制部分和寄存器前的（解）复用器选通（见图4左下方）。通过采用滤波器对级权重稀疏度均衡策略，我们在ResNet50上实现了22%的吞吐量提升，且无需复杂的运行时调度。若将4个滤波器配对，虽可带来额外2%的改进，但需要更多的（解）复用器，因此本文最终采用2滤波器配对方案。

此外，我们采用了通道优先的滤波器展平方案，以支持可配置的卷积核大小，该方案在片上计算时仅需简单的循环控制即可实现。如图4右下所示，每个滤波器首先按通道分为若干组，随后每组按卷积核的宽度与高度进行展平。通过将滤波器尺寸视为1×1，该方案同样可兼容全连接层。

我们在28纳米工艺下实现了SparseTrim的原型（图7）。图5上方展示了在0.35-0.9V供电电压下实测的功耗与时钟频率。SparseTrim在0.4V电压下达到峰值片上计算能效（51.8 TOPS/W @INT8）（图5左下方）。为评估包含片上计算能耗与片外权重加载能耗（31 pJ/比特 [1]）在内的系统能效，我们考虑权重加载至芯片后可重复用于16×16个输出像素的场景。在权重稀疏度为50%-93.75%、输入特征稀疏度为50%的条件下，SparseTrim实现了1.94-10.1 TOPS/W的INT8系统能效（图5右下方）。

图6展示了与现有工作的对比结果。现有方案在低稀疏度（60%）或高稀疏度（90%）下的系统能效均较低，而SparseTrim在60%-90%的稀疏度范围内取得了最优的系统能效（2.54-8.90 TOPS/W）。与采用COO[3]、RLC[4]、CFO[5]以及无压缩[10]的先前方案相比，在稀疏度为60%（90%）时，SparseTrim的系统能效分别提升了44%（4%）、14%（30%）、11%（18%）和126%（354%）。

乌海市网站建设_网站建设公司_网站备案_seo优化

SparseTrim: A Neural Network Accelerator Featuring On-Chip Decompression of Fine-Grained Sparse Model with 10.1TOPS/W System Energy Efficiency

热门文章

文章分类

标签云

需要专业的网站建设服务？

乌海市网站建设_网站建设公司_网站备案_seo优化

SparseTrim: A Neural Network Accelerator Featuring On-Chip Decompression of Fine-Grained Sparse Model with 10.1TOPS/W System Energy Efficiency

热门文章

文章分类

标签云

相关文章

M2FP模型在数字孪生中的应用：人体建模技术

无需deepseek网页版入口：自建服务更稳定更安全

M2FP模型在影视特效中的应用：绿幕替代技术

需要专业的网站建设服务？