Ascend C算子开发之昇腾硬件架构详解

张开发

• 2026/4/6 16:12:54 • 15 分钟阅读

分享文章

一、昇腾AI处理器整体架构概览昇腾AI处理器采用的是Host + Device异构计算模型。简单说，Host指CPU端服务器，负责运行管理、任务调度等控制类工作；Device指昇腾AI处理器（NPU），专门承担计算密集型的任务。二者通过PCIe接口连接，协同完成计算任务。昇腾AI处理器的核心组件分为以下四层：AI Core：执行标量、向量和矩阵计算的计算密集型算子，是昇腾AI处理器的算力心脏。AI CPU：承担非矩阵类、逻辑比较复杂的分支密集型计算，作为AI Core的补充。L2 Cache：位于Global Memory和AI Core之间的中间级缓存，多核共享，用于缓存频繁访问的数据，读写带宽远高于Global Memory。Global Memory（HBM）：设备主存，存储大规模数据，容量大但访问延迟高，是所有AI Core共享的外部存储。这里有个关键点：Ascend C开发的算子，正是运行在AI Core上的。这意味着，写的每一行Ascend C代码，最终都会被编译成在AI Core上执行的指令。二、AI Core微架构深度解析AI Core是整个昇腾AI处理器中最复杂的部分。官方文档将其硬件抽象架构总结为三大组件：计算单元、存储单元、搬运单元，三者协同完成数据处理。此外，昇腾AI处理器根据Cube和Vector的部署方式，分为耦合架构和分离架构。简单说，耦合架构两者同核部署，分离架构则拆成独立的AIC和AIV核，各有其优势和适用场景。架构分类分离架构示意图AIC (AI Cube) —— 矩阵计算核心组件作用Cube矩阵计算单元。AI Core上的Cube计算单元，负责执行矩阵运算。以float16数据类型为例，Cube每次执行可完成两个float16类型的16x16矩阵的乘法操作。MTE1片上数据搬运单元。Memory Transfer Engine 1，AI Core的数据传递引擎，负责将数据从L1 Buffer搬运到L0A Buffer或L0B Buffer等。注意：不同硬件能力可能有差异。MTE2数据搬运单元。Memory Transfer Engine 2，AI Core的数据传递引擎，负责将数据从GM搬运到L1 Buffer、L0A Buffer、L0B Buffer、Unified Buffer等。注意：不同硬件能力可能有差异。FixPipe结果后处理与搬运单元。AI Core中负责将矩阵计算结果从L0C Buffer搬运到Global Memory或L1 Buffer的单元，搬运过程中随路完成量化、激活等操作。L1 BufferAI Core内部物理存储单元，空间相对较大，通常用于缓存矩阵计算的输入数据。矩阵计算的输入一般需要从GM搬运到L1 Buffer，然后分别搬运到L0A Buffer和L0B Buffer。L1 Buffer与逻辑内存AscendC::TPosition::A1、AscendC::TPosition::B1相对应。L0A BufferAI Core内部物理存储单元，通常用于存储矩阵计算的左矩阵，与逻辑内存AscendC::TPosition::A2相对应。L0B BufferAI Core内部物理存储单元，通常用于存储矩阵计算的右矩阵，与逻辑内存AscendC::TPosition::B2相对应。L0C BufferAI Core内部物理存储单元，通常用于存储矩阵计算的结果，与逻辑内存AscendC::TPosition::CO1相对应。FP BufferFixPipe专用缓存。AI Core内部物理存储单元，通常用于存储Fixpipe搬运过程中所需的量化参数等数据，与逻辑内存AscendC::TPosition::C2PIPE2GM相对应。

Ascend C算子开发之昇腾硬件架构详解

最新文章

阶跃星辰 GUI-MCP 解读---(2)---决策层

GPT-6倒计时，核弹级“土豆“即将引爆！200万token+永久记忆

电路分析不求人：手把手教你用戴维南定理搞定复杂电路（附Multisim仿真验证）

亚洲美女-造相Z-Turbo新手教程：如何用中文提示词精准控制发型、表情与背景风格

从零到一：手把手教你用TruckSim搭建你的第一辆虚拟牵引车模型

让AI像专家一样“理解”你——从“关键词堆砌”到“知识网络构建”

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

智能编程伙伴：让快马ai辅助你优化与调试keil嵌入式项目代码

单细胞分析避坑指南：为什么你的PBMC数据整合总失败？Seurat参数调优详解

解锁百度网盘全速下载：开源工具BaiduNetdiskPlugin功能优化与使用指南

Meshroom：从零开始的3D重建完整指南，免费AI建模软件快速上手

BOTW Save Editor GUI：解决游戏存档修改难题的5种创新方法

外贸SEO优化包年有哪些服务内容_外贸企业如何预算SEO优化包年的费用

golang如何保证断电数据的保存_golang断电数据保存方案

Windows Cleaner：开源系统优化工具的深度解析与实践指南

[实战指南]Windows环境下Python第三方包离线安装与迁移全攻略

SiameseAOE模型实战：清理与分析C盘清理教程中的有效方法

PyTorch系列 —— 深入解析nn.Module与nn.Linear的魔法调用机制

Arduino非阻塞编程：Pin与WaitDo轻量级嵌入式工具库

Ascend C算子开发 之昇腾硬件架构详解

最新文章

阶跃星辰 GUI-MCP 解读---(2)---决策层

GPT-6倒计时，核弹级“土豆“即将引爆！200万token+永久记忆

电路分析不求人：手把手教你用戴维南定理搞定复杂电路（附Multisim仿真验证）

亚洲美女-造相Z-Turbo新手教程：如何用中文提示词精准控制发型、表情与背景风格

从零到一：手把手教你用TruckSim搭建你的第一辆虚拟牵引车模型

让AI像专家一样“理解”你——从“关键词堆砌”到“知识网络构建”

推荐文章

OpenClaw云端集成Skill流程：2026年部署、配置大模型百炼APIKey、接入钉钉/QQ/飞书/微信

Python flask django高校餐饮档口管理系统的设计与实现

超实用指南：3步打造可移植版waifu2x-caffe

Go语言的JSON处理技巧

2025届毕业生推荐的AI科研平台推荐榜单

前端性能监控吐槽：别再让你的网站慢得像蜗牛！

相关文章

探索Akagi：实时牌局分析与AI决策支持的麻将辅助系统

SEO 视频在不同行业的应用有何差异_SEO 视频的长度应该控制在什么范围内

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台 植物病虫害识别系统

生成式引擎优化（GEO）实战指南：从技术架构到行业落地

嵌入式开发调试宏与性能优化实战

LosslessCut：解锁无损视频编辑的5个专业技巧

分享文章

更多文章

Ascend C算子开发之昇腾硬件架构详解

基于YOLO+DeepSeek的农作物病虫害检测与环境监测一体化智能平台植物病虫害识别系统