德阳市网站建设_网站建设公司_版式布局_seo优化
2026/1/19 20:58:18 网站建设 项目流程

在 AI 大模型训练和智算中心(AIDC)的建设中,基于 RDMA 技术的 RoCEv2 网络已成为高性能通信的标准。然而,网络中的“微突发”(Micro-burst)流量常常导致难以察觉的纳秒级拥塞,进而引发丢包严重拖慢模型训练效率。

为了彻底解决“网络黑盒”问题,星融元推出了 EasyRoCE-CMA(拥塞监控与告警) 工具。不同于传统监控,它以“纳秒级精度”和“数据自述”为核心,为 AI 时代的高性能网络提供了全新的调优视角。

技术突破:从“被动查询”到“主动自述”

传统的网络监控模式(如 SNMP Pull 或 Syslog Push)在处理高速 AI 流量时显得捉襟见肘:

  • Pull 模式:依赖服务器定期轮询,实时性受限于间隔时间,且高频采集会增加系统负担。
  • Push 模式:虽然实时性较强,但上报的信息通常是孤立的事件,难以复原完整的流量路径。

INT(带内网络遥测)技术则实现了革命性的转变:

  • 数据包即探针:让业务报文在转发过程中“自行记录”经过的每一台交换机的 ID、时延和拥塞状态。
  • 纳秒级实时性:由交换机底层芯片在转发数据平面直接填充元数据,最高支持纳秒级精度,能够完美捕捉瞬间发生的微突发问题。

核心能力:全维度捕获异常流量

EasyRoCE-CMA 并非盲目采集,而是通过两个核心机制精准定位网络瓶颈:

1. HDC(高延迟捕获)

识别“慢节点” 交换机会监控每一个报文,一旦时延超过用户设定的阈值,便会生成 HDC 报文。它能携带累计时延和丢包数量,帮助工程师一眼看穿延迟的根本原因。

2. BDC(缓冲区丢包捕获)

复现“丢包现场” 当缓冲区溢出导致丢包时,交换机会截取原始报文的前 150 字节连同设备元数据打包发送给 CMA。通过识别节点 ID 和 QP(Queue Pair)队列信息,工程师可以迅速优化缓冲区配置。

CMA 主要界面示例

CMA 本次发布的1.0版本主要包含以下几个功能界面。

CMA 首页

CMA 首页可以通览所有交换机的网络拥塞和丢包状态,默认情况下,CMA在5分钟内收到某个交换机的HDC/BDC报文,监控状态一栏相应状态会显示变红。

CMA 配置

首页点击交换机名称进入该设备的配置面板,进入该页面时,CMA会实时从交换机同步 INT 配置的开关和具体参数情况,如需修改编辑参数先要关闭 CMA 开关。

CMA 监控 – 全局监控

CMA 首页点击全局监控按钮后可在一个页面上查看被监控的所有交换机发出最近1000条 HDC 和 BDC 报文信息,其中包含报文相关的上下行设备和该报文所关联的业务报文详情。

CMA 监控 – 设备详情

CMA 首页点击设备所在行会展示指定设备上所有接口,以及接口上所有8个队列的拥塞/丢包状态,此表下方附有该交换机发出的所有 BDC/HDC 报文详情。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询