泸州市网站建设_网站建设公司_SQL Server_seo优化
2025/12/19 15:53:56 网站建设 项目流程

引言

AIGC、辅助驾驶、具身智能等前沿应用正以前所未有的速度推动着 AI 技术的变革。这些场景催生了对于存储系统的极致需求,也暴露出传统存储架构的明显瓶颈:一方面,存储系统需要提供海量容量以支撑海量原始数据集存储,另一方面,存储性能已成为决定AI集群整体效率的关键路径,高吞吐和低延迟是避免昂贵算力闲置、保障训练与推理效率的核心考虑因素。

受限于跨协议访问的协议转换开销,高密度存储的低容量吞吐比等因素,传统对象存储架构在这些新兴需求面前显得力不从心,难以同时兼顾海量低成本存储和高性能访问的诉求。为突破这一困境,腾讯云推出了基于对象存储的高性能对象存储解决方案。

基于对象存储的扩展能力和低成本优势,腾讯云为 AI 提供了统一数据存储底座。在此基础上,腾讯云推出的新一代高性能存储方案通过高性能客户端、高性能缓存、高性能跨域传输加速等技术,成功在对象存储上实现了高带宽与低延迟。它不仅满足了 AI 对容量和性能的极致需求,更通过标准化的接口简化了数据管理,为构建统一、高效、易于扩展的 AI 数据平台奠定了坚实基础。

解决方案全景

腾讯云高性能对象存储解决方案是基于对象存储 COS 构建的端到端解决方案,通过高性能客户端、高性能缓存以及高性能跨域传输加速能力,为 AI 类业务提供高吞吐、低延迟的高性能访问,兼顾业务成本和性能的需求:

  1. 高性能客户端 GooseFS MountPoint:基于腾讯云自研 TCFuse 提供的高性能 POSIX 语义客户端。允许您将 COS 存储桶作为本地文件系统挂载到您的操作系统上,让计算层可以像本地文件系统一样访问 COS 存储桶。

  2. 高性能缓存 GooseFS:实现数据的统一缓存和分层透明加速。通过智能缓存分层、统一命名空间、智能数据流动等多种技术手段,透明加速多个 COS 存储桶中的数据。

  3. 高性能跨域传输加速 COS Transfer Accelerator:提供高速互联的跨域传输加速能力。支持数据在不同地域间通过腾讯云骨干专线传输,提升多地训练效率。

1

技术亮点讲解

高性能客户端 GooseFS MountPoint

GooseFS MountPoint 基于自研 TCFuse,通过缓存优化、智能预读、自适应 IO 以及并发优化等技术手段,性能上有大幅提升,读写速度更快:

  1. 统一挂载:GooseFS MountPoint 为计算层提供了统一挂载访问点。一方面,GooseFS MountPoint可以利用节点内存或者磁盘实现本地缓存;另一方面,也可以基于高性能缓存 GooseFS 实现分布式缓存;同时,GooseFS MountPoint 也支持直连 COS 普通存储桶、COS 高性能存储桶等多种不同性能规格的持久层存储,业务可按需配置,实现极致性能表现。

  2. 缓存优化:GooseFS MountPoint 通过读写缓存缩短数据 IO 路径,并通过多种配置允许用户结合业务需求按需配置,提升业务性能表现:

    a. 用户发起读写文件请求时,会通过内核发起 TCFuse 请求调用指令。
    b. TCFuse 收到请求指令后,优先和缓存抽象层交互,遵循“优先读写本地”的原则。对于读请求,如果数据在缓存中,则直接返回,速度最快。对于写请求,通常先写入高速的内存缓存,再异步下刷,以提升应用响应速度。
    c. 在数据读取和写入过程中,GooseFS MountPoint 通过智能预读和并发优化等技术进一步提升客户端性能表现。

2

  1. 智能预读:GooseFS MountPoint 引入了智能预读机制,能够根据用户的访问模式和配置参数,提前加载可能需要的数据。尤其是在大文件顺序读和小范围随机读场景中,这一特性都能带来明显的性能提升。在开启了智能预读的前提下,GooseFS MountPoint 文件客户端单流读取性能高达 1.3GB/s 以上。

  2. 自适应 IO:在预读能力的基础上,GooseFS MountPoint 支持基于平均连续 IO 的大小,动态调整预读块,减少额外读取数据的开销;在混合负载的情况下,这种优化效果更为明显,可以提升 8 倍的性能。

  3. 并发优化:在文件写入方面,GooseFS MountPoint 重新设计了上传机制,通过优化的连接池和并发控制策略,大大提高了大文件上传的效率和稳定性,单流写入带宽可以达到 1.9GB/s 以上。无论是 GB 级还是 TB 级的大文件,都能高效稳定地上传到云端存储。

3

除了性能提升,GooseFS MountPoint 还引入了热升级、流控、审计日志、监控等企业级功能,确保在生产环境中的稳定性和可运维性:

  1. 热升级:传统文件系统客户端,如果要升级版本,需要卸载重挂,导致业务中断,在 AI 训练等长周期任务中尤为致命。GooseFS MountPoint 支持业务无感知的平滑演进,实现零停机更新,客户端版本更新无需重新挂载,对上层应用完全透明。在热升级过程中:
    a. 用户只需按照带业务热升级的模式启动新进程,GooseFS MountPoint 即可向旧进程发起暂停指令,保留旧进程的 inode 和 open 信息。
    b. 旧进程将其正在使用的、与内核建立的文件句柄返回给新进程后退出;新进程使用旧进程移交过来的文件句柄,重新建立与内核 FUSE 模块的连接后,依次恢复旧进程的 inode 和 open 信息。
    c. 所有恢复步骤成功后,新进程正式确认热升级成功。新旧进程通过 fuse fd 和关键上下文的传递,实现了内核层文件系统连接和业务状态的平滑转移。

4

  1. 智能流控:为了有效控制客户端对客户端资源、云存储资源的占用,面对多租户、高并发场景,GooseFS MountPoint 内置了多维度的流控策略。

  2. 日志监控:提供多种级别的日志,方便业务追踪全链路性能表现,提升排障效率;同时,支持将客户端运行状态上报到 Prometheus 等监控服务,提升可观测性。

这几项能力共同构成了 GooseFS MountPoint 的企业级护城河:热升级确保业务连续性,支持7×24小时不间断服务;智能流控提供系统稳定性,防止资源过载导致的连锁故障;日志监控实现客户端的可观测性,满足业务的运维运营需求。

高性能缓存 GooseFS

  1. 智能缓存分层
    GooseFS 缓存分层能力实现了自动化的热数据识别与缓存策略,将热数据动态保留在本地高速存储层,冷数据自动下沉至对象存储,方便用户灵活管理冷、热数据;既能为高性能计算业务提供极高性能和极低时延,又能够将 GooseFS 上产生的计算结果沉降到 COS,实现持久化、低成本保存。
  2. 统一命名空间
    GooseFS 聚合了 GooseFS 本地高速缓存和 COS 对象存储的海量存储空间,为用户构建了统一的文件系统视图。对用户应用程序而言,无论数据实际物理位置在哪里,都通过同一个路径进行访问,实现了统一接入。

同时,GooseFS 可将文件系统与多个对象存储 COS 存储桶结合使用,即 GooseFS 映射多个存储桶,并行加速多个 COS 存储桶,通过 GooseFS 分布式的高性能设计,支持每秒百万级元数据操作。

5

  1. 智能数据流动
    GooseFS 智能数据流动在分层缓存和统一命名空间的基础上,通过按需加载和多种触发模式管理业务数据在 GooseFS 和 COS 之间的流转。数据流动支持通过配置 COS 跨域传输加速域名,能够自动选择最优网络路径,显著降低跨地域访问延迟;在同步数据时也支持增量同步机制,仅传输变化数据块,可以极大节省带宽成本。

GooseFS 按需加载能力表现说明如下:

  1. 当主机首次从 GooseFS 上读取文件时,GooseFS 发现仅有文件的元数据,会自动读取 COS 桶对应文件,直接返回给主机;通过并行处理技术,加速数据传输性能。

  2. 后续再从 GooseFS 上读取文件时,会命中缓存,直接从 GooseFS 缓存层返回结果,无需再访问 COS,享受百微秒级的延迟和极高的吞吐。

  3. 当 GooseFS 的数据降冷后,通过沉降能力到 COS 桶,释放 GooseFS 空间。GooseFS 保留全量的元数据,通过透明的命名机制,可以融合管理多个 COS 桶海量存储空间,为用户提供一个统一命名空间,兼顾性能与成本。

6

GooseFS 通过周期触发和事件触发等多种触发模式将数据从 COS 同步到 GooseFS 中,实现数据在缓存层和持久层的一致性。周期触发模式可支持按小时、天、周等自定义时长,周期性地将数据从 COS 中搬迁到 GooseFS 中;事件触发模式则基于元数据发现能力触发数据流动任务,在对象存储的数据发生更新时立即更新缓存。

高性能跨域传输加速

受限于 GPU 资源的多地域分布,跨地域的数据访问需求随之而来。传统架构下需要将数据复制多份,并通过不同域名拷贝到对应园区的计算集群的本地存储中,数据存在多次拷贝动作;腾讯云基于高性能内网传输加速能力为 GPU 多地训练架构提供了高效、便捷的方案。

  1. 数据统一存储
    所有数据统一存储在指定的对象存储(COS)园区,通过腾讯云内部骨干专线网络进行数据拉取,提供了高带宽、低延迟、高可靠性的能力,从源头上杜绝因数据多地分布所带来的副本一致性问题,极大简化了数据管理和权限控制。
  2. 访问性能优化
    为了提升 AI 海量小文件跨区访问时网络传输的传输稳定性和性能,腾讯云通过拥塞算法优化、内核协议优化以及跨区共享长连接池等深度技术优化,将网络传输潜力发挥到极致:
  • 通过拥塞控制算法优化,显著提升了网络在高延迟、大带宽环境下的吞吐效率与稳定性,有效对抗网络抖动。
  • 利用 TSO 等优化将数据包分段等计算任务从 CPU 转移至网卡,大幅降低了 CPU 负载,提升请求效率。
  • 通过跨区共享长连接池技术,避免了每次请求都需重新建立 TCP 连接所带来的数次网络往返延迟开销。
  1. 低侵入性和高灵活性
    对上层业务而言,整个复杂的加速架构被抽象为一个统一的加速域名。业务侧无需进行大规模的代码改造,通常仅需在配置文件中将原有 COS 访问域名替换为此加速域名,即可无缝接入所有优化能力,实现了业务代码与底层基础设施的解耦。
    这种设计使得链路的切换、流量的调度乃至故障容灾,都可以快速通过配置变更完成,让开发者和运维团队能够聚焦于业务逻辑本身,而非复杂的网络与存储细节。

7

典型案例介绍

某客户是专注于乘用车 L4 级辅助驾驶解决方案的科技企业,其业务覆盖全球多个国家和地区,每年路测车辆产生超过数 PB 的原始驾驶数据。其核心的智能驾驶数据闭环业务流包括:

  1. 数据采集:路采车每日产生海量原始传感器数据;
  2. 数据预处理:对数据进行解析、抽帧、压缩、脱敏;
  3. 数据标注:对关键场景数据进行高精度标注,并从中挖掘有价值的长尾问题样本;
  4. 模型训练:使用标注后的数据,在数千张 GPU 卡上进行大规模分布式模型训练;
  5. 仿真测试:进行大规模、高并发的仿真测试,验证模型效果。
    在数据闭环中,存储系统是连接各环节的血脉,客户迫切需要一种既能提供极致 I/O 性能,又能与云上对象存储无缝集成、具备智能缓存和生命周期管理能力的高性价比解决方案。
    图片

腾讯云团队在对客户的业务流进行深入剖析后,通过高性能对象存储解决方案提供端到端的数据访问加速能力。整体技术架构上,所有数据持久化在对象存储 COS 上;GooseFS 就近计算端部署,智能缓存热点数据;计算集群就近访问 GooseFS 高性能缓存。整体数据流向如下:

  1. 所有通过路采车上传的原始数据,首先持久化到对象存储 COS;
  2. 当数据清洗、训练或仿真任务需要特定数据集时,GooseFS 智能缓存能力会自动将所需数据从 COS 预取或按需缓存到本地全闪存储池中;
  3. 计算任务通过 GooseFS MountPoint 提供的 POSIX 接口直接访问缓存数据,支持极高的 Tbps 级别的吞吐和亚毫秒级的访问时延,彻底消除了 I/O 瓶颈;
  4. 清洗后的标注数据、训练得到的模型文件、仿真结果等,由计算任务写入 GooseFS,并由 GooseFS 的异步或同步策略,将这些结果数据回写至 COS 进行持久化保存。
    通过高性能对象存储解决方案,客户的数据闭环流程发生质的飞跃,数据预处理时长减少 35%,GPU 利用率显著提高至 90+%,模型训练时长缩短30%-50%;同时,整体存储成本降低超30%;统一的 POSIX 接口简化了数据访问,热冷数据自动流动,极大提升了数据管理效率。

总结

腾讯云高性能对象存储解决方案依托对象存储(COS)服务,通过高性能客户端 GooseFS MountPoint、高性能缓存 GooseFS、COS 跨域传输加速等核心能力,为 AI 业务场景提供高吞吐、低延迟的数据访问能力,帮助企业解决了访问协议开销大、数据访问性能差、数据流动和管理难等挑战,助力企业大幅度提升 AI 业务效率。未来,腾讯云存储还将进一步基于业务需求,推出高性能存储类型等面向 AI 的原生对象存储服务,进一步提升数据访问效率,降低企业使用门槛。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询