核心原则:工作日每天 1.5-2 小时,周末每天 3-4 小时,兼顾工作与学习,拒绝疲劳战
第一阶段(第 1-4 周):工具链精通 & 性能基线搭建
第 1 周:perf/ftrace 工具入门
日期
打卡任务(每日 1.5h)
验收标准
周一
学习 perf 基本命令(perf stat/top/record)
用 perf stat 分析 ls 命令耗时
周二
perf record + perf report 实战,分析 CPU 热点函数
定位 1 个简单程序的高耗函数
周三
ftrace 基本使用(trace-cmd),了解函数调用链
追踪内核 schedule 函数调用
周四
结合业务,用 perf 分析云底座 API 进程 CPU 占用
输出 CPU 占用 top5 函数清单
周五
整理本周命令笔记,总结 perf/ftrace 适用场景
形成 1 页工具使用速查表
周末
复现 1 个线上常见 CPU 高占用问题,用工具定位根因
撰写问题排查步骤文档
第 2 周:内核调度 & 内存优化
日期
打卡任务(每日 1.5h)
验收标准
周一
学习 CFS 调度器原理,了解 nice 值、cfs_period_us
调整进程 nice 值,观察 CPU 占比变化
周二
研究 NUMA 架构,掌握 numactl 工具使用
绑定进程到指定 NUMA 节点,测试性能
周三
透明大页 /hugepage 原理,配置开启 / 关闭
对比开启前后应用内存访问时延
周四
调整云服务器内核调度参数(sched_migration_cost)
单机负载均衡率提升 5%
周五
整理内核参数调优清单,标注适用场景
输出 10 个常用性能参数表
周末
搭建测试虚拟机,模拟高负载场景验证优化效果
记录优化前后性能对比数据
第 3 周:性能基线搭建
日期
打卡任务(每日 1.5h)
验收标准
周一
梳理核心业务:云底座 API、VM 启停、存储 IO
列出 3 类核心业务的关键指标
周二
学习性能基线定义方法,确定指标阈值(时延 / 吞吐量)
为 API 响应时延设定合理基线
周三
编写脚本,周期性采集业务指标数据
实现每 5 分钟自动采集 1 次数据
周四
分析采集数据,绘制指标趋势图
生成 1 周的 API 时延趋势折线图
周五
输出核心业务性能基线文档,明确告警阈值
文档包含指标定义、基线值、告警规则
周末
针对基线异常值,分析原因并标注
完成基线文档修订
第 4 周:可观测监控落地
日期
打卡任务(每日 1.5h)
验收标准
周一
部署 Prometheus + Grafana 基础环境
实现 Prometheus 监控本机 CPU / 内存
周二
学习 exporter 开发,编写简单的业务指标 exporter
自定义 API 时延指标接入 Prometheus
周三
部署 eBPF_exporter,采集内核态指标
监控进程 syscall 调用次数
周四
在 Grafana 配置核心业务仪表盘
仪表盘包含 3 类业务的实时指标
周五
配置告警规则,测试告警触发与通知
模拟指标超标,接收告警邮件
周末
优化仪表盘展示,添加指标联动与钻取
实现 1 次点击查看指标详情
第二阶段(第 5-8 周):云原生资源管理 & 性能优化实践
第 5 周:K8s 调度扩展
日期
打卡任务(每日 1.5h)
验收标准
周一
复习 K8s 调度原理,了解默认调度器流程
能画出 K8s 调度器核心流程图
周二
学习 Node 亲和性、Pod 亲和性配置
部署 Pod 并验证亲和性规则生效
周三
研究 Custom Scheduler 开发基础
编写简单的自定义调度器 demo
周四
基于负载的调度策略设计,修改调度器配置
实现 Pod 优先调度到低负载节点
周五
整理 K8s 调度调优案例
输出 5 个调度优化场景方案
周末
在测试集群部署自定义调度策略,验证资源利用率
集群资源利用率提升 10%
第 6-8 周 核心任务框架(可参考第 5 周细化)
周数
核心目标
每日核心动作
周末验收
第 6 周
containerd 优化
学习镜像分层 / 运行时配置,调整镜像拉取策略
容器启动时间缩短 15%
第 7 周
KVM 虚拟化调优
配置 virtio 网卡 / 磁盘,vCPU 绑定,内存气球技术
虚拟机网络时延降低 20%
第 8 周
在线 / 离线业务混部
学习干扰检测算法,部署混部调度策略
集群资源利用率达 60%+
第三阶段(第 9-12 周):异构算力适配 & 技术沉淀
周数
核心目标
每日核心动作
周末验收
第 9 周
GPU/NPU 集群接入
学习 NVIDIA GPU Operator 部署,配置 K8s GPU 调度
完成 1 台 GPU 服务器接入集群
第 10 周
大模型推理优化
学习 vLLM 部署,调整内存池化参数
大模型推理时延降低 10%
第 11 周
自动化工具开发
用 Python 编写大页配置 / 性能采集脚本
脚本批量应用于 10 台服务器
第 12 周
技术沉淀输出
整理优化案例,撰写技术博客
输出 2 篇可对外分享的文档
打卡小贴士
- 每天结束后记录学习时长和遇到的问题,周末集中解决
- 优先在测试环境操作,避免影响生产
- 遇到技术卡点可查阅之前整理的资源清单,或在社区提问