目录
- 1️⃣ 基础阶段能力(必会)
- 2️⃣ 优化阶段能力(加分项)
- 高阶
1️⃣ 基础阶段能力(必会)
-
Python / PyTorch 基础
- 能够加载大模型,执行前向推理
- 能理解 GPU 显存使用、device 管理
-
vLLM 基本使用
- 单 GPU 上运行 Qwen / LLaMA / ChatGLM 模型
- 能控制
max_context_len,max_tokens,temperature等参数 - 能加载 LoRA 微调权重
-
量化基础
- BitsAndBytes 8bit 推理
- 知道 FP16 与 INT8 对显存和速度的影响
-
batching
- 理解批处理的作用
- 能配置
batch_size/continuous batching
面试时最常问的就是“如何在显存有限的 GPU 上部署 14B/13B 模型”,基础阶段的知识就能回答清楚。
2️⃣ 优化阶段能力(加分项)
-
吞吐量和延迟优化
- 能监控 GPU / CPU / 显存
- 调整 batch size、context length 提升性能
-
流式推理 / 异步调用
- 理解 asyncio 或 fastapi 接入模型
- 知道 continuous batching 如何提高吞吐
-
简单量化调优
- 了解 INT8、FP16 的权衡
- 能在 BitsAndBytes 参数间选择最优配置
高阶
- 多 GPU / 分布式推理
- Ray 调度 / Worker 池化 / 多模型路由
- AWQ / GPTQ 深度量化(低比特、低显存优化)
- 极限吞吐量调优(streaming + batch + async)
这些技术 主要解决两个问题:
- 显存不足:单卡无法容纳超大模型(>70B)
- 高并发场景:需要同时处理大量请求,提高吞吐量