目录
- 大模型推理核心指标及定义表
大模型推理核心指标及定义表
| 评估指标 | 英文全称 | 指标定义 |
|---|---|---|
| 输出吞吐量 | Output Throughput | 模型持续生成文本的速度,单位为 tokens/秒(tok/s),反映连续输出场景下的稳定性能 |
| 峰值吞吐量 | Peak Throughput | 模型瞬间能达到的最高文本生成速度,单位为 tokens/秒(tok/s),体现硬件短时算力上限 |
| 首token延迟(TTFT) | Time To First Token | 用户发出请求后,模型生成第一个token(字符)的等待时间,单位为毫秒(ms),影响交互即时性 |
| 每token延迟(TPOT) | Time Per Output Token | 模型生成第一个token后,后续每个token(字符)的平均耗时,单位为毫秒(ms),决定持续生成效率 |
| 请求吞吐 | Request Throughput | 系统每秒能成功处理的用户请求数量,单位为 requests/秒(req/s),反映高并发服务能力 |