五家渠市网站建设_网站建设公司_建站流程_seo优化
2026/1/12 23:12:55 网站建设 项目流程

文章目录

  • 1 KS值概述
  • 2 KS值的计算原理
    • 2.1 基本概念
    • 2.2 计算步骤
  • 3 KS曲线(KS Plot)
    • 理想情况下的KS曲线:
  • 4 KS值的解读标准
  • 5 计算示例
  • 6 KS值的优缺点
    • 优点:
    • 缺点:
  • 7 KS值 vs AUC
  • 8 总结

1 KS值概述

KS(Kolmogorov-Smirnov)值是一种衡量分类模型(尤其是二分类模型)区分能力的指标。它通过比较正负样本的累积分布来评估模型将"好客户"和"坏客户"分开的能力。

核心思想:一个完美的模型应该能够将所有的"坏客户"(正样本)和"好客户"(负样本)完全分开。

2 KS值的计算原理

2.1 基本概念

在计算KS值时需要得到:

  • 模型预测概率:模型对每个样本预测为正类(如"坏客户")的概率
  • 真实标签:样本的真实类别(好/坏)

2.2 计算步骤

  1. 按预测概率排序:将样本按照模型预测的概率从高到低排序
  2. 等分分组:将排序后的样本分成若干组(通常10-20组)
  3. 计算累积分布
    • 累积好客户占比:从概率最高组开始,累计好客户数量占总好客户的比例
    • 累积坏客户占比:从概率最高组开始,累计坏客户数量占总坏客户的比例
  4. 计算KS值:找到累积坏客户占比与累积好客户占比的最大差值

数学公式
K S = max ⁡ i = 1 n ∣ F bad ( i ) − F good ( i ) ∣ KS = \max_{i=1}^{n} |F_{\text{bad}}(i) - F_{\text{good}}(i)|KS=i=1maxnFbad(i)Fgood(i)

其中:

  • F bad ( i ) F_{\text{bad}}(i)Fbad(i):前i组中坏客户的累积占比
  • F good ( i ) F_{\text{good}}(i)Fgood(i):前i组中好客户的累积占比
  • n nn:分组数量

3 KS曲线(KS Plot)

KS值通常通过KS曲线来可视化:

  • 横轴:分组序号(从预测概率最高到最低)
  • 纵轴:累积百分比
  • 两条曲线
    • 坏客户累积分布曲线:上升较快,因为坏客户集中在高分区域
    • 好客户累积分布曲线:上升较慢,因为好客户相对均匀分布
  • KS值:两条曲线之间的最大垂直距离

理想情况下的KS曲线:

  • 坏客户曲线迅速上升到1,然后保持平稳
  • 好客户曲线缓慢上升
  • 两条曲线分离度很大

4 KS值的解读标准

根据经验,KS值的评价标准如下:

KS值范围模型区分能力评价
< 0.2模型基本没有区分能力
0.2 - 0.3一般有一定的区分能力,但较弱
0.3 - 0.5较好模型有较好的区分能力
0.5 - 0.75模型有很强的区分能力
> 0.75极强(可能可疑)需要检查是否存在数据泄露

注意

  • 在金融风控领域,KS值通常要求大于0.3
  • KS值不是越高越好,过高的KS值可能意味着过拟合或数据泄露
  • KS值对样本分布比较敏感

5 计算示例

假设我们有10个样本,按预测概率排序后的结果:

样本预测概率真实标签累积坏客户占比累积好客户占比差值
10.950.200.2
20.900.400.4
30.850.40.1250.275
40.800.60.1250.475
50.750.60.250.35
60.700.80.250.55
70.650.80.3750.425
80.600.80.50.3
90.551.00.50.5
100.501.01.00

计算过程

  • 总坏客户数:5个
  • 总好客户数:5个
  • 在第6个样本处,差值最大:0.55

因此,KS值 = 0.55

6 KS值的优缺点

优点:

  1. 直观易懂:通过单一数值反映模型区分能力
  2. 业务解释性强:在金融风控中广泛使用
  3. 不受类别不平衡影响:关注的是分布差异,而不是绝对数量
  4. 阈值无关:不像准确率那样依赖于特定分类阈值

缺点:

  1. 对样本分布敏感:样本分布变化会影响KS值
  2. 只关注最大差异:可能忽略了整体的分布信息
  3. 在深度学习中较少使用:更多使用AUC等指标
  4. 受分组数量影响:不同的分组方式可能得到不同的KS值

7 KS值 vs AUC

特征KS值AUC
关注点累积分布的最大差异ROC曲线下的面积
范围[0, 1][0.5, 1]
业务解释模型最大区分程度整体排序能力
敏感性对分布敏感相对稳定
应用场景金融风控、信用评分通用分类问题

关系:一般来说,KS值和AUC有正相关关系,但不是严格的线性关系。

8 总结

KS值是风险评分模型中至关重要的评估指标:

  • 核心:衡量模型区分正负样本的能力
  • 计算:通过比较累积分布的最大差异
  • 标准:通常要求KS > 0.3
  • 可视化:通过KS曲线直观展示
  • 应用:特别适用于金融风控、信用评分等场景

掌握KS值不仅有助于模型评估,还能帮助理解模型的业务表现,是在风险建模领域必须掌握的核心指标之一。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询