原文:
towardsdatascience.com/how-to-ensure-stability-of-a-model-using-jacknife-estimation-23d0dde2cd1f
在许多情况下,确保模型的鲁棒性对于良好的数据一致性和泛化未见数据至关重要。检测有影响力的个别数据观测值可能是避免不准确结果的另一个关键原因。
此过程通常涉及评估模型输出的可变性和识别潜在的偏差,尤其是在处理小数据集时。解决这些挑战的一个强大统计工具是Jackknife 估计方法。
在本文中,我们将深入探讨 Jackknife 估计的概念,通过一个实际例子进行讲解,并逐步探索其工作原理。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/35fc6fde0da287156f57ece34d8700fd.png
图片由Ryoji Iwata在Unsplash提供
什么是 Jackknife 估计?
与 Bootstrapping 类似,Jackknife 估计是一种重采样统计技术,用于估计估计量的偏差和方差。它通过每次从数据集中省略一个观测值,在剩余数据上计算估计量,然后使用得到的估计值来计算总体估计量。为了说明该技术的应用,我们将在后面解释一个关于客户流失预测的常见实际例子。
Jackknife 估计的数学原理
设原样本为 _s={x_1, …, xn},我们想要估计参数theta,它可以是任何统计量,如样本均值、客户流失率,甚至是单个预测概率。这个估计量将被称为theta的原估计量。
首先生成n个样本,每个样本移除第i个元素,并使用剩余的n-1个观测值计算统计量:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/072882d92f47c3c5365315fb84842630.png
基于 Jackknife 子样本计算的统计量 – 图片由作者提供
然后,通过计算 Jackknife 样本的平均值来汇总估计:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/893d553f47625d94665ab2ff234a4fd7.png
Jackknife 平均 – 图片由作者提供
估计参数的 Jackknife 偏差如下:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a27ef4b4d185fe565a90fa3ad1dfd634.png
Jackknife 偏差 – 图片由作者提供
并且方差估计如下:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/71fa9c653163e5a559f476027bafdfda.png
Jackknife 方差 – 图片由作者提供
最后,可以计算出原始参数的 Jackknife 估计量:
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0b111edb6eb91da652814d5ef8d405d4.png
Jackknife 偏差校正估计量 – 作者图像
这个新估计量的偏差为 0。在实践中,这并不完全等于 0,因为它实际上是泰勒级数的一阶近似,但渐近地将始终小于任何给定估计量的偏差[1]。这意味着虽然 Jackknife 可能在小型数据集中不能完全消除偏差,但它与原始有偏估计量相比仍然显著减少了偏差。
与 Bootstrap 的区别
Bootstrapping是一种通过重采样来估计估计量分布的知名方法。这是一个有用的方法,因为它避免了关于原始数据内在分布的其他常见统计方法的任何假设。
两者都是基于重采样的非参数技术,用于估计数据集的偏差和方差。然而,Jackknife 是 Bootstrap 的前身,由 Quenouille 在 1949 年描述,并在 20 世纪 50 年代由 Tukey 进一步完善。
然而,Bootstrap 方法的一个主要特征——有放回的抽样——并没有被 Jackknife 所遵循,后者基于无放回重采样。
两种方法之间另一个有趣的联系是,Jackknife 是 Bootstrap 方法的线性近似。参见参考文献[1]以获取更多详细信息。
实际示例:流失预测
想象你构建了一个基于客户数据(如订阅时长和其他与你的产品相关的特征)的预测模型来检测客户流失。流失率通常与整个人群相比非常小,因此在预测中很容易出现假阳性或假阴性。为了避免这种情况,你希望评估模型的稳定性并估计每个数据点的流失预测敏感性。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c5cda9ad5d956e07242c36cea70abf68.png
特征 1 和 2 与流失概率的散点图(数据模拟) – 作者图像
上图显示了两个人工特征与流失概率之间的关系。尽管数据是模拟的,但目的是为了说明在现实数据集中检测流失的复杂性。有时,没有特定的模式,分布的内在变异性使得构建一个健壮的流失检测模型变得困难。我们稍后会回顾标记的数据点。
为了确保鲁棒性,在用整个样本训练预测模型后,逐个移除数据集中的客户。然后在剩余的n-1个客户上重新训练模型,并使用重新训练的模型记录所有客户的流失预测。这些被称为Jackknife 样本。
现在,使用 Jackknife 样本估计模型的偏差和方差,并了解为什么某些预测与预期不符。
检测低估或高估的预测
Jackknife 偏差估计了在完整数据集上计算的预测与 Jackknife 估计平均值之间的差异。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7fe335a2f90e4b96440edc2eb69f0f4d.png
Jackknife Bias for Predictions by Predicted Churn – 图像由作者提供
观察 77 是一个具有高度负面偏见的预测流失客户。这表明模型对该特定观察值系统地高估了。在这种情况下,真实的流失概率是 0.65,而估计值为 0.70。另一方面,点 56 的原始流失概率为 0.31,被低估至 0.08。
即使最终的准确度指标可能不会高度受到个别预测的影响,例如在示例中,这种方法帮助我们识别有偏见的预测,在某些情况下可能导致错误地针对客户并做出错误的企业决策。
其原因可能是模型可能过于简单,无法捕捉数据中的关系,或者模型可能缺乏足够的数据来正确表示某些模式。
测量模型的稳定性
模型的稳定性可以通过计算 Jackknife 迭代中的预测方差来衡量。一个稳定的模型将在所有客户的预测中显示出低方差,而在相反的情况下,高方差将表明对数据的小变化敏感。
https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7b93fd281f75a99253b239dbc7db1a7a.png
Jackknife Variance for Predictions by Predicted Churn – 图像由作者提供
与剩余观察值相比,客户 15、77、41 和 91 的预测在 Jackknife 样本中显著波动。因此,它们可能是预测不准确,并且它们增加了模型的复杂性。
有影响力的数据点的存在可能导致模型不稳定,对噪声反应过度。作为解决方案,您可以通过移除有影响力的观察值来简化模型。
结论
当您想要评估调整模型的变异性和偏差且样本量小时,Jackknife 是一种推荐的技术。对于大样本量,Bootstrap 将是一个更好的选择。
这些技术帮助您确定模型是否依赖于某些观察值,并确保模型稳定可靠,从而提高针对个人的信心。
参考文献
- [1] McIntosh, Avery I. The Jackknife Estimation Method (2016)arXiv: 方法学。
感谢阅读!✨
请随意评论!我们都在学习,所以我很乐意讨论任何与技术或数据相关的话题!
让我们在LinkedIn或X/Twitter上建立联系。