源自风暴统计网:一键统计分析与绘图的网站
今天在一篇因果推断SCI论文中,看到一个词out of sample,翻译为各模型在所有处理和结局变量下的样本外 AUC 和 MSE。这是何意?“in sample test”与“out of sample”有何区别?
在统计学和数据分析中,“in sample”测试和“out of sample”测试是两种重要的测试方法,它们用于评估模型的性能和预测能力。
“In sample”测试使用模型训练时所用的相同数据集来进行测试,这意味着它使用那些已被用来创建模型的数据来评估模型的性能。
然而,这种测试方法可能导致模型过度拟合,即模型在训练数据上的表现很好,但在实际应用中可能表现不佳。过度拟合的一个原因是,模型可能已经“记住”了数据集中的噪声和异常值,这使得评估结果过于乐观。
相比之下,“Out of sample”测试使用与模型训练时不同的数据集来进行测试。通常,这个新的数据集在模型创建时是不可用的,因此也被称作“独立”或“验证”集。
这种测试方法可以更好地评估模型的泛化能力,即模型对新数据的预测能力。由于使用了独立的数据集,模型没有机会“记住”这些数据,因此评估结果更能反映模型的泛化能力。
在实际应用中,为了确保模型的稳定性和可靠性,通常会同时进行“in sample”和“out of sample”测试。这样可以更全面地了解模型的性能。然而,由于“out of sample”测试使用了独立的数据集,它被认为是一种更准确的评估方法,因为它能更准确地预测模型在实际使用中的表现。
讲到这里,是不是又觉得很熟悉,其实就是内部验证集和外部验证集的区别,换了个说法。
总之,“in sample”测试和“out of sample”测试都是评估模型性能的重要方法。尽管它们在使用和评估准确性方面存在差异,但“out of sample”测试因其使用独立数据集而被认为是更准确的方法。
关于郑老师团队及公众号
学统计就找郑老师团队,我们有全面的医学统计课程!
1.医院临床数据分析课程
临床试验(RCT)研究设计与数据分析;临床预测模型和基于R语言/Python的机器学习方法在临床预测模型中的应用(附赠全套代码);医院回顾性数据与真实世界临床研究,涵盖目标模拟试验(模拟RCT)、缺失数据填补下真实世界研究、倾向性评分方法(包括倾向性得分匹配、逆概率加权,重叠加权)等
2.纵向数据分析课程
重复测量资料分析方法培训;轨迹模型在纵向数据分析中的深度应用(全套R代码奉送)
3.公共数据库挖掘与分析课程
NHANES(美国国家健康和营养检查)公共数据库、GBD(全球疾病负担)公共数据库、七大老年健康数据库挖掘与分析课程;孟德尔随机化方法快速发表SCI初级班、高级班以及进阶攻略:整合网络药理学&单细胞测序
4.其他课程
零基础两天学会R语言;Meta分析培训课程,包含网状Meta内容;量表与中介研究数据分析培训班
26年预开课程:
剂量反应网状Meta分析(DR-NMA)、缺失数据预测模型、时依协变量模型与多状态模型在纵向数据中的应用、高级倾向性评分课程、机器学习在医学影像图片数据中的应用、HRS数据库应用与分析
需以上统计课程,请联系郑老师团队(微信:aq566665)