巴彦淖尔市网站建设_网站建设公司_网站制作_seo优化
2026/1/5 11:23:32 网站建设 项目流程

源自风暴统计网:一键统计分析与绘图的网站

今天在一篇因果推断SCI论文中,看到一个词out of sample,翻译为各模型在所有处理和结局变量下的样本外 AUC 和 MSE。这是何意?“in sample test”与“out of sample”有何区别?

在统计学和数据分析中,“in sample”测试和“out of sample”测试是两种重要的测试方法,它们用于评估模型的性能和预测能力。

“In sample”测试使用模型训练时所用的相同数据集来进行测试,这意味着它使用那些已被用来创建模型的数据来评估模型的性能。

然而,这种测试方法可能导致模型过度拟合,即模型在训练数据上的表现很好,但在实际应用中可能表现不佳。过度拟合的一个原因是,模型可能已经“记住”了数据集中的噪声和异常值,这使得评估结果过于乐观。

相比之下,“Out of sample”测试使用与模型训练时不同的数据集来进行测试。通常,这个新的数据集在模型创建时是不可用的,因此也被称作“独立”或“验证”集。

这种测试方法可以更好地评估模型的泛化能力,即模型对新数据的预测能力。由于使用了独立的数据集,模型没有机会“记住”这些数据,因此评估结果更能反映模型的泛化能力。

在实际应用中,为了确保模型的稳定性和可靠性,通常会同时进行“in sample”和“out of sample”测试。这样可以更全面地了解模型的性能。然而,由于“out of sample”测试使用了独立的数据集,它被认为是一种更准确的评估方法,因为它能更准确地预测模型在实际使用中的表现。

讲到这里,是不是又觉得很熟悉,其实就是内部验证集和外部验证集的区别,换了个说法。

总之,“in sample”测试和“out of sample”测试都是评估模型性能的重要方法。尽管它们在使用和评估准确性方面存在差异,但“out of sample”测试因其使用独立数据集而被认为是更准确的方法。


关于郑老师团队及公众号

学统计就找郑老师团队,我们有全面的医学统计课程!

1.医院临床数据分析课程

临床试验(RCT)研究设计与数据分析;临床预测模型和基于R语言/Python的机器学习方法在临床预测模型中的应用(附赠全套代码);医院回顾性数据与真实世界临床研究,涵盖目标模拟试验(模拟RCT)、缺失数据填补下真实世界研究、倾向性评分方法(包括倾向性得分匹配、逆概率加权,重叠加权)等

2.纵向数据分析课程

重复测量资料分析方法培训;轨迹模型在纵向数据分析中的深度应用(全套R代码奉送)

3.公共数据库挖掘与分析课程

NHANES(美国国家健康和营养检查)公共数据库、GBD(全球疾病负担)公共数据库、七大老年健康数据库挖掘与分析课程;孟德尔随机化方法快速发表SCI初级班、高级班以及进阶攻略:整合网络药理学&单细胞测序

4.其他课程

零基础两天学会R语言;Meta分析培训课程,包含网状Meta内容;量表与中介研究数据分析培训班

26年预开课程:

剂量反应网状Meta分析(DR-NMA)、缺失数据预测模型、时依协变量模型与多状态模型在纵向数据中的应用、高级倾向性评分课程、机器学习在医学影像图片数据中的应用、HRS数据库应用与分析

需以上统计课程,请联系郑老师团队(微信:aq566665)

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询