最简单的例子:
原始数据(1000个样本)↓ ├── 训练验证集(800个样本,80%) │ │ │ ├── 第一步:五折交叉验证找最佳参数 │ │ │ └── 第二步:用最佳参数在整个800个样本上重新训练 │ └── 测试集(200个样本,20%)│└── 第三步:训练完成后预测一次
1. 数据划分的正式名称
原始数据集 (Original Dataset)↓ ├── 开发集 (Development Set) / 训练验证集 (Train-Validation Set) │ │ │ ├── 用于:模型开发、调参、选择 │ │ │ └── 占比:通常 80% │ └── 测试集 (Test Set) / 保留集 (Hold-out Set)│└── 用于:最终性能评估│└── 占比:通常 20%
3. 标准实验流程描述
1. 数据集划分 (Dataset Splitting)- 将完整数据集划分为开发集和测试集- 测试集在整个模型开发过程中保持隔离2. 模型开发阶段 (Model Development Phase)a. 在开发集上执行K折交叉验证b. 通过交叉验证结果选择最佳超参数组合c. 使用选定超参数在整个开发集上重新训练模型3. 最终评估阶段 (Final Evaluation Phase)- 在隔离的测试集上进行单次性能评估- 报告测试集性能作为模型泛化能力指标
4. 学术论文中的标准写法
\section{实验设置}
数据集包含1000个样本。我们采用80-20划分,
将800个样本作为开发集,200个样本作为测试集。在开发集上,我们使用5折交叉验证进行超参数调优。
交叉验证后,使用最佳超参数在整个开发集上重新训练最终模型。最终模型性能在测试集上评估,确保评估的无偏性。
🔬 专业术语对比
| 通俗说法 | 专业术语 | 英文术语 |
|---|---|---|
| 训练验证集 | 开发集 | Development Set |
| 调参数 | 超参数优化 | Hyperparameter Tuning |
| 五折交叉验证 | 5折交叉验证 | 5-fold Cross-validation |
| 最终测试 | 测试集评估 | Test Set Evaluation |
| 模型泛化能力 | 外推性能 | Out-of-sample Performance |
本文来自博客园,作者:计算之道,转载请注明原文链接:https://www.cnblogs.com/jszd/p/19411258