深度学习中的正则化方法详解
1. 复杂度概念
复杂度是一个源于信息理论的概念。在深度学习中,非零权重的数量会随着训练轮数、优化算法等因素发生显著变化,这使得复杂度这个直观概念还依赖于模型的训练时长。需要注意的是,网络复杂度只是一个直观层面的术语,理论上很难精确定义,其涉及的内容非常复杂。
2. ℓp 范数
在研究 ℓ1 和 ℓ2 正则化之前,需要先了解 ℓp 范数的概念。对于一个具有 xi 分量的向量 x,其 ℓp 范数定义为:
[
|\mathbf{x}|p = \left(\sum{i \in \mathbb{R}} |x_i|^p\right)^{\frac{1}{p}}
]
这里的求和是对向量 x 的所有分量进行的。下面我们先从最具代表性的 ℓ2 范数开始。
3. ℓ2 正则化
ℓ2 正则化是一种常见的正则化方法,其核心是在损失函数中添加一个额外的项,目的是有效降低网络对复杂数据集的适应能力,从而防止过拟合。
3.1 ℓ2 正则化的理论
在普通回归问题中,损失函数通常是均方误差(MSE),定义如下:
[
J(\mathbf{w}) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2
]
其中,$y_i$ 是实际测量的目标变量,$\hat{y}_i$ 是预测值,$\mathbf{w}$ 是网络所有权重(包括偏置)组成的向量,m 是观测样本的数量。
现在,我们定义一个新的损失函数 $\tilde{J}(\mathbf