深度学习正则化

4年前更新

2450

这是我参与8月更文挑战的第22天，活动详情查看：8月更文挑战

在某些回归问题中会遇到过度拟合的问题而导致他们的表现欠佳。

什么是过度拟合？

对于线性回归中的房价问题，我们给出一个数据集：

如果对其进行拟合：

可以明显看出这个的拟合效果并不好，我们称之为： underfit 欠拟合，或者被称为 high bias 高偏差。

使用二次项拟合良好。

但是如果使用一个四阶多项式，这似乎完美地拟合了数据，因为这条曲线通过了所有的数据点，但是我们主观上知道这并没有很好地拟合数据，这种情况就被称为 overfit 过度拟合，或者说 high variance 高方差。

逻辑回归也是如此：

Overfitting: If we have too many features, the learned hypothesis may fit the training set very well $\left(J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2} \approx 0\right)$ , but fail
to generalize to new examples (predict prices on new examples).

过渡拟合的问题概括的说，将会在变量x多的时候出现，这是训练的假设能很好地拟合训练集，所以你的代价函数非常接近于0。但你是你可能会得到这样的曲线：它努力拟合样本数据导致其无法泛化到新样本当中。

所谓泛化就是一个假设模型应用到新样本中的能力。

对于过度拟合有两个办法来解决：

Reduce number of features
- Manually select which features to keep
- Model selection algorithm （later in course）
减小选取变量的数量
- 人工选择保留哪些变量
- 模型选择算法，该算法会自动选择哪些特征需要保留，哪些特征要舍弃

这个方法的缺点是你需要放弃一些特征量，也就意味着你放弃了一些关于问题的信息。例如也许所有的特征变量都是有用的，我们就不能随意舍弃。

Regularization
- Keep all the features but reduce magnitude /values of parameters $\theta_j$
- Works well when we have a lot of features, each of which contributes a bit to predicting y
正则化
- 保留所有的特征变量，但是减少量级或者参数 $\theta_j$ 的大小
- 当我们特征量很多的时候这个方法非常有效，其中每一个变量都会对预测y值产生一点影响。

正则化

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐