深度学习 正则化

这是我参与8月更文挑战的第22天,活动详情查看:8月更文挑战

在某些回归问题中会遇到过度拟合的问题而导致他们的表现欠佳。

什么是过度拟合?

对于线性回归中的房价问题,我们给出一个数据集:

image.png

如果对其进行拟合:

image.png

可以明显看出这个的拟合效果并不好,我们称之为: underfit 欠拟合,或者被称为 high bias 高偏差。

image.png

使用二次项拟合良好。

image.png

但是如果使用一个四阶多项式,这似乎完美地拟合了数据,因为这条曲线通过了所有的数据点,但是我们主观上知道这并没有很好地拟合数据,这种情况就被称为 overfit 过度拟合,或者说 high variance 高方差。

逻辑回归也是如此:

image.png

Overfitting: If we have too many features, the learned hypothesis may fit the training set very well (J(θ)=12mi=1m(hθ(x(i))y(i))20)\left(J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2} \approx 0\right), but fail
to generalize to new examples (predict prices on new examples).

过渡拟合的问题概括的说,将会在变量x多的时候出现,这是训练的假设能很好地拟合训练集,所以你的代价函数非常接近于0。但你是你可能会得到这样的曲线:它努力拟合样本数据导致其无法泛化到新样本当中。

所谓泛化就是一个假设模型应用到新样本中的能力。

对于过度拟合有两个办法来解决:

  1. Reduce number of features
    • Manually select which features to keep
    • Model selection algorithm (later in course)
  2. 减小选取变量的数量
    • 人工选择保留哪些变量
    • 模型选择算法,该算法会自动选择哪些特征需要保留,哪些特征要舍弃

这个方法的缺点是你需要放弃一些特征量,也就意味着你放弃了一些关于问题的信息。例如也许所有的特征变量都是有用的,我们就不能随意舍弃。

  1. Regularization

    • Keep all the features but reduce magnitude /values of parameters θj\theta_j
    • Works well when we have a lot of features, each of which contributes a bit to predicting y
  2. 正则化

    • 保留所有的特征变量,但是减少量级或者参数θj\theta_j的大小
    • 当我们特征量很多的时候这个方法非常有效,其中每一个变量都会对预测y值产生一点影响。

正则化

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享