这是我参与8月更文挑战的第22天,活动详情查看:8月更文挑战
在某些回归问题中会遇到过度拟合的问题而导致他们的表现欠佳。
什么是过度拟合?
对于线性回归中的房价问题,我们给出一个数据集:
如果对其进行拟合:
可以明显看出这个的拟合效果并不好,我们称之为: underfit 欠拟合,或者被称为 high bias 高偏差。
使用二次项拟合良好。
但是如果使用一个四阶多项式,这似乎完美地拟合了数据,因为这条曲线通过了所有的数据点,但是我们主观上知道这并没有很好地拟合数据,这种情况就被称为 overfit 过度拟合,或者说 high variance 高方差。
逻辑回归也是如此:
Overfitting: If we have too many features, the learned hypothesis may fit the training set very well , but fail
to generalize to new examples (predict prices on new examples).
过渡拟合的问题概括的说,将会在变量x多的时候出现,这是训练的假设能很好地拟合训练集,所以你的代价函数非常接近于0。但你是你可能会得到这样的曲线:它努力拟合样本数据导致其无法泛化到新样本当中。
所谓泛化就是一个假设模型应用到新样本中的能力。
对于过度拟合有两个办法来解决:
- Reduce number of features
- Manually select which features to keep
- Model selection algorithm (later in course)
- 减小选取变量的数量
- 人工选择保留哪些变量
- 模型选择算法,该算法会自动选择哪些特征需要保留,哪些特征要舍弃
这个方法的缺点是你需要放弃一些特征量,也就意味着你放弃了一些关于问题的信息。例如也许所有的特征变量都是有用的,我们就不能随意舍弃。
-
Regularization
- Keep all the features but reduce magnitude /values of parameters
- Works well when we have a lot of features, each of which contributes a bit to predicting y
-
正则化
- 保留所有的特征变量,但是减少量级或者参数的大小
- 当我们特征量很多的时候这个方法非常有效,其中每一个变量都会对预测y值产生一点影响。
正则化
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END