我们可以通过选择尽可能小的的值来解决曲线拟合问题。因为误差函数是系数的二次函数,它对系数的导数在元素中是线性的,所以误差函数的最小化有唯一的解,用表示 ,可以在封闭形式中找到。由此产生的多项式由函数给出。
仍然存在选择多项式阶数的问题,正如我们将看到的,这将成为一个称为模型对比获模型选择的重要概念的示例。在图1.4中,我们展示了四个将阶数的多项式拟合到图1.2所示的数据集的结果示例。
我们注意到常数和一阶多项式对数据的拟合较差,因此函数的表示较差。三阶多项式似乎最合适图1.4所示示例中的函数。当我们使用更高阶的多项式时,我们获得了对训练数据的 极好拟合。事实上,多项式正好通过每个数据点,。然而,拟合曲线震荡剧烈,函数的表现非常差。后一种行为称为过度拟合。
正如我们前面提到的,我们的目标是通过对新数据进行准确预测来实现良好的泛化。通过考虑由100个数据点组成的单独测试集,我们可以获得对泛化性能对的依耐性的一些定量洞察,这些数据点是使用和生成数据集点完全相同的程序生成的,但目标值中包含随机噪声值的新选择。对于每个的选择,我们可以评估(1.2)中 给出的训练数据的残值,也可以为测试数据集评估。有时使用 由定义的均方根(RMS)误差更方便
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧
相关推荐