机器学习 第八章集成学习

关于周志华老师的《机器学习》这本书的学习笔记
记录学习过程
本博客记录Chapter8

1 个体与集成

集成学习(ensemble learning):通过构建多个学习器来完成学习的任务。可以分成同质集成/异质集成。

  • 同质集成(homogeneous):个体学习器都是同种类型的。该类型中个体学习器称为“基学习器”(base learning algorithm)。
  • 异质集成(heterogeneous):包含不同类型的个体学习器。该类型中个体学习器称为“组件学习器”(component learner)。

image.png

集成学习通过将多个学习器进行结合,可获得比单一学习器显著优越的泛化性能,这对弱学习器更为明显(弱学习器是泛化性能略优于随即猜测的学习器)。

一般经验中,如果把好坏不等的东西掺和到一起,那么通常结果会是比最好的差一点,比最差的好一点。集成学习能获得好于最好的单一学习器的性能的原因如下:考虑二分类问题,集成学习的结果通过投票法来产生,即少数服从多数要获得好的集成,个体学习器应该“好而不同”:即个体学习器要有一定的准确性,同时要有多样性(diversity),学习器之间应该具有差异。

image.png

++++++++++++++++++++++++++++++++++++++++++++++++++++++++

简单分析,考虑对于二分类问题y{1,+1}y\in \{-1,+1\}和真实函数ff,假定基分类器的错误率为ϵ\epsilon,即对每个基分类器有:

P(hi(x)f(x))=ϵP(h_i(x)\neq f(x))=\epsilon

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享