图解机器学习 | GBDT模型详解-一一网

图解机器学习 | GBDT模型详解

3年前更新

5140

在这里插入图片描述

作者：韩信子@ShowMeAI
教程地址：www.showmeai.tech/tutorials/3…
本文地址：www.showmeai.tech/article-det…
声明：版权所有，转载请联系平台与作者并注明出处

1.GBDT算法

GBDT（Gradient Boosting Decision Tree），全名叫梯度提升决策树，是一种迭代的决策树算法，又叫 MART（Multiple Additive Regression Tree），它通过构造一组弱的学习器（树），并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。

（本篇GBDT集成模型部分内容涉及到机器学习基础知识、决策树、回归树算法，没有先序知识储备的宝宝可以查看ShowMeAI的文章图解机器学习 | 机器学习基础知识、决策树模型详解及回归树模型详解）。

1）Boosting核心思想

Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。

Bagging与Boosting的串行训练方式不同，Bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练。

2）GBDT详解

GBDT的原理很简单：

所有弱分类器的结果相加等于预测值。
每次都以当前预测为基准，下一个弱分类器去拟合误差函数对预测值的残差（预测值与真实值之间的误差）。
GBDT的弱分类器使用的是树模型。

如图是一个非常简单的帮助理解的示例，我们用GBDT去预测年龄：

第一个弱分类器（第一棵树）预测一个年龄（如20岁），计算发现误差有10岁；
第二棵树预测拟合残差，预测值6，计算发现差距还有4岁；
第三棵树继续预测拟合残差，预测值3，发现差距只有1岁了；
第四课树用1岁拟合剩下的残差，完成。

最终，四棵树的结论加起来，得到30岁这个标注答案（实际工程实现里，GBDT是计算负梯度，用负梯度近似残差）。

（1）GBDT与负梯度近似残差

回归任务下，GBDT在每一轮的迭代时对每个样本都会有一个预测值，此时的损失函数为均方差损失函数：

l(y_{i}, \hat{y_{i}})=\frac{1}{2}(y_{i}-\hat{y_{i}})^{2}

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧

相关推荐