数据分析 – 决策树模型-一一网

这是我参与8月更文挑战的第26天，活动详情查看：8月更文挑战

从以下几个方面来探讨决策树

非参数模型 – 无须对目标函数和变量做过多的假设 – 使用更灵活 – 能够处理更加复杂场景下的问题
决策树通俗意义上来讲，就是根据以往的经验进行总结，对目前事件做出相应的判断
例如根据以往下雨的经验决定要不要带伞。根据天气情况决定今天要不要出去打球

决策树主要有两步:

预剪枝 – 构造时剪枝 – 构造的过程中对节点进行评估 – 不能带来准确性提升 – 不划分
后剪枝 – 生成决策树之后再剪枝 – 叶节点向上 – 剪掉后准确性差别不大/提升 – 剪掉

简述ID3和C4.5方法的异同点
ID3选择特征时 – 选择能够使信息增益g(D,A)最大化的特征作为节点 – g(D,A)=H(D)-D(D|A)
H(D) – 决策树模型的当前信息熵； H(D|A) – 新的节点产生后的信息熵 – 会选择有较多分支的特征作为节点 – 过拟合
C4.5 – 信息增量比最大化 – g'(D,A) = g(D,A)/H'(D) = (H(D) – H(D|A))/H'(D)
H'(D) = -Σ|Di|/|D|log2|Di|/|D| – |Di|/|D| – 样本在节点各个分类数量上的占比 – 分类数量增加-H'(D)变大 – 信息增量比变小 – 避免选择有过多分支的特征作为节点
简述决策树模型的优缺点
非参数模型
相比于线性回归模型和逻辑回归模型 – 无需预先对样本进行假设 – 能够处理更复杂的样本 – 计算速度较快 – 结果容易解释 – 可同时处理分类问题和预测问题 – 对缺失值不敏感
非常强的可解释性 – 绘制分支 – 清晰地看出整体的模型选择流程 – 快速发现影响结果的因素 – 指导业务相应修改、调整
弱学习器 – 调优方法进行优化 – 仍容易过拟合 – 最终结果误差较大 – 处理特征关联性较强的数据表现得不好
决策树模型常用的调优方法有哪些？
1. 控制树的深度及节点的个数等参数 – 避免过拟合
2. 运用交叉验证法，选择合适的参数
3. 通过模型集成的方法，基于决策树形成更加复杂的模型