关键词: CART,C4.5,ID3;
算法思想:
(1)输入所有特征数据,计算各特征信息增益,选取信息增益最大的特征作为分类节点
(2)在新的节点下,计算除去上一步骤之后的所有特征的信息增益,选取最大信息增益的特征作为节点
(3)重复上述步骤,直至叶子节点
缺点:
(1)没有剪枝策略
(2)偏好取值较多的特征
(3)只能处理离散分布的特征
(4)没有考虑缺失值
算法思想:
C4.5在ID3的基础上做了一些优化
(1)引入悲观后剪枝策略
(2)使用信息增益率作为划分标准
(3)将连续特征离散化,对于有N个取值的特征A,先进行排序,选择每两个取值的均值作为二分点,计算相应信息增益率,选取信息增益率最大的结点作为当前二分点
(4)对于缺失值的处理:a.使用无缺失的样本集计算信息增益率 b.将有缺失值的样本划分到所有分类节点中
缺点:
(1)只能用于分类
(2)多叉树,用二叉树更优
(3)计算量大,运行成本高
1.CART可用于分类和回归
2.CART每个根节点只有两个分类,是和否,即便该特征有多于2个的取值,如一线城市、二线城市……五线城市,每个节点处也只会分为是否一线城市,是否二线城市
3.CART的分叉依据是基尼指数
4.后剪枝