数据挖掘课堂笔记¶
四种决策树算法比较¶
C5.0 | C&RT | CHAID | QUEST | |
---|---|---|---|---|
树形 | 多叉树 | 二叉树 | 多叉树 | 二叉树 |
输出形式 | 分类变量 | 分类、数值变量 | 分类、数值变量 | 分类变量 |
节点分裂方式 | 信息增益率 | Gini系数 | 统计显著性检验 | 自动选择 |
剪枝方式 | 依据训练集进行正态分布剪枝 | 测试集 | - | - |
C5.0缺失值使用加权平均,C&RT使用代理变量
建模比赛要点¶
-
理念符合政策
-
建模目标明确
-
数据符合客观
-
数据回滚部署
建模流程¶
- 确定目标
- 数据整合
- 数据清晰
- 构建模型
- 模型融合
- 模型评估
- 模型部署
- 数据回滚