跳转至

数据挖掘课堂笔记

四种决策树算法比较

C5.0 C&RT CHAID QUEST
树形 多叉树 二叉树 多叉树 二叉树
输出形式 分类变量 分类、数值变量 分类、数值变量 分类变量
节点分裂方式 信息增益率 Gini系数 统计显著性检验 自动选择
剪枝方式 依据训练集进行正态分布剪枝 测试集 - -

C5.0缺失值使用加权平均,C&RT使用代理变量

建模比赛要点

  1. 理念符合政策

  2. 建模目标明确

  3. 数据符合客观

  4. 数据回滚部署

建模流程

  1. 确定目标
  2. 数据整合
  3. 数据清晰
  4. 构建模型
  5. 模型融合
  6. 模型评估
  7. 模型部署
  8. 数据回滚