优秀网页设计作品网站/数据分析培训
决策树
CART
算法的
Clementine
与
Python
实现比较
一、数据介绍
本次报告中使用的
Bank Marking
(银行营销)数据是通过
UCI
数据库下载获得,
该数据共涉及
45211
条客户信息,
包含
17
个变量,
其中输出变量为是否办理了定期存款业务,
是本次研究
的目标。
二、方法执行过程与结果
1.spss
下
Clementine
的实现
(
1
)数据准备:将赋值好的
SPSS
数据导入
Clementine
;
而后设置数据类型:将前
16
个自变量设为输入变量,而将客户
是否办理定期存款业务“y”设置为输出变量;接着进行数据分
区,需要将数据集分为训练集与测试集,数据比例设置为
8
:
2
,
通过
80%
的数据进行训练来构造模型,剩余
20%
的数据将作用于
该模型来进行预测。
(
2
)建模:做好数据准备后执行决策树的
CART
算法,为了
防止过度拟合进行先剪枝,将最大树状图深度设置为
5
,并选用
Gini
系数作为分解属性的标准,而后开始训练模型。由模型输
出的变量重要性排序可得,对输出变量影响较大的前四位依次
为:与客户最后一次联系的时长、以前的营销活动的结果、与客
户最后一次联系的月份,
以及通讯方式关系较大,
可以重点关注
这四方面。