C5.0决策树算法及性能提升

C5.0算法是基于C4.5开发的新版本,它能适用于很多类型的问题,同神经网络、支持向量机等复杂算法相比,它几乎可以表现地一样优秀,并且更容易理解和部署。这里我们将用UCI机器学习网站http://archive.ics.uci.edu/ml/index.php上信贷信息数据集介绍该算法,并讨论该算法下的模型性能提升。(数据可点击打开链接下载)

C5.0决策树算法及性能提升_第1张图片

该数据集包含了1000个信贷案例,一共有17个变量,其中default表示贷款申请者是否违约,从下图可以看出违约的人数占到了30%。


接下来我们将判定什么样的人最可能违约。

一、基础算法运作

首先,随机抽取训练集和测试集

>set.seed(111)

>train_sample<-sample(100

你可能感兴趣的:(C5.0决策树算法及性能提升)