算法+优化方案(一)

1、决策树:

1.1.关键词:决策树分类器;信息熵;信息增益;基尼指数

信息熵表示不确定度,不确定度越高,信息熵越大;当所有样本均属于一类,则信息熵为0,即纯度越高,基尼指数为0;当信息熵比之前的小,其差值表示信息增益(衡量某个特征对分类结果影响的大小)

1.2.matlab函数(自带):

%创建决策树分类器

ctree=ClassificationTree.fit(train_data,train_label);

%查看决策树视图

view(ctree,'mode','graph');

%仿真测试(分类预测结果)

result=predict(ctree,test_data);

1.3.优化方案:

1)分析叶子节点所含的最小样本数对决策树性能的影响;

2)剪枝


2、随机森林

2.1.关键词:随机森林分类器;多个决策树;投票众数

随机森林是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数决定的。

2.2.matlab函数(附带):

%创建随机森林分类器

model=classRF_train(train_data,train_label);

%仿真测试(分类预测结果)

[result,votes]=classRF_predict(test_data.model);

2.3.优化方案:

1)随机森林中决策树棵树对性能的影响

你可能感兴趣的:(算法+优化方案)