决策树是一种树形结构的分类器,通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其它指标,构造一颗决策树。在分类时,只需要按照决策树中的节点依次进行判断,即可得到样品所属类别。
sklearn中使用sklearn.tree.DecisionTreeClassifier创建决策树
主要参数有:
criterion:用于选择属性的准则,’gini’代表基尼系数,’entropy’代表信息增益
max_features:表示决策树节点进行分裂时,从多少个特征中选择最优特征。可以设定固定数目、百分比或其它标准。默认值为使用所有特征个数。
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
#step1:创建决策树(默认为基尼系数)
clf=DecisionTreeClassifier()
#step2:加载鸢尾花数据集
iris=load_iris()
#
cross_val_score(clf,iris.data,iris.target,cv=10)
clf.fit(X,y)
clf.predict(x)