目前看来,随机森林是比较常用且有效的分类算法。以下先简要介绍python中随机森林的使用方法,然后谈谈分类结果的准确度验证和过拟合等两个重要问题。
1、随机森林的参数
在Scikit learn中使用RandomForestClassifier()进行随机森林分类,其中参数random_state为生成随机数的种子,n_estimators为随机森林的数目,min_samples_split为进一步分裂所要求的最小样本数量,min_samples_leaf为叶子节点的最小样本数量。
在处理的对象为小样本时,随机森林的数目n_estimators不宜过大;适当增加min_samples_split和min_samples_leaf都能够一定程度上避免模型的过拟合问题。
alg = sklearn.ensemble.RandomForestClassifier (random_state=1,n_estimators=150, min_samples_split=4, min_samples_leaf=2)
sklearn.cross_validation.train_test_split(*arrays,**options) X_train, X_test, y_train, y_test = cross_validation.train_test_split(iris.data,iris.target, test_size=0.4, random_state=0) >>> X_train.shape, y_train.shape ((90, 4), (90,)) >>> X_test.shape, y_test.shape ((60, 4), (60,))
sklearn.cross_validation.cross_val_score(estimator, X,y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)