python 随机森林分类 DecisionTreeClassifier 随机搜索优化参数 GridSearchCV

@python 随机森林分类模型 随机优化参数

学习笔记

随机森林

1.随机森林模型
随机森林算法是基于决策树算法的Begging优化版本,通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。
决策树是一个监督学习模型,可用于分类和回归,它是一个由内节点和叶节点构成的树型结构。每个内节点对应了一个关于某种特征的测试,通过测试可以把样本分开。最后位于同一叶子节点的样本被分为某一类。
决策树的划分依据:熵反映了事件的不确定性,对于一般分布事件而言,熵是各种可能性的熵以概率为权重进行加和。属性划分的标准是让每个分支纯度更高,最好是每个分支的数据尽可能属于同一类别,其实就是尽可能增加分类的确定性。而熵表示了事件的不确定性,消除熵可以增加事件的确定性,所以只需计算划分前后熵的变化,依次计算各个属性的信息增益然后选择最大的那个属性来划分分支。
随机森林模型包含许多决策树,从而可以将这个包含许多决策树的模型看做一整个森林,随机性体现在两个方面,首先是数据采样的随机,训练数据取自整个数据集中的一部分,如果每一个树模型的输入数据都是不同的,并且是有放回的采样,那么每棵树得到的结果必然也会有所差异,这是第一重随机。接下来还需考虑一下特征,如果对不同的树模型选择不同的一部分特征进行建模,结果的差异就会更大。对不同的树选择不同的部分特征进行建模,就把差异放大了,这就是第二重随机。有这两重随机性,就可以提高森林的多样性,这样再求它们的平均,结果能更稳定有效。
在本模型中首先通过测试集所给的用户基本信息,借贷信息,等设为特征值,以此来构建决策树的根节点,叶节点,来进行决策,完成对申贷客户的识别。
之后将决策树构建为随机森林,解决决策树中欠拟合,过拟合等问题,以此来提高模型的准确度。

随机搜索

我们使用Scikit-Learn 的RandomizedSearchCV 来寻找最佳的超参数组合,进行模型优化,随机搜索是用交叉验证来评估超参数值的所有组合,当超参数的搜索范围较大时,通常会优先选择使用 RandomizedSearchCV 。它不会尝试所有可能的组合,而是在每次迭代中为每个超参数选择一个随机值,然后对一定数量的随机组合进行评估。这种方法有两个优点,如果运行随机1000个迭代,那么将会探索每个超参数的1000个不同的值,而不是只探索少量的值,并且通过简单地设置迭代次数,可以更好地控制要分配给超参数搜索的计算预算。它相比于网格搜索有着更好的随机性,能够在相同时间内探索更多可能的区域,但也会带来不确定性。
本模型中通过随机搜索来对随机森林模型中bmax_features, n_estimators等参数选取最优解,以此来提高我们模型的准确度。

数据预处理

1.转换为csv格式。
2.将5个csv文件分别按id排序。
3.将bhv_train.csv、cust_train.csv、train_label.csv按id合并为一个矩阵,将bhv_test.csv、cust_test.csv按id合并为一个矩阵。
4.将合并后的文件空缺部分用算法补全
5.将数据进行挑选

// ! unzip ../input/toUser.zip -d ../output/data #压缩文件解压
pip install openpyxl
#测试集数据合并 query函数--挑选符合条件的数据并列出;sort_value函数--排序;merge函数---合并
y=train_label.query('label==1')
c=train_label.sort_values(['id'])#按照id排序
a=train_a.sort_values(['id'])
b=train_b.sort_values(['id'])
result = pd.merge(a,b)
train = pd.merge(result,c)
#最终合并完成的train
train.to_csv('train.csv')
#数据填充 fillna
train=train.fillna(train.interpolate())
#查看填充结果
print(train.isnull().sum())
#不同数值的相关度计算 corr_matrix
corr_matrix = train.corr()
corr_matrix.to_csv('corr_matrix.csv')
#和label的相关度比较 【-11>0为正相关;<0为负相关
corr_matrix["label"].sort_values(ascending=False)
#合并测试集
test_a.fillna(test_a.median(),inplace=True)
test_b.fillna(test_b.median(),inplace=True)
a=test_a.sort_values(['id'])
b=test_b.sort_values(['id'])
test = pd.merge(a, b)
test=test.fillna(test.interpolate())
#test=test.fillna(0)
test.to_csv('test.csv')
#处理特征值  drop函数扔掉列数据
traindf= train.drop('label',axis=1)
traindf=traindf.drop('id',axis=1)
traindf

随机森林代码

重要参数

max_depth:树深
max_features:特征数
n_estimators:随机森林里决策树的棵树
criterion: 特征选取方法,可以是gini(基尼系数),entropy(信息增益),通常选择gini,即CART算法,如果选择后者,则是ID3和C4,.5

#训练集训练
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeClassifier # 决策树
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier # 随机森林
#tree_reg = DecisionTreeClassifier(max_depth=5,random_state=123)
X=traindf  ##去掉label
y=train['label']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.32,random_state=123)
tree_reg = RandomForestClassifier(bootstrap= False, max_features=8, n_estimators= 152)
#tree_reg = RandomForestClassifier(oob_score=True)
tree_reg.fit(X_train, y_train)
y_pr =tree_reg.predict(X_test)#直接预测结果为numpy,需要转换为DataFrame
#numpy转换DataFrame语句
a=pd.DataFrame()
a['预测值']=list(y_pr)
a['实际值']=list(y_test)
#score函数--计算预测得分,正确率
score=accuracy_score(y_pr,y_test)
#预测概率计算
y_pred_proba=tree_reg.predict_proba(X_test)
b=pd.DataFrame(y_pred_proba,columns=['label=0','label=1'])
a['pred_prob']=b['label=1']          #pr的
a['pred_label']=list(y_pr)    
print('得分:', score)
#各个特征值的重要性
tree_reg.feature_importances_

随机搜索优化参数代码

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
#训练集训练
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeClassifier # 决策树
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier # 随机森林
#tree_reg = DecisionTreeClassifier(max_depth=5,random_state=123)
X=traindf  ##去掉label
y=train['label']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.32,random_state=123)
tree_reg = RandomForestClassifier(bootstrap= False, max_features=8, n_estimators= 152)
#tree_reg = RandomForestClassifier(oob_score=True)
tree_reg.fit(X_train, y_train)
y_pr =tree_reg.predict(X_test)

param_distribs = {
        # 均匀离散随机变量
        'n_estimators': randint(low=1, high=200),
        'max_features': randint(low=7, high=9),
    }

tree_reg = RandomizedSearchCV(tree_reg, param_distributions=param_distribs,
                                n_iter=10, cv=5, scoring='neg_mean_squared_error', random_state=42)
tree_reg.fit(X_train, y_train)
tree_reg.best_params_

网格优化参数代码

#最佳参数预测
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeClassifier # 决策树
from sklearn.model_selection import train_test_split #训练集与测试集划分
from sklearn.ensemble import RandomForestClassifier # 随机森林
from sklearn.model_selection import GridSearchCV #随机搜索参数
#tree_reg = DecisionTreeClassifier(max_depth=5,random_state=123)
#tree_reg = RandomForestClassifier()
# 模型训练
X=traindf
y=train['label']
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.32,random_state=123) #test_size=0.32,训练集与测试集比例划分
#tree_reg.fit(X_train, y_train)
param_grid = [
    # 尝试3×4=12种超参数组合
    {'n_estimators': [10, 30, 50], 'max_features': [2, 4, 6, 8,10]},
    # 之后设置bootstrap=False,再尝试2×3=6种超参数组合
    {'bootstrap': [False], 'n_estimators': [3, 10,], 'max_features': [2, 3, 4,10]},
  ]

forest_reg = RandomForestClassifier(random_state=42)
# 训练5次,总共(12+6)×5=90次
tree_reg = GridSearchCV(forest_reg, param_grid, cv=5,
                           scoring='neg_mean_squared_error',
                           return_train_score=True)
tree_reg.fit(X_train, y_train)
y_pr = tree_reg.predict(X_test)
a=pd.DataFrame()
a['预测值']=list(y_pr)
a['实际值']=list(y_test)
score=accuracy_score(y_pr,y_test)
y_pred_proba=tree_reg.predict_proba(X_test)
b=pd.DataFrame(y_pred_proba,columns=['label=0','label=1'])
print('得分:', score)
tree_reg.best_params_

你可能感兴趣的:(python,随机森林,分类)