特征工程完成了之后,就开始训练模型啦。这里用随机森林这个模型举例。
调包、训练模型
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier().fit(X_train,y_train)
代码讲解:
RandomForestClassifier()是模型名称,这里用的是随机森林模型;
把训练集的自变量X_train、训练集的因变量y_train放进fit()里;
定义了一个model变量来保存训练的模型和训练的结果。
计算预测结果
y_train_proba = model.predict_proba(X_train_new)[:, 1]
y_test_proba = model.predict_proba(X_test_new)[:, 1]
代码讲解:
模型训练完之后,就可以输入测试集的自变量,然后输出测试集的预测结果了;
predict_proba()是生成概率格式的预测结果,在用auc作为评分标准的时候使用;
predict()是生成0-1的预测结果,在计算准确率accuracy、召回率recall、F1值、精确率precision的时候使用。
计算auc
from sklearn.metrics import roc_auc_score
train_auc = roc_auc_score(y_train,y_train_proba)
test_auc = roc_auc_score(y_test,y_test_proba)
代码讲解:
调用计算AUC的方法roc_auc_score(),输入测试集的结果和预测的结果就能计算得分啦;
顺序是:原结果y_test 加上 训练后的结果y_test_proba依次填入roc_auc_score()中;
计算结果:
【机器学习历史文章合辑 ↓ 】
机器学习学习路径_紫昂张的博客-CSDN博客