python实现随机森林的特征变量重要性排序

      大家好,我是带我去滑雪!

      随机森林的特征变量重要性排序在特征选择和特征分析中具有广泛的用途。它可以用来识别哪些特征对目标变量的预测最为重要,从而帮助我们理解数据中的关键特征和影响因素。特征变量重要性排序的一些常见用途如下:

  1. 特征选择:特征变量重要性排序可以用作特征选择的指标。通过保留排在前面的重要特征,我们可以减少特征空间的维度,简化模型并降低过拟合的风险。这有助于提高模型的解释能力和泛化能力。

  2. 特征分析:通过特征变量重要性排序,我们可以了解哪些特征对目标变量的预测起到了关键作用。这可以帮助我们更好地理解数据,并找出对预测具有最大影响的特征。这些信息可以用于指导进一步的特征工程,或者为业务决策提供有价值的见解。

  3. 模型调优:特征变量重要性排序可以帮助我们评估和比较不同模型的性能。通过观察模型中的特征变量重要性,我们可以辨别模型中的错误或不必要的特征,进而进行模型调优。例如,我们可以尝试删除排在较低位置的不重要特征,以优化模型的准确性和效率。

  4. 特征衍生:特征变量重要性排序还可以指导特征衍生的过程。通过观察排在前面的重要特征,我们可以推断出可能的特征组合或衍生特征。这有助于发现新的特征组合或变换方式,进一步改进模型的性能。

       本期将使用python逐步实现随机森林的特征变量重要性排序。

目录

1、导入相关模块与数据

2、划分特征变量、响应变量,并进行标准化

3、训练模型获取变量重要性得分

4、可视化特征重要性排序


1、导入相关模块与数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import KFold,StratifiedKFold
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score
get_ipython().run_line_magic('matplotlib', 'inline')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'
import warnings
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 
import datetime
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi']  #中文
plt.rcParams['axes.unicode_minus'] = False   #负号
get_ipython().run_line_magic('matplotlib', 'inline')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
import warnings
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import networkx as nx
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus'] = False 
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost.sklearn import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.neural_network import MLPRegressor
data=pd.read_csv('E:/工作/硕士/博客/博客粉丝问题/data.csv')
data=data.iloc[0:1516,]
data

输出结果:

zc rvw2 rvm2 tai eni aoi news1 skew2 kurt2 rvh
0 1.121 0.914 0.897 1.11 -0.1 0.340 0.83 1.251598 2.076749 0.545
1 0.545 0.869 0.881 1.11 -0.1 0.340 0.74 -0.170641 -1.551454 1.128
2 1.128 0.934 0.909 1.11 -0.1 0.340 0.77 -0.812615 0.216697 1.607
3 1.607 1.173 0.969 1.11 -0.1 0.340 0.79 1.597147 1.559141 0.547
4 0.547 0.990 0.915 1.11 -0.1 0.340 1.00 0.648262 0.772539 2.588
... ... ... ... ... ... ... ... ... ... ...
1511 0.503 0.953 1.226 0.87 1.4 -0.674 0.92 -0.647114 0.750049 1.414
1512 1.414 1.068 1.266 0.87 1.4 -0.674 0.97 -1.045306 -0.604874 0.873
1513 0.873 1.046 1.273 0.87 1.4 -0.674 0.85 1.170148 0.211409 0.492
1514 0.492 0.867 1.259 0.87 1.4 -0.674 0.87 -1.124157 0.434954 0.747
1515 0.747 0.806 1.272 0.87 1.4 -0.674 0.73 0.732621 -1.058271 0.839

1516 rows × 10 columns

2、划分特征变量、响应变量,并进行标准化

X=data.iloc[:,0:9]
y=data.iloc[:,9]
X_train, X_test, y_train, y_test =train_test_split(X,y,test_size=0.3,random_state = 0)
#可以检查一下划分后数据形状
X_train.shape,X_test.shape, y_train.shape, y_test.shape
#数据标准化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train_s = scaler.transform(X_train)
X_test_s = scaler.transform(X_test)
print('训练数据形状:')
print(X_train_s.shape,y_train.shape)
print('测试数据形状:')
(X_test_s.shape,y_test.shape)

输出结果:

训练数据形状:
(1061, 9) (1061,)
测试数据形状:
((455, 9), (455,))

3、训练模型获取变量重要性得分

RF = RandomForestRegressor(n_estimators = 100, max_depth = 5, random_state = 1234)
# 训练模型
RF.fit(X_train_s, y_train)
# 获取特征重要性得分
feature_importances = RF.feature_importances_
# 创建特征名列表
feature_names = list(X.columns)
# 创建一个DataFrame,包含特征名和其重要性得分
feature_importances_df = pd.DataFrame({'feature': feature_names, 'importance': feature_importances})
# 对特征重要性得分进行排序
feature_importances_df = feature_importances_df.sort_values('importance', ascending=False)
 
# 颜色映射
colors = plt.cm.viridis(np.linspace(0, 1, len(feature_names)))

4、可视化特征重要性排序

# 可视化特征重要性
fig, ax = plt.subplots(figsize=(10, 6))
ax.barh(feature_importances_df['feature'], feature_importances_df['importance'], color=colors)
ax.invert_yaxis()  # 翻转y轴,使得最大的特征在最上面
ax.set_xlabel('特征重要性', fontsize=12)  # 图形的x标签
ax.set_title('随机森林特征重要性可视化',fontsize=16)
for i, v in enumerate(feature_importances_df['importance']):
    ax.text(v + 0.01, i, str(round(v, 3)), va='center', fontname='Times New Roman', fontsize=10)
# 设置图形样式
# plt.style.use('default')
ax.spines['top'].set_visible(False)  # 去掉上边框
ax.spines['right'].set_visible(False)  # 去掉右边框
# ax.spines['left'].set_linewidth(0.5)#左边框粗细
# ax.spines['bottom'].set_linewidth(0.5)#下边框粗细
# ax.tick_params(width=0.5)
# ax.set_facecolor('white')#背景色为白色
# ax.grid(False)#关闭内部网格线
 
# 保存图形
plt.savefig("squares.png",
            bbox_inches ="tight",
            pad_inches = 1,
            transparent = True,
            facecolor ="w",
            edgecolor ='w',
            dpi=300,
            orientation ='landscape')

输出结果:

python实现随机森林的特征变量重要性排序_第1张图片

需要数据集的家人们可以去百度网盘(永久有效)获取:

链接:https://pan.baidu.com/s/1E59qYZuGhwlrx6gn4JJZTg?pwd=2138
提取码:2138 


更多优质内容持续发布中,请移步主页查看。

   点赞+关注,下次不迷路!

你可能感兴趣的:(机器学习之python,python,随机森林,机器学习)