QQi_coding

Kaggle离职员工分析

摘要：使用kaggle公开数据为数据源：员工离职数据，使用Pyecharts分析员工离职情况。针对优秀员工， 使用决策树、随机森林探索影响员工离职的主要因素，结果显示，主要因素为工作年限、员工满意度、月平均工作时长、最近一次评估结果、参与项目数量；又分别使用朴素贝叶斯和SVM模型预测员工是否离职，其中随机森林预测准确度最高，AUC值可以达到99.05%，SVM模型次之，AUC值为97.43%。 针对最低留存率工作年限的员工，使用逻辑回归模型分析最低留存率工作年限（第五年）员工离职的主要驱动力。结果显示，延长平均项目用时、发生事故、近5年获得晋升、加薪以及降低员工满意度能降低员工第五年离职概率。

一、导入数据及数据预处理
- 1. 人力资源总体情况
- 2. Pyecharts分析是否离职与其余9个因素的关系
- - 2.1 对公司满意度与是否离职的关系
  - 2.2 最新考核评估与是否离职的关系
  - 2.3 所参加项目数与是否离职的关系
  - 2.4 平均每月工作时长与是否离职的关系
  - 2.5 意外事故和是否离职的关系
  - 2.6 工作年限与是否离职的关系
  - 2.7 职务与离职人数、离职率的关系
  - 2.8 薪资与是否离职的关系
  - 2.9 不同薪资和月平均工作时长-与离职率的关系
二、探索影响员工离职的驱动力分析
- 1. 优秀员工离职驱动力分析
- - 1. 决策树、随机森林分析
  - - 1.1 决策树
    - 1.2 随机森林
  - 1.2 贝叶斯模型
  - 1.3 SVM模型
  - 1.4 模型预测效果对比
  - 1.5 优秀员工离职原因分析
- 2. 最低留存率工作年限员工离职的驱动力分析
- - 2.1 决策树
  - 2.2 逻辑回归

一、导入数据及数据预处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font',family='FangSong') # 此语句确保绘图中的中文可以正常显示
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('HR_comma_sep.csv')
pd.set_option('display.max_rows',4)
df

	satisfaction_level	last_evaluation	number_project	average_montly_hours	time_spend_company	Work_accident	left	promotion_last_5years	sales	salary
0	0.38	0.53	2	157	3	0	1	0	sales	low
1	0.80	0.86	5	262	6	0	1	0	sales	medium
...	...	...	...	...	...	...	...	...	...	...
14997	0.11	0.96	6	280	4	0	1	0	support	low
14998	0.37	0.52	2	158	3	0	1	0	support	low

14999 rows × 10 columns

df.info()


RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   satisfaction_level     14999 non-null  float64
 1   last_evaluation        14999 non-null  float64
 2   number_project         14999 non-null  int64  
 3   average_montly_hours   14999 non-null  int64  
 4   time_spend_company     14999 non-null  int64  
 5   Work_accident          14999 non-null  int64  
 6   left                   14999 non-null  int64  
 7   promotion_last_5years  14999 non-null  int64  
 8   sales                  14999 non-null  object 
 9   salary                 14999 non-null  object 
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB

pd.set_option('display.max_rows',None) # 解决df看不全的问题
df.describe().T

	count	mean	std	min	25%	50%	75%	max
satisfaction_level	14999.0	0.612834	0.248631	0.09	0.44	0.64	0.82	1.0
last_evaluation	14999.0	0.716102	0.171169	0.36	0.56	0.72	0.87	1.0
number_project	14999.0	3.803054	1.232592	2.00	3.00	4.00	5.00	7.0
average_montly_hours	14999.0	201.050337	49.943099	96.00	156.00	200.00	245.00	310.0
time_spend_company	14999.0	3.498233	1.460136	2.00	3.00	3.00	4.00	10.0
Work_accident	14999.0	0.144610	0.351719	0.00	0.00	0.00	0.00	1.0
left	14999.0	0.238083	0.425924	0.00	0.00	0.00	0.00	1.0
promotion_last_5years	14999.0	0.021268	0.144281	0.00	0.00	0.00	0.00	1.0

通过箱线图查看异常值

import seaborn as sns
fig, ax = plt.subplots(1,5, figsize=(12, 2))
sns.boxplot(x=df.columns[0], data=df, ax=ax[0])
sns.boxplot(x=df.columns[1], data=df, ax=ax[1])
sns.boxplot(x=df.columns[2], data=df, ax=ax[2])
sns.boxplot(x=df.columns[3], data=df, ax=ax[3])
sns.boxplot(x=df.columns[4], data=df, ax=ax[4])
plt.show()

结论： 除了工作年限外, 其他均无异常值。该异常值也反映了该公司员工中以年轻人为主

1. 人力资源总体情况

from pyecharts import options as opts
from pyecharts.charts import Pie

X = [(df.left.value_counts()[1])/(df.shape[0]),(df.left.value_counts()[0])/(df.shape[0])]
X = [round(i,2)  for i in X]
y = ['离职','在职']
c = (
    Pie()
    .add(
        "",
        [list(z) for z in zip(y, X)],
        radius=["30%", "75%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="Pie-Radius"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()

结论： 离职人员占比24%

2. Pyecharts分析是否离职与其余9个因素的关系

2.1 对公司满意度与是否离职的关系

from pyecharts import options as opts
from pyecharts.charts import Boxplot

v1 = [df[df['left']==1]['satisfaction_level'].values.tolist(),df[df['left']==0]['satisfaction_level'].values.tolist()]
c = Boxplot()
c.add_xaxis(['离职','在职'])
c.add_yaxis('对公司满意度',c.prepare_data(v1))
c.set_global_opts(title_opts=opts.TitleOpts(title="对公司满意度与是否离职的关系图"))
c.render_notebook()

结论： 就中位数而言, 离职人员对公司满意度相对较低, 且离职人员对公司满意度整体波动较大. 另外离职人员中没有满意度为1的评价.

2.2 最新考核评估与是否离职的关系

# 查看具体分箱情况bins
# df4 = df[['last_evaluation','left']]
# pd.cut(df4['last_evaluation'],5,labels= ['低','中低','中','中高','高'],retbins=True)

import pyecharts.options as opts
from pyecharts.charts import Line

df4 = df[['last_evaluation','left']]
df4['last_evaluation'] = pd.cut(df4['last_evaluation'],5,labels= ['低','中低','中','中高','高'])
df4['count'] =1
df_groupby = df4.groupby(by = 'last_evaluation').sum()
df_groupby['left0'] = df_groupby['count'] - df_groupby['left']

c = (
    Line()
    .add_xaxis(df_groupby.index.tolist())
    .add_yaxis("在总体离职员工中的占比", df_groupby['left']/ df_groupby['left'].sum(), is_smooth=True)
    .add_yaxis("在总体在职员工中的占比", df_groupby['left0']/ df_groupby['left0'].sum(), is_smooth=True)
    .set_series_opts(
        areastyle_opts=opts.AreaStyleOpts(opacity=0.5),
        label_opts=opts.LabelOpts(is_show=False),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="最新考核评价与是否离职的关系"),
        xaxis_opts=opts.AxisOpts(
            axistick_opts=opts.AxisTickOpts(is_align_with_label=True),
            is_scale=False,
            boundary_gap=False,
            name="最新考核评价",
        ),
#         yaxis_opts=opts.AxisOpts(name="占比"),
    )
)
c.render_notebook()

结论：考核评价偏低或偏高的员工更容易离职。在职人员的最新考核评价较为平均，大多数分布在中低-高之间。离职员工的最新考核评价集中在中低和高两个段。

2.3 所参加项目数与是否离职的关系

不同参与项目数的员工离职与在职人员占比分布

from pyecharts import options as opts
from pyecharts.charts import Bar,Pie, Grid

project_left_1 = df[df.left==1].groupby('number_project')['left'].count()
project_all = df.groupby('number_project')['left'].count()
# 分别计算离职人数和在职人数所占比例
project_left1_rate = project_left_1/project_all
project_left0_rate = 1-project_left1_rate


bar = (
    Bar()
    .add_xaxis(project_all.index.tolist())
    .add_yaxis('离职', project_left1_rate.values.reshape(6,).tolist(), stack="stack1")
    .add_yaxis('在职', project_left0_rate.values.reshape(6,).tolist(), stack="stack1")
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title="所参加项目数与是否离职的关系图"))
)

bar.render_notebook()

参与项目数与员工人数及占比分布

c = (
    Pie()
    .add(
        "",
        [list(z) for z in zip(project_all.index.tolist(), project_all.values.reshape(6,).tolist())],
        radius=["20%", "45%"],
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="参与项目数与员工人数及占比分布" ,pos_top="10%"),
        legend_opts=opts.LegendOpts(orient="vertical", pos_top="30%", pos_left="5%"),
        
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="项目数为{b}的人数: {c} \n 占比：{d}%"))
)

c.render_notebook()

2.4 平均每月工作时长与是否离职的关系

# 平均每月工作时长分段处理，分别统计离职人员和在职人员数量
df_count = df[['average_montly_hours','left']]
df_count['left1'] = [1 if i==1 else 0 for i in df_count['left']]
df_count['left0'] = [1 if i==0 else 0 for i in df_count['left']]

# 分段
bins =[i for i in range(95,315,10)]
df_cut = pd.cut(df_count['average_montly_hours'],bins =bins)
df_count['df_cut'] = df_cut
# 计数
df_cut_count = df_count.groupby(by = 'df_cut').sum()
df_cut_left1_count = df_cut_count['left1'].values.tolist() # 离职人员数量
df_cut_left0_count = df_cut_count['left0'].values.tolist() # 在职人员数量

df_cut_count = df_cut_count.reset_index()
X = [str(i) for i in df_cut_count['df_cut'].values]

from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Faker
df_average_montly_hours = pd.cut(df[df.left ==1]['average_montly_hours'],bins = 20)
df[df.left ==1]['average_montly_hours'].values.tolist()
c = (
    Bar()
    .add_xaxis(X)
    .add_yaxis("离职",df_cut_left1_count, color=Faker.rand_color())
    .add_yaxis("在职",df_cut_left0_count)
    .set_global_opts(
        title_opts=opts.TitleOpts(title="平均每月工作时长与是否离职的关系"),
        datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],
    )
)
c.render_notebook()

结论： 离职员工的平均每月工作时长集中在(125,165]小时和(215,285]小时之间，而在职员工平均每月工作时长分布均匀，说明平均每月工作时长太短（日均6-7.5h）或太长(日均10h以上)，都可能导致员工离职。将员工月平均工作时长调整在(155,235]之间，

2.5 意外事故和是否离职的关系

accident_df= df[['Work_accident','left','satisfaction_level','last_evaluation','number_project','average_montly_hours'
                ,'salary','time_spend_company']]
accident_df['count']=1
# accident_df.head()

def f(x):
    d = {
     }
    d['count_sum'] = x['count'].sum()
    d['left_sum'] = x['left'].sum()
    d['left_rate'] = (x['left'].sum())/(x['count'].sum())
    d['saf_lvl_mean'] = x['satisfaction_level'].mean()
    d['la_eval_mean'] = x['last_evaluation'].mean()
    d['num_pro_mean'] = x['number_project'].mean()
    d['avg_mh_mean'] = x['average_montly_hours'].mean()
    d['sal_mean'] = x['salary'].mode()
    d['tisp_comp_mean'] = x['time_spend_company'].mean()
    return pd.Series(d, index=['count_sum','left_sum','left_rate', 'saf_lvl_mean', 'la_eval_mean', 'num_pro_mean',
                              'avg_mh_mean','sal_mean','tisp_comp_mean'])

# 查看出过事故的员工和没有出过事故的员工的差别
accident_count = accident_df.groupby(by = 'Work_accident').apply(f)
accident_count

	count_sum	left_sum	left_rate	saf_lvl_mean	la_eval_mean	num_pro_mean	avg_mh_mean	sal_mean	tisp_comp_mean
Work_accident
0	12830	3402	0.265160	0.606833	0.716602	3.805456	201.258613	0 low dtype: object	3.496960
1	2169	169	0.077916	0.648326	0.713144	3.788843	199.818349	0 low dtype: object	3.505763

结论： 出过事故的员工离职率低，为7.8%；没有出过事故的员工离职率高，为26.5%。

2.6 工作年限与是否离职的关系

from pyecharts import options as opts
from pyecharts.charts import EffectScatter
from pyecharts.globals import SymbolType

# 计算离职人数和在职人数
time_left_1 = df[df.left==1].groupby('time_spend_company')['left'].count()
time_left_0 = df[df.left==0].groupby('time_spend_company')['left'].count()
time_all = df.groupby('time_spend_company')['left'].count()
y_stay_num = time_left_0.values.tolist()
y_left_num = time_left_1.values.tolist()

# 分别计算离职人数和在职人数所占比例
time_left_1_rate = time_left_1/time_all
time_left_1_rate = time_left_1_rate.fillna(0)
time_left_1_rate = time_left_1_rate.map(lambda x: round(x,2))
y_left_rate = time_left_1_rate.values.tolist()

# 调整X轴标签格式
x = time_left_1_rate.index.tolist()
x_data =[str(i) for i in x] # 转化为字符串格式,作为x轴,否则会错位

bar = (
    Bar(init_opts=opts.InitOpts(width="1000px", height="500px"))
    .add_xaxis(xaxis_data=x_data)
    .add_yaxis(
        series_name="离职人数",
        yaxis_data=y_left_num,
        label_opts=opts.LabelOpts(is_show=True),
    )
    .add_yaxis(
        series_name="在职人数",
        yaxis_data=y_stay_num,
        label_opts=opts.LabelOpts(is_show=False),
    )
    .extend_axis(
        yaxis=opts.AxisOpts(
            name="离职率",
            type_="value",
            min_=0,
            max_=0.7,
            interval=0.1,
            axislabel_opts=opts.LabelOpts(formatter="{value} "),
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="工作年限与是否离职的关系"),
        tooltip_opts=opts.TooltipOpts(
            is_show=True, trigger="axis", axis_pointer_type="cross"
        ),
        xaxis_opts=opts.AxisOpts(
            type_="category",
            axispointer_opts=opts.AxisPointerOpts(is_show=True, type_="shadow"),
            splitline_opts=opts.SplitLineOpts(is_show=True),
        ),
        yaxis_opts=opts.AxisOpts(
#             name="人数",
            type_="value",
            min_=0,
            max_=5000,
            interval=500,
            axislabel_opts=opts.LabelOpts(formatter="{value}"),
            axistick_opts=opts.AxisTickOpts(is_show=True),
#             splitline_opts=opts.SplitLineOpts(is_show=True),
        ),
    )
)

line = (
    Line()
    .add_xaxis(x_data)
    .add_yaxis(
        series_name="离职率",
        yaxis_index=1,
        y_axis= y_left_rate,
        label_opts=opts.LabelOpts(is_show=True),
    )
)
    
bar.overlap(line).render_notebook()

结论： 第五年离职率最高，占比高达57%。其次是第四年、第六年、第三年。工作年限七年及以上离职率为0。

2.7 职务与离职人数、离职率的关系

from pyecharts import options as opts
from pyecharts.charts import Bar, Grid, Line

# 绘制hr数据各个职位的人数的条形图
sales_left_1 = df[df.left==1].groupby('sales')['left'].count()
sales_left_0 = df[df.left==0].groupby('sales')['left'].count()
sales_all = df.groupby('sales')['left'].count()
# 分别计算离职人数和在职人数所占比例
sales_left_1_rate = sales_left_1/sales_all
sales_left_0_rate = 1-sales_left_1_rate
y1_per = [round(i,2) for i in sales_left_1_rate.values.reshape(10,).tolist()]
y1 = []
for i in range(10):
    ha = {
     'value':sales_left_1.values.tolist()[i],'percent':y1_per[i]}
    y1.append(ha)

y0_per = [round(i,2) for i in sales_left_0_rate.values.reshape(10,).tolist()]
y0 = []
for i in range(10):
    ha = {
     'value':sales_left_0.values.tolist()[i],'percent':y0_per[i]}
    y0.append(ha)

x = sales_all.index.tolist()

import pyecharts.options as opts
from pyecharts.charts import Bar, Line
from pyecharts.commons.utils import JsCode
from pyecharts.globals import ThemeType


bar = (
    Bar(init_opts=opts.InitOpts(width="1000px", height="500px"))
    .add_xaxis(x)
    .add_yaxis("离职人数", y1, stack="stack1", category_gap="20%", label_opts=opts.LabelOpts(is_show=False),)
    .add_yaxis("在职人数", y0, stack="stack1", category_gap="50%", label_opts=opts.LabelOpts(is_show=False),)
    .extend_axis(
        yaxis=opts.AxisOpts(
            name="离职率",
            type_="value",
            min_=0,
            max_=0.3,
            interval=0.1,
            axislabel_opts=opts.LabelOpts(formatter="{value}"),
        )
    )
    .set_series_opts(
        label_opts=opts.LabelOpts(
            position="right",
#             formatter=JsCode(
#                 "function(x){return Number(x.data.percent * 100).toFixed() + '%';}"
#             ),
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="职务与是否离职的关系"),
        tooltip_opts=opts.TooltipOpts(
            is_show=True, trigger="axis", axis_pointer_type="cross"
        ),
        xaxis_opts=opts.AxisOpts(
            type_="category",
            axispointer_opts=opts.AxisPointerOpts(is_show=True, type_="shadow"),
            axislabel_opts=opts.LabelOpts(rotate=-15),  # 解决x轴名字过长的问题
        ),
        yaxis_opts=opts.AxisOpts(
#             name="人数",
            type_="value",
            min_=0,
            max_=6000,
            interval=1000,
            axislabel_opts=opts.LabelOpts(formatter="{value}"),
            axistick_opts=opts.AxisTickOpts(is_show=True),
            splitline_opts=opts.SplitLineOpts(is_show=True),
        ),
    )
)

scatter = (
    EffectScatter()
    .add_xaxis(x)
    .add_yaxis(series_name = "离职率",
               yaxis_index=1,
               y_axis=[round(i,2) for i in sales_left_1_rate.values.tolist()],
               symbol=SymbolType.ARROW,
               label_opts=opts.LabelOpts(is_show=True),
              )
#     .set_global_opts(title_opts=opts.TitleOpts(title="EffectScatter-不同Symbol"),
#                      xaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)),
#                      yaxis_opts=opts.AxisOpts(splitline_opts=opts.SplitLineOpts(is_show=True)),
#                     )    
)


bar.overlap(scatter).render_notebook()

结论：
（1）离职总人数从高到底排名前四的部门为：销售、技术、支持、IT。
（2）hr部门离职率最高，为29%，其他部门离职率在21%-26%之间。
科研和管理部门离职率比其他序列明显较低，仅为15%左右。

2.8 薪资与是否离职的关系

from pyecharts import options as opts
from pyecharts.charts import Bar

df4 = df[['salary','left']]

c = (
    Bar()
    .add_xaxis(['high','medium','low'])
    .add_yaxis("离职人数", left_1, gap="0%")
    .add_yaxis("在职人数", left_0, gap="0%")
    .set_global_opts(title_opts=opts.TitleOpts(title="薪资与是否离职的关系"))
)

c.render_notebook()

结论： 薪资越高，离职人数越少，离职率越低。其中低薪的员工离职比率最大。故，提高薪水能有效减少离职人数，降低离职率。

2.9 不同薪资和月平均工作时长-与离职率的关系

# sns 绘制热力图
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'

# 数据
sub_df = df[["salary", "average_montly_hours",'left']]
sub_df['average_montly_hours'] = pd.qcut(sub_df['average_montly_hours'],3,labels= ['短','中','长'])
sub_df['count'] =1

# 绘制热力图
f, (ax1,ax2,ax3) = plt.subplots(figsize=(8, 15),nrows=3)
flights1 = pd.pivot_table(data=sub_df,index = ['salary'],columns = ['average_montly_hours'],values = ['count'],aggfunc = [np.sum])
sns.heatmap(flights1, annot=True, fmt="d", linewidths=.5, ax=ax1)
ax1.set_xlabel('')
ax1.set_title('全部员工薪资和月平均工作时长的分布',fontsize = 15)

flights2 = pd.pivot_table(data=sub_df,index = ['salary'],columns = ['average_montly_hours'],values = ['left'],aggfunc = [np.sum])
sns.heatmap(flights2, annot=True, fmt="d", linewidths=.5, ax=ax2)
ax2.set_xlabel('')
ax2.set_title('离职员工薪资和月平均工作时长的分布',fontsize = 15)

# sub_df['rate'] =
left_rate = flights2.values/flights1.values
sns.heatmap(left_rate*100, annot=True, fmt=".2f", linewidths=.5, ax=ax3)
ax3.set_title('不同薪资和月平均工作时长的员工离职率分布',fontsize = 15)
ax3.set_xlabel('月平均工作时长')
ax3.set_ylabel('薪资水平')
ax3.set_xticklabels(['短','中','长'])
ax3.set_yticklabels(['high','low','medium'])

结论：
（1）离职员工集中在（月平均工作时长短&低薪人群）和（月平均工作时长长&低薪人群）。
（2）增加薪水有利于降低离职率，月平均工作时长向中等协调（(168.0, 232.0]）有利于降低离职率。

二、探索影响员工离职的驱动力分析

1. 优秀员工离职驱动力分析

人员流动是市场经济必然现象，但是优秀员工的损失对企业长期价值有严重的影响，人才的持续流失甚至导致企业生命的枯竭。
探索优秀员工离职的主要驱动力，并集中资源避免此类员工的流失具有人才战略意义。
首先我们定义优秀员工：最新考核评估>=0.8 | 参加项目数>=5 | 平均每月工作时长>=230小时
为了尽可能将各个职务，各个工作年限的员工包括进来，三个条件满足任一条件即可

df_excellent = df[(df['last_evaluation']>=0.8)|(df['number_project']>=5)|(df['average_montly_hours']>=230)
                 |(df['time_spend_company']>=4)]
df_excellent.head()
df_excellent.info()


Int64Index: 10372 entries, 1 to 14997
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   satisfaction_level     10372 non-null  float64
 1   last_evaluation        10372 non-null  float64
 2   number_project         10372 non-null  int64  
 3   average_montly_hours   10372 non-null  int64  
 4   time_spend_company     10372 non-null  int64  
 5   Work_accident          10372 non-null  int64  
 6   left                   10372 non-null  int64  
 7   promotion_last_5years  10372 non-null  int64  
 8   sales                  10372 non-null  object 
 9   salary                 10372 non-null  object 
dtypes: float64(2), int64(6), object(2)
memory usage: 891.3+ KB

# 获取数据
df_dtree = df_excellent.copy()

df_dtree = pd.get_dummies(data = df_dtree,columns=['sales','salary'],drop_first=False)  # 哑变量转换
df_dtree.head()

# 切分自变量和因变量
X = df_dtree.drop(['left'], axis=1) 
y = df_dtree['left']

# 70%为测试集,30%为训练集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

1. 决策树、随机森林分析

from sklearn.model_selection import cross_val_score
from sklearn import datasets
from sklearn.datasets import make_blobs
from sklearn.ensemble import RandomForestClassifier  # 随机森林
from sklearn.tree import DecisionTreeClassifier  # 决策树
from sklearn import tree
from IPython.display import Image  
import graphviz 
import pydotplus
import os
import math
os.environ["PATH"] += os.pathsep + 'G:/program_files/graphviz/bin'

1.1 决策树

超参数选择：考虑到离职人数占比少，存在样本不均衡的现象，故选择class_weight = ‘balanced’，改善样本不均衡带来的预测偏差。

# 决策树实例化
clf = DecisionTreeClassifier(max_depth=5,min_samples_leaf = math.ceil(X.shape[0]*0.07),random_state=0,class_weight = 'balanced')
clf = clf.fit(X_train, y_train)

# 决策树可视化
dot_data = tree.export_graphviz(clf, out_file=None,
                         # 对应特征的名字       
                         feature_names=X_train.columns.values,   
                         filled=True, rounded=True,  
                         special_characters=True)
graph = graphviz.Source(dot_data)
display(graph )

结论: 影响优秀员工离职的主要因素为工作年限、员工满意度、月平均工作时长、最近一次评估结果。

# 对测试集预测
y_pred = clf.predict(X_test)

# 模型检验--混淆矩阵
from sklearn import metrics
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score

# 混淆矩阵
conf_df = confusion_matrix(y_test,y_pred,labels = [0,1])

#绘制混淆矩阵
fig= plt.figure(figsize=(10,5))
sns.heatmap(conf_df,annot=True,fmt='.20g', cmap=plt.cm.Blues)
plt.title('混淆矩阵',fontsize = 20)
plt.xlabel('预测值',fontsize = 15)
plt.ylabel('真实值',fontsize = 15)
print("决策树模型准确率:" ,'%.2f%%'% (accuracy_score(y_test, y_pred)*100))
print("决策树模型精确率:", '%.2f%%'% (precision_score(y_test, y_pred)*100))
print("决策树模型召回率:", '%.2f%%'% (recall_score(y_test, y_pred)*100))
print("决策树模型F1值:",'%.2f%%'% ( f1_score(y_test, y_pred)*100))

# 5折交叉验证
from  sklearn.model_selection import cross_val_score
clf_accuracy_scores = cross_val_score(clf,X,y,cv=5,scoring = 'accuracy')
print('基于5折交叉验证的决策树模型准确率:',round(clf_accuracy_scores.mean(),2))

决策树模型准确率: 85.31%
决策树模型精确率: 58.33%
决策树模型召回率: 88.22%
决策树模型F1值: 70.23%
基于5折交叉验证的决策树模型准确率: 0.9

结果分析：真实要离职的611人中，预测对了539人，召回率为88.22%；
预测结果显示要离职的924人中，预测对了的为539人，精确率为58.33%。
如果后续需要根据预测结果进行访谈，这样的预测结果会大大增加资源投入，模型效果仍有待改进。

1.2 随机森林

超参数选择 ：因数据类别数量差别很大，使用class_weight = 'balanced’来做平衡，其他使用默认值,查看随机森林分类结果

print(y.value_counts() )
rf0 = RandomForestClassifier(oob_score=True, random_state=10,class_weight = 'balanced')
#  oob_score :即是否采用袋外样本来评估模型的好坏。默认识False。
# 个人推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。

rf0.fit(X_train, y_train)
print(rf0.oob_score_)

y_predprob = rf0.predict_proba(X_test)[:,1] 
print("AUC Score (Train): %f" % metrics.roc_auc_score(y_test, y_predprob))

y_predict = rf0.predict(X_test)
from sklearn.metrics import classification_report
pd.set_option('display.max_rows',None)
print(classification_report(y_test, y_predict))

0    8339
1    2033
Name: left, dtype: int64
0.9858126721763085
AUC Score (Train): 0.990518
              precision    recall  f1-score   support

           0       0.98      1.00      0.99      2501
           1       0.99      0.94      0.96       611

    accuracy                           0.99      3112
   macro avg       0.99      0.97      0.98      3112
weighted avg       0.99      0.99      0.99      3112

由结果可以看出： 袋外分数已经很高，而且AUC分数也很高

尝试使用网格搜索交叉验证寻找最佳超参数

#  RandomForestClassifier(oob_score=True, random_state=10,class_weight = 'balanced')

RandomForestClassifier(class_weight='balanced', oob_score=True, random_state=10)

# from sklearn.model_selection import GridSearchCV

# entropy_thresholds = np.linspace(0, 1, 100)
# gini_thresholds = np.linspace(0, 0.2, 100)
# #设置参数矩阵：
# param_grid = [{'criterion': ['entropy'], 'min_impurity_decrease': entropy_thresholds},
#               {'criterion': ['gini'], 'min_impurity_decrease': gini_thresholds},
#               {'max_depth': np.arange(2,10)},
#               {'min_samples_split': np.arange(2,30,2)}]
# rfc = GridSearchCV(RandomForestClassifier(), param_grid, cv=3)
# rfc.fit(X_train, y_train)
# print("best param:{0}\nbest score:{1}".format(rfc.best_params_, rfc.best_score_))

# 预测，绘制混淆矩阵进行检验
# estimator = rfc.best_estimator_
# y_hat = estimator.predict(X_test)
# print(classification_report(y_test,y_hat))

# 计算AUC值进行检验
# y_predprob2 = rf1.predict_proba(X_test)[:,1] 
# print("AUC Score (Train): %f" % metrics.roc_auc_score(y_test, y_predprob2))

优化后和优化前没有明显区别，仍使用原来的模型

模型检验

# ROC曲线和AUC值
from sklearn.metrics import roc_auc_score, auc
import matplotlib.pyplot as plt

y_predict = rf0.predict(X_test)
y_probability = rf0.predict_proba(X_test) #模型的预测得分
fpr, tpr, thresholds = metrics.roc_curve(y_test,y_probability[:,1])
roc_auc = auc(fpr, tpr)  #auc为Roc曲线下的面积

#开始画ROC曲线
plt.plot(fpr, tpr, 'b',label='AUC = %0.2f'% roc_auc)
plt.legend(loc='lower right')
plt.plot([0,1],[0,1],'r--')
plt.xlim([-0.1,1.1])
plt.ylim([-0.1,1.1])
plt.xlabel('False Positive Rate') #横坐标是fpr
plt.ylabel('True Positive Rate')  #纵坐标是tpr
plt.title('Receiver operating characteristic example')
plt.show()
print("随机森林模型的AUC值为：",'%.2f%%'%(roc_auc*100))

结论： 随机森林模型的AUC值为： 99.05%

# 对测试集预测
y_pred_Randf = rf0.predict(X_test)

# 模型检验--混淆矩阵
from sklearn import metrics
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score

# 混淆矩阵
conf_df = confusion_matrix(y_test,y_pred_Randf,labels = [0,1])

#绘制混淆矩阵
fig= plt.figure(figsize=(10,5))
sns.heatmap(conf_df, annot=True, fmt='.20g', linewidths=.5,cmap=plt.cm.Blues)

plt.title('混淆矩阵',fontsize = 20)
plt.xlabel('预测值',fontsize = 15)
plt.ylabel('真实值',fontsize = 15)
print("随机森林模型准确率:" ,'%.2f%%'% (accuracy_score(y_test, y_pred_Randf)*100))
print("随机森林模型精确率:", '%.2f%%'% (precision_score(y_test, y_pred_Randf)*100))
print("随机森林模型召回率:", '%.2f%%'% (recall_score(y_test, y_pred_Randf)*100))
print("随机森林模型F1值:",'%.2f%%'% ( f1_score(y_test, y_pred_Randf)*100))

# 5折交叉验证
from  sklearn.model_selection import cross_val_score
rf0_adj_accuracy_scores = cross_val_score(rf0,X,y,cv=5,scoring = 'accuracy')
print('基于5折交叉验证的随机森林模型准确率:',round(rf0_adj_accuracy_scores.mean(),2))

随机森林模型准确率: 98.55%
随机森林模型精确率: 98.96%
随机森林模型召回率: 93.62%
随机森林模型F1值: 96.22%
基于5折交叉验证的随机森林模型准确率: 0.99

结果分析：真实要离职的611人中，预测对了572人，召回率为93.62%；
预测结果显示要离职的578人中，预测对了的为572人，精确率为98.96%。
相比决策树模型，大大提高了预测的精确度，召回率也由88.22%提升至93.62%，故，随机森林模型预测效果更好。

影响员工离职的主要因素

y_importances = rf0.feature_importances_
x_importances = X_train.columns.values
y_pos = np.arange(len(x_importances))
# 横向柱状图
plt.figure(figsize = (10,8))
# plt.barh(y_pos, y_importances, align='center')
sns.barplot(y = x_importances, x= y_importances,orient = 'h')#orient是旋转
plt.yticks(y_pos, x_importances)
plt.xlabel('Importances')
plt.xlim(0,0.3)
plt.title('Features Importances')
plt.show()

结论： 结果和决策树模型基本相同。影响员工离职的主要因素为，工作年限、员工满意度、月平均工作时长、最近一次评估结果、参与项目数量。

1.2 贝叶斯模型

df3 = df_excellent.copy()
df3 = pd.get_dummies(data = df3,columns=['sales','salary'],drop_first=False)

# 切分变量
X = df3.drop(['left'], axis=1) 
y = df3['left']
X.head()

	satisfaction_level	last_evaluation	number_project	average_montly_hours	time_spend_company	sales_sales	salary_low	salary_medium
1	0.80	0.86	5	262	6	1	0	1
2	0.11	0.88	7	272	4	1	0	1
3	0.72	0.87	5	223	5	1	1	0
6	0.10	0.77	6	247	4	1	1	0
7	0.92	0.85	5	259	5	1	1	0

构建模型，进行预测

# splitting X and y into training and testing sets
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)

# training the model on training set
from sklearn.naive_bayes import GaussianNB
gnb = GaussianNB()
gnb.fit(X_train, y_train)

# making predictions on the testing set
y_pred = gnb.predict(X_test)

模型检验
混淆矩阵-ROC曲线-AUC验证

# comparing actual response values (y_test) with predicted response values (y_pred)
from sklearn import metrics
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score

# 混淆矩阵
conf_df = confusion_matrix(y_test,y_pred,labels = [0,1])

#绘制混淆矩阵
fig= plt.figure(figsize=(10,5))
# print(confusion_matrix(y_test, y_pred)) # 输出混淆矩阵数值
sns.heatmap(conf_df,annot=True,fmt='.20g', cmap=plt.cm.Blues)
plt.title('混淆矩阵',fontsize = 20)
plt.xlabel('预测值',fontsize = 15)
plt.ylabel('真实值',fontsize = 15)
print("Gaussian Naive Bayes model 准确率:" ,'%.2f%%'% (accuracy_score(y_test, y_pred)*100))
print("Gaussian Naive Bayes model 精确率:", '%.2f%%'% (precision_score(y_test, y_pred)*100))
print("Gaussian Naive Bayes model 召回率:", '%.2f%%'% (recall_score(y_test, y_pred)*100))
print("Gaussian Naive Bayes model F1值:",'%.2f%%'% ( f1_score(y_test, y_pred)*100))

Gaussian Naive Bayes model 准确率: 83.13%
Gaussian Naive Bayes model 精确率: 54.18%
Gaussian Naive Bayes model 召回率: 82.42%
Gaussian Naive Bayes model F1值: 65.38%

综合对比朴素贝叶斯模型和决策树模型的混淆矩阵，召回率也由88.22%提升至93.62%。

结论： 决策树模型效果更好。

# ROC曲线和AUC值
from sklearn.metrics import roc_auc_score, auc
import matplotlib.pyplot as plt

y_predict = gnb.predict(X_test)
y_probability = gnb.predict_proba(X_test) #模型的预测得分
fpr, tpr, thresholds = metrics.roc_curve(y_test,y_probability[:,1])
roc_auc = auc(fpr, tpr)  #auc为Roc曲线下的面积

#开始画ROC曲线
plt.plot(fpr, tpr, 'b',label='AUC = %0.2f'% roc_auc)
plt.legend(loc='lower right')
plt.plot([0,1],[0,1],'r--')
plt.xlim([-0.1,1.1])
plt.ylim([-0.1,1.1])
plt.xlabel('False Positive Rate') #横坐标是fpr
plt.ylabel('True Positive Rate')  #纵坐标是tpr
plt.title('Receiver operating characteristic example')
plt.show()
print("贝叶斯模型的AUC值为：",'%.2f%%'%(roc_auc*100))

贝叶斯模型的AUC值为： 89.81%

结论： 朴素贝叶斯模型的AUC值小于随机森林的AUC值99.05%。随机森林模型分类效果更好。

交叉验证（5折）

from  sklearn.model_selection import cross_val_score
gnb_accuracy_scores = cross_val_score(gnb,X,y,cv=5,scoring = 'accuracy')
print('基于5折交叉验证的Gaussian Naive Bayes model准确率:',round(gnb_accuracy_scores.mean(),2))

基于5折交叉验证的Gaussian Naive Bayes model准确率: 0.82

结论：交叉验证结果显示，朴素贝叶斯模型准确率（0.82）低于决策树模型准确率0.9，随机森林模型准确率0.99。

1.3 SVM模型

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import Normalize

from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.model_selection import GridSearchCV

# 获取数据
df_svm = df_excellent.copy()
df_svm = pd.get_dummies(data = df_svm,columns=['sales','salary'],drop_first=False)  # 哑变量转换
df_svm.head()

# 切分自变量和因变量
X = df_svm.drop(['left'], axis=1)
y = df_svm['left']

# 70%为测试集,30%为训练集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

scaler = StandardScaler()
X_train_scale = scaler.fit_transform(X_train)
X_test_scale = scaler.transform(X_test)

使用调节好的超参数代入模型中，C=100, gamma=1,class_weight={1: 5}，进行模型实例化。

# 模型实例化
clf_weights = SVC(kernel='rbf',C=100, gamma=1,class_weight={
     1: 5},probability = True) # 不同的内核，差别很大
clf_weights.fit(X_train_scale, y_train)

# 对测试集预测
y_pred = clf_weights.predict(X_test_scale)

模型检验 -ROC曲线-AUC值-混淆矩阵

# ROC曲线和AUC值
from sklearn.metrics import roc_auc_score, auc
import matplotlib.pyplot as plt

y_predict = clf_weights.predict(X_test_scale)
y_probability = clf_weights.predict_proba(X_test_scale) #模型的预测得分
fpr, tpr, thresholds = metrics.roc_curve(y_test,y_probability[:,1])
roc_auc = auc(fpr, tpr)  #auc为Roc曲线下的面积

#开始画ROC曲线
plt.plot(fpr, tpr, 'b',label='AUC = %0.2f'% roc_auc)
plt.legend(loc='lower right')
plt.plot([0,1],[0,1],'r--')
plt.xlim([-0.1,1.1])
plt.ylim([-0.1,1.1])
plt.xlabel('False Positive Rate') #横坐标是fpr
plt.ylabel('True Positive Rate')  #纵坐标是tpr
plt.title('Receiver operating characteristic example')
plt.show()
print("SVM模型的AUC值为：",'%.2f%%'%(roc_auc*100))

SVM模型的AUC值为： 97.43%

# 模型检验--混淆矩阵
from sklearn import metrics
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score

# 混淆矩阵
conf_df = confusion_matrix(y_test,y_pred,labels = [0,1])

#绘制混淆矩阵
fig= plt.figure(figsize=(10,5))
sns.heatmap(conf_df,annot=True,fmt='.20g', cmap=plt.cm.Blues)
plt.title('混淆矩阵',fontsize = 20)
plt.xlabel('预测值',fontsize = 15)
plt.ylabel('真实值',fontsize = 15)
print("支持向量机模型准确率:" ,'%.2f%%'% (accuracy_score(y_test, y_pred)*100))
print("支持向量机模型精确率:", '%.2f%%'% (precision_score(y_test, y_pred)*100))
print("支持向量机模型召回率:", '%.2f%%'% (recall_score(y_test, y_pred)*100))
print("支持向量机模型F1值:",'%.2f%%'% ( f1_score(y_test, y_pred)*100))

支持向量机模型准确率: 96.82%
支持向量机模型精确率: 92.95%
支持向量机模型召回率: 90.67%
支持向量机模型F1值: 91.80%

# 5折交叉验证
from  sklearn.model_selection import cross_val_score
clf_accuracy_scores = cross_val_score(clf_weights,X,y,cv=5,scoring = 'accuracy')
print('基于5折交叉验证的决策树模型准确率:',round(clf_accuracy_scores.mean(),2))

基于5折交叉验证的决策树模型准确率: 0.95

调节超参数: C, gamma, class_weight
C, gamma: 实践中，10^-3 至10^3 通常就足够了。如果最佳参数位于网格的边界上，则可以在后续搜索中沿该方向扩展

import numpy as np
import matplotlib.pyplot as plt

from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.model_selection import GridSearchCV

C_range = np.logspace(-3,3,7)
gamma_range = np.logspace(-3,3,7)
class_weight_range=[{
     1: 2},{
     1: 5},{
     1: 10},{
     1: 20}]  # 1:5最好
param_grid = dict(gamma=gamma_range, C=C_range,class_weight = [{
     1: 5}]) # 1:5最好
cv = StratifiedShuffleSplit(n_splits=1, test_size=0.3, random_state=42) 
# 数据分为1组，每一组内分训练集和测试集，测试集比例为0.2

grid = GridSearchCV(SVC(), param_grid=param_grid, cv=cv)

# 对标准化后的数据进行训练，寻找最优参数
grid.fit(X_train_scale, y_train)

print("The best parameters are %s with a score of %0.2f"
      % (grid.best_params_, grid.best_score_))
scores = grid.cv_results_['mean_test_score'].reshape(len(C_range),len(gamma_range))
# print(scores)

The best parameters are {'C': 100.0, 'class_weight': {1: 5}, 'gamma': 1.0} with a score of 0.98

# 热力图-直观观察两个参数
class MidpointNormalize(Normalize):

    def __init__(self, vmin=None, vmax=None, midpoint=None, clip=False):
        self.midpoint = midpoint
        Normalize.__init__(self, vmin, vmax, clip)

    def __call__(self, value, clip=None):
        x, y = [self.vmin, self.midpoint, self.vmax], [0, 0.5, 1]
        return np.ma.masked_array(np.interp(value, x, y))

plt.figure(figsize=(8, 6))
plt.subplots_adjust(left=.2, right=0.95, bottom=0.15, top=0.95)
plt.imshow(scores, interpolation='nearest', cmap=plt.cm.hot,
           norm=MidpointNormalize(vmin=0.8, midpoint=0.92))
plt.xlabel('gamma')
plt.ylabel('C')
plt.colorbar()
plt.xticks(np.arange(len(gamma_range)), gamma_range, rotation=45)
plt.yticks(np.arange(len(C_range)), C_range)
plt.title('Validation accuracy')
plt.show()

C参数权衡了训练示例的正确分类与决策函数裕度的最大化之间的权衡。对于较大的值 C，如果决策函数可以更好地正确分类所有训练点，则可以接受较小的边距。较低的值C会鼓励较大的余量，因此会简化决策功能，但会降低训练的准确性。换句话说，C在SVM中充当正则化参数。

模型的行为对gamma参数非常敏感。如果 gamma太大，则支持向量的影响区域的半径仅包括支持向量本身，而没有任何正则化C将能够防止过度拟合。

当gamma非常小时，模型过于受限，无法捕获数据的复杂性或“形状”。任何选定的支持向量的影响区域将包括整个训练集。所得模型的行为将类似于带有一组超平面的线性模型，该超平面将两个类别的任何一对的高密度中心分开。

对于中间值，我们可以看到第二个图是不错的机型可以在对角线的发现C和gamma。gamma 通过增加正确分类每个点的重要性（较大的C值），从而提高性能模型的对角线，可以使平滑模型（较低的值）更加复杂。

最后，我们还可以观察到，对于某些中间值，gamma当模型C变得非常大时，我们将获得性能均等的模型：不必通过强制执行较大的余量来进行正则化。RBF内核的半径本身就可以充当良好的结构调整器。在实践中，尽管可能会很有趣的是使用较低的值简化决策函数，C以便支持使用更少内存且预测速度更快的模型。

我们还应注意，分数的微小差异是由交叉验证过程的随机分裂导致的。可以通过增加CV迭代次数来消除那些虚假的变化n_splits，而以计算时间为代价。增加的值数C_range和 gamma_range步骤将增加超参数热图的分辨率。

1.4 模型预测效果对比

我们重点关注要离职的员工是否能准确预测出来，以及预测出的要离职的员工是否真的会离职。即，召回率和精确率尽可能接近1，是我们想要的结果。
对比4中模型的预测结果，我们可以看出，随机森林和SVM的结果最好，召回率和精确率都在90%以上，决策树和朴素贝叶斯模型的精确率较差。

1.5 优秀员工离职原因分析

综合决策树和随机森林的结果，影响优秀员工离职的主要因素为，工作年限、员工满意度、月平均工作时长、最近一次评估结果、参与项目数量。

通过相关系数矩阵热力图，判断各特征对离职的驱动是正向还是负向。结果显示，

df_important = df[['satisfaction_level','last_evaluation','number_project','average_montly_hours','time_spend_company','left']]
sns.heatmap(df_important.corr(), annot=True, fmt=".2f", linewidths=.5)

汇总以上结果，如下。

结论： 工作年限越长，月平均工作时长越长，最近一次评估结果越好，参与项目数量越多，员工越倾向于离职；员工满意度越低，员工越倾向于离职。
故，为了减少离职人数，降低离职率，采取措施如下

应将月平均工作时长调整在(155,235]之间；
最近一次评估结果靠近中
参与项目数超过2个，小于6个。参与项目书超过5个，离职率明显上升
提高员工工作年限，过了第五年，员工离职率明显下降，7年以后，离职率几乎为0
增加员工满意度，通过加薪/调查问卷/访谈等方式调研员工需求，并作出相应调整

2. 最低留存率工作年限员工离职的驱动力分析

做流失驱动力分析：即在流失率最高的年份，寻找当年员工流失的主要因素是什么？

# 保留一份原始数据
data_df2 = df.copy()

time_left_1 = data_df2[data_df2.left==1].groupby('time_spend_company')['left'].count()
time_all = data_df2.groupby('time_spend_company')['left'].count()
# 分别计算离职人数和在职人数所占比例
time_left_1_rate = time_left_1/time_all
time_left_1_rate = time_left_1_rate.fillna(0)
time_left_0_rate = 1-time_left_1_rate
y1 = [round(i,2) for i in time_left_1_rate.values.reshape(8,).tolist()]
y2 = [round(i,2) for i in time_left_0_rate.values.reshape(8,).tolist()]

c = (
    Bar()
    .add_xaxis(time_all.index.tolist())
    .add_yaxis('离职', y1, stack="stack1")
    .add_yaxis('在职', y2, stack="stack1")
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(title_opts=opts.TitleOpts(title="工作年限与是否离职的关系图"))
)
c.render_notebook()

结论: 流失率最高的工作年限为5年的员工。

我们筛选工作年限>=5的员工；新建一个特征来表示是否在第五年流失

注意：比较第n年离职与否的人时候，第n年没离职的人的特征可能会受到他在第x年之后工作情况的影响，但我们假设这种影响是微弱的，所以我们认为在数据中这两类人群所对应的特征还是有可比性的。

提取工作年限大于等于5年的数据

# 从模型ready的数据框data_df2中筛选5年及以上的人员数据
year5_df = data_df2[data_df2['time_spend_company']>=5]
# 增加一列平均项目用时
year5_df['平均项目用时'] =  year5_df['average_montly_hours']*year5_df['time_spend_company']*12 / year5_df['number_project']
# 增加一列年均项目数
year5_df['年均项目数'] = year5_df['number_project'] / year5_df['time_spend_company']
# 增加一列“第五年离职”
year5_df['第五年离职'] = np.where((year5_df['time_spend_company']==5) & (year5_df['left']==1), 1, 0)
# year5_df.head()

分类变量预处理

我们发现所有特征中，职务序列和薪资水平不是数值类型。需要将两个特征转换成对模型友好的全数值类型。(因为要训练模型，所有要用将分类特征转化为数字特征的数据框）

# 将薪资水平转化成整数型(转成1,2,3)
map_ = {
     'low':1, 'medium':2,'high':3}
year5_df['salary']= year5_df['salary'].map(map_)
year5_df.head()

## 自定义一个“独热编码”方程
## 将一个数据框（df）中的所有分类特征（cols）转换成哑变量特征
def one_hot(df, cols):
    for each in cols:
        dummies = pd.get_dummies(df[each], prefix=each, drop_first=False)
        dummies = dummies.drop(dummies.columns[len(dummies.columns)-1], axis=1) ## 每一组哑变量会自动删除最后一列（作为参考值）
        df = pd.concat([df, dummies], axis=1)
    df.drop(cols, axis = 1, inplace = True)
    return df
## 使用定义好的“独热编码”方程度当前的训练、测试集进行变换
year5_df = one_hot(year5_df, ["sales"])
year5_df.head()

	satisfaction_level	last_evaluation	number_project	average_montly_hours	time_spend_company	left	salary	平均项目用时	...	第五年离职	sales_sales
1	0.80	0.86	5	262	6	1	2	3772.8	...	0	1
3	0.72	0.87	5	223	5	1	1	2676.0	...	1	1
7	0.92	0.85	5	259	5	1	1	3108.0	...	1	1
8	0.89	1.00	5	224	5	1	1	2688.0	...	1	1
12	0.84	0.92	4	234	5	1	1	3510.0	...	1	1

5 rows × 21 columns

# 切分数据
X = year5_df.drop(['第五年离职'],axis = 1)
y = year5_df['第五年离职']

2.1 决策树

建模分析 - 基于决策树对最低留存率年限的驱动力分析

from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
from IPython.display import Image  
import graphviz 
import pydotplus
import os
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin'

DTclf = DecisionTreeClassifier(max_depth=5, min_samples_leaf=100,class_weight = 'balanced')
DTclf.fit(X, y)
# 决策树可视化笔记：
## 参考：https://blog.csdn.net/llh_1178/article/details/78516774
## 1. 需要单独从官网上下载Graphviz（for windows: http://www.graphviz.org/Download_windows.php）
## 2. 下载相关库：pip install graphviz
## 3. 在代码中导入graphviz的路径（os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin'）
## 4. 具体画图代码参考：https://scikit-learn.org/stable/modules/tree.html
dot_data = tree.export_graphviz(DTclf, out_file=None,
                         # 对应特征的名字       
                         feature_names=X.columns.values,   
                         filled=True, rounded=True,  
                         special_characters=True)
graph = graphviz.Source(dot_data)
graph

2.2 逻辑回归

import numpy as np
import pandas as pd
from patsy import dmatrices
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from sklearn.preprocessing import StandardScaler
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
plt.rcParams["font.family"] = "SimHei"
plt.rcParams["axes.unicode_minus"] = False 
plt.rcParams["font.size"] = 12 
warnings.filterwarnings("ignore")

vif_calc_df = year5_df.drop([ '第五年离职', 'left'], axis=1)

# 计算当前所有特征的VIF值
vif = pd.DataFrame()
vif["Features"] = vif_calc_df.columns
vif["VIF Factor"] = [variance_inflation_factor(vif_calc_df.values, i) for i in range(vif_calc_df.shape[1])]
pd.set_option('display.max_rows',None)
vif

	Features	VIF Factor
0	satisfaction_level	6.969022
1	last_evaluation	25.694318
2	number_project	321.573079
3	average_montly_hours	77.777796
4	time_spend_company	127.366280
5	Work_accident	1.213808
6	promotion_last_5years	1.157826
7	salary	8.349769
8	平均项目用时	55.158268
9	年均项目数	154.975388
10	sales_IT	1.481379
11	sales_RandD	1.290273
12	sales_accounting	1.293144
13	sales_hr	1.265811
14	sales_management	1.685760
15	sales_marketing	1.369685
16	sales_product_mng	1.360867
17	sales_sales	2.758246
18	sales_support	1.821956

# 相关系数矩阵热力图
f,ax = plt.subplots(figsize=(12, 8))
sns.heatmap(vif_calc_df.corr(),annot=True,linewidths=.5,fmt= '.1f' ,ax = ax)
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nPSPwNyi-1592816515655)(output_104_0.png)]

# 去除ID和预测量特征
vif_calc_df2 = year5_df.drop(['第五年离职','left','number_project','年均项目数','time_spend_company','last_evaluation'
                             ,'average_montly_hours'], axis=1)

# 计算当前所有特征的VIF值
vif = pd.DataFrame()
vif["Features"] = vif_calc_df2.columns
vif["VIF Factor"] = [variance_inflation_factor(vif_calc_df2.values, i) for i in range(vif_calc_df2.shape[1])]
vif

	Features	VIF Factor
0	satisfaction_level	4.818915
1	Work_accident	1.179708
2	promotion_last_5years	1.142846
3	salary	5.716008
4	平均项目用时	5.567143
5	sales_IT	1.349174
6	sales_RandD	1.190348
7	sales_accounting	1.228606
8	sales_hr	1.190463
9	sales_management	1.626398
10	sales_marketing	1.288461
11	sales_product_mng	1.271692
12	sales_sales	2.359087
13	sales_support	1.576902

# 相关性系数矩阵热力图
f,ax = plt.subplots(figsize=(12, 8))
sns.heatmap(data=vif_calc_df2.corr(),annot=True,linewidths=.5,fmt= '.1f',ax=ax)
plt.show()

选择最优自变量组合
使用逻辑回归模型，对各个特征的预测能力排序。

# 首先切分自变量和因变量
X = year5_df.drop(['第五年离职','number_project','年均项目数','time_spend_company','last_evaluation'
                             ,'average_montly_hours','left'], axis=1) # 排除引起多重共线性的特征
y = year5_df['第五年离职']

# 将数据标准化
from sklearn.preprocessing import StandardScaler
X_standard = StandardScaler().fit_transform(X)
X_standard = pd.DataFrame(data=X_standard, columns=list(X.columns)) 
# 呈现
X_standard.head()

	satisfaction_level	Work_accident	promotion_last_5years	salary	平均项目用时	sales_IT	sales_RandD	sales_accounting	sales_hr	sales_management	sales_marketing	sales_product_mng	sales_sales	sales_support
0	0.675774	-0.410924	-0.19001	0.591096	-0.046809	-0.29532	-0.225221	-0.222539	-0.215256	-0.268299	-0.251587	-0.253214	1.55776	-0.397555
1	0.380380	-0.410924	-0.19001	-0.970236	-0.661587	-0.29532	-0.225221	-0.222539	-0.215256	-0.268299	-0.251587	-0.253214	1.55776	-0.397555
2	1.118864	-0.410924	-0.19001	-0.970236	-0.419442	-0.29532	-0.225221	-0.222539	-0.215256	-0.268299	-0.251587	-0.253214	1.55776	-0.397555
3	1.008092	-0.410924	-0.19001	-0.970236	-0.654861	-0.29532	-0.225221	-0.222539	-0.215256	-0.268299	-0.251587	-0.253214	1.55776	-0.397555
4	0.823470	-0.410924	-0.19001	-0.970236	-0.194113	-0.29532	-0.225221	-0.222539	-0.215256	-0.268299	-0.251587	-0.253214	1.55776	-0.397555

from mlxtend.feature_selection import SequentialFeatureSelector
from mlxtend.feature_selection import SequentialFeatureSelector as SFS
from sklearn import linear_model
model = linear_model.LogisticRegression()
# 实例化SFS
sfs1 = SFS(model, 
           k_features=14, 
           forward=True, 
           #verbose=2, ## 运行时显示细节
           scoring='f1', ## 使用MAE作为评判依据
           cv=5, ## 5-fold 交叉验证
           n_jobs=-1) ## -1 表示使用当前所有的CPU去运行程序 
# 导入数据并运行
sfs1 = sfs1.fit(X_standard, y)

# 表格呈现特征选取的排名结果
pd.DataFrame.from_dict(sfs1.get_metric_dict()).T

## 可视化结果
from mlxtend.plotting import plot_sequential_feature_selection as plot_sfs
from matplotlib.pyplot import figure
plot_sfs(sfs1.get_metric_dict(), kind='std_err')
plt.title('Sequential Forward Selection (w. StdErr)')
# plt.ylim(0.82, 0.845)
plt.show()

# 选取特定特征
feature_df = pd.DataFrame.from_dict(sfs1.get_metric_dict()).T
selected_features = list(feature_df.iloc[8]["feature_names"])
# 呈现
selected_features

['satisfaction_level',
 'Work_accident',
 'promotion_last_5years',
 'salary',
 '平均项目用时',
 'sales_hr',
 'sales_management',
 'sales_product_mng',
 'sales_sales']

在排除了导致多重共线性的特征后，我们进一步选择了最优自变量组合。我们将使用这些特征在下一步训练逻辑回归模型

lm = LogisticRegression()
lm.fit(X_standard[selected_features], y)

LogisticRegression()

# 输出拟合后的系数和相应的名称构成数据框
pd_df = pd.DataFrame(lm.coef_[0], index = X_standard[selected_features].columns,columns=['Coefficients'])
tmp_df = pd_df.sort_values(by='Coefficients', ascending=False)

# 驱动力排序
tmp_df['正向驱动/负向'] = np.where(tmp_df['Coefficients']>0,'+','-')
tmp_df['Coefficients'] = abs(tmp_df['Coefficients'])
tmp_df = tmp_df.sort_values(by = 'Coefficients',ascending =False)
tmp_df

	Coefficients	正向驱动/负向
平均项目用时	0.924421	-
satisfaction_level	0.705542	+
Work_accident	0.546058	-
promotion_last_5years	0.503605	-
salary	0.326210	-
sales_management	0.214019	-
sales_sales	0.068194	-
sales_product_mng	0.063897	-
sales_hr	0.014727	-

结论：
基于上一步的分析，我们发现在所有输入到模型的9个变量中，对在第五年离职与否的主要驱动力为：

平均项目用时长（项目复杂/重要/员工做的慢）的员工倾向于留职
员工满意度高，会使得员工在第五年离职（值得深入研究）
有工作事故的员工倾向于留职
近5年获得提升的员工倾向于留职
薪水越高的员工，越倾向于留职

这9个变量（分析第五年是否离职的维度）是我们在上面两步（去除多重共线性，选择最优自变量组合）中筛选出来的。在这个工程中，也需要考虑到业务同事的意见（比如他们认为保留哪些特征非常必要）。

你可能感兴趣的:(Python3,可视化,业务分析,可视化,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
Python3.7出现“ModuleNotFoundError: No module named ‘Tkinter‘”错误的解决方法可爱的小红猪 python
Python3.7出现“ModuleNotFoundError:Nomodulenamed‘Tkinter’”错误的解决方法在网上看到很多针对这个问题的解决方法都是重新安装或配置Tkinter库，但Tkinter是python内置的标准GUI库，安装Python时就已经内置在了库中，不需要另外下载。针对于Tkinter，你的代码很可能是这样的：importTkinter或者是这样fromTkint
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
ubuntu22.04环境中安装pylint 歪歪的酒壶 python linux 开发语言
ubuntu22.04环境中安装pylintsudoapt-getinstallpython3-pipsudoaptitudeinstallpython3-pipsudopipinstallpylintsudoapt-getinstallpython3-pip在安装pylint的时候，需要使用pip命令，在ubuntu22.04环境中命令如下：$sudoapt-getinstallpython3-
使用selenium调用firefox提示Profile Missing的问题解决歪歪的酒壶 selenium 测试工具 python
在Ubuntu22.04环境中，使用python3运行selenium提示ProfileMissing，具体信息为：YourFirefoxprofilecannotbeloaded.Itmaybemissingorinaccessible在这个问题的环境中firefox浏览器工作正常。排查中，手动在命令行执行firefox可以打开浏览器，但是出现如下提示Gtk-Message:15:32:09.9
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python之pyecharts制作可视化数据大屏 cesske 大数据
文章目录前言一、安装Pyecharts二、创建Pyecharts图表三、设计大屏布局四、实时数据更新五、部署和展示总结前言使用Pyecharts制作可视化数据大屏是一个复杂但有趣的过程，因为Pyecharts本身是一个用于生成Echarts图表的Python库，而Echarts是由百度开发的一个开源可视化库，支持丰富的图表类型和高度自定义。然而，Pyecharts本身并不直接提供“大屏”的解决方案
【Python】tkinter及组件如何使用小九不懂SAP 我的Python日记 python 开发语言 tkinter
一、tkinter的应用场景tkinter是Python的标准GUI（图形用户界面）库，它提供了丰富的控件和工具，使得开发者能够轻松创建跨平台的桌面应用程序。以下是一些tkinter的常见应用场景：桌面应用程序开发：开发者可以使用tkinter来创建各种桌面应用程序，如文本编辑器、计算器、图片查看器、游戏等。这些应用程序可以具有复杂的用户界面，包括窗口、按钮、文本框、下拉菜单、滚动条等。数据可视化
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
Python程序打包指南：手把手教你一步步完成 Python_P叔 python 数据库开发语言
最近感兴趣想将开发的项目转成Package，研究了一下相关文章，并且自己跑通了，走了一下弯路，这里记录一下如何打包一个简单的Python项目，展示如何添加必要的文件和结构来创建包，如何构建包，以及如何将其上传到Python包索引（PyPI）。首先要确保安装最新版本：#Unix/macOSpython3-mpipinstall--upgradepip#windowspy-mpipinstall--u
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f