youngL不从心

Kaggle数据集之电信客户流失数据分析（三）之决策树分类

一、导入数据

import pandas as pd
df=pd.read_csv(r"D:\PycharmProjects\ku_pandas\WA_Fn-UseC_-Telco-Customer-Churn.csv")
df

	customerID	gender	SeniorCitizen	Partner	Dependents	tenure	PhoneService	MultipleLines	InternetService	OnlineSecurity	...	DeviceProtection	TechSupport	StreamingTV	StreamingMovies	Contract	PaperlessBilling	PaymentMethod	MonthlyCharges	TotalCharges	Churn
0	7590-VHVEG	Female	0	Yes	No	1	No	No phone service	DSL	No	...	No	No	No	No	Month-to-month	Yes	Electronic check	29.85	29.85	No
1	5575-GNVDE	Male	0	No	No	34	Yes	No	DSL	Yes	...	Yes	No	No	No	One year	No	Mailed check	56.95	1889.5	No
2	3668-QPYBK	Male	0	No	No	2	Yes	No	DSL	Yes	...	No	No	No	No	Month-to-month	Yes	Mailed check	53.85	108.15	Yes
3	7795-CFOCW	Male	0	No	No	45	No	No phone service	DSL	Yes	...	Yes	Yes	No	No	One year	No	Bank transfer (automatic)	42.30	1840.75	No
4	9237-HQITU	Female	0	No	No	2	Yes	No	Fiber optic	No	...	No	No	No	No	Month-to-month	Yes	Electronic check	70.70	151.65	Yes
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
7038	6840-RESVB	Male	0	Yes	Yes	24	Yes	Yes	DSL	Yes	...	Yes	Yes	Yes	Yes	One year	Yes	Mailed check	84.80	1990.5	No
7039	2234-XADUH	Female	0	Yes	Yes	72	Yes	Yes	Fiber optic	No	...	Yes	No	Yes	Yes	One year	Yes	Credit card (automatic)	103.20	7362.9	No
7040	4801-JZAZL	Female	0	Yes	Yes	11	No	No phone service	DSL	Yes	...	No	No	No	No	Month-to-month	Yes	Electronic check	29.60	346.45	No
7041	8361-LTMKD	Male	1	Yes	No	4	Yes	Yes	Fiber optic	No	...	No	No	No	No	Month-to-month	Yes	Mailed check	74.40	306.6	Yes
7042	3186-AJIEK	Male	0	No	No	66	Yes	No	Fiber optic	Yes	...	Yes	Yes	Yes	Yes	Two year	Yes	Bank transfer (automatic)	105.65	6844.5	No

7043 rows × 21 columns

本数据集描述了电信用户是否流失以及其相关信息，共包含7043条数据，共21个字段，分别介绍如下：

customerID ：用户ID
gender：性别（Female & Male）
SeniorCitizen ：老年用户（1表示是，0表示不是）
Partner ：伴侣用户（Yes or No）
Dependents ：亲属用户（Yes or No）
tenure ：在网时长（0-72月）
PhoneService ：是否开通电话服务业务（Yes or No）
MultipleLines：是否开通了多线业务（Yes 、No or No phoneservice 三种）
InternetService：是否开通互联网服务（No, DSL数字网络，fiber optic光纤网络三种）
OnlineSecurity：是否开通网络安全服务（Yes，No，No internetserive 三种）
OnlineBackup：是否开通在线备份业务（Yes，No，No internetserive 三种）
DeviceProtection：是否开通了设备保护业务（Yes，No，No internetserive 三种）
TechSupport：是否开通了技术支持服务（Yes，No，No internetserive 三种）
StreamingTV：是否开通网络电视（Yes，No，No internetserive 三种）
StreamingMovies：是否开通网络电影（Yes，No，No internetserive 三种）
Contract：签订合同方式（按月，一年，两年）
PaperlessBilling：是否开通电子账单（Yes or No）
PaymentMethod：付款方式（bank transfer，credit card，electronic check，mailed check）
MonthlyCharges：月费用
TotalCharges：总费用
Churn：该用户是否流失（Yes or No）

二、数据描述分析

1. 查看数据

df.shape #显示数据的格式

(7043, 21)

df.dtypes #输出每一列对应的数据类型

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges         object
Churn                object
dtype: object

df.isnull().sum().values.sum() #查找缺失值

df.nunique() #查看每一列有几个不同值

customerID          7043
gender                 2
SeniorCitizen          2
Partner                2
Dependents             2
tenure                73
PhoneService           2
MultipleLines          3
InternetService        3
OnlineSecurity         3
OnlineBackup           3
DeviceProtection       3
TechSupport            3
StreamingTV            3
StreamingMovies        3
Contract               3
PaperlessBilling       2
PaymentMethod          4
MonthlyCharges      1585
TotalCharges        6531
Churn                  2
dtype: int64

# 查看表格某列中有多少个不同值，并计算每个不同值在该列中有多少重复值
df.Churn.value_counts()  #value_counts()是Series拥有的方法，一般在DataFrame中使用时，需要指定对哪一列或行使用

No     5174
Yes    1869
Name: Churn, dtype: int64

说明一共有1869个流失客户，5174个非流失客户

2. 数据清洗

(1). 简化属性值

将InternetService中的DSL数字网络，fiber optic光纤网络替换为Yes
将MultipleLines中的No phoneservice替换成No
将TotalCharges转换为数字型

# 将InternetService中的DSL数字网络，fiber optic光纤网络替换为Yes
# 将MultipleLines中的No phoneservice替换成No
replace_list=['OnlineSecurity','OnlineBackup','DeviceProtection','TechSupport','StreamingTV','StreamingMovies']
for i in replace_list:
    df[i]=df[i].str.replace('No internet service','No')
df['InternetService']=df['InternetService'].str.replace('Fiber optic','Yes')
df['InternetService']=df['InternetService'].str.replace('DSL','Yes')
df['MultipleLines']=df['MultipleLines'].str.replace('No phone service','No')
# 将TotalCharges转换为数字型
df.TotalCharges=pd.to_numeric(df.TotalCharges,errors="coerce") #.to_numeric()将参数转换为数字类型,其中coerce表示无效的解析将设置为NaN
df.TotalCharges.dtypes

dtype('float64')

3. 数据可视化

具体见

Kaggle数据集之电信客户流失数据分析（一）
Kaggle数据集之电信客户流失数据分析（二）

三、用决策树分类

根据(二)中的可视化结果，有11个特征与客户流失率的高低相关，分别是

SeniorCitizen ：是否老年用户
Partner ：是否伴侣用户
Dependents ：是否亲属用户
tenure：在网时长
InternetService：是否开通互联网服务
OnlineSecurity：是否开通网络安全服务
TechSupport：是否开通了技术支持服务
Contract：签订合同方式（按月，一年，两年）
PaperlessBilling：是否开通电子账单（Yes or No）
PaymentMethod：付款方式（bank transfer，credit card，electronic check，mailed check）
MonthlyCharges：月费用

接下来通过样本数据训练一个决策树模型，使模型能够根据输入特征预测客户是否为潜在的流失对象。

1. 特征工程

df

	customerID	gender	SeniorCitizen	Partner	Dependents	tenure	PhoneService	MultipleLines	InternetService	OnlineSecurity	...	DeviceProtection	TechSupport	StreamingTV	StreamingMovies	Contract	PaperlessBilling	PaymentMethod	MonthlyCharges	TotalCharges	Churn
0	7590-VHVEG	Female	0	Yes	No	1	No	No	Yes	No	...	No	No	No	No	Month-to-month	Yes	Electronic check	29.85	29.85	No
1	5575-GNVDE	Male	0	No	No	34	Yes	No	Yes	Yes	...	Yes	No	No	No	One year	No	Mailed check	56.95	1889.50	No
2	3668-QPYBK	Male	0	No	No	2	Yes	No	Yes	Yes	...	No	No	No	No	Month-to-month	Yes	Mailed check	53.85	108.15	Yes
3	7795-CFOCW	Male	0	No	No	45	No	No	Yes	Yes	...	Yes	Yes	No	No	One year	No	Bank transfer (automatic)	42.30	1840.75	No
4	9237-HQITU	Female	0	No	No	2	Yes	No	Yes	No	...	No	No	No	No	Month-to-month	Yes	Electronic check	70.70	151.65	Yes
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
7038	6840-RESVB	Male	0	Yes	Yes	24	Yes	Yes	Yes	Yes	...	Yes	Yes	Yes	Yes	One year	Yes	Mailed check	84.80	1990.50	No
7039	2234-XADUH	Female	0	Yes	Yes	72	Yes	Yes	Yes	No	...	Yes	No	Yes	Yes	One year	Yes	Credit card (automatic)	103.20	7362.90	No
7040	4801-JZAZL	Female	0	Yes	Yes	11	No	No	Yes	Yes	...	No	No	No	No	Month-to-month	Yes	Electronic check	29.60	346.45	No
7041	8361-LTMKD	Male	1	Yes	No	4	Yes	Yes	Yes	No	...	No	No	No	No	Month-to-month	Yes	Mailed check	74.40	306.60	Yes
7042	3186-AJIEK	Male	0	No	No	66	Yes	No	Yes	Yes	...	Yes	Yes	Yes	Yes	Two year	Yes	Bank transfer (automatic)	105.65	6844.50	No

7043 rows × 21 columns

第一类特征的数据内容为：‘yes’ or ‘no‘

目前属于这类特征的变量有：‘Partner’, ‘Dependents’,‘InternetService’,‘OnlineSecurity’, ‘TechSupport’，‘PaperlessBilling’, ‘Churn’。可以直接采用0-1变量进行编码。其中’1‘代表’yes‘，’0‘代表’no‘

Te_data=df
#将'Partner', 'Dependents','InternetService','OnlineSecurity', 'TechSupport'，'PaperlessBilling', 'Churn'转化为0-1编码
SeniorCitizen=list(Te_data['SeniorCitizen'])
Partner=list(Te_data['Partner'])
Dependents=list(Te_data['Dependents'])
InternetService=list(Te_data['InternetService'])
OnlineSecurity=list(Te_data['OnlineSecurity'])
TechSupport=list(Te_data['TechSupport'])
PaperlessBilling=list(Te_data['PaperlessBilling'])
Churn=list(Te_data['Churn'])


for i in range(Te_data.shape[0]):
    
    if Partner[i]=='Yes':
        Partner[i] = 1
    else :
        Partner[i] = 0

    if Dependents[i]=='Yes':
        Dependents[i] = 1
    else :
        Dependents[i] = 0

    if InternetService[i]=='Yes':
        InternetService[i] = 1
    else :
        InternetService[i] = 0

    if OnlineSecurity[i]=='Yes':
        OnlineSecurity[i] = 1
    else :
        OnlineSecurity[i] = 0
        
    if TechSupport[i]=='Yes':
        TechSupport[i] = 1
    else :
        TechSupport[i] = 0
        
    if PaperlessBilling[i]=='Yes':
        PaperlessBilling[i] = 1
    else :
        PaperlessBilling[i] = 0
    
    if Churn[i]=='Yes': #流失客户为1
        Churn[i] = 1
    else :
        Churn[i] = 0

第二类特征的数据为标称型数据

标称型数据只提供了足够信息区分对象，而本身不具有任何顺序或数值计算的意义。目前属于这类特征的变量有：‘Contract’、‘PaymentMethod’。这类变量采用One-Hot的方式进行编码，构造虚拟变量。

Contract=Te_data['Contract']
Contract_dummies=pd.get_dummies(Contract)
PaymentMethod=Te_data['PaymentMethod']
PaymentMethod_dummies=pd.get_dummies(PaymentMethod)
PaymentMethod_dummies

	Bank transfer (automatic)	Credit card (automatic)	Electronic check	Mailed check
0	0	0	1	0
1	0	0	0	1
2	0	0	0	1
3	1	0	0	0
4	0	0	1	0
...	...	...	...	...
7038	0	0	0	1
7039	0	1	0	0
7040	0	0	1	0
7041	0	0	0	1
7042	1	0	0	0

7043 rows × 4 columns

第三类特征是数值型

数值型数据具备顺序以及加减运算的意义，目前属于这类特征的变量有：tenure，MonthlyCharges。
可以采用连续特征离散化的处理方式，因为离散化后的特征对异常数据有更强的鲁棒性，可以降低过拟合的风险，使模型更稳定，预测的效果也会更好。
数据离散化也称为分箱操作，其方法分为有监督分箱（卡方分箱、最小熵法分箱）和无监督分箱（等频分箱、等距分箱）。这里采用无监督分箱中的等频分箱进行操作。

tenure=list(Te_data['tenure'])
tenure_cats=pd.qcut(tenure,6)
tenure_dummies=pd.get_dummies(tenure_cats)
MonthlyCharges=list(Te_data['MonthlyCharges'])
MonthlyCharges_cats=pd.qcut(MonthlyCharges,5)
MonthlyCharges_dummies=pd.get_dummies(MonthlyCharges_cats)
tenure_dummies

	(-0.001, 4.0]	(4.0, 14.0]	(14.0, 29.0]	(29.0, 47.0]	(47.0, 64.0]	(64.0, 72.0]
0	1	0	0	0	0	0
1	0	0	0	1	0	0
2	1	0	0	0	0	0
3	0	0	0	1	0	0
4	1	0	0	0	0	0
...	...	...	...	...	...	...
7038	0	0	1	0	0	0
7039	0	0	0	0	0	1
7040	0	1	0	0	0	0
7041	1	0	0	0	0	0
7042	0	0	0	0	0	1

7043 rows × 6 columns

MonthlyCharges_dummies

	(18.249, 25.05]	(25.05, 58.83]	(58.83, 79.1]	(79.1, 94.25]	(94.25, 118.75]
0	0	1	0	0	0
1	0	1	0	0	0
2	0	1	0	0	0
3	0	1	0	0	0
4	0	0	1	0	0
...	...	...	...	...	...
7038	0	0	0	1	0
7039	0	0	0	0	1
7040	0	1	0	0	0
7041	0	0	1	0	0
7042	0	0	0	0	1

7043 rows × 5 columns

2. 得到输入、输出特征

将所有输入合并，最终得到模型的输入特征以及1个输出特征。

import numpy as np
#模型输出y
Churn_y=np.array(Churn).reshape(-1,1) #.reshape转换成1列

#模型输入x：'SeniorCitizen', 'Partner', 'Dependents','InternetService','OnlineSecurity', 'TechSupport'，'PaperlessBilling','Contract','PaymentMethod','tenure',MonthlyCharges
SeniorCitizen_x=np.array(SeniorCitizen).reshape(-1,1)
Partner_x=np.array(Partner).reshape(-1,1)
Dependents_x=np.array(Dependents).reshape(-1,1)
InternetService_x=np.array(InternetService).reshape(-1,1)
OnlineSecurity_x=np.array(OnlineSecurity).reshape(-1,1)
TechSupport_x=np.array(TechSupport).reshape(-1,1)
PaperlessBilling_x=np.array(PaperlessBilling).reshape(-1,1)

Contract_x=Contract_dummies.values
PaymentMethod_x=PaymentMethod_dummies.values

tenure_x=tenure_dummies.values
MonthlyCharges_x=MonthlyCharges_dummies.values

X=np.concatenate([SeniorCitizen_x,Partner_x,Dependents_x,InternetService_x,OnlineSecurity_x,TechSupport_x,TechSupport_x,Contract_x,PaymentMethod_x,tenure_x,MonthlyCharges_x],axis=1)

至此，输入矩阵X是1个只包含0，1的矩阵。

3. 训练与测试

模型直接使用scikit-learn中的DecisionTreeClassifier实现：

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# 产生训练和测试样本，测试样本比例为30%
x_train, x_test, y_train, y_test = train_test_split(X, Churn_y, test_size=0.3, random_state=42)

# 构建模型
tree = DecisionTreeClassifier(max_depth=6,random_state=0) #树的深度设置为6
dt_tree=tree.fit(x_train,y_train)

#评估模型使用十次交叉验证
score = cross_val_score(tree, X, Churn_y, cv=10, scoring='accuracy')

print("training set score:{:.3f}".format(tree.score(x_train,y_train)))
print("test set score:{:.3f}".format(tree.score(x_test,y_test)))
print("ten cross-validation score:{:.3f}".format(np.mean(score)))
print("Feature importances : \n{}".format(tree.feature_importances_)) ##系数反映每个特征的影响力。越大表示该特征在分类中起到的作用越大

training set score:0.797
test set score:0.780
ten cross-validation score:0.789
Feature importances : 
[1.30884609e-02 7.46172977e-03 2.65487591e-03 6.18699745e-02
 3.03670616e-02 1.79474957e-03 4.03171408e-03 5.33581539e-01
 5.75912046e-03 1.52947662e-02 6.16748742e-03 3.26401250e-03
 1.06356948e-01 9.07157615e-05 8.69506935e-02 1.82148495e-02
 4.46274400e-03 1.92808846e-03 1.95735200e-03 0.00000000e+00
 1.81965175e-02 3.19784327e-02 0.00000000e+00 0.00000000e+00
 4.45281658e-02]

DecisionTreeClassifier()函数

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

函数为创建一个决策树模型，其函数的参数含义如下所示：

criterion： gini或者entropy,前者是基尼系数，后者是信息熵，默认是gini，即CART算法
splitter： best or random 前者是在所有特征中找最好的切分点，后者是随机的在部分划分点中找局部最优的划分点，默认的”best”适合样本量不大的时候，而如果样本数据量非常大，此时决策树构建推荐”random” 。
max_features：None（所有），log2，sqrt，N 特征小于50的时候一般使用所有的
max_depth： int or None, optional (default=None) 设置决策随机森林中的决策树的最大深度，深度越大，越容易过拟合，推荐树的深度为：5-20之间。
min_samples_split：设置结点的最小样本数量，当样本数量可能小于此值时，结点将不会在划分。
min_samples_leaf：这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。
min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝默认是0，就是不考虑权重问题。
max_leaf_nodes：通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。
class_weight： 指定样本各类别的的权重，主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重，如果使用“balanced”，则算法会自己计算权重，样本量少的类别所对应的样本权重会高。不适用于回归树。
min_impurity_split：这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益，均方差，绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点。

由结果可知，训练集的拟合优度为0.797，测试集的拟合优度为0.780，10次交叉验证的平均得分为0.789，说明当前输入特征对模型目标的解释性较强，预测效果较好。

train_test_split函数

用于将矩阵随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。

格式：
X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)

参数解释：

train_data：被划分的样本特征集
train_target：被划分的样本标签
test_size：如果是浮点数，在0-1之间，表示样本占比；如果是整数的话就是样本的数量
random_state：是随机数的种子。
随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。
随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：
种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

4. 预测新数据

对于新的与原始数据格式相同的数据，如何根据建立的模型直接给出预测的分类。

需要特别注意：对于数值型数据的分箱操作一定要与建立模型的相同，不能直接基于待预测数据继续采用等频分箱的操作。

# 读取待预测数据组成的xlsx文件
import pandas as pd
new_df=pd.read_csv(r"D:/PycharmProjects/ku_pandas/newdata.csv")

# 将上面的过程重来一遍

# 简化属性值
# 将InternetService中的DSL数字网络，fiber optic光纤网络替换为Yes
# 将MultipleLines中的No phoneservice替换成No
replace_list=['OnlineSecurity','OnlineBackup','DeviceProtection','TechSupport','StreamingTV','StreamingMovies']
for i in replace_list:
    new_df[i]=new_df[i].str.replace('No internet service','No')
new_df['InternetService']=new_df['InternetService'].str.replace('Fiber optic','Yes')
new_df['InternetService']=new_df['InternetService'].str.replace('DSL','Yes')
new_df['MultipleLines']=new_df['MultipleLines'].str.replace('No phone service','No')
# 将TotalCharges转换为数字型
new_df.TotalCharges=pd.to_numeric(new_df.TotalCharges,errors="coerce") #.to_numeric()将参数转换为数字类型,其中coerce表示无效的解析将设置为NaN

# 特征工程
#将'Partner', 'Dependents','InternetService','OnlineSecurity', 'TechSupport'，'PaperlessBilling', 'Churn'转化为0-1编码
SeniorCitizen=list(new_df['SeniorCitizen'])
Partner=list(new_df['Partner'])
Dependents=list(new_df['Dependents'])
InternetService=list(new_df['InternetService'])
OnlineSecurity=list(new_df['OnlineSecurity'])
TechSupport=list(new_df['TechSupport'])
PaperlessBilling=list(new_df['PaperlessBilling'])
Churn=list(new_df['Churn'])

for i in range(new_df.shape[0]):
    
    if Partner[i]=='Yes':
        Partner[i] = 1
    else :
        Partner[i] = 0

    if Dependents[i]=='Yes':
        Dependents[i] = 1
    else :
        Dependents[i] = 0

    if InternetService[i]=='Yes':
        InternetService[i] = 1
    else :
        InternetService[i] = 0

    if OnlineSecurity[i]=='Yes':
        OnlineSecurity[i] = 1
    else :
        OnlineSecurity[i] = 0
        
    if TechSupport[i]=='Yes':
        TechSupport[i] = 1
    else :
        TechSupport[i] = 0
        
    if PaperlessBilling[i]=='Yes':
        PaperlessBilling[i] = 1
    else :
        PaperlessBilling[i] = 0
    
    if Churn[i]=='Yes': #流失客户为1
        Churn[i] = 1
    else :
        Churn[i] = 0
# 标称型数据
Contract=new_df['Contract']
Contract_dummies=pd.get_dummies(Contract)
PaymentMethod=new_df['PaymentMethod']
PaymentMethod_dummies=pd.get_dummies(PaymentMethod)

# 数值型数据按照之前建立的模型进行分箱
tenure=list(new_df['tenure'])
tenure_cut=[-0.001,4,14,29,47,64,72]
tenure_cats=pd.cut(tenure,tenure_cut)
tenure_dummies=pd.get_dummies(tenure_cats)
MonthlyCharges=list(new_df['MonthlyCharges'])
MonthlyCharges_cut=[18.249,,25.05,58.83,79.1,94.25,118.75]
MonthlyCharges_cats=pd.qcut(MonthlyCharges,MonthlyCharges_cut)
MonthlyCharges_dummies=pd.get_dummies(MonthlyCharges_cats)
tenure_dummies

	(-0.001, 4.0]	(4.0, 14.0]	(14.0, 29.0]	(29.0, 47.0]	(47.0, 64.0]	(64.0, 72.0]
0	1	0	0	0	0	0
1	0	0	0	1	0	0
2	1	0	0	0	0	0
3	0	0	0	1	0	0
4	1	0	0	0	0	0
5	0	1	0	0	0	0
6	0	0	1	0	0	0
7	0	1	0	0	0	0
8	0	0	1	0	0	0
9	0	0	0	0	1	0
10	0	1	0	0	0	0
11	0	0	1	0	0	0
12	0	0	0	0	1	0
13	0	0	0	0	1	0
14	0	0	1	0	0	0
15	0	0	0	0	0	1
16	0	0	0	0	1	0
17	0	0	0	0	0	1
18	0	1	0	0	0	0

import numpy as np
#模型输出y
Churn_y=np.array(Churn).reshape(-1,1) #.reshape转换成1列

#模型输入x：'SeniorCitizen', 'Partner', 'Dependents','InternetService','OnlineSecurity', 'TechSupport'，'PaperlessBilling','Contract','PaymentMethod','tenure',MonthlyCharges
SeniorCitizen_x=np.array(SeniorCitizen).reshape(-1,1)
Partner_x=np.array(Partner).reshape(-1,1)
Dependents_x=np.array(Dependents).reshape(-1,1)
InternetService_x=np.array(InternetService).reshape(-1,1)
OnlineSecurity_x=np.array(OnlineSecurity).reshape(-1,1)
TechSupport_x=np.array(TechSupport).reshape(-1,1)
PaperlessBilling_x=np.array(PaperlessBilling).reshape(-1,1)

Contract_x=Contract_dummies.values
PaymentMethod_x=PaymentMethod_dummies.values

tenure_x=tenure_dummies.values
MonthlyCharges_x=MonthlyCharges_dummies.values

X=np.concatenate([SeniorCitizen_x,Partner_x,Dependents_x,InternetService_x,OnlineSecurity_x,TechSupport_x,TechSupport_x,Contract_x,PaymentMethod_x,tenure_x,MonthlyCharges_x],axis=1)

# 预测类别
y=dt_tree.predict(X)
y

array([1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

5. 结果可视化与结论

由于X是array格式的，没有列名，首先将X转换为dateframe格式，再加上列名，并将其保存到xlsx表中。

# 首先将array转换为framedata
Te_X = pd.DataFrame(X)
# 加上列名
Te_X.columns=['SeniorCitizen', 'Partner', 'Dependents','InternetService','OnlineSecurity', 'TechSupport','PaperlessBilling',\
       'Month-to-month','One year','Two year','Bank transfer (automatic)','Credit card (automatic)','Electronic check','Mailed check',\
        'tenure_(0.999, 4.0]','tenure_(4.0, 14.0]','tenure_(14.0, 29.0]','tenure_(29.0, 47.0]','tenure_(47.0, 64.0]','tenure_(64.0, 72.0]',\
      'MonthlyCharges_(18.249, 25.05]','MonthlyCharges_(25.05, 58.92]','MonthlyCharges_(58.92, 79.15]','MonthlyCharges_(79.15, 94.3]','MonthlyCharges_(94.3, 118.75]']
Te_X

	SeniorCitizen	Partner	Dependents	InternetService	OnlineSecurity	TechSupport	PaperlessBilling	Month-to-month	One year	Two year	...	tenure_(4.0, 14.0]	tenure_(14.0, 29.0]	tenure_(29.0, 47.0]	tenure_(47.0, 64.0]	tenure_(64.0, 72.0]	MonthlyCharges_(18.249, 25.05]	MonthlyCharges_(25.05, 58.92]	MonthlyCharges_(58.92, 79.15]	MonthlyCharges_(79.15, 94.3]	MonthlyCharges_(94.3, 118.75]
0	0	1	0	1	0	0	0	1	0	0	...	0	0	0	0	0	0	1	0	0	0
1	0	0	0	1	1	0	0	0	1	0	...	0	0	1	0	0	0	1	0	0	0
2	0	0	0	1	1	0	0	1	0	0	...	0	0	0	0	0	0	1	0	0	0
3	0	0	0	1	1	1	1	0	1	0	...	0	0	1	0	0	0	1	0	0	0
4	0	0	0	1	0	0	0	1	0	0	...	0	0	0	0	0	0	0	1	0	0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
7038	0	1	1	1	1	1	1	0	1	0	...	0	1	0	0	0	0	0	0	1	0
7039	0	1	1	1	0	0	0	0	1	0	...	0	0	0	0	1	0	0	0	0	1
7040	0	1	1	1	1	0	0	1	0	0	...	1	0	0	0	0	0	1	0	0	0
7041	1	1	0	1	0	0	0	1	0	0	...	0	0	0	0	0	0	0	1	0	0
7042	0	0	0	1	1	1	1	0	0	1	...	0	0	0	0	1	0	0	0	0	1

7043 rows × 25 columns

# 同理对Churn_y
Churn_y=pd.DataFrame(Churn_y,columns=['Churn'])
Churn_y

	Churn
0	0
1	0
2	1
3	0
4	1
...	...
7038	0
7039	0
7040	0
7041	1
7042	0

7043 rows × 1 columns

# 保存dataframe数据到xlsx文件
Te_X.to_excel("tree_data.xlsx", index=0)
Churn_y.to_excel("tree_Y.xlsx", index=0)

特征重要性可视化

#特征重要性可视化  
import matplotlib.pyplot as plt
def plot_feature_importance(model):
    n_features = Te_X.shape[1]
    plt.barh(range(n_features),model.feature_importances_,align='center')
    plt.yticks(range(n_features),Te_X.columns[0:])
    plt.xlabel('Features importance')
    plt.ylabel('feature')
plot_feature_importance(tree)
plt.show()

对于模型决策影响较大的指标包括：

合同期限是否为‘month to month’
顾客是否使用电子支票作为支付方式(electronic check)
顾客已使用的年限是否小于4个月
是否开通互联网服务(InternetService)

它们都能较好的反映流失客户与非流失客户的区别，从而使模型做出正确的分类。我们也可以将决策树可视化，进一步了解模型的决策过程：

决策树可视化及结论

#决策树可视化
from sklearn.tree import export_graphviz
export_graphviz(tree,out_file='te_tree.dot',class_names=['Churn_yes','Churn_no'],feature_names=Te_X.columns[0:],impurity=False,filled=True)

import graphviz
with open("te_tree.dot") as f:
    dot_graph=f.read()
graph=graphviz.Source(dot_graph)
graph.render("tree")

'tree.pdf'

决策树以month to month为根节点，左子树几乎均为非流失客户，因此研究右子树更有意义。由于决策树过大，这里只展示局部子树，并从决策过程中得出结论给出建议。

由上图可知，用于建立决策树的样本一共有4930个，其中签订合同方式按月的客户有2690个，其中非流失客户(Churn_no)1553个，流失客户(Churn_yes)1137个。对于签订合同方式按月、付款方式不是electronic check且在网时长不超过4个月的客户，有如下决策子树：

以上子树从是否为网络服务使用者这一分类特征的用户群体发展而来。其中红色系格子和白色格子代表非流失客户，蓝色系格子代表流失客户。可以明显发现，网络服务的使用者更有可能成为流失客户，除非其月费用不在(25.05,58.92]内且申请了网络安全这一附加服务。基于上述分析，给出一个运营建议：

建议1：对于签订合同方式按月、付款方式不是electronic check且在网时长不超过4个月的客户，当用户为网络服务的使用者时，推荐其开通网络安全方面的附加服务，防止其因基础网络问题而成为流失客户。

对于签订合同方式按月、付款方式是electronic check且在网时长超过4个月的客户，有如下决策子树：

以上子树从是否开通网络安全服务这一分类特征的用户群体发展而来。红色系格子代表非流失客户，蓝色系格子代表流失客户。未开通网络安全服务但是开通了互联网服务的客户更有可能成为流失客户，除非其月消费达到(25.05,58.92]这个区间；开通了网络安全服务的客户基本不会成为流失客户，除非在网时长处于14到29个月，且未开通电子账单的用户。基于上述分析，给出一个运营建议：

建议2：对于签订合同方式按月、付款方式是electronic check且在网时长超过4个月的客户，当开通了网络安全服务且在网时长为14到29个月时，推荐其开通电子账单

对于签订合同方式按月、付款方式是electronic check且在网时长不超过4个月的客户，有如下决策子树：

以上子树从是否开通互联网服务这一分类特征的用户群体发展而来。选择开通互联网服务的客户更易成为流失客户，除非开通了网络安全服务且不是老年人；选择不开通互联网服务但是有孩子的客户更容易流失。基于上述分析，给出一个运营建议：

建议3：对于签订合同方式按月、付款方式是electronic check且在网时长不超过4个月的客户，当用户为网络服务的年轻使用者时，推荐其开通网络安全方面服务。

6. 总结

从整个决策树分析得出一些大致结论：

老年客户群体始终是容易发生流失行为的客户，需要及时关注了解其服务需求
合同期限越短(month-to-month)的用户越容易发生流失行为。因此需要通过各种优惠政策、活动尽可能与新用户签订一个长期的合同。
对于开通了网络服务的客户，应推荐其开通网络安全服务

参考文章：电信客户流失数据分析（二）

你可能感兴趣的:(数据分析)

spss因子分析过程中，旋转载荷平方和累积有点低咋办怎么调整 xiamu_CDA python
SPSS因子分析过程中，旋转载荷平方和累积有点低咋办？怎么调整？在数据分析领域，因子分析是一项重要的统计技术，尤其在心理学、社会学、市场营销等领域中应用广泛。它通过将多个变量简化为少数几个潜在因子，帮助研究者理解变量之间的内在结构。然而，在实际操作过程中，我们常常会遇到一些棘手的问题，比如旋转载荷平方和累积值偏低。这不仅会影响模型的解释力，还可能导致研究结果的可靠性大打折扣。那么，当我们在使用SP
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
mysql之group by语句程序研 mysql mysql 数据库
MySQL的GROUPBY语句详细介绍在MySQL数据库中，GROUPBY子句用于将查询结果按照一个或多个列进行分组。这在数据分析和报表生成中非常有用，因为它允许我们对数据进行汇总和聚合，从而提取有价值的信息。本文将详细介绍GROUPBY语句的用法、注意事项以及通过多个代码例子来演示其功能。1.基本概念GROUPBY子句通常与聚合函数（如COUNT、SUM、AVG、MAX、MIN等）一起使用，以便
用Java提取Word文档表格数据
Word文档作为一种广泛使用的文件格式，常常承载着丰富的表格信息，这些信息可能涉及到财务报表、项目规划、实验数据记录等多方面内容。将这些表格数据提取出来，能够方便进行数据分析以及内容再创作等场景。通过使用Java实现Word文档表格数据的提取，可以确保数据处理的一致性和准确性，同时大大减少所需的时间和成本。本文将介绍如何使用Java提取Word文档中的表格数据。用Java提取Word文档表格到文本
python面试情景题_50道python笔试面试真题大集合我是史迪仔 python面试情景题
Python爬虫人工智能100GBweb爬虫数据分析人工智能视频免费领题目后面有50道题答案领取方式哦1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量利用global修改全局变量3、列出5个python标准库os：提供了不少与操作系统相关联的函数sys:通常用于命令行参数re:正则匹配math:数学运算datetime:处理日期时间4、字典如何删除键和合并两
数据分析变异系数やっはろ数据分析数据分析数据挖掘
目录变异系数的应用场景包括：特点：注意事项：np.nanvar——方差，np.sanstd标准差简单来讲就是平均值/标准差变异系数（CoefficientofVariation,CV）是一种相对量的变异指标，常用于衡量数据的离散程度。它通过标准差与均值的比值来表示，消除了单位差异的影响，使得不同量纲、均值不同的数据之间可以直接比较其离散程度。一般来说，变量值平均水平高，其离散程度的测度值越大，反之
C# 与.NET 日志变革：JSON 让程序“开口说清话” 步、步、为营 c#.net json
一、引言：日志新时代的开启在软件开发的漫长旅程中，日志一直是我们不可或缺的伙伴。它就像是应用程序的“黑匣子”，默默地记录着程序运行过程中的点点滴滴，为我们在调试、排查问题以及性能优化时提供关键线索。在早期，文本日志是我们最常用的记录方式，它简单直接，就像我们随手写下的日记，记录着事件发生的时间、内容等基本信息。然而，随着软件系统规模的不断扩大，架构日益复杂，尤其是在微服务、大数据分析以及云原生应用
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
Apache Doris主要应用场景和一些实际案例临水逸 apache
ApacheDoris是一个现代化的分布式分析型数据库，具备高性能、实时性和高并发性等特点，被广泛应用于多种场景。以下是Doris的主要应用场景和一些实际案例。应用场景1.实时数据分析数据流处理：Doris可以实时ingest（引入）和分析数据流，适用于监控系统、实时用户行为分析等场景。实时仪表盘：Doris适用于构建实时可视化仪表盘，为运营和业务决策提供实时数据支持。2.数据仓库OLAP（在线分
Python绘制数据地图-MovingPandas 懒大王爱吃狼 Python数据可视化 python 信息可视化开发语言 Python基础 python学习
MovingPandas是一个用于时空数据分析的Python库，它扩展了Pandas和GeoPandas，使得处理和分析带有时间戳的地理数据变得更加方便。虽然MovingPandas本身不直接提供数据可视化功能，但你可以结合其他库如matplotlib、folium或plotly来绘制数据地图。以下是一个简单的示例，展示如何使用MovingPandas和matplotlib来绘制带有时间戳的地理数
镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单！数据库软件数据分析
在近日于上海成功举办的“释放×数效应·共创智+未来”2024第七届金猿&魔方论坛上，镜舟科技凭借其在数据分析领域的卓越贡献和国产化技术实力，入选《2024中国大数据产业年度「国产化」优秀代表厂商》榜单，展现了其在国产化、信创道路上的成果。镜舟科技自2022年成立以来，始终致力于帮助中国企业建立卓越的数据分析系统，形成自身的“数据护城河”。基于开源项目StarRocks进行深度研发，镜舟科技推出2款
高成长、高潜力、高社区影响！镜舟科技入选 2024 中国新锐技术先锋企业数据库开源数据分析
2024年12月4日，中国技术先锋年度评选|2024中国新锐技术先锋企业榜单正式发布。作为中国领先的新一代开发者社区，SegmentFault思否依托上千万开发者用户数据分析，各科技企业在国内技术领域的行为及影响力指标，最终评选出30家新锐技术先锋企业，镜舟科技作为领先的数据技术企业，入选30强之列。2024中国新锐技术先锋企业榜隶属于中国技术先锋年度评选，旨在挖掘信奉技术力量、敢于技术创新、践行
【Python】Numpy详解 frimiku python numpy 开发语言大数据人工智能
Numpy详解相关教程【Python】Numpy详解【Python】Pandas详解【Python】Matplotlib详解一、Numpy介绍数据分析三剑客之一的Numpy，是一个用于处理数组的Python包【基于数组对象的科学计算库】。其全名为“NumericPython”，是一款开源的Python库。Numpy相当于Python中的列表（List），但只能存放相同的数据类型。引入Numpy的目
python dash框架时雨h 数学建模 python 信息可视化 dash 数据分析
Dash是一个用于创建数据分析型web应用的Python框架。它由Plotly团队开发，并且可以用来构建交互式的web应用程序，这些应用能够包含图表、表格、地图等多种数据可视化组件。Dash的特点：易于使用：Dash使用Python语法，对于熟悉Python的用户来说很容易上手。交互性：Dash支持用户交互，例如点击事件、下拉列表选择等。服务器端渲染：Dash应用程序在服务器端渲染，然后将结果发送
pandas介绍 June � 可视化 python 数据分析大数据机器学习
本文的主要内容是基于中国大学mooc（慕课）中的“Python数据分析与可视化”课程进行整理和总结。pandas是python第三方库，是基于Numpy的一种工具，经常与numpy与matplotlib一起使用，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是
Google广告数据分析与优化总结奔跑的栀子计算广告广告计算广告数据分析数据可视化 google
一、概述广告优化师虽属于广告行业，但在实际的优化过程中无不考验着优化师的数据分析能力。不同的计划在不同时期情况不一样，具体的优化应当以当时的状态跟所处情形来进行，因此对于这个行业来讲没有百分之百奏效的优化方式，广告优化师能做的就是根据自己的经验分析和判断可能是什么原因导致了计划出现问题，以及通过尝试去改变效果不好的现状。以下是我曾经优化比较成功的案例之一，下面将分日期对计划所处的状态、猜测结果出现
第17篇：python进阶：详解数据分析与处理猿享天开 python从入门到精通 python 开发语言
第17篇：数据分析与处理内容简介本篇文章将深入探讨数据分析与处理在Python中的应用。您将学习如何使用pandas库进行数据清洗与分析，掌握matplotlib和seaborn库进行数据可视化，以及处理大型数据集的技巧。通过丰富的代码示例和实战案例，您将能够高效地进行数据处理、分析和可视化，为数据驱动的决策提供有力支持。目录数据分析与处理概述什么是数据分析与处理数据分析的流程使用pandas进行
Python数据分析与可视化研究阿尔法星球 python python 数据分析开发语言
Python数据分析与可视化研究摘要随着大数据和人工智能技术的飞速发展，Python数据分析与可视化技术已成为现代科学研究、企业决策等领域不可或缺的工具。本研究全面梳理了Python在数据分析与可视化领域的基本理论框架和关键技术，系统分析了Pandas、NumPy等核心数据分析库以及Matplotlib、Seaborn等可视化库的应用优势与特点。通过实际案例，本研究深入探讨了Python在数据清洗
在K8S中，如何使用EFK实现日志的统一管理？ Dusk_橙子 K8S kubernetes 容器云原生
在Kubernetes中，EFK是一种常见的日志统一管理方案。EFK堆栈允许你收集、存储、搜素、分析和可视化容器应用程序的日志。下面是如何在Kubernetes中使用EFK实现日志统一管理的详细步骤：部署Elasticsearchelasticsearch是一个分布式、RESTful风格的搜索和分析引擎，能够解决越来越多用例的查询语言，它通常用于日志和事件数据分析。首先，你需要再kubernete
ODBC的基本使用种花的人_ 开发工具数据库
前言在工作中，使用POWERBI做数据分析报表的时候用到ODBC，对于POWERBI语义模式实现连接数据库必须使用到ODBC，那什么是ODBC？1.ODBC的基本概念1.1ODBC驱动程序每种数据库都有相应的ODBC驱动程序，这些驱动程序负责处理与数据库的通信。驱动程序将ODBC调用转换为数据库特定的调用，并将结果返回给应用程序。1.2数据源名称(DSN)DSN是一个配置名称，用于保存连接到数据库
R数据分析：多分类问题预测模型的ROC做法及解释公众号Codewar原创作者 R 数据分析
有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多分类问题情形下的具体使用和做法。ROC曲线回顾ROC曲线（ReceiverOperatingCharacteristicCurve）
R数据分析：有调节的中介与有中介的调节的整体介绍公众号Codewar原创作者算法人工智能
单独的有调节的中介或者有中介的调节好多同学还大概能看明白，但是两个东西一起说我发现大部分同学就懵逼了。今天我就尝试将两种方法一起讲讲，重点帮助大家厘清两种方法的异同。先从整体上看下两者的概念：有中介的调节首先落脚在调节，调节作用必须是显著的，并且这个调节作用的实现过程要通过中介变量。theideal-typicalmediatedmoderationisfirstofallasignificant
【dbt】数据加工大师浅谈一盘胡椒鱼 dbt 数据库数据仓库 etl 数据分析 sql
dbt是dbtlabs公司在2016年推出的一款基于Python的开源数据加工工具。从2019年开始，dbt的用户数量增涨十分迅速。dbtlabs凭借此工具，在2022年估值达到了42亿美金。dbt的价值dbt是面向分析工程师提供服务。【分析工程师】是dbt新定义的岗位，是基于DataOps思想，综合了数据工程师和数据分析师两者。即分析师也应该会代码开发（实际上，现在很多的数据分析师就是在做sql
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
税务门户网站系统：数据分析与税务政策传播 liuxin33445566 安全 java 开发语言数据库前端
2.1SSM框架介绍本课题程序开发使用到的框架技术，英文名称缩写是SSM，在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等，作为一个课题程序采用SSH框架也可以，SSM框架也可以，SpringMVC也可以。SSH框架是属于重量级别的框架，配置繁琐，不够灵活，修改程序需要修改好多个文件，并且运行起来也占用内存较高，CPU使用率相对也高，SpringMVC是Spring开发的
程序员转行做什么好：数据分析师、AI大模型工程师、产品经理和云计算工程师？雪碧没气阿人工智能产品经理云计算大模型训练 LLM AI大模型程序员
程序员转行做什么好先给结论再说理由：数据分析师、AI大模型工程师、产品经理和云计算工程师。这些领域不仅因应了当前技术发展的趋势，也为程序员提供了转型的广阔舞台和职业发展的新机遇。一起来看看吧！数据分析师：数据驱动决策的关键程序员转行时，应考虑当前市场上的热门行业和岗位需求。例如，AI大模型工程师、数据分析师、前端开发工程师、全栈开发工程师等都是当前市场上需求量较大的职位。就拿数据分析师来说，因其在
如何查看商品销量 API 接口的性能指标数据前端后端运维数据挖掘api
在当今电商蓬勃发展的时代，数据成为驱动业务决策的关键因素。商品销量作为衡量产品受欢迎程度和销售业绩的核心指标，其获取依赖于高效稳定的API接口。对于电商开发者、数据分析师以及业务决策者而言，了解如何查看商品销量API接口的性能指标数据至关重要。这些性能指标不仅能反映接口的运行状态，还能为优化接口、提升用户体验以及保障业务连续性提供有力依据。本文将深入探讨查看商品销量API接口性能指标数据的方法，并
基于Python的三种主流网络爬虫技术吃肉肉335 python 爬虫开发语言
一、网络爬虫是什么网络爬虫，通常也被称为网络蜘蛛或网络机器人，是一种按照一定方法，获取网络各种信息的自动化脚本程序，也可以将其理解为一个在互联网上自动提取网页信息并进行解析抓取的程序。网络爬虫的功能不仅局限于复制网页内容、下载音视频文件，更包括自动化执行行为链以及模拟用户登录等复杂操作。在当前大数据背景下，无论是人工智能应用还是数据分析工作，均依赖于海量的数据支持。如果仅依赖人工采集这一种方式，不
Bash语言的数据库交互清妍琉璃包罗万象 golang 开发语言后端
Bash语言的数据库交互引言随着信息技术的飞速发展，数据库在各行各业中扮演着越来越重要的角色。无论是企业管理、数据分析，还是大数据处理，数据库都是基础设施的重要组成部分。对于开发者和系统管理员而言，能够高效地与数据库进行交互是一项必不可少的技能。在众多编程语言中，Bash作为一种脚本语言，以其简洁、高效和易用的特点，逐渐在数据库管理和交互中获得了一席之地。本文将深入探讨如何使用Bash进行数据库交
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

	(-0.001, 4.0]	(4.0, 14.0]	(14.0, 29.0]	(29.0, 47.0]	(47.0, 64.0]	(64.0, 72.0]
0	1	0	0	0	0	0
1	0	0	0	1	0	0
2	1	0	0	0	0	0
3	0	0	0	1	0	0
4	1	0	0	0	0	0
5	0	1	0	0	0	0
6	0	0	1	0	0	0
7	0	1	0	0	0	0
8	0	0	1	0	0	0
9	0	0	0	0	1	0
10	0	1	0	0	0	0
11	0	0	1	0	0	0
12	0	0	0	0	1	0
13	0	0	0	0	1	0
14	0	0	1	0	0	0
15	0	0	0	0	0	1
16	0	0	0	0	1	0
17	0	0	0	0	0	1
18	0	1	0	0	0	0

	(-0.001, 4.0]	(4.0, 14.0]	(14.0, 29.0]	(29.0, 47.0]	(47.0, 64.0]	(64.0, 72.0]
0	1	0	0	0	0	0
1	0	0	0	1	0	0
2	1	0	0	0	0	0
3	0	0	0	1	0	0
4	1	0	0	0	0	0
5	0	1	0	0	0	0
6	0	0	1	0	0	0
7	0	1	0	0	0	0
8	0	0	1	0	0	0
9	0	0	0	0	1	0
10	0	1	0	0	0	0
11	0	0	1	0	0	0
12	0	0	0	0	1	0
13	0	0	0	0	1	0
14	0	0	1	0	0	0
15	0	0	0	0	0	1
16	0	0	0	0	1	0
17	0	0	0	0	0	1
18	0	1	0	0	0	0

	(-0.001, 4.0]	(4.0, 14.0]	(14.0, 29.0]	(29.0, 47.0]	(47.0, 64.0]	(64.0, 72.0]
0	1	0	0	0	0	0
1	0	0	0	1	0	0
2	1	0	0	0	0	0
3	0	0	0	1	0	0
4	1	0	0	0	0	0
5	0	1	0	0	0	0
6	0	0	1	0	0	0
7	0	1	0	0	0	0
8	0	0	1	0	0	0
9	0	0	0	0	1	0
10	0	1	0	0	0	0
11	0	0	1	0	0	0
12	0	0	0	0	1	0
13	0	0	0	0	1	0
14	0	0	1	0	0	0
15	0	0	0	0	0	1
16	0	0	0	0	1	0
17	0	0	0	0	0	1
18	0	1	0	0	0	0