吕二口

电信用户流失分析与预测

一. 研究背景
二. 分析结论与建议
三. 任务与实现
四. 数据集解析
五. 数据分析套餐
- 1.准备工作
  - 导入相关的库
  - 导入数据集
- 2.数据预处理
  - 类型转换
  - 缺失值处理
  - 重复值处理
- 3.查看流失情况
- 4.类别特征的描述性分析
- 5.连续型变量的分析
  - 差异检验-两样本t检验
  - 分箱离散化
- 6.机器学习
  - 基模型的建立
  - 基模型的初始评分
  - 异常值处理
  - 数据标准化处理
  - 样本不均衡处理&逻辑回归
  - 网格交叉验证&KNN
  - 决策树
  - 流水线&朴素贝叶斯
  - 多层感知器
  - 模型得分总结

这是作者自己做的一个数据分析项目，闲暇时间陆陆续续耗时大约2周，通篇采用大量python源码编写，欢迎一起学习交流，提升自我。
我的CSDN地址： https://blog.csdn.net/weixin_46274061/article/details/107790605
转载请标明出处，谢谢！
数据集下载地址： https://www.datafountain.cn/datasets/35guide

一. 研究背景

用户流失预测在机器学习中算是一种比较典型的分类场景，做好用户的流失预测可以降低营销成本，留住用户并且获得更好的用户体验，在三大巨头的瓜分下，做好营销运营比重新获取一个新用户更节省成本。达到较好的运营回报。如果在传统分类模式下，通常是通过人工对各个特征进行统计，然后分到合适的类别中，这样不但会耗费大量的资源，且低效。

二. 分析结论与建议

增加套餐福利，解锁更多权益，如赠送流量，免费看视频，增设小游戏，贵族制度，
加强电话服务质量，设立评分反馈系统，及时跟踪异常评分
加强光纤相关设施的建设，增强网络稳定性
鼓励用户开通各种服务，如在线安全，在线备份，设备保护，技术支持
增加充值返现，充值满减，发放优惠券的方式，用户消费达到一定金额解锁特权
针对老年人建议赠送通话时长，提高活跃度
针对排名前十的职业根据相应的职业给予相应的优惠和福利，提高用户的粘性。

三. 任务与实现

我们的任务在于：
1.分析出流失用户有哪些显著性特征？
2.找出哪些用户容易流失？
具体实现内容包括：
能够对数据进行数据预处理包括缺失值，异常值，重复值
能够描述性分析各个特征与流失用户的占比是否显著
能够将连续型变量进行分箱离散化
能够将离散型特征进行独热编码
能够建立基模型，将源数据进行标准化
能够处理样本不均衡
能够熟练运用多种分类模型对电信用户进行预测
分析模型有：逻辑回归，KNN，朴素贝叶斯，决策树，多层感知器。

四. 数据集解析

每行代表一个客户，每列包含元数据列中描述的客户属性。
一共7043行数据，21个列。前20个为特征列，最后一个为研究对象。
1 customerID Integer ：用户ID
2 gender String：性别（Female or Male）
3 SeniorCitizen Integer：老年人(1表示是，0表示不是)
4 Partner String：配偶(Yes or No)
5 Dependents String：家属(Yes or No)
6 tenure Integer ：职位(0~72，共73个职位)
7 PhoneService String：电话服务（Yes or No）
8 MultipleLines String：多线（Yes 、No or No phoneservice 三种）
9 InternetService String：互联网服务（No, DSL数字网络，fiber optic光纤网络三种）
10 OnlineSecurity String：在线安全（Yes，No，No internetserive 三种）
11 OnlineBackup String：在线备份（Yes，No，No internetserive 三种）
12 DeviceProtection String：设备保护（Yes，No，No internetserive 三种）
13 TechSupport String：技术支持（Yes，No，No internetserive 三种）
14 StreamingTV String：网络电视（Yes，No，No internetserive 三种）
15 StreamingMovies：网络电影（Yes，No，No internetserive 三种）
16 Contract String：合同（Month-to-month，One year，Two year 三种）
17 PaperlessBilling String：账单（Yes or No）
18 PaymentMethod String：付款方式（bank transfer，credit card，electronic check，mailed check 四种）
19 MonthlyCharges Integer ：月费用
20 TotalCharges Integer ：总费用
21 Churn String：流失（Yes or No）

五. 数据分析套餐

1.准备工作

本文数据源来自网上，数据源除了各大网站可以下载，还可以来自自家公司的数据库，爬虫等方式获取。

导入相关的库

# 导入库 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns
import warnings
from matplotlib import font_manager
import time

sns.set(style="darkgrid", font_scale=1.2)
# plt.rcParams["font.family"] = "SimHei"
plt.rcParams['font.family'] = ['Arial Unicode MS']
plt.rcParams["axes.unicode_minus"] = False
my_font=font_manager.FontProperties(fname=
                                    '/System/Library/Fonts/PingFang.ttc',
                                    size=15)  
warnings.filterwarnings("ignore")

from scipy import stats #用于方差分析

# from sklearn.linear_model import LinearRegression  #线性回归模型
from sklearn.model_selection import train_test_split #切分训练集 测试集
from sklearn.linear_model import LogisticRegression #逻辑回归模型
from sklearn.metrics import classification_report #混淆矩阵打分
from sklearn.model_selection import GridSearchCV #网格交叉验证
from imblearn.over_sampling import SMOTE,ADASYN # 引入SMOTE和ADASYN处理样本不均衡
from collections import Counter #查看每个类别出现的次数
from sklearn.pipeline import Pipeline #引入流水线
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 评估指标 --正确率 精准率 召回率 F1调和平均值
from sklearn.neighbors import KNeighborsClassifier #KNN分类模型
from sklearn.preprocessing import StandardScaler, MinMaxScaler # StandardScaler：均值标准差标准化 # MinMaxScaler：最小最大值标准化
from sklearn.neural_network import MLPClassifier #多层感知器

导入数据集

data = pd.read_csv("WA_Fn-UseC_-Telco-Customer-Churn.csv")
print(data.shape)
data.sample(10)

2.数据预处理

查看数据整体情况

data.info()

类型转换

我们发现TotalCharges本应该是float64类型，这里却是object类型，那么需要转换。

data['TotalCharges'].astype(np.float64)

会报错无法转换。这里用到一个函数：DataFrame.convert_objects( convert_dates = True，convert_numeric = False，convert_timedeltas = True，copy = True )

data["TotalCharges"]=data["TotalCharges"].convert_objects(convert_numeric=True)
data['TotalCharges'].dtype

输出：dtype('float64') ，转换完成。

缺失值处理

data.isnull().sum(axis=0)

TotalCharges有11个缺失值，查看数据分布再确定是删除还是填充

print(data["TotalCharges"].skew()) 
sns.distplot(data["TotalCharges"].dropna())

结果大于0, 属于右偏 ,当然 ,也能一眼从图形看出。
缺失值的处理方式有：删除，中位数填充，均值填充，众数填充。
右偏数据我们用中位数填充，两种方式计算中位数，计算中位数时会剔除缺失值

data["TotalCharges"].median()
或者
np.median(data["TotalCharges"].dropna().values)

输出为：1397.475

填充缺失值

data.fillna({"TotalCharges":data["TotalCharges"].median()},inplace=True)
data.isnull().sum(axis=0)

重复值处理

如果有重复值：可直接删除


# data.drop_duplicates(inplace=True)
data.duplicated().sum()

输出：0
说明没有重复值

3.查看流失情况

整体流失情况条形图查看

Churn_value=data["Churn"].value_counts()
display(Churn_value)
sns.countplot(x="Churn",data=data)

也可饼状图查看

size=Churn_value.values
label_list=Churn_value.index
color=["#009999","#FF7400"]
explode=[0,0.1]
plt.figure(figsize=(8,8),dpi=80)
patches,l_text,p_text=plt.pie(size,
                            explode=explode,
                            colors=color,
                            labels=label_list,
                            labeldistance=1.1,
                            autopct='%1.1f%%',   
                            shadow=True,
                            startangle=90,
                            pctdistance=0.6,
                            )  
plt.show()

饼状图可以内部直接算出百分比，从图中可以看出流失比例26.5%，占比较高，也处于样本不均衡问题，后面可以采用过采样来解决，过采样相比欠采样较稳定。

对于研究对象:Churn,我们用pandas中的map函数实现数字化处理，我们通常将关注的类别设为1。

data["Churn"]=data["Churn"].map({"Yes":1,"No":0})
data.head()

可以看出已经成功的将Churn做了离散化处理。

4.类别特征的描述性分析

特征列主要分两大阵容，类别变量和连续型变量，我们有两种方式把他们分离出来，第一种是直接一个一个drop掉，第二种方法是采用pandas里面提供的判断类别类型和数值型的方法，这里我们采用第二种方式。

data_columns=[]
for col in data.columns.drop(["customerID","Churn"]):
    # is_object_dtype：查看特征是否为类别类型，是的话往下执行；
    # is_numeric_dtype：查看类别是否是数值类型的，是的话就继续往下
    if pd.api.types.is_object_dtype(data[col]):
        data_columns.append(col)
print(data_columns)
data_object_lens=len(data_columns)

plt.figure(figsize=(20,100))#,dpi=80)
for col,k in zip(data_columns,range(data_object_lens)):
    # 子图第一列
    plt.subplot(data_object_lens,2,2*k+1)
    plt.title("Churn by "+col)
    t=sns.countplot(x=col,hue="Churn",data=data) #内部可统计数量
    t.set_ylabel('数量')
    

    # 子图第二列
    plt.subplot(data_object_lens,2,2*k+2)
    plt.title("Churn rate by "+col)
    #内部可计算均值 相当于所有1相加再除以总数就等于流失率
    sns.barplot(x=col,y="Churn",data=data).set_ylabel("流失率") 
    # 分组计算流失率
    print(data.groupby(by=col)["Churn"].mean())

输出如下：

从图中可以看出：
gender性别对于流失占比分布较均衡，无显著性差异；
Partner无配偶的流失率相对有配偶的流失率高13%；
Dependents无家属相对有家属的流失率高16%；
PhoneService有电话服务的用户量非常巨大，流失率占到了接近三成；
MultipleLines多线业务对流失率无显著性差异；
InternetService互联网服务中fiber optic光纤网络用户群体约占所有用户的1/3，流失率占比却超过了光纤用户的40%；
OnlineSecurity无在线安全的用户量不仅巨大，流失率也超过40%；
OnlineBackup无在线备份功能的用户中，40%会流失；
DeviceProtection无设备保护的用户比有保护的用户流失率高17%；
TechSupport无技术支持的用户中有4成会流失；
StreamingTV网络电视的有无对流失率无显著性差异；
Streaming网络电影的有无对流失率无显著性差异；
Contract合同按月的用户占比最多，其中，流失率达到了42%，一年签的用户中流失率只占1成，两年签的几乎不会流失；
PaperlessBilling有账单的用户流失率高于无账单的17%；
PaymentMethod付款方式中电子支票的用户中，流失率快达到一半人数。

运营建议：

针对单身用户和无家属用户，他们最大的相同点就是容易产生孤独感，社交较薄弱，可以给这类人群增加套餐福利，如单身贵族等级制度，赠送流量刷剧看视频，小游戏等方式可提高会员等级，达到一定等级解锁新权益，让用户心理有赚到的感觉。
电话服务质量是否存在一定问题，客服人员服务态度是否亲和，若没有，定期做相关培训。是否真实的帮助用户解决了，设立电话服务后的评分反馈系统，若评分较低再次跟进直到真实的帮助到了用户。
现在用户很大部分愿意选择用光纤，说明都有意识到它的快速便捷，但是真实情况是经常网络不稳定，所以可以加大力度对这方面设施设备的建设。
鼓励用户开通在线安全，在线备份，设备保护，技术支持。
有账单和电子支票的用户极大部分是对价格比价敏感，考虑到有的用户经济不独立，比如学生，而且合同中按月支付容易流失极大可能是无法承担费用造成的，我们可以采取鼓励按年签约，校园套餐，每月返现的方式，充值满减，发放优惠券，消费达到一定金额提升会员等级解锁特权。

除了以上特征，发现SeniorCitizen老年人和tenure职业还有遗漏。
对于老年人代码分析如下：

plt.figure(figsize=(20,13))#,dpi=80)
plt.subplot(2,2,1)
sns.countplot(x="SeniorCitizen",hue="Churn",data=data)

plt.subplot(2,2,2)
t=sns.barplot(x="SeniorCitizen",y="Churn",data=data)
t.set_ylabel("流失率")
t.set_title("老年人与流失率的关系")
print(data.groupby(by="SeniorCitizen")["Churn"].mean())

老年人数量虽然占比不高，但是流失率却高达41%，但是其他用户都会向这个群体迈入，很多老年人只会用打电话这一功能，所以我们可以采取启用亲友电话卡绑定，提高老年人群体的免费拨打时长，增加短信提示每月剩余通话时长，提高活跃度。

对于职业，代码分析如下：

plt.figure(figsize=(100,40))
sns.countplot(x="tenure",hue="Churn",data=data)

职业中：不同的数字代表不同的职业，挑选出了流失率排前十的职业。

plt.figure(figsize=(100,20))
t=sns.barplot(x="tenure",y="Churn",data=data)
t.set_title("不同职业与流失率的关系",size=100,color="#009999")
data.groupby(by="tenure")["Churn"].mean().sort_values(ascending=False).iloc[:10,]

从两个图结合可以看出，不同职业跟流失率也会存在一定的关系，职业为’0‘的虽然人数少，但是流失率几乎为0，职业为’1‘的人数不仅最多，流失率也超过了该职业的50%。流失率排名前十的职业分别为：1，2，5，4，3，7，10，9，15，6。
办法建议：可以采取奖励机制。

5.连续型变量的分析

连续型变量：MonthlyCharges（月消费）和TotalCharges（总消费）
从主观上来看，用户的消费价格都是比较敏感的，所有我们可以重点关注一下消费价格。
查看月消费和总消费的各分位数数据分布情况：

data.loc[:,["MonthlyCharges","TotalCharges"]].describe()

在7043条数据中，用户月消费的平均水平在65元，中位数在70元，最小消费为18元，最大消费为118元；
总消费的的平均水平在2282元，中位数在1397元，最小消费为18元，最大消费为8684元。
其中，月消费的平均值比中位数略小，主要受极小值的影响；总消费的平均值高于中位数885元，主要受到一些极大值影响。

我们可以具体分别查看月消费，总消费各排名前十的用户信息。
首先查看月消费最低的10名用户：

data.sort_values(by="MonthlyCharges",ascending=True).iloc[:10]

查看月消费最大的10名用户：

data.sort_values(by="MonthlyCharges",ascending=True).iloc[-10:]

总消费最小的10名用户：

data.sort_values(by="TotalCharges",ascending=True).iloc[:10]

查看总消费最高的10名用户：

data.sort_values(by="TotalCharges",ascending=True).iloc[-10:]

高消费的明显特征是他们都有这些服务的需求，不易流失；
低消费的明显特征恰恰相反，他们没有这些需求，猜测与养号有关。

用散点图查看流失用户整体分布

plt.figure(figsize=(20,8),dpi=80)
sns.scatterplot(x="MonthlyCharges",y="TotalCharges",color="g",data=data[data["Churn"]==0])
sns.scatterplot(x="MonthlyCharges",y="TotalCharges",color="r",data=data[data["Churn"]==1])

红色代表流失用户，从图中可以看出流失用户主要分布在总消费偏低以及月消费偏高的地方。

尝试用条形的散点图查看分布情况：

fig=plt.figure(figsize=(20,10),dpi=80)
# 子图1
fig.add_subplot(2,2,1)
sns.stripplot(x="Churn",y="MonthlyCharges",data=data)
plt.title('月消费与流失的关系',fontproperties=my_font,color='red')

# 子图2
fig.add_subplot(2,2,2)
sns.stripplot(x="Churn",y="TotalCharges",data=data )
plt.title("总消费与流失的关系")
plt.show()

似乎不是很好看，哈哈~
蜂群图：本来想展示一下蜂群图查看分布情况，但是太丑了就略过。

条形图：

fig=plt.figure(figsize=(20,10),dpi=80)
# 子图1
fig.add_subplot(2,2,1)
# 分组计算流失与否的均值
display(data.groupby("Churn")["MonthlyCharges"].mean())
# barplot内部会自己求均值
sns.barplot(x="Churn",y="MonthlyCharges",data=data)
# 图中那条线代表总体均值所在的置信区间 默认为95%的置信度

# 子图2
fig.add_subplot(2,2,2)
display(data.groupby("Churn")["TotalCharges"].mean())
sns.barplot(x="Churn",y="TotalCharges",data=data)
plt.show()

样本中流失用户的月消费平均值为74元，未流失用户的月消费均值为61元；流失用户的总消费均值为1531元，未流失用户的均值为2552元。

箱线图：

fig=plt.figure(figsize=(20,10),dpi=80)
# 子图1
fig.add_subplot(2,2,1)
sns.boxplot(x="Churn",y="MonthlyCharges",data=data)

# 子图2
fig.add_subplot(2,2,2)
sns.boxplot(x="Churn",y="TotalCharges",data=data)
plt.show()

可以看出总消费中，流失用户存在个别异常值，我们可以采取删除，视为缺失值处理，取对数转换，边界值替换等方式处理。

月消费的用户流失数据：

data.groupby("Churn")["MonthlyCharges"].describe().T

总消费的用户流失数据：

data.groupby("Churn")["TotalCharges"].describe().T

小提琴图：

fig=plt.figure(figsize=(20,10),dpi=100)
# 子图1
fig.add_subplot(2,2,1)
sns.violinplot(x="Churn",y="MonthlyCharges",data=data)

# 子图2
fig.add_subplot(2,2,2)
sns.violinplot(x="Churn",y="TotalCharges",data=data)

plt.show()

从以上图中可以看出样本中，对于月消费来说，月消费高的用户似乎容易流失；对于总消费来说，总消费低的用户似乎容易失去。

差异检验-两样本t检验

以上都是对于样本的结论，那么对于总体来说，是否也符合上述规律呢还是说我们抽样出来的只是凑巧总体并不是这样分布的，那么我们需要差异检验来验证上述结论
我们用两样本t检验，来查看流失用户与未流失用户对于消费来说，他们的均值差异是否显著。

差异检验 --月消费 "MonthlyCharges"
原假设：流失用户的月消费与未流失用户的月消费均值是一致的
总共分位两步
第一步：方差齐性检验

churn_1=data[data["Churn"]==1]["MonthlyCharges"]
churn_0=data[data["Churn"]==0]["MonthlyCharges"]
# 进行方差齐性检验-levene检验。 为后续的两样本t检验服务。 方差一致就叫齐性
stats.levene(churn_0,churn_1)

第二步： p值为1.026>=0.05，说明是支持原假设的方差是一致的，equal_var=True
进行两样本t检验-双边检验。方法用的是stats.ttest_ind，注意：两样本的方差相同与不相同，取得的结果是不同的。

r = stats.ttest_ind(churn_0,churn_1,equal_var=True)
print(r)

p值2.7>=0.05,支持原假设，所以我们还不能认为流失用户的月均消费高于未流失的用户。

同样对于总消费，原假设：总消费均值都是一致的
第一步：方差齐性检验

churn_1=data[data["Churn"]==1]["TotalCharges"]
churn_0=data[data["Churn"]==0]["TotalCharges"]
stats.levene(churn_0,churn_1)

第二步：P值为3.38>0.05，说明是支持原假设的方差是一致的，齐性的，equal_var=True

r = stats.ttest_ind(churn_1,churn_0,equal_var=True)
print(r)

P值7.5>0.05，所以我们也不能认为总体的流失用户的总均消费低于未流失的用户。
下一步，划分消费等级。

分箱离散化

定义消费等级，按照各分位数分为低消费中低消费中高消费高消费

def charge_to_level(charge):
    if charge<=da.loc["25%"]:
        return "低消费"
    elif charge<=da.loc["50%"] and charge>da.loc["25%"]:
        return "中低消费"
    elif charge<=da.loc["75%"] and charge>da.loc["50%"]:
        return "中高消费"
    else:
        return "高消费"
da=data["MonthlyCharges"].describe()
data["level_MonthlyCharges"] = data["MonthlyCharges"].apply(charge_to_level)
da=data["TotalCharges"].describe()
data["level_TotalCharges"] = data["TotalCharges"].apply(charge_to_level)


display(data["level_MonthlyCharges"].value_counts())
data.sample(5)

条形图查看：

fig=plt.figure(figsize=(20,10),dpi=80)
# 子图1
fig.add_subplot(2,2,1)
sns.countplot(x="level_MonthlyCharges",hue="Churn",data=data,order=["低消费","中低消费","中高消费","高消费"])

# 子图2
fig.add_subplot(2,2,2)
sns.countplot(x="level_TotalCharges",hue="Churn",data=data,order=["低消费","中低消费","中高消费","高消费"])
plt.show()

可以看出对于月消费来说，流失用户主要集中在中高消费以及高消费；对于总消费来说，流失用户主要集中在低消费和中低消费中。那么我们可以对这部分用户进行精细化运营以最大程度留住用户。

6.机器学习

基模型的建立

将类别特征离散化处理之前，首先删除不需要离散化处理的特征，作者花了部分时间比较按照分位数分箱离散化和未分箱离散的数据预测得分，发现未分箱的效果好那么一点点，还有个原因是分箱的分界点的选择，如果可以找到最合适的分界点，那么分箱离散化是一个相当不错的选择。这里就只演示未分箱的操作。
删除列MonthlyCharges，TotalCharges，Churn：

y=data["Churn"]
data.drop(['customerID','level_MonthlyCharges','level_TotalCharges',"Churn"],axis=1,inplace=True)
data.head()

使用pandas.get_dummies( )进行one-hot 独热编码，

data_onehot=pd.get_dummies(data)
print(data_onehot.shape)
data_onehot.head()

职业虽然已经是数字，但是在数字中他们有大小的关系，实际职业之间是没有大小比较的，所以也需要进行独热编码。

data_base=pd.get_dummies(data_onehot,columns=['tenure'])
print(data_base.sample(5))
data_base.info()

进行独热编码后占用的内存变少，因为独热编码使用的是稀疏矩阵。

基模型的初始评分

x_train,x_test,y_train,y_test=train_test_split(data_base,y,test_size=0.25,random_state=0)
lr=LogisticRegression()
lr.fit(x_train,y_train)
print("训练集：",lr.score(x_train,y_train))
print("测试集：",lr.score(x_test,y_test))

y_hat = lr.predict(x_test)
# 测试集的混淆矩阵得分值
print(classification_report(y_true=y_test, y_pred=y_hat))

如果只查看正确率accuracy，分值还是蛮高的达到了0.79，但是我们更多关注的是流失用户，所以我们的评估指标选择f1-score调和平均值会更符合气质。
f1分值为0.57。

异常值处理

我们从之前的箱线图可以看出总消费中存在个别的极大值，那么我们现在需要处理一下。

# 从箱线图可以看出只有总消费存在较大的异常值 先计算分位数 IQR
quartile = np.quantile(x_train[y_train==1]['TotalCharges'],[0.25, 0.75])
IQR = quartile[1] - quartile[0]
upper = quartile[1] + 1.5 * IQR
print("IQR:{},upper:{}".format(IQR,upper))
def func(x):
    if x >= upper:
        return upper
    else:
        return x 
x_train.loc[:,'TotalCharges'][y_train==1]= x_train.loc[:,'TotalCharges'][y_train==1].apply(lambda x: func(x))
# x_train['TotalCharges'][y_train==1]= x_train['TotalCharges'][y_train==1].apply(fun)
x_test['TotalCharges'][y_test==1]= x_test['TotalCharges'][y_test==1].apply(lambda x: func(x))

# 查看是否还存在异常值
print(x_train['TotalCharges'][y_train==1][x_train['TotalCharges']>upper])
print(x_test['TotalCharges'][y_test==1][x_test['TotalCharges']>upper])

这里很重要的一点：我们替换异常值应该是从测试集中计算出，而不要把测试集的数据也作为标准来计算出异常值，不然这就毫无意义了。

使用箱线图查看训练集中是否还存在异常值

sns.boxplot(x="Churn",y="TotalCharges",data=pd.concat([x_train,y_train],axis=1))

使用箱线图查看测试集中是否还存在异常值

sns.boxplot(x="Churn",y="TotalCharges",data=pd.concat([x_test,y_test],axis=1))

数据标准化处理

虽然逻辑回归中w可以调节由于数据量纲的不同造成的模型不准确，但像KNN这样的模型就会受到量纲在数量级上的不同，从而影响计算距离。所以我们可以先统一进行数据的标准化处理。
数据标准化主要有：均值标准差标准化和最小最大值标准化。
这里两种方式尝试之后这里采用均值标准差标准化：

from sklearn.preprocessing import StandardScaler, MinMaxScaler
# StandardScaler：均值标准差标准化
# MinMaxScaler：最小最大值标准化
scaler,desc=[StandardScaler()],["均值标准差标准化"]
# scaler,desc=[MinMaxScaler()],["最小最大值标准化"]

for s, d in zip(scaler, desc):
    # fit_transform:将训练集和测试集都进行标准化
    x_train.loc[:,['MonthlyCharges','TotalCharges']] = s.fit_transform(x_train.loc[:,['MonthlyCharges','TotalCharges']])
    x_test.loc[:,['MonthlyCharges','TotalCharges']] = s.transform(x_test.loc[:,['MonthlyCharges','TotalCharges']])
    # 再代入KNN回归算法里
    knn = KNeighborsClassifier(n_neighbors=3, weights="uniform")
    knn.fit(x_train, y_train) 
    y_hat=knn.predict(x_test)
    print(d, knn.score(x_test, y_test))
    print(classification_report(y_true=y_test, y_pred=y_hat))

采用逻辑回归查看标准化处理后的评分：

lr = LogisticRegression(multi_class="ovr", solver="liblinear")
lr.fit(x_train,y_train)
print("训练集：",lr.score(x_train,y_train))
print("测试集：",lr.score(x_test,y_test))
y_hat = lr.predict(x_test)
print(classification_report(y_true=y_test, y_pred=y_hat))

f1调和平均值：0.58

样本不均衡处理&逻辑回归

未处理之前，跑出来的评分模型最高评分有0.60，处理之后有所提升，
处理样本不均衡方法有升采样（上采样），降采样（下采样），升采样的主要方法有SMOTE和ADASYN，降采样不推荐因为样本数量减少对模型是有不良影响的。
这里采用的是上采样，SMOTE和ADASYN对比使用之后，采用SMOTE方法

seed=0
# 邻居数量k测试出来为10有较好的得分
smote=SMOTE(random_state=seed,k_neighbors=10) 
x_resample,y_resample=smote.fit_resample(x_train,y_train)
print(Counter(y_resample))
lr=LogisticRegression()
lr.fit(x_resample,y_resample)
y_hat=lr.predict(x_test)
print(classification_report(y_test,y_hat))
print(f1_score(y_test, y_hat))

升采用之后类别的次数基本相同，达到样本均衡的效果，分值提升到了0.61。

网格交叉验证&KNN

param = {"n_neighbors": range(3,13),
         "weights": ["uniform", "distance"],
        }
gs = GridSearchCV(estimator=KNeighborsClassifier(), param_grid=param,
         cv=2, scoring="f1", n_jobs=-1, verbose=10)
gs.fit(x_resample, y_resample)
print(gs.best_params_)
y_hat = gs.best_estimator_.predict(x_test)
print(classification_report(y_test, y_hat))
# 最好的分值。训练集的分值
print("分值:",gs.best_score_)
# 最好的超参数组合。
print("超参数组合:",gs.best_params_)
# 使用最好的超参数训练好的模型。
print("模型:",gs.best_estimator_)
# {'n_neighbors': 12, 'weights': 'distance'} fi: 0.55

决策树

from sklearn.tree import DecisionTreeClassifier
param = {"criterion": ["gini", "entropy"],
         "max_depth": range(1,10)
         }
gs = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid=param,
         cv=2, scoring="f1", n_jobs=-1, verbose=10)
gs.fit(x_resample, y_resample)
print(gs.best_params_)
y_hat = gs.best_estimator_.predict(x_test)
print(classification_report(y_test, y_hat))
# 最好的分值。
print("分值:",gs.best_score_)
# 最好的超参数组合。
print("超参数组合:",gs.best_params_)
# 使用最好的超参数训练好的模型。
print("模型:",gs.best_estimator_)

流水线&朴素贝叶斯

# 高斯朴素贝叶斯 伯努利朴素贝叶斯 多项式朴素贝叶斯  补充朴素贝叶斯
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB, ComplementNB
from sklearn.pipeline import Pipeline

steps=[("model", None)]
pipe = Pipeline(steps=steps)
# ComplementNB()： 适用于样本不均衡的情况
# param里面的模型也可是决策树，KNN算法，可自行调整
param = {"model": [GaussianNB(), BernoulliNB(), MultinomialNB(), ComplementNB()]}
# 因为是稠密矩阵，因此比较消耗内存空间，内存小的，这里建议改成少的并发数量。
gs = GridSearchCV(estimator=pipe, param_grid=param,
         cv=2, scoring="f1", n_jobs=-1, verbose=10)
gs.fit(x_train, y_train)
print(gs.best_params_)
y_hat = gs.best_estimator_.predict(x_test)
print(classification_report(y_test, y_hat))

多层感知器

神经网络当中存在隐藏层
当神经网络只有一层就是我们的逻辑回归

from sklearn.neural_network import MLPClassifier
# 这儿只画了两个隐藏层，第一个隐藏层5个神经元，第二个隐藏层4个神经元
# for i in range(1,5):
#     for j in range(5,7):
param = {"hidden_layer_sizes": [(5,), (4,)],
        }
gs = GridSearchCV(estimator=MLPClassifier(), param_grid=param,
        cv=2, scoring="f1", n_jobs=-1, verbose=10)
gs.fit(x_resample, y_resample)
print(gs.best_params_)
y_hat = gs.best_estimator_.predict(x_test)
print(classification_report(y_test, y_hat))
f1=f1_score(y_test, y_hat)

模型得分总结

在经过了数据标准化，样本不均衡处理之后，带入多种模型中，虽然accuracy得分都差不多能达到0.8，但是我们的关注点在于流失用户，所以评估指标采用f1，最后决策树的得分最高为0.63，比初始0.57分有所提升。

你可能感兴趣的:(电信用户流失分析与预测)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发