qqissweat

Telco Customer Churn

项目来源
一、研究背景
二、研究问题
三、查看数据
四、数据清洗
- 4.1缺失值处理
- 4.2重复值处理
- 4.3数据类型转换
- 4.4异常值处理
五、EDA及可视化分析
- 5.1查看流失用户占比
- 5.2用户个人属性分析
- 5.3服务属性分析
- 5.4行为属性分析
- 5.5小结
六、构建预测模型
- 6.1特征离散化
- 6.2特征编码
- 6.3样本不均衡处理
七、结论和建议

项目来源

kaggle上的电信用户流失预测问题
电信用户流失数据集共7043条记录，21个字段。其中包括20个输入特征以及1个目标特征。分别如下表所示：

——————————————————以下是具体的数据分析内容———————————————————

一、研究背景

关于用户留存有这样一个观点，如果将用户流失率降低5%，公司利润将提升25%-85%。如今高居不下的获客成本让电信运营商遭遇“天花板”，甚至陷入获客难的窘境。随着市场饱和度上升，电信运营商亟待解决增加用户黏性，延长用户生命周期的问题。因此，电信用户流失分析与预测至关重要。做好“用户流失预测分析”可以：
1、降低营销成本。老生常谈，“新客户开发成本”是“老客户维护成本”的5倍。
2、获得更好的用户体验。并不是所有的增值服务都可以有效留住客户。
3、获得更高的销售回报。可以识别价格敏感型客户和非价格敏感性客户。

二、研究问题

1、顾客为什么会流失。（因果分析）对于这一问题我们可以分为两个维度进行考虑。首先是产品维度，即“公司提供的服务令人不满意”导致用户流失；其次是用户个人属性维度，如随着年龄的增长老年人对电话服务的需求降低导致其流失等原因。
2、具有什么样的行为特征说明了顾客有流失的倾向。（相关性分析）用户对于公司提供的产品服务所表现出的行为背后往往代表用户对于公司，对于产品的态度，从而可以在一定程度上预示顾客的去留。
3、对顾客是否会流失进行预测。

三、查看数据

import pandas as pd
import numpy as np
import matplotlib.pylab as plt
import seaborn as sns


from sklearn.model_selection import train_test_split         
from sklearn.model_selection import  GridSearchCV            
from sklearn.preprocessing import StandardScaler            
from sklearn.decomposition import PCA                       
from sklearn.pipeline import Pipeline                       
from sklearn.preprocessing import LabelEncoder             

from sklearn.tree import DecisionTreeClassifier              
from sklearn.ensemble import RandomForestClassifier        
from sklearn.svm import SVC,LinearSVC                       
from sklearn.linear_model import LogisticRegression        
from sklearn.naive_bayes import GaussianNB                 

from xgboost import XGBClassifier                                 
from sklearn.ensemble import AdaBoostClassifier              
from sklearn.ensemble import GradientBoostingClassifier     

from sklearn.metrics import classification_report,precision_score,recall_score,f1_score  
from sklearn.metrics import confusion_matrix                 
from sklearn.model_selection import GridSearchCV             

%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

import warnings
warnings.filterwarnings('ignore')

导入数据

df=pd.read_csv('F:/kaggle/Telco_Customer_Churn-master/WA_Fn-UseC_-Telco-Customer-Churn.csv')

查看数据集信息

# 查看数据集大小
df.shape

(7043, 21)

# 查看前10条数据
pd.set_option('display.max_columns',None)
df.head(10)

	customerID	gender	Partner	Dependents	tenure	PhoneService	MultipleLines	InternetService	OnlineSecurity	OnlineBackup	DeviceProtection	TechSupport	StreamingTV	StreamingMovies	Contract	PaperlessBilling	PaymentMethod	MonthlyCharges	TotalCharges	Churn
0	7590-VHVEG	Female	Yes	No	1	No	No phone service	DSL	No	Yes	No	No	No	No	Month-to-month	Yes	Electronic check	29.85	29.85	No
1	5575-GNVDE	Male	No	No	34	Yes	No	DSL	Yes	No	Yes	No	No	No	One year	No	Mailed check	56.95	1889.5	No
2	3668-QPYBK	Male	No	No	2	Yes	No	DSL	Yes	Yes	No	No	No	No	Month-to-month	Yes	Mailed check	53.85	108.15	Yes
3	7795-CFOCW	Male	No	No	45	No	No phone service	DSL	Yes	No	Yes	Yes	No	No	One year	No	Bank transfer (automatic)	42.30	1840.75	No
4	9237-HQITU	Female	No	No	2	Yes	No	Fiber optic	No	No	No	No	No	No	Month-to-month	Yes	Electronic check	70.70	151.65	Yes
5	9305-CDSKC	Female	No	No	8	Yes	Yes	Fiber optic	No	No	Yes	No	Yes	Yes	Month-to-month	Yes	Electronic check	99.65	820.5	Yes
6	1452-KIOVK	Male	No	Yes	22	Yes	Yes	Fiber optic	No	Yes	No	No	Yes	No	Month-to-month	Yes	Credit card (automatic)	89.10	1949.4	No
7	6713-OKOMC	Female	No	No	10	No	No phone service	DSL	Yes	No	No	No	No	No	Month-to-month	No	Mailed check	29.75	301.9	No
8	7892-POOKP	Female	Yes	No	28	Yes	Yes	Fiber optic	No	No	Yes	Yes	Yes	Yes	Month-to-month	Yes	Electronic check	104.80	3046.05	Yes
9	6388-TABGU	Male	No	Yes	62	Yes	No	DSL	Yes	Yes	No	No	No	No	One year	No	Bank transfer (automatic)	56.15	3487.95	No

# 查看数据类型
df.info()


RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
customerID          7043 non-null object
gender              7043 non-null object
SeniorCitizen       7043 non-null int64
Partner             7043 non-null object
Dependents          7043 non-null object
tenure              7043 non-null int64
PhoneService        7043 non-null object
MultipleLines       7043 non-null object
InternetService     7043 non-null object
OnlineSecurity      7043 non-null object
OnlineBackup        7043 non-null object
DeviceProtection    7043 non-null object
TechSupport         7043 non-null object
StreamingTV         7043 non-null object
StreamingMovies     7043 non-null object
Contract            7043 non-null object
PaperlessBilling    7043 non-null object
PaymentMethod       7043 non-null object
MonthlyCharges      7043 non-null float64
TotalCharges        7043 non-null object
Churn               7043 non-null object
dtypes: float64(1), int64(2), object(18)
memory usage: 1.1+ MB

四、数据清洗

4.1缺失值处理

df.isnull().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

4.2重复值处理

df.duplicated().sum()

4.3数据类型转换

"TotalCharages"总费用应该跟“MonthlyCharges”是同一个类型–float64。故需将"TotalCharages"由“object”转换成“float64”，且需要再次查看“缺失值”。

# df['TotalCharges'].astype('float64')
# 此处用“astype”转化数据类型报错 ValueError: could not convert string to float:

检查发现“TotalCharges”（总金额）列有11个用户数据为空值。

df.TotalCharges.value_counts()

           11
20.2       11
19.75       9
20.05       8
19.9        8
           ..
167.2       1
4300.8      1
2998        1
4860.35     1
1127.35     1
Name: TotalCharges, Length: 6531, dtype: int64

经过观察，发现这11个用户‘tenure’（入网时长）为0，推测是当月新入网用户。
根据一般经验，用户即使在注册的当月流失，也需缴纳当月费用。因此将这11个用户入网时长改为1，将总消费额填充为月消费额，符合实际情况。

# 将总消费额填充为月消费额
df.loc[df['TotalCharges']==' ','TotalCharges']=df.loc[df['TotalCharges']==' ','MonthlyCharges']

#查看是否替换成功
print(df[df['tenure']==0][['tenure','MonthlyCharges','TotalCharges']])

      tenure  MonthlyCharges TotalCharges
488        0           52.55        52.55
753        0           20.25        20.25
936        0           80.85        80.85
1082       0           25.75        25.75
1340       0           56.05        56.05
3331       0           19.85        19.85
3826       0           25.35        25.35
4380       0           20.00           20
5218       0           19.70         19.7
6670       0           73.35        73.35
6754       0           61.90         61.9

# 将‘tenure’入网时长从0修改为1
df.loc[:,'tenure'].replace(to_replace=0,value=1,inplace=True)

#将TotalCharges数据类型转换为浮点型
df['TotalCharges']= pd.to_numeric(df['TotalCharges']) 
print(df['TotalCharges'].dtypes)

float64

4.4异常值处理

# 获取数据类型的描述统计信息
df.describe()

	SeniorCitizen	tenure	MonthlyCharges	TotalCharges
count	7043.000000	7043.000000	7043.000000	7043.000000
mean	0.162147	32.372710	64.761692	2279.798992
std	0.368612	24.557454	30.090047	2266.730170
min	0.000000	1.000000	18.250000	18.800000
25%	0.000000	9.000000	35.500000	398.550000
50%	0.000000	29.000000	70.350000	1394.550000
75%	0.000000	55.000000	89.850000	3786.600000
max	1.000000	72.000000	118.750000	8684.800000

#使用箱线图查看数据异常值
df1=df.copy()
scaler=StandardScaler(copy=False)
df1[['tenure','MonthlyCharges','TotalCharges']]=scaler.fit_transform(df1[['tenure','MonthlyCharges','TotalCharges']])
plt.figure(figsize=(8,4))
sns.boxplot(data=df1[['tenure','MonthlyCharges','TotalCharges']])

由以上结果可以看出，在三个变量中不存在明显的异常值。

五、EDA及可视化分析

根据研究问题，我将所有输入特征分成了三个维度：用户个人属性、用户行为属性，服务属性，如下图所示，分别对他们进行分析。

5.1查看流失用户占比

plt.figure(figsize=(8,6))
plt.pie(df['Churn'].value_counts(),labels=df['Churn'].value_counts().index,autopct='%1.2f%%',explode=(0.1,0))
plt.title('Churn(Yes/No) Ratio')

Text(0.5, 1.0, 'Churn(Yes/No) Ratio')

流失用户样本占比26.54%，留存用户样本占比73.5%，属于不平衡数据集。

5.2用户个人属性分析

个人属性包括性别、是否为老年人、是否有伴侣、是否有孩子。

fig=plt.figure(figsize=(6,4))
sns.countplot(x="gender",hue="Churn",data=df,hue_order=['No','Yes'])
plt.xlabel("gender")
plt.title("Churn by gender")
plt.legend(fontsize=12)

男性与女性用户之间的客户流失量基本无差异，说明性别对流失率影响几乎可以忽略。

fig=plt.figure(figsize=(6,4))
sns.countplot(x="SeniorCitizen",hue="Churn",data=df,hue_order=['No','Yes'])
plt.xlabel("SeniorCitizen")
plt.title("Churn by SeniorCitizen")
plt.legend(fontsize=12)

老年人群体的流失率明显高于一般群体，可以判断顾客是否为老年人与其流失的可能具有关联性。

items=["Partner","Dependents"]
fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,4))
for i,item in enumerate(items):
    plt.subplot(1,2,(i+1))
    ax=sns.countplot(x=item,hue="Churn",data=df,hue_order=['No','Yes'],order=["Yes","No"])
    plt.xlabel(str(item))
    plt.title("Churn"+' '+'by'+' '+str(item))
    plt.legend(fontsize=10)
    i+=1

可以看出有伴侣的用户流失占比低于无伴侣用户；
有孩子的用户较少，且有孩子的用户流失占比低于无孩子用户。

5.3服务属性分析

对于本例的电信公司而言，其主要的产品可以分为电话服务和网络服务两类。然后在这两类服务基础上提供一些附加服务，包括多线程服务、在线安全服务、在线备份服务、设备保护服务、技术支持服务、流媒体电视服务、流媒体电影服务。

df['churn_rate'] = df['Churn'].replace("No", 0).replace("Yes", 1)
items=["PhoneService","InternetService"]
fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,4))
for i,item in enumerate(items):
    plt.subplot(1,2,(i+1))
    ax=sns.barplot(x=item,y="churn_rate",data=df)
    plt.rcParams.update({
     'font.size': 14})
    plt.xlabel(str(item))
    plt.ylabel("Churn Rate")
    plt.title("Churn By "+str(item))
    i+=1

由图一可以看出是否开通电话服务对用户流失影响不大；
在第二幅图中，开通网络服务的用户的流失率明显高于没有开通网络服务的顾客，尤其是采用光纤网络技术（Fiber optic）的用户，流失率超过40%。推断这项服务存在一定的问题，是急需改进的一项服务。

针对网络服务，我们可以进一步探讨拥有其他的附加服务是否会影响了用户的流失情况。

items=["OnlineSecurity","OnlineBackup","DeviceProtection","TechSupport","StreamingTV", "StreamingMovies"]
fig,axes=plt.subplots(nrows=2,ncols=3,figsize=(16,10))
for i,item in enumerate(items):
    plt.subplot(2,3,(i+1))
    ax=sns.barplot(x=item,y="churn_rate",data=df,order=['Yes','No','No internet service'])
    plt.rcParams.update({
     'font.size': 12})
    plt.xlabel(str(item))
    plt.title("Churn By "+str(item))
    i+=1

可以发现，使用网络服务的客户，如果继续付费开通网络安全、网络备份、设备保护、技术支持等附加性服务，会有效降低其流失的可能性。

由此我们可以知道，虽然该电信公司的基础网络服务具有一定的问题，但是通过附加服务的补充，可以有效降低因服务问题所带来的流失。

5.4行为属性分析

用户行为属性包括已使用时间、合同期限、付款方式、是否使用电子账单、月消费金额、总消费金额。

# Kernel density estimaton核密度估计
def kdeplot(feature,xlabel):
    plt.figure(figsize=(8, 6))
    plt.title("KDE for {0}".format(feature))
    ax0 = sns.kdeplot(df[df['Churn'] == 'No'][feature],  label= 'Churn: No', shade='True')
    ax1 = sns.kdeplot(df[df['Churn'] == 'Yes'][feature], label= 'Churn: Yes',shade='True')
    plt.xlabel(xlabel)
    plt.rcParams.update({
     'font.size': 16})
    plt.legend(fontsize=12)
kdeplot('tenure','tenure')

相对而言，使用年限越长的客户，流失的可能性就越小。

items=["Contract","PaperlessBilling"]
fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(12,6))
for i,item in enumerate(items):
    plt.subplot(1,2,(i+1))
    ax=sns.barplot(x=item,y="churn_rate",data=df)
    plt.rcParams.update({
     'font.size': 14})
    plt.title("Churn By "+str(item))
    i+=1

左图可以明显可以看出，签订合同方式对客户流失率影响为：按月签订 > 按一年签订 > 按两年签订，签订的合同期限越长，流失率越低；
右图表明使用无纸化账单的用户流失率高于不使用无纸化账单的用户，猜测其原因可能是用户看到账单后，容易对消费金额不满，进而导致用户流失。

plt.figure(figsize=(12, 6))
sns.barplot(x='PaymentMethod',y='churn_rate',data=df,order=['Electronic check','Mailed check','Bank transfer (automatic)','Credit card (automatic)'])
plt.rcParams.update({
     'font.size': 12})
plt.title("Churn By PaymentMethod")

Text(0.5, 1.0, 'Churn By PaymentMethod')

可以看出，在支付方式方面，采用电子支票支付的顾客的流失率明显高于其他支付方式的顾客，推测该方式的使用体验较为一般。

kdeplot('MonthlyCharges','MonthlyCharges')
kdeplot('TotalCharges','TotalCharges')

可以看出，月消费额大约在70-110之间用户流失率较高；
从长期来看，用户总消费越高，流失率越低，符合一般经验。

5.5小结

通过以上分析，在20个输入特征中，目前认为与客户流失关联性较大的指标包括16个：是否为老年人，是否有伴侣，是否有孩子，是否使用网络服务，以及在使用了网络服务的情况下是否使用在线安全、在线备份、设备保护、技术支持、流媒体电视、流媒体电影服务，已使用时间，合同期限，是否使用无纸化账单、付款方式，月消费金额、总消费金额。

可以得到较高流失率的人群特征，需要有针对性的对具有这些特征的人群进行运营，增加用户黏性，延长其生命周期价值。

六、构建预测模型

6.1特征离散化

离散化后的特征对异常数据有更强的鲁棒性，降低过拟合的风险，模型会更稳定，预测的效果也会更好。

df1=df.copy()
df1.drop(["customerID","gender","PhoneService","MultipleLines","churn_rate"],axis=1,inplace=True)

df1['tenure']=pd.qcut(df1['tenure'],6,labels=['1','2','3','4','5','6'])

df1['MonthlyCharges'].describe()

count    7043.000000
mean       64.761692
std        30.090047
min        18.250000
25%        35.500000
50%        70.350000
75%        89.850000
max       118.750000
Name: MonthlyCharges, dtype: float64

离散操作

18.25=

35.5

70.35

89.85=

#用四分位数进行离散
df1['MonthlyCharges']=pd.qcut(df1['MonthlyCharges'],4,labels=['1','2','3','4'])

df1['TotalCharges'].describe()

count    7043.000000
mean     2279.798992
std      2266.730170
min        18.800000
25%       398.550000
50%      1394.550000
75%      3786.600000
max      8684.800000
Name: TotalCharges, dtype: float64

离散操作：

18=

402

1397

3786

#用四分位数进行离散 
df1['TotalCharges']=pd.qcut(df1['TotalCharges'],4,labels=['1','2','3','4'])

6.2特征编码

因为在用户开通网络服务的基础上，在线安全、网络备份、设备保护、技术支持等附加服务特征只需区分用户是否开通该项附加服务即可，故可以将 6个特正中的“No internetserive” 并到 “No”里面，然后采用0-1变量进行编码

df1.replace(to_replace='No internet service',value='No',inplace=True)

# 分类特征编码
df1['Churn']=df1['Churn'].map({
     'Yes':1,'No':0})
df_object=['SeniorCitizen', 'Partner', 'Dependents', 
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'PaperlessBilling']
def labelencode(x):
    df1[x] = LabelEncoder().fit_transform(df1[x])
for i in df_object:
    labelencode(i)
#df1.head()

#数值特征编码
df1=pd.get_dummies(df1,columns=["tenure","Contract","InternetService","PaymentMethod","MonthlyCharges","TotalCharges"])
df1.head()

	Partner	OnlineSecurity	OnlineBackup	DeviceProtection	TechSupport	PaperlessBilling	Churn	tenure_1	tenure_4	Contract_Month-to-month	Contract_One year	InternetService_DSL	InternetService_Fiber optic	PaymentMethod_Bank transfer (automatic)	PaymentMethod_Electronic check	PaymentMethod_Mailed check	MonthlyCharges_1	MonthlyCharges_2	MonthlyCharges_3	TotalCharges_1	TotalCharges_3
0	1	0	1	0	0	1	0	1	0	1	0	1	0	0	1	0	1	0	0	1	0
1	0	1	0	1	0	0	0	0	1	0	1	1	0	0	0	1	0	1	0	0	1
2	0	1	1	0	0	1	1	1	0	1	0	1	0	0	0	1	0	1	0	1	0
3	0	1	0	1	1	0	0	0	1	0	1	1	0	1	0	0	0	1	0	0	1
4	0	0	0	0	0	1	1	1	0	1	0	0	1	0	1	0	0	0	1	1	0

df1.shape

(7043, 35)

6.3样本不均衡处理

采用欠采样的方式进行处理

df2=df1.copy()
df2.drop("Churn",axis=1,inplace=True)
from imblearn.over_sampling import SMOTE
model_smote=SMOTE()
x=df2
y=df1['Churn'].values 
x,y=model_smote.fit_sample(x,y)
x=pd.DataFrame(x,columns=df2.columns)
#分拆训练集和测试集
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=0)

Classifiers=[["Random Forest",RandomForestClassifier()],
             ["Support Vector Machine",SVC()],
             ["LogisticRegression",LogisticRegression()],
             ["Naive Bayes",GaussianNB()],
             ["Decision Tree",DecisionTreeClassifier()],
             ["AdaBoostClassifier", AdaBoostClassifier()],
             ["GradientBoostingClassifier", GradientBoostingClassifier()],
             ["XGB", XGBClassifier()] ]

Classify_result=[]
names=[]
prediction=[]
for name,classifier in Classifiers:
    classifier=classifier
    classifier.fit(x_train,y_train)
    y_pred=classifier.predict(x_test)
    recall=recall_score(y_test,y_pred)
    precision=precision_score(y_test,y_pred)
    f1score = f1_score(y_test, y_pred)
    class_eva=pd.DataFrame([recall,precision,f1score])
    Classify_result.append(class_eva)
    name=pd.Series(name)
    names.append(name)
    y_pred=pd.Series(y_pred)
    prediction.append(y_pred)

names=pd.DataFrame(names)
names=names[0].tolist()
result=pd.concat(Classify_result,axis=1)
result.columns=names
result.index=["recall","precision","f1score"]
result

	Random Forest	Support Vector Machine	LogisticRegression	Naive Bayes	Decision Tree	AdaBoostClassifier	GradientBoostingClassifier	XGB
recall	0.865854	0.872272	0.842105	0.830552	0.845956	0.813222	0.853659	0.878049
precision	0.799171	0.788741	0.799512	0.750145	0.773021	0.782099	0.772807	0.798599
f1score	0.831177	0.828406	0.820256	0.788303	0.807846	0.797357	0.811223	0.836441

可以看到最终模型f1得分，最高分是“XGB”模型的0.83

最终我们选取xgb模型进行用户流失预测。由于没有预测数据集，选择最后10条数为例进行预测。

model =  XGBClassifier()
model.fit(x_train,y_train)

pred_id=df.customerID[-10:]
pred_x = df1.drop(['Churn'],axis=1).tail(10)
pred_y = model.predict(pred_x)

predDf = pd.DataFrame({
     'customerID':pred_id, 'Churn':pred_y})
print(predDf)

      customerID  Churn
7033  9767-FFLEM      0
7034  0639-TSIQW      1
7035  8456-QDAVC      0
7036  7750-EYXWZ      0
7037  2569-WGERO      0
7038  6840-RESVB      0
7039  2234-XADUH      0
7040  4801-JZAZL      1
7041  8361-LTMKD      1
7042  3186-AJIEK      0

基于“XGB”模型输出特征重要性

from xgboost import plot_importance
model_xgb= XGBClassifier()
model_xgb.fit(x_train,y_train)
plt.rcParams["figure.figsize"] = (12, 10)
plot_importance(model_xgb,height=0.5)

七、结论和建议

根据以上分析，我们可以大致得到高流失率用户的特征：
用户属性：老年，未婚、未育；
服务属性：开通光纤服务/光纤附加流媒体电视、电影服务；
行为属性：已使用时间小于一年，签订的合同期限较短，采用电子支票支付，使用电子账单，月消费金额约在70-110元之间；
其它属性对用户流失影响较小。

针对上述结论，从业务角度给出相应建议：

用户方面：针对老年用户推出定制服务如家庭套餐、温暖套餐等，一方面可以加强与其它用户的关联度，另一方还可以有针对性的对特定用户提供个性化服务；针对无伴侣、无孩子用户推出单人狂欢套餐，我们可以根据单身人士常见的消遣方式：看综艺、刷短视频、看小说、玩游戏等，在套餐中增加这些福利。

服务方面：对于光纤用户和附加流媒体电视、电影服务用户，重点在于提升其网络体验、增值服务体验，一方面推动技术部门提升网络服务，另一方面对用户承诺免费网络升级和赠送电视、电影等资源包月服务以提升用户黏性。针对在线安全、在线备份、设备保护、技术支持等增值服务，应重点对开通了网络服务的用户进行推广介绍，如首月免费体验、冲话费赠送一个月免费体验机会等，引导用户开通相应服务。

行为方面：针对新注册用户，推送签订一年及以上期限合同可以享有的优惠活动如赠送礼品券，话费立减等以渡过用户流失高峰期。针对单月合同用户，建议推出年合同付费折扣活动，将月合同用户转化为年合同用户，提高用户在本平台的沉没成本，以达到更高的用户留存。针对采用电子支票付款的用户，建议定向推送其它支付方式的优惠券，引导用户改变支付方式。优化电子账单展示方式，可以根据用户账单金额在给用户推送账单时同时推送下个月消费满多少减多少或可以直接使用的无门槛优惠券，以达到挽留即将流失用户的作用。

最后可以根据预测模型，构建一个高流失率的用户列表。通过理论分析结合用户调研推出一个最小可行化产品功能，并邀请种子用户进行试用。在小范围验证了产品可行性的基础上，后续再扩大产品覆盖范围。

你可能感兴趣的:(数据分析项目)

Jupyter完全指南：一文搞定Notebook和Lab的所有玩法 network爬虫 JupyterNotebook jupyter python ide 数据分析
Jupyter完全指南：一文搞定Notebook和Lab的所有玩法目录引言：为什么Jupyter是数据科学家的最爱Jupyter生态系统概览JupyterNotebookvsJupyterLab：选择哪一个？安装与环境配置Notebook基础操作详解Magic命令：让你的工作流更高效JupyterLab高级功能探索实战案例：数据分析项目完整流程扩展插件与自定义配置性能优化与最佳实践常见问题解答总结
python数据分析第9天雪球滚滚滚数据分析 python 数据挖掘
python数据分析第9天电商网站用户/订单/活动数据分析项目商业模式B2B：商家对商家（企业卖家对企业买家），交易双方都是企业，最典型的案例就是阿里巴巴，汇聚了各行业的供应商，特点是订单量一般较大。B2C：商家对个人（企业卖家对个人买家），例如：唯品会，聚美优品。B2B2C：商家对商家对个人，例如：天猫、京东。C2C：个人（卖家）对个人（买家），例如：淘宝、人人车。O2O：线上（售卖）到线下（提
大数据分析案例-基于Catboost+LGBM算法构建银行客户流失预测模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘算法
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
2025 春节档电影票房数据分析项目报告小柒的数分日记 python 数据分析
一、项目背景春节档作为电影行业年度最为关键的档期之一，凭借其庞大的观影人群和高涨的消费热情，成为众多影片角逐的重要战场。在这一时期，各类题材电影纷纷上映，不仅满足了不同观众的娱乐需求，更在一定程度上反映了当下电影市场的发展趋势和观众喜好。通过对春节档电影票房数据的深入剖析，我们能够洞察电影市场的动态，为电影制作、发行、营销等环节提供有价值的参考依据，助力行业更好地把握市场脉搏，创作和推出更受观众喜
数据分析项目中的关键技术与工具王子良. 经验分享数据分析数据挖掘
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
大数据分析案例-基于随机森林算法构建肥胖预测模型并探究肥胖的成因艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘随机森林
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
零基础上手Python数据分析 (17)：[案例实战] 电商销售数据分析 - 从数据到洞察的全流程演练 kakaZhui 30天入门python数据分析 python 数据分析 pandas excel 数据挖掘
写在前面——理论联系实践，综合运用Pandas技能，完成你的第一个数据分析项目经过前面一系列的学习，我们已经掌握了Python编程基础以及Pandas库的核心知识，包括数据结构(Series,DataFrame)、数据读取与写入、索引与选取、数据清洗、合并连接、分组聚合、排序排名以及常用统计分析方法。理论学习固然重要，但将所学知识应用于实际问题才是检验学习成果、提升实战能力的关键。正所谓“纸上得来
python进行数据归一化魔云连洲 python python 开发语言
python中怎么进行归一化操作在Python中，进行数据归一化操作是一种常见的数据预处理步骤，特别是在机器学习和数据分析项目中。归一化有助于改善算法的收敛速度和精度。下面是两种常用的归一化方法以及它们的Python实现：最小-最大归一化（Min-MaxNormalization）:将数据缩放到0到1的范围内，使用公式(x−min)/(max−min)进行转换。Z得分归一化（Z-ScoreNorm
大数据分析案例-基于GBDT梯度提升决策树算法构建数据科学岗位薪资预测模型艾派森大数据分析案例合集机器学习 python 数据挖掘
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
毕设成品基于机器学习的乳腺癌数据分析 m0_71572237 毕业设计 python 毕设
文章目录0简介模型评估KNNClassifierLogisticRegressionClassifierRandomForestClassifierDecisionTreeClassifierGBDT(GradientBoostingDecisionTree)ClassifierAdaBoostBaggingSVM最后0简介今天学长向大家分享一个毕业设计项目毕业设计基于机器学习的乳腺癌数据分析项目
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
金融数据分析（十）人均国内生产总值的增长率于科技人文间徘徊金融数据分析 python 数据分析
案例（四）宏观金融数据分析项目一：利用世界银行公开数据平台提供的宏观经济数据比较最近40年间A国与B国的人均国内生产总值的增长率（图表输出）数据可通过此网页中的下载链接获取：https://data.worldbank.org.cn/?locations=CN-US#-*-coding:utf-8-*-"""CreatedonMonSept229:11:592020@author:mly"""im
python量化交易策略实例_Day 80 量化投资与Python——项目案例 weixin_39964660 python量化交易策略实例
数据分析项目案例股票分析小结：需求：使用tushare包获取某股票的历史行情数据。输出该股票所有收盘比开盘上涨3%以上的日期。输出该股票所有开盘比前日收盘跌幅超过2%的日期。#需求四：假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何？需求一：使用tushare包获取某股票的历史行情数据。#获取行情df=ts.get_k_data
新冠疫情数据分析项目实战附完整项目代码实验报告计算机毕设论文 python之数据分析可视化数据分析数据挖掘 python
题目要求1.标明你的数据来源：包括网址和首页截图2.数据分析和展示应包括：a)15天中，全球新冠疫情的总体变化趋势；b)累计确诊数排名前20的国家名称及其数量；c)15天中，每日新增确诊数累计排名前10个国家的每日新增确诊数据的曲线图；d)累计确诊人数占国家总人口比例最高的10个国家；e)死亡率（累计死亡人数/累计确诊人数）最低的10个国家；f)用饼图展示各个国家的累计确诊人数的比例（你爬取的所有
毕设项目基于大数据的b站数据分析 nange12330a 毕业设计毕设大数据
文章目录0数据分析目标1B站整体视频数据分析1.1数据预处理1.2数据可视化1.3分析结果2单一视频分析2.1数据预处理2.2数据清洗2.3数据可视化3文本挖掘（NLP）3.1情感分析0数据分析目标今天向大家介绍如何使用大数据技术，对B站的视频数据进行分析，得到可视化结果。项目运行效果：毕业设计基于大数据的b站数据分析项目分享:见文末!1B站整体视频数据分析分析方向：首先从总体情况进行分析，之后分
简记一段数据清洗项目经历 Jo乔戈里 sql database mysql python
声明：该项目是从github上下载的，原项目地址在:https://github.com/TurboWay/bigdata_analyse这个数据分析项目选自其中的"Amoy_job",即"10万条厦门招聘数据分析",但是没有严格沿用里面的代码，绝大部分都是自己思考所做的数据清洗。注意，此处仅是数据清洗，尚未进入到真正的数据分析和可视化，得出结论这些阶段！代码镇楼:fromcollectionsi
毕设分享基于大数据的b站数据分析 knooor 毕业设计毕设大数据
文章目录0数据分析目标1B站整体视频数据分析1.1数据预处理1.2数据可视化1.3分析结果2单一视频分析2.1数据预处理2.2数据清洗2.3数据可视化3文本挖掘（NLP）3.1情感分析0数据分析目标今天向大家介绍如何使用大数据技术，对B站的视频数据进行分析，得到可视化结果。项目运行效果：毕业设计基于大数据的b站数据分析项目分享:见文末!1B站整体视频数据分析分析方向：首先从总体情况进行分析，之后分
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
数据分析项目——物流数据行业数据分析 ~在杰难逃~ 数据分析数据挖掘 python numpy pandas 大数据
提升自己，掌握数据分析的能力，最快的方式就是实践！这里又是一个经典的数据分析项目——物流数据行业数据分析，有需要项目配套数据集的可以关注私信我免费获取(●'◡'●)PS：本文中全部代码都在JupyterNotebook中编写完成，可以使用JupyterNotebook或者JupyterLab直接运行。数据来源：某企业销售的6种商品所对应的送货及用户反馈数据首先我们还是确定下我们需要做些什么一、解决
【摸鱼笔记】python 提取和采集 finereport 未绑定目录的报表模板 The_Singing_Towers 笔记 python 开发语言
背景在企业应用过程中，报表一般会按照数据分析的主题、项目将多个报表放在一处，一些图表类报表会有通过超链接等方式，跳转到对应的明细报表中。并且在正式的使用中，这些报表不会绑定到目录。在梳理数据分析项目使用情况时这些报表会难以辨认所属的项目，因为即使按照很标准的方式【将同一项目的报表放在同一目录】也会有数据分析项目相互包含的问题影响梳理的工作量。同时在finelogDB的访问记录中displayNam
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
49Kaggle 数据分析项目入门实战--绝地求生游戏最终排名预测 Jachin111
绝地求生介绍相信很多都玩过绝地求生这款游戏，其游戏规则主要是将100名玩家空手被扔到一个岛上，这些玩家必须探索、寻找、消灭其他玩家，直到只剩下一个玩家活着。绝地求生很受欢迎。这款游戏销量目前超过5000万份，是有史以来销量排名前五的游戏，每月有数百万活跃玩家。而我们本次实验的任务就是根据玩家在游戏中的种种表现来预测出其在最终的排名。导入数据并预览首先安装实验需要的statsmodels包。!pip
python3 数据分析项目案例,python数据分析报告范文 2301_81895949 oracle
这篇文章主要介绍了python3数据分析项目案例，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。1需求分析随着科学技术的不断发展，信息流通日益方便，信息数据不断膨胀，充斥在各行各业。由于数据非常庞大，所以即使在搜索引擎存在的情况下，搜索结果的准确率也不高，这使得在网上查找关键有效信息也变为一项极具挑战性的复杂任务python编程代码画哆啦
小白Pycharm使用（6）：如何使用 Python 开始建立你的数据分析项目程序员八阿哥
python开发新手工具网盘地址下载链接：http://pan.baidu.com/s/1eS8WMR4密码：7esopycharm中文版包网盘地址下载链接：http://pan.baidu.com/s/1dEVkPtn密码：mzetpycharm注册码http://idea.qinxi1992.cnhttp://intellij.mandroid.cn（或http://idea.imsxm.co
让你能进“大厂”的数据分析项目是长怎样？全套路线（建议收藏）悠玩编程编程语言大数据数据分析 java 人工智能
《算法+数据结构》全套路线（建议收藏）前言所谓活到老，学到老，虽然我感觉自己已经学了很多算法了，但是昨天熬夜整理完以后发现，自己还是个弟弟，实在忍不住了，打算把算法学习路线发出来，我把整个算法学习的阶段总结成了五个步骤，分别为：基础语法学习、语法配套练习、数据结构、算法入门、算法进阶。本文梳理了这五个大项的思维导图，在下文会有详细介绍。希望各位能够找到自己的定位，通过自己的努力在算法这条路
基于北京二手房价数据的探索性数据分析和房价评估——项目设计和数据的获取快乐的冲浪码农数据分析数据分析决策树
数据分析项目——北京二手房价数据分析第一步：项目设计和获取数据（获取实验的数据集！！）第二步：数据读取和数据预处理第三步：数据的可视化分析第四步：构建房价评估模型（决策树、随机森林等）整个项目的代码和数据集获取：https://github.com/Proberen/Data-analysis___Beijing__Houseprice该项目的设计思路：
50Kaggle 数据分析项目入门实战--分销商产品未来销售情况预测 Jachin111
分销商产品未来销售情况预测未来销售额预测介绍对于一个产品来说，其未来销售额的预测是一个重要的指标，也是一项重要的任务。例如，对于一部苹果手机来说。在上市之前，得先对销售额进行预测，才能确定出货量的大小。本次实验来源于Kaggle上的一个挑战，即：未来销售额预测，由俄罗斯的1C-Company软件分销公司发起，并提供数据。而本次实验的任务就是根据提供的数据，包含商品类别、商品名称、商店等信息和商品的
大数据分析案例-基于随机森林算法构建电影票房预测模型艾派森大数据分析案例合集 python 机器学习数据分析随机森林人工智能
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集大数据分析案例-基于随机森林算法预测人类预期寿命大数据分析案例-基于随机森林算法的商品评价情感分析大数据分析案例-用RFM模型对客户价值分析(聚类)大数据分析案例-对电信客户流失
我的第一个数据分析项目——51job“数据分析”岗位分析（数据清洗篇二）大力SAMA
一、工作经验字段完善虽然概要描述中显示无工作经验，但实际职位描述中仍旧要求工作经验，因此要把职位描述中的内容取出来更新到工作经验这一列。网页数据显示excel数据显示代码如下：#-*-coding:utf-8-*-"""CreatedonWedSep1213:05:272018@author:shirley"""fromopenpyxlimportload_workbookimportrepath
看书笔记【R语言数据分析项目精解：理论、方法、实战 8】小胡涂记 R语言资料实现笔记 r语言数据分析
看书笔记——R语言Chapter8从数据中寻找优质用户8.1项目背景、目标和方案8.1.1项目背景8.1.2项目目标8.1.3项目方案8.2项目技术理论简介8.2.1逻辑回归的基本概念8.2.2建模流程1.模型开发2.模型验证阶段3.模型测试阶段4.模型实施阶段8.2.3模型开发阶段1.数据采样2.数据探索3.数据填缺4.离散型变量压缩5.连续型变量压缩6.变量筛选（用到的时候再细看一下，主要是权
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

	Partner	OnlineSecurity	OnlineBackup	DeviceProtection	TechSupport	PaperlessBilling	Churn	tenure_1	tenure_4	Contract_Month-to-month	Contract_One year	InternetService_DSL	InternetService_Fiber optic	PaymentMethod_Bank transfer (automatic)	PaymentMethod_Electronic check	PaymentMethod_Mailed check	MonthlyCharges_1	MonthlyCharges_2	MonthlyCharges_3	TotalCharges_1	TotalCharges_3
0	1	0	1	0	0	1	0	1	0	1	0	1	0	0	1	0	1	0	0	1	0
1	0	1	0	1	0	0	0	0	1	0	1	1	0	0	0	1	0	1	0	0	1
2	0	1	1	0	0	1	1	1	0	1	0	1	0	0	0	1	0	1	0	1	0
3	0	1	0	1	1	0	0	0	1	0	1	1	0	1	0	0	0	1	0	0	1
4	0	0	0	0	0	1	1	1	0	1	0	0	1	0	1	0	0	0	1	1	0

	Partner	OnlineSecurity	OnlineBackup	DeviceProtection	TechSupport	PaperlessBilling	Churn	tenure_1	tenure_4	Contract_Month-to-month	Contract_One year	InternetService_DSL	InternetService_Fiber optic	PaymentMethod_Bank transfer (automatic)	PaymentMethod_Electronic check	PaymentMethod_Mailed check	MonthlyCharges_1	MonthlyCharges_2	MonthlyCharges_3	TotalCharges_1	TotalCharges_3
0	1	0	1	0	0	1	0	1	0	1	0	1	0	0	1	0	1	0	0	1	0
1	0	1	0	1	0	0	0	0	1	0	1	1	0	0	0	1	0	1	0	0	1
2	0	1	1	0	0	1	1	1	0	1	0	1	0	0	0	1	0	1	0	1	0
3	0	1	0	1	1	0	0	0	1	0	1	1	0	1	0	0	0	1	0	0	1
4	0	0	0	0	0	1	1	1	0	1	0	0	1	0	1	0	0	0	1	1	0