急着吃饭的李先生

信贷数据分析及贷前风险评估建模

场景解析

首先我到lengdingclub公司官网下载了2017年4个季度的贷款数据,18,19年的数据没有下载(后面会有解释)
数据获取地址:https://www.lendingclub.com/info/download-data.action(因为是美国的一家P2P公司,所以该链接需要才可以访问,可以下载到该公司近10年左右的贷款数据)

拿到这份数据之后我主要做了下面两个方面的工作:
①探索性数据分析及可视化②建立风险模型用于预测申请人能否及时还款
分析数据,数据为非结构化数据,需要做特征类型转换,数据规格也相差悬殊,需要对其做特征缩放，将特征缩放至同一个规格,在数据质量方面,出现了大量的空值,可以确定字段loan_status为目标列，其他列为特征列。

一、读取数据

我用的是jupyter notebook,为了美观,部分out展示的内容我会直接复制在代码中

import numpy as np
import pandas as pd
pd.set_option('display.float_format', lambda x: '%.4f' % x)#防止数据显示使用科学计数法
from pandas import Series,DataFrame
import os
import matplotlib.pyplot as plt
plt.style.use("ggplot")
%matplotlib inline
import seaborn as sns
sns.set(font="SimHei")
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体

import warnings
warnings.filterwarnings('ignore')

list_data = os.listdir("./data")
list_data
['LoanStats_2017Q1.csv',
 'LoanStats_2017Q2.csv',
 'LoanStats_2017Q3.csv',
 'LoanStats_2017Q4.csv']

LoanStats_2017Q1 = pd.read_csv("./data/LoanStats_2017Q1.csv",skiprows=1,low_memory=False)
LoanStats_2017Q2 = pd.read_csv("./data/LoanStats_2017Q2.csv",skiprows=1,low_memory=False)
LoanStats_2017Q3 = pd.read_csv("./data/LoanStats_2017Q3.csv",skiprows=1,low_memory=False)
LoanStats_2017Q4 = pd.read_csv("./data/LoanStats_2017Q4.csv",skiprows=1,low_memory=False)
data_to_concat = [LoanStats_2017Q1,LoanStats_2017Q2,LoanStats_2017Q3,LoanStats_2017Q4]

查看各个季度的数据量

for i in data_to_concat:
    print(i.shape)
(96781, 144)
(105453, 144)
(122703, 144)
(118650, 144)

数据纵向级联

loan_data = pd.concat(data_to_concat,ignore_index=True)#ignore_index=True级联之后的数据不保留原先的下标
loan_data.head()

查看数据规模

loan_data.shape
(443587, 144)

二、探索性数据分析

2.1.检查缺失值数量以及每列缺失值的百分比

# 构建计算缺失值数量的函数
def missing_values_table(df):
    # 每列总缺失值数量
    mis_val = df.isnull().sum()
    
    # 缺失值的百分比
    mis_val_percent = 100*df.isnull().sum() / len(df)
    
    # 将结果级联成一个表格
    mis_val_table = pd.concat([mis_val,mis_val_percent],axis=1)
    
    # 给表格的列重命名
    mis_val_table = mis_val_table.rename(columns = {0 : "缺失值数量", 1 : "缺失值占比"})
    
    # 按照缺失值占比降序排序
    mis_val_table = mis_val_table[mis_val_table.iloc[:,1] != 0].sort_values("缺失值占比", ascending=False).round(1)
    
    # 打印一些总结信息
    print("输入的对象一共有" + str(df.shape[1]) + "个特征.\n"
         "其中一共有" + str(mis_val_table.shape[0]) + "个特征具有缺失值.")
    
    # 返回缺失值表格  
    return mis_val_table

将数据放入函数查看缺失值

mis_val_table = missing_values_table(loan_data)
mis_val_table.head(10)

输入的对象一共有144个特征.
其中一共有144个特征具有缺失值.

# 找出缺失值在40%以上的列
columns_missing_40 = list(mis_val_table[mis_val_table.iloc[:,1] > 40].index)
len(columns_missing_40)
43

可以看出有43列特诊缺失值在40％以上,我们把这些缺失值过多的列删除

# 删除缺失值大于40%的列
loan_data = loan_data.drop(columns_missing_40, axis=1)
loan_data.shape
(443587, 101)

# 删除缺失值大于50%的行
na1 = loan_data.shape[1]/2
loan_data = loan_data.dropna(thresh=na1,axis=0)
loan_data.shape
(443579, 101)

发现只少了8条数据,说明行数据比较完整

#再次检查缺失值分布
mis_val_table = missing_values_table(loan_data)
mis_val_table

# 将初步处理的数据存入csv
loan_data.to_csv("./loan_data2017.csv",index=False)

# 读取新的csv文件
loan_data = pd.read_csv("./loan_data2017.csv")
loan_data.head()

2.2.查看数据类型

loan_data.dtypes.value_counts()
float64    77
object     24
dtype: int64

loan_data.describe()

数据集属性较多,初步聚焦几个重要特征展开分析

2.3.单变量分析

贷款状态分布

loan_data["loan_status"].value_counts()
Current               257574
Fully Paid            134159
Charged Off            40101
Late (31-120 days)      7687
In Grace Period         1950
Late (16-30 days)       1823
Default                  285
Name: loan_status, dtype: int64

可以发现有7个目标类
其中:
Current 正常还款,由于用是17年的数据,这部分贷款已经正常还款近2年,默认为正常贷款
Fully Paid 完全付清
Charged Off 违约
Late (31-120 days) 贷款延迟
In Grace Period 宽限期
Late (16-30 days) 贷款延迟
Default 超过120天未还款

# 其中处于宽限期的不确实是否违约,且数据量较少,这里选择删除
loan_data = loan_data[loan_data["loan_status"] != "In Grace Period"]

# 对剩下的六类重新分类,正常为0,违约为1
status_replace = {
    "loan_status" : {"Current":0,
                     "Fully Paid": 0,
                     "Charged Off": 1, 
                     "Late (31-120 days)":1,                     
                     "Late (16-30 days)":1,
                     "Default":1}
}
loan_data = loan_data.replace(status_replace)

查看贷款状态分布

value_count = loan_data["loan_status"].value_counts()
value_count
0    391733
1     49896
Name: loan_status, dtype: int64

可视化贷款状态

plt.style.use("ggplot")
plt.figure(figsize=(16,8))
# 画饼状图
ax = plt.subplot(1,2,1)
value_count.plot(kind = 'pie', autopct = "%0.3f%%", title="贷款状态分布", fontsize=16)
# 柱状图
ax = plt.subplot(1,2,2)
value_count.plot(kind = 'bar',fontsize=16,rot=0)
plt.savefig("./picture/贷款状态分布")

从上图及上面的数据可以看出:
1.2017年公司贷款不良率达到了11.298%;
2.此列数据将作为建模的标签,数据属于不平衡数据集,在后面的建模过程中将对这个问题进行处理

2.3.2 贷款金额分布

loan_data["loan_amnt"].describe()
count   441629.0000
mean     14835.9854
std       9630.7593
min       1000.0000
25%       7200.0000
50%      12000.0000
75%      20000.0000
max      40000.0000
Name: loan_amnt, dtype: float64

plt.figure(figsize=(16, 8))
sns.set(font="SimHei")
sdisplot_loan = sns.distplot(loan_data['loan_amnt'] )
plt.xticks(rotation=90,fontsize=14)
plt.xlabel('Loan amount',fontsize=16)
plt.title('贷款金额分布',fontsize=16)
sdisplot_loan.figure.savefig('./picture/贷款金额分布')

由上图及数据可以看出,平台贷款呈现偏右正态分布,贷款金额最小值为1000美元,最大值为40,000美元，贷款金额主要集中在10,000美元左右，中位数为12,000美元，可以看出平台业务主要以小额贷款为主。

2.3.3 贷款期限分布

term_count = loan_data["term"].value_counts()
term_count
36 months    319194
 60 months    122435
Name: term, dtype: int64

plt.style.use("ggplot")#虽然之前设置过样式,不过这里没生效,再加载一次即可
plt.figure(figsize=(16,8))
ax = plt.subplot(1,2,1)
term_count.plot(kind = 'pie', autopct = "%0.3f%%", title="贷款期限分布",fontsize=16)
# 柱状图
ax = plt.subplot(1,2,2)
term_count.plot(kind = 'bar',fontsize=16)
plt.savefig("./picture/贷款期限分布")

平台贷款产品期限分为36个月和60个月两种，其中贷款期限为60个月的贷款占比为27.723%，贷款期限为36个月的贷款占比为72.277%。一般来说贷款期限越长，不确定性越大，违约的可能性更大，期限较长的贷款产品风险越高。从期限角度看，平台风险偏小的资产占大部分。

2.3.4 贷款用途分析

purpose_count = loan_data["purpose"].value_counts()
purpose_count
debt_consolidation    243897
credit_card            91137
home_improvement       34544
other                  32942
major_purchase         11084
medical                 6859
car                     5338
small_business          4903
vacation                4014
moving                  3629
house                   2990
renewable_energy         290
educational                1
wedding                    1
Name: purpose, dtype: int64

plt.figure(figsize=(18, 9))
ax = sns.countplot(x="purpose", data=loan_data)
ax.set(yscale = "log")#因为各用途数量相差悬殊,用科学计数比较美观
plt.yticks(fontsize=25)
plt.xticks(rotation=90,fontsize=20)
plt.title('贷款用途',fontsize=24)
plt.show()
ax.figure.savefig("./picture/贷款用途分析")

可以看出该平台贷款用途最多的为债务重组（借新债还旧债），其次是信用卡还款，第三是住房改善。一般来说，贷款用途为债务重组和信用卡还款的客户现金流较为紧张，此类客户也是在传统银行渠道无法贷款才转来P2P平台贷款，这部分客户的偿还贷款能力较弱，发生违约的可能性较高。

2.3.5 客户信用等级占比

grade_count = loan_data["grade"].value_counts()
grade_count
C    144373
B    132705
A     78660
D     56285
E     19994
F      6181
G      3431
Name: grade, dtype: int64

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.figure(figsize=(8, 8))
grade_count.plot(kind="pie",autopct = "%0.3f%%", title="客户信用等级占比",fontsize=14,colormap="Accent")
plt.savefig("picture/客户信用等级占比")

Lending Club平台对客户的信用等级分7类，A~G，信用等级为A的客户信用评分最高，信用等级为G的客户最低.目前，平台客户信用等级占比较多的客户为C类，其次是B类和A类，三者合计占比超过80%。此外信用等级为E、F、G类的客户占比不到7%。可以看出Lending Club授信部门对申请人的资信情况把关较严。

2.3.6 贷款利率分布

在分析之前,由于%的存在需要将利率进行类型转换

loan_data['int_rate'] = loan_data['int_rate'].str.rstrip('%').astype('float')/100

# 异常值检测
loan_data['int_rate'].describe()
count   441629.0000
mean         0.1323
std          0.0519
min          0.0532
25%          0.0993
50%          0.1262
75%          0.1599
max          0.3099
Name: int_rate, dtype: float64

plt.figure(figsize=(16, 8))
int_rate = sns.distplot(loan_data['int_rate'] )
plt.xticks(rotation=90)
plt.xlabel('Interest Rate',fontsize=20)
plt.title('贷款利率分布',fontsize=20)
int_rate.figure.savefig("./picture/利率分布图")

平台贷款利率呈现右偏正态分布,利率中位数为12.6%,最高达到了30.9%

2.4多变量分析

2.4.1 贷款量与时间的关系

time_amout = loan_data[["issue_d","loan_amnt"]]
time_amout.head()

# 查看时间数据类型
time_amout.dtypes
issue_d       object
loan_amnt    float64
dtype: object

# 这里需要将issue_d转换为时间类型
time_amout["issue_d"] = pd.to_datetime(time_amout['issue_d'])

# 查看时间数据类型
time_amout.dtypes
issue_d      datetime64[ns]
loan_amnt           float64
dtype: object

amount_groupby_date = time_amout.groupby(["issue_d"]).sum().reset_index()
amount_groupby_date

amount_groupby_date["issue_month"] = amount_groupby_date["issue_d"].apply(lambda x: x.to_period('M'))
amount_groupby_date

# 结果可视化
plt.figure(figsize=(15, 9))
plot1 = sns.barplot(x="issue_month", y="loan_amnt", data = amount_groupby_date)
plt.xlabel('Month',fontsize = 16)
plt.ylabel('Loan_amount',fontsize = 16)
plt.title("月度总贷款量", fontsize = 20)
plot1.figure.savefig("./picture/2017年月度贷款量")

从整体情况来看,2017年该平台的业务是持续增长的

2.4.2 贷款期限与利率的关系

groupby_grade_term = loan_data.groupby(["grade","term"])["int_rate"].mean().unstack()
groupby_grade_term

# 绘图进行可视化展示
f,ax1=plt.subplots(figsize=(16,9))
groupby_grade_term.plot(kind="bar",ax = ax1,rot = 0,fontsize=16)
plt.title('各信用等级贷款利率',fontsize=20)
ax1.set_xlabel('信用评级',fontsize=16)
ax1.set_ylabel('利率',fontsize=16)
ax1.legend(fontsize=16)
ax1.figure.savefig("./picture/各信用等级贷款利率情况")

从上图及表格可以看出:
1.该平台利率最高为30.8%,最低接近7%,总体利率相对传统银行高;
2.信用评级越高,违约发生的可能性将越低,因此利率也更低;
3.从贷款期限角度来看,期限长的相对来说利率高了一点点.

2.4.3贷款金额与利率的关系

plt.figure(figsize=(16,8))
jointplot = sns.jointplot("loan_amnt", "int_rate", data = loan_data, kind = "reg", size=10)
jointplot.savefig("./picture/贷款金额与利率关系图")

由上图可知贷款金额与利率没有明显的线性关系

2.4.4 工作年限与违约率的关系

emp_length_status = loan_data.groupby(["emp_length","loan_status"])["loan_status"].count().unstack()
emp_length_status

重新设置下标,让工作年限从短到长排列

emp_length_status = loan_data.groupby(["emp_length","loan_status"])["loan_status"].count().unstack()
emp_length_status = emp_length_status.reindex(index=["< 1 year","1 year","2 years","3 years","4 years","5 years",
                                                     "6 years","7 years","8 years","9 years","10+ years"])
emp_length_status

# 计算违约率
emp_length_status["DefaultedRate"] = emp_length_status[1]/(emp_length_status[1]+emp_length_status[0])
emp_length_status

可以用下面的函数查看图片风格,个人比较喜欢"ggplot"

# 查看绘图风格种类
plt.style.available
['bmh',
 'classic',
 'dark_background',
 'fast',
 'fivethirtyeight',
 'ggplot',
 'grayscale',
 'seaborn-bright',
 'seaborn-colorblind',
 'seaborn-dark-palette',
 'seaborn-dark',
 'seaborn-darkgrid',
 'seaborn-deep',
 'seaborn-muted',
 'seaborn-notebook',
 'seaborn-paper',
 'seaborn-pastel',
 'seaborn-poster',
 'seaborn-talk',
 'seaborn-ticks',
 'seaborn-white',
 'seaborn-whitegrid',
 'seaborn',
 'Solarize_Light2',
 '_classic_test']

# 可视化结果
plt.style.use("ggplot")#此处试验过几次，需要再次设置才会有效果
f,ax1=plt.subplots(figsize=(16,8))
ax1.set(yscale = "log")
emp_length_status[[0,1]].plot(kind="bar",ax = ax1,rot = 0,fontsize=12)
ax2=ax1.twinx()
plt.style.use("seaborn-white")# 由于ggplot默认有背景网格，画违约率刻度时选用此模式可避免重复网格，影响图片美观
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体（图片风格变化之后需重新设置中文）
emp_length_status["DefaultedRate"].plot(ax = ax2,style='r.-',fontsize=14)
plt.title('工作年限与违约率关系图',fontsize=20)
ax1.set_xlabel('工作年限',fontsize=16)
ax1.set_ylabel('数量',fontsize=16)
ax2.set_ylabel('违约率',fontsize=16)
ax2.legend(loc=9,fontsize=14)
ax1.legend(loc=1,fontsize=14)
plt.savefig("./picture/工作年限与违约率关系图")

由上图可以看出:
1.总体上来看,工作年限越长,违约率越低,不过从数值上来看违约率相差不是特别大;
2.该平台工作超过10年以上的贷款人数最大,可以看出该平台偏向借贷于此类人群.

2.4.5 年收入对贷款状态的影响

其中verification_status表示年收入是否被核实,在这里我们需要将经过核实的年收入筛选出来进行分析

# verification_status收入是否经过核实
loan_data["verification_status"].value_counts()
Source Verified    170807
Not Verified       158170
Verified           112652
Name: verification_status, dtype: int64

# 选取年收入经过核实的的数据
annual_inc_data = loan_data[['loan_status', 'annual_inc', "verification_status"]]
annual_inc_data = annual_inc_data[annual_inc_data["verification_status"] != "Not Verified"][["loan_status","annual_inc"]]
annual_inc_data.head()

# 查看年收入分布,用于确定分段标准
annual_inc_data.describe()

# 分段标准
to_bins = np.array([-1,25000,50000,75000,100000,150000,200000,200000000])
# 给年收入分段
annual_inc_data["annual_inc_binned"] = pd.cut(annual_inc_data["annual_inc"], bins = to_bins)
annual_inc_data.head()

# 使用groupby来统计数量
annual_group = annual_inc_data.groupby(["annual_inc_binned", "loan_status"])["loan_status"].count().unstack()
annual_group
# 知识点,如果需要将index重命名需要对其数据类型进行更改

# 计算违约率
annual_group["DefaultedRate"] = annual_group[1]/(annual_group[1]+annual_group[0])

# 绘图进行可视化展示
plt.style.use("ggplot")
f,ax1=plt.subplots(figsize=(14,7))
annual_group[[0,1]].plot(kind="bar",ax = ax1,rot = 0,fontsize=12)
ax2=ax1.twinx()
plt.style.use("seaborn-white")
plt.rcParams['font.sans-serif'] = ['SimHei']
annual_group["DefaultedRate"].plot(ax = ax2,style='g.-',fontsize=14)
plt.title('收入与违约率的关系',fontsize=20)
ax1.set_xlabel('IncomeRange',fontsize=16)
ax1.set_ylabel('Count',fontsize=16)
ax2.legend(loc='center right',fontsize=14)
ax1.legend(fontsize=14)
plt.savefig("./picture/年收入与违约率分布图")

从图中可以看出：
1.正常来讲,收入越高,意味着偿还贷款的能力越强,违约率越低;
2.该平台贷款的人员主要集中在中等收入群体.

2.4.6 信用卡透支比例对违约率的影响

# 取出需要的数据
revol_data = loan_data[["revol_util", "loan_status"]]

# 查看数据类型
revol_data.dtypes
revol_util     object
loan_status     int64
dtype: object

# 转换object类型
revol_data["revol_util"] = revol_data["revol_util"].str.rstrip('%').astype("float")/100
revol_data.head()

revol_data["revol_util"].describe()
count   441187.0000
mean         0.4773
std          0.2473
min          0.0000
25%          0.2860
50%          0.4690
75%          0.6640
max          1.7320
Name: revol_util, dtype: float64

to_bins2 = np.array([-0.1,0.2,0.4,0.6,0.8,1,2])
# 给信用卡透支率分段
revol_data["revol_util_binned"] = pd.cut(revol_data["revol_util"], bins = to_bins2)
revol_data.head(10)

revol_group = revol_data.groupby(["revol_util_binned","loan_status"])["loan_status"].count().unstack()
revol_group

# 计算违约率
revol_group["DefaultedRate"] = revol_group[1]/(revol_group[0]+revol_group[1])

# 开始绘图
plt.style.use("ggplot")
f,ax1 = plt.subplots(figsize=(14,7))
revol_group[[0,1]].plot(kind = "bar", ax = ax1, rot = 0,fontsize = 16)
ax1.set_xlabel('Credit_use_rate',fontsize=18)
ax1.set_ylabel('Count',fontsize=18)
ax2=ax1.twinx()
plt.style.use("seaborn-white")
revol_group["DefaultedRate"].plot(style="g.-",ax = ax2,fontsize = 16)
ax1.legend(fontsize=16)
ax2.legend(loc='center right',fontsize=16)
plt.title('DefaultedRate by Credit_use_rate',fontsize=20)
plt.savefig("./picture/信用卡透支率与贷款状态关系图")

从上图可以看出:
1.大部分人都有使用信用卡;
2.总的来说，随着信用卡的透支比例越来越高，违约率也越来越高.

2.4.7 信用评级对违约率的影响

grade_data = loan_data[["grade","loan_status"]]

grade_group = grade_data.groupby(["grade", "loan_status"])["loan_status"].count().unstack()

# 计算违约率
grade_group["DefaultedRate"] = grade_group[1]/(grade_group[1]+grade_group[0])
grade_group

# 开始绘图
plt.style.use("ggplot")
f,ax1 = plt.subplots(figsize=(14,7))
grade_group[[0,1]].plot(kind="bar",ax = ax1, rot=0, fontsize=16)
ax1.set_xlabel("LCgrade",fontsize=16)
ax1.set_ylabel('Count',fontsize=16)
ax2 = ax1.twinx()
plt.style.use("seaborn-white")
grade_group[["DefaultedRate"]].plot(style='g.-',ax=ax2,fontsize=14)
ax1.legend(fontsize=14)
ax2.legend(loc='center right',fontsize=14)
plt.title('DefaultedRate by LCgrade',fontsize=20)
plt.savefig("./picture/信用评级与违约率关系图")

从上图可以看出:
1.平台大部分人信用评级在D级(含)以上;
2.随着信用等级降低,他的违约率在逐步升高;
3.当信用等级在D以下时,其违约率已经高过了25％.

2.4.8 过去两年借款人信用档案中逾期30天以上的拖欠次数对违约率的影响

delinq_2yrs_data = loan_data[["delinq_2yrs","loan_status"]]

delinq_2yrs_group = delinq_2yrs_data.groupby(["delinq_2yrs","loan_status"])["loan_status"].count().unstack()
delinq_2yrs_group.tail()

可以看出,有的违约次数多达42次,为了便于展示,我将多于6次的进行求和

# 对违约6次以上的求和
delinq_2yrs_group.iloc[6:,:].sum()
loan_status
0   1915.0000
1    267.0000
dtype: float64

delinq_2yrs_group = delinq_2yrs_group.iloc[:6,:]
delinq_2yrs_group

# 将后面的列加上去
delinq_2yrs_group.loc["6+"] = [4407.0,1138.0]
delinq_2yrs_group

# 计算违约率
delinq_2yrs_group["DefaultedRate"] = delinq_2yrs_group[1]/(delinq_2yrs_group[1]+delinq_2yrs_group[0])

# 绘图
plt.style.use("ggplot")
f,ax1=plt.subplots(figsize=(16,9))
delinq_2yrs_group[[0,1]].plot(kind='bar',ax=ax1,rot=0,fontsize=14)
ax1.set_xlabel('DelinquenciesLast2Years',fontsize=16)
ax1.set_ylabel('Count',fontsize=16)
ax1.set(yscale = "log")
ax2=ax1.twinx()
plt.style.use("seaborn-white")
delinq_2yrs_group['DefaultedRate'].plot(style='g.-',ax=ax2,fontsize=14)
ax1.legend(fontsize=16)
ax2.legend(loc='center right',fontsize=14)
plt.title('DefaultedRate by DelinquenciesLast2Years',fontsize=20)
plt.savefig("./picture/两年内信用违约次数与违约率关系图")

从上图可以看出：
1.总体来说过去2年违约次数越多，违约率越高
2.过去2年未违约的人数占绝大部分,可以看出平台更偏爱未违约的人群

前段总结

1.影响风险的因素

一般而言.高收入人群相对来说偿债能力越强,风险越低;过往的征信记录也能反映贷款人的偿还意愿,对于有征信不良记录的人而言,为平衡风险,应匹配更高的利率定价.

2.贷款平台特点

1.从整个年度来看,该平台业务处于持续增长中
2.该平台贷款主要集中在10000美元左右,以小额贷款为主
3.总体而言,利率相对传统银行较高
4.该平台贷款不良率达到了11.298%,需要加强风险控制

贷前风险建模

三、数据预处理

3.1 凭常识删除部分特征

阅读特征词典

# 构建特征信息表
information_dict = pd.DataFrame(loan_data.loc[0])
information_dict["dtype"] = loan_data.dtypes
information_dict.head()

# 取第一行数据保存
information_dict.to_csv("./各特征含义信息表.csv")
# 查看英文文档,填充<各特征含义信息表>,使用excel打开文件根据特征词典手动填写每一项特征的信息,保存为xlsx格式

# 将<各特征含义信息表>复制保存后读取
infor_dict = pd.read_excel("各特征含义信息表.xlsx")
infor_dict.head(10)

colums_to_del = infor_dict[infor_dict["去留"] == "删"].index
colums_to_del

# 凭常识删除贷后特征
loan_data_new = loan_data.drop(colums_to_del,axis=1)
loan_data_new.shape
(443579, 73)

还剩下73个特征

# 同值化处理
#nunique在计算唯一值时排除了空值
loan_data_new = loan_data_new.loc[:,loan_data_new.apply(pd.Series.nunique) != 1]
loan_data_new.shape
(443579, 72)

# 检查缺失值
mis_val_table = missing_values_table(loan_data_new)#该函数在上面创建过了
mis_val_table

输入的对象一共有72个特征.
其中一共有13个特征具有缺失值.

3.2.1分类变量缺失值处理

object_columns = loan_data_new.select_dtypes("object")

# 检查缺失值
mis_val_table_obj = missing_values_table(object_columns)
mis_val_table_obj

输入的对象一共有11个特征.
其中一共有2个特征具有缺失值.

可以看到revol_util是由于%的导致的,将其转化为数值类型

loan_data_new["revol_util"] = loan_data_new["revol_util"].str.rstrip("%").astype("float")/100

# 检查emp_length
loan_data_new["emp_length"].value_counts()
10+ years    146057
< 1 year      43835
2 years       40456
3 years       35362
1 year        28985
4 years       26993
5 years       26660
6 years       19043
7 years       15932
9 years       15229
8 years       13156
Name: emp_length, dtype: int64

# 可以联想工作时间这一特征很可能是由于申请人无工作经验所以没有填写,将空值填充为"无经验"
loan_data_new["emp_length"] = loan_data_new["emp_length"].fillna("无")

3.2.2 数值变量缺失值处理

loan_data_new.dtypes.value_counts()
float64    62
object     10
dtype: int64

使用众数填充缺失值,该方法一直卡在这,我根据警告提示导入了SimpleImputer之后解决了问题

# from sklearn.preprocessing import Imputer
# imr = Imputer(strategy="most_frequent")
# loan_data_new[numColumns] = imr.fit_transform(loan_data_new[numColumns])

# 选取有缺失值的特征
mis_col = loan_data_new[numColumns].isnull().sum()[loan_data_new[numColumns].isnull().sum()>0].index

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy="most_frequent")
imputer.fit(loan_data_new[mis_col])
loan_data_new[mis_col] = imputer.transform(loan_data_new[mis_col])

import missingno as msno
msno.matrix(loan_data_new) # 再次检查缺失值情况

# 再次检查缺失值
mis_val_table = missing_values_table(loan_data_new)
mis_val_table

输入的对象一共有72个特征.
其中一共有0个特征具有缺失值.

3.3 同值化处理

如果一个变量大部分的观测都是相同的特征，那么这个特征或者输入变量就是无法用来区分目标时间，这里临界值选择95%.

equi_fea = []
for col in loan_data_new.columns:
    #将该列出现最多次数的值取出
    mode_value = loan_data_new[col].value_counts().index[0]
    mode_rate = loan_data_new[col].value_counts().iloc[0]/loan_data_new.shape[0]
    if mode_rate > 0.95:
        equi_fea.append([col,mode_value,mode_rate])

equi = pd.DataFrame(equi_fea,columns=["col_name","mode_value","mode_rate"])
equi.sort_values(by="mode_rate",ascending=False)

# 删除这些同一只值
droplist = equi.col_name.values
loan_data_new.drop(droplist,axis=1,inplace=True)
loan_data_new.shape
(443579, 64)

8个特征已经被删除

四、特征工程

4.1 特征衍生

已知申请人年收入"annual_inc",期望贷款金额"loan_amnt",贷款周期"term",可以用月收入(“annual_inc”/12)除以月还款本金(“loan_amnt”/int(“term”))
新特征代表申请人每月还款本金与月收入的比,可以反映出贷款人的偿债压力

# 有部分无收入的,当作为除数的时候会出现无穷值inf,给出除数加1可避免
term =loan_data_new["term"].str.rstrip("months").astype("int")
loan_data_new["repay_month"] = (loan_data_new["loan_amnt"]/term)/(loan_data_new["annual_inc"]/12+1)

4.2 特征抽象

将数据转换成算法可以理解的数据

loan_data_new.select_dtypes("object").apply(pd.Series.nunique,axis=0)
term                    2
grade                   7
emp_length             12
home_ownership          5
verification_status     3
loan_status             7
purpose                14
application_type        2
dtype: int64

4.2.1 有序特征映射

# "verification_status"(年收入是否经过验证可再细分为两类)
mapping_dict = {
    "emp_length": {
        "10+ years": 10,
        "9 years": 9,
        "8 years": 8,
        "7 years": 7,
        "6 years": 6,
        "5 years": 5,
        "4 years": 4,
        "3 years": 3,
        "2 years": 2,
        "1 year": 1,
        "< 1 year":0,
        "无": 0
    },
    "grade":{
        "A": 1,
        "B": 2,
        "C": 3,
        "D": 4,
        "E": 5,
        "F": 6,
        "G": 7
    },
    "verification_status":{
        "Source Verified":0,
        "Not Verified":1,
        "Verified":0
    }
}
 
loan_data_new = loan_data_new.replace(mapping_dict)

# 查看效果
loan_data_new[["emp_length","grade","verification_status"]].head()

loan_data_new.select_dtypes("object").apply(pd.Series.nunique,axis=0)
term                 2
home_ownership       5
loan_status          7
purpose             14
application_type     2
dtype: int64

对于具有2个唯一类别的分类变量（dtype == object），我们将使用标签编码，对于具有2个以上唯一类别的分类变量，我们将使用独热编码。
对于标签编码，我们使用Scikit-Learn LabelEncoder,对于独热编码，使用pandas get_dummies（df）函数。

标签编码

from sklearn.preprocessing import LabelEncoder
# 创建一个标签编码对象
le = LabelEncoder()
le_count = 0

# 迭代所有的列
for col in loan_data_new:
    if loan_data_new[col].dtype == 'object':
        # 如果只有两类唯一值
        if len(loan_data_new[col].unique()) == 2:
            # 训练满足条件的这一列
            le.fit(loan_data_new[col])
            # 转化这一列
            loan_data_new[col] = le.transform(loan_data_new[col])          
            # 查看有多少列被标签编码了
            le_count += 1
            
print('%d 列被标签编码了.' % le_count)

独热编码

cols = ["home_ownership","purpose"]
dummy_df = pd.get_dummies(loan_data_new[cols])# 用get_dummies进行one hot编码
loan_data_new = pd.concat([loan_data_new, dummy_df], axis=1) #当axis = 1的时候，concat就是行对齐，然后将不同列名称的两张表合并
# 将原来的两列删除
loan_data_new.drop(["home_ownership","purpose"],axis=1,inplace=True)
loan_data_new.shape
(443579, 82)

4.3 特征缩放

1.去量纲
2.加快算法收敛速度

# 将目标变量取出
target = loan_data_new["loan_status"]
# 取出数据集(不含目标变量)
loans = loan_data_new.drop("loan_status",axis=1)
loans.shape
(441629, 81)

你可能感兴趣的:(项目实战)

springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
基于nodejs+vue的美妆彩妆网站的设计与实现(源码+LW+调试文档+讲解等) 程序员gelei nodejs毕业设计项目 vue.js 前端 javascript
目录：博主介绍：完整视频演示：系统技术介绍：后端Java介绍前端框架Vue介绍具体功能截图：部分代码参考：Mysql表设计参考：项目测试：项目论文：为什么选择我：源码获取：博主介绍：博主：程序员gelei：全网拥有20W+粉丝、CSDN作者、博客专家、全栈领域优质创作者、平台优质Java创作者、专注于Java、小程序、python、安卓技术领域和毕业项目实战✌Java精品实战案例《1000套》20
Java 基于 SpringBoot+vue 的大学生科创项目在线管理系统（附源码）程序员徐师兄 java spring boot vue.js 大学生科创项目管理系统大学生科创项目
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》Python项目实战《100套》
计算机毕业设计选题推荐-基于Python框架项目推荐（中）计算机毕设大佬 Java毕设实战项目 Python毕设实战项目爬虫+大数据毕设实战项目 python 计算机毕业设计 django 计算机毕业设计如何选题 25届计算机毕业设计如何选题计算机毕业设计选题推荐 24届计算机毕设选题推荐
博主介绍：✌十余年IT大项目实战经验、在某机构培训学员上千名、专注于本行业领域✌技术范围：Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫+大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战项目。主要内容：系统功能设计、开题报告、任务书、系统功能实现、功能代码讲解、答辩PPT、文档编写、文档修改、文档降重、一对一辅导答辩。获取源码可以联系
Django+Vue基于OpenCV的人脸识别系统的设计与实现赵广陆 project django vue.js opencv
目录1项目介绍2项目截图3核心代码3.1需要的环境3.2Django接口层3.3实体类3.4config.ini3.5启动类3.5Vue4数据库表设计5文档参考6计算机毕设选题推荐7源码获取1项目介绍博主个人介绍：CSDN认证博客专家，CSDN平台Java领域优质创作者，全网30w+粉丝，超300w访问量，专注于大学生项目实战开发、讲解和答疑辅导，对于专业性数据证明一切！主要项目：javaweb、
项目实战 ---- 商用落地视频搜索系统（10）---后台搜索Cache优化 PhoenixAI8 AI Python 商用视频搜索系统 vector db milvus redis cache
目录背景技术实现策略视频预处理阶段的cache技术视频搜索阶段的cache技术技术实现预处理阶段cache策略实现逻辑代码运行结果问题及注意点搜索阶段cache策略实现系统配置层面逻辑低版本GPUCPU本项目的配置高版本描述goahead策略cache加载策略本项目配置应用层搜索参数的配置配置项本项目的实际配置背景但目前为止，视频搜索系统已经可以正常使用和运转。并且他是基于多策略搜索算法的，能够在
启动速度与执行效率优化项目实战（二）：启动黑白屏解决 bug音音
img为什么会有黑白屏在桌面点击应用图标后，在app进程没有创建的情况下，需要时间创建app进程，初始化资源，以及启动首页Activity的（这里讨论的首页是指AndroidManifest里面标志的启动页），这就意味点击图标不能马上看到启动页。为了不让用户有卡顿的感觉，谷歌有了PreviewWindow，在启动页没有绘制完成时，会先初始化一个Window，我们通常看到的黑屏或白屏，就是这个预览窗
【小贪】项目实战——Zero-shot根据文字提示分割出图片目标掩码贪钱算法还我头发 #Deep Learning #Computer Vision AI 目标检测深度学习 python 语义分割 Zero-shot
目标描述给定RGB视频或图片，目标是分割出图像中的指定目标掩码。我们需要复现两个Zero-shot的开源项目，分别为IDEA研究院的GroundingDINO和Facebook的SAM。首先使用目标检测方法GroundingDINO，输入想检测目标的文字提示，可以获得目标的anchorbox。将上一步获得的box信息作为SAM的提示，分割出目标mask。具体效果如下（测试数据来自VolumeDef
springcloud项目实战家教信息平台系统的设计与实现-微服务-分布式 Python大数据爬虫项目辅导 Java项目 spring cloud 微服务分布式
专业毕设定制，上千套成品任选，所有项目包含开题、答辩PPT、lunwen文末获取源码联系感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人计算机毕设项目java毕业设计源码定做论文定制springcloud的家教信息平台系统_哔哩哔哩_bilibiliIT实战课堂-项目资料网址:www.itszkt.com软件下载地址:https://www
【Python】成功解决IndexError: list index out of range 高斯小哥 BUG解决方案合集 python list 新手入门学习 debug
【Python】成功解决IndexError:listindexoutofrange下滑查看解决方法欢迎莅临我的个人主页这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的中科院顶刊一作论文，熟练掌握PyTorch框架。技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走
SprinBoot+Vue远程教育网站的设计与实现赵广陆 project vue.js 前端 javascript
目录1项目介绍2项目截图3核心代码3.1Controller3.2Service3.3Dao3.4application.yml3.5SpringbootApplication3.5Vue4数据库表设计5文档参考6计算机毕设选题推荐7源码获取1项目介绍博主个人介绍：CSDN认证博客专家，CSDN平台Java领域优质创作者，全网30w+粉丝，超300w访问量，专注于大学生项目实战开发、讲解和答疑辅导
滚雪球学MyBatis(11)：项目实战 bug菌¹ 《滚雪球学MyBatis》mybatis java 零基础入门
前言欢迎回到我们的MyBatis系列教程。在前几期中，我们详细探讨了MyBatis的进阶使用，包括多数据源配置、动态SQL生成器、MyBatisGenerator的使用以及实现复杂查询的方法。这些知识点帮助我们在复杂的业务场景中更高效地使用MyBatis。本期内容中，我们将结合前面的所有知识点，进行一个完整的项目实战。通过实际项目的练习，大家将能够更好地巩固所学知识，并将其应用到实际开发中。11.
项目实战系列三: 家居购项目第五部分 ~ 小团子 #家居购项目 python 开发语言
显示订单[订单管理]暂时缺货需求分析1.如果某家居库存为0,首页的"AddtoCart"按钮显示为"暂时缺货"2.后台也加上校验.只有在库存>0时,才能添加到购物车代码实现1.修改web/views/customer/index.jspAddToCart[缺货]0}">AddToCart2.修改src/com/zzw/furns/web/CartServlet.java,当添加购物车时,要保证商品
Rust模块std::thread 夏天又到了 Rust编程与项目实战 rust java 算法
【图书介绍】《Rust编程与项目实战》-CSDN博客《Rust编程与项目实战》(朱文伟，李建英)【摘要书评试读】-京东图书(jd.com)Rust到底值不值得学，之一-CSDN博客Rust到底值不值得学，之二-CSDN博客Rust多线程编程概述-CSDN博客12.3.2等待所有线程完成在前面的实例中，主线程没等到派生线程执行完毕就结束了，从而整个进程就会结束。那么怎么让派生线程执行完毕呢？答案是通
Android-Jetpack架构组件（二）带你了解Lifecycle，给2021的移动开发一些建议 flutter架构师程序员面试移动开发 android
@OverrideprotectedvoidonResume(){super.onResume();myPresenter.onResume();}@OverrideprotectedvoidonPause(){super.onPause();myPresenter.onPause();}}classMyPresenter{《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战
总结50位大咖运营项目实战经验，这5大条件缺一不可，实用所有行业 1bdcc660f394
文：轻腾创者圈子不同，认知不同。思维不同，行为所异。一位大咖在他的博客中说：想要学习一项技能，最好的方法就是选择这个行业比较优秀的人对标，然后把他们所有的朋友圈及文章文案，全部从头到尾研究一篇。不得不说，从这句话，我真实的去学习和研究很多大咖他们的内容，确实学到不少东西。每一次学习，都可以从中吸取自己想要的内容，然后自己总结应用，就可以形成自己的体系。今年我至少有总结过50位大咖运营项目的实战经验
自然语言处理系列六十六》对话机器人项目实战》对话机器人原理与介绍陈敬雷-充电了么-CEO兼CTO python 人工智能算法自然语言处理机器人人工智能 AIGC chatgpt gpt ai
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列六十六对话机器人项目实战》对话机器人原理与介绍对话机器人项目代码实战总结自然语言处理系列六十六对话机器人项目实战》对话机器人原理与介绍对话机器人是一个用来模拟人类对话或聊天的计算机程序，本质上是通过机器学习和人工智能等技术让
SprinBoot+Vue动漫交流与推荐平台的设计与实现赵广陆 project vue.js 前端 javascript
目录1项目介绍2项目截图3核心代码3.1Controller3.2Service3.3Dao3.4application.yml3.5SpringbootApplication3.5Vue4数据库表设计5文档参考6计算机毕设选题推荐7源码获取1项目介绍博主个人介绍：CSDN认证博客专家，CSDN平台Java领域优质创作者，全网30w+粉丝，超300w访问量，专注于大学生项目实战开发、讲解和答疑辅导
WebView交互架构项目实战（三），androidstudio地图开发 wq221aas 程序员架构移动开发 android
不过根据官方文档，AppCache已经不推荐使用了，标准也不会再支持。现在主流的浏览器都是还支持AppCache的，以后就不太确定了。同样给出Android端启用AppCache的代码。WebViewmyWebView=(WebView)findViewById(R.id.webview);WebSettingswebSettings=myWebView.getSettings();webSett
WebView交互架构项目实战（三），史上超级详细 m0_66264881 程序员架构移动开发 android
returnsplashTargetPath+“/”;}***1：常用JS本地化及延迟加载*******资源等文件(不需要更新)本地存储，在需要的时候直接从本地获取。哪些资源需要我们去存储在本地呢，当然是一些不会被更新的资源，例如图片文件，js文件，css文件，比预加载更粗暴的优化方法是直接将常用的JS脚本本地化，直接打包放入apk中。比如H5页面获取用户信息，设置标题等通用方法，就可以直接写入一
Django5+Vue3:OA系统前后端分离项目实战-后端登录功能实现(7) Fender的web学习路程 Django5+Vue3 python django vue web
Django5+Vue3系列文章前言本节开始，全文仅对会员开放。若点赞和收藏数量超过100，全文将免费开放。此项目采用Django框架的5.0.7版本进行开发。Django5.0支持的Python版本为3.10、3.11和3.12。OA系统系列文章将持续更新，直至项目的Docker部署阶段。专栏链接:~快捷传送门:留个赞再走呗!~个人博客:~所有文章尽在简客免费阅读~文章目录目录Django5+V
WebView交互架构项目实战（三）：多进程WebView使用实践 2401_84433924 交互架构
prompt(“settitle”,JSON.stringify(params))},‘params’:{},‘callback’:function(res){}},}catch(e){alert(‘demo.jserror:’+e);}varreadyEvent=document.createEvent(‘Events’);readyEvent.initEvent(‘JSBridgeReady’
项目实战 ---- 商用落地视频搜索系统(6)---UI 结构及与service互动 PhoenixAI8 AI落地项目设计与实现 ui flask python vector db 人工智能 milvus
目录背景技术问题描述Jinja2概述特性问题解决手段问题1问题2问题3代码实现前端代码python代码解释页面展示home上传视频搜索视频背景通过1-5我们已经搭建好完整的后台功能，service，及准备与UI交互的路由及接口。下面就是UI部分的搭建。UI部分，这次我选择了Flask作为搭建载体，他的使用非常方便，router清晰，调用也非常简洁。不再需要tomcat等单独的container运行
python项目实战之基于深度学习的电影评论情感分析系统什么任性 python 深度学习开发语言 django flask html5 javascript
一、引言在信息爆炸的时代，用户生成的内容（UGC）如社交媒体、博客和论坛上的评论等，已经成为产品或服务口碑的重要来源。情感分析是一种自然语言处理（NLP）技术，用于识别和提取文本中的情感信息，从而理解大众对特定话题的态度。基于深度学习的电影评论情感分析系统能够自动分类评论的情感倾向，如正面、负面或中性，为电影制片人、营销人员和观众提供有价值的见解。二、技术栈和框架前端HTML/CSS:用于构建静态
分享一个基于微信小程序的智慧校园服务平台（源码、调试、LW、开题、PPT）计算机源码社微信小程序微信小程序毕业设计项目计算机毕设源码计算机毕设毕设选题课程设计源码毕业设计答辩
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|基
OpenCV项目实战-深度学习去阴影-图像去阴影阿利同学 opencv 深度学习人工智能阴影去除图像去阴影
往期热门博客项目回顾：计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾+目标检测+测距项目交通标志识别项目yolo系列-重磅yolov9界面-最新的yolo姿态识别-3d姿态识别深度学习小白学习路线//正文开始！图像去阴影算法旨在改善图像质量并恢复阴影下物体的真实颜色与亮度这对于许多计算机视觉任务如物体识别、跟踪以及增强现实等至关重要。以下是一些图像去阴影算法的基本概述
在国产平台上Flak Web应用开发 Botiway FlaskWeb python flask 后端 linux web3
在国产平台上进行FlaskWeb应用开发，特别是在像统信UOS这样的国产操作系统上，可以遵循与在其他操作系统上类似的开发流程，但可能需要注意一些特定的环境配置和兼容性问题。木合塔尔·沙地克所著的《FlaskWeb应用开发项目实战基于Python和统信UOS》一书，为在统信UOS上进行FlaskWeb应用开发提供了宝贵的指导和实战案例。1.环境准备首先，确保你的开发环境已经安装了Python和pip
最新计算机专业开题报告案例88：社区垃圾分类智能小程序的设计与实现平姐设计计算机毕业设计100套微信小程序项目实战 java项目实战小程序积分兑换商城获取定位在线答题云数据库百度AI接口研究方法
计算机毕业设计100套微信小程序项目实战java项目实战需要源码可以滴滴我项目演示地址目录一、研究目的与意义1.1目的1.2意义二、研究现状与文献综述2.1关于同类系统内容相关的研究2.2关于同类系统技术相关的研究三、研究的主要内容、预期目标与创新点3.1研究的主要内容3.2预期目标3.3创新点四、研究思路、研究方法与研究计划4.1研究思路4.2研究方法4.3研究计划一、研究目的与意义1.1目的近
最新计算机专业开题报告案例89：基于微信小程序的公考学习系统的设计与实现平姐设计微信小程序项目实战计算机毕业设计100套 php项目开发实战微信小程序 laravel框架 php 每日打卡今日练习拟解决的关键问题论文提纲
计算机毕业设计100套微信小程序项目实战java项目实战需要源码可以滴滴我项目演示地址目录一、研究的目的、意义和实用价值1.1研究目的1.2研究意义1.3实用价值二、国内外研究现状2.1国内研究现状2.2国外研究现状三、主要研究内容（提纲）四、已做哪些准备工作，计划再做的工作4.1已经做好的准备工作4.2计划再做的工作五、拟解决的关键问题六、主要参考文献一、研究的目的、意义和实用价值1.1研究目的
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring