Joe_lee1

某农商行用户画像项目——数据预处理部分

文章目录

一、项目背景及目的
- 1.1 项目背景
- 1.2 项目目的
- 1.3 数据说明
二、业务与数据理解
- 2.1 贷款、逾期数据
- - 2.1.1 贷款数据
  - 2.1.2 逾期数据
  - 2.1.3 循环贷数据
- 2.2 征信数据
- - 2.1.1 征信数据
  - 2.1.2 征信查询数据
- 2.3 百融数据
- - 2.1.1 征信数据
二、数据预处理
- 2.1 逾期数据处理
- - 2.1.1 字段过滤
  - 2.1.2 特征构建
  - 2.1.3 数据去重
  - - 2.1.3.1 基于客户识别码去重
    - 2.1.3.2 基于借据编号去重
  - 2.1.4 缺失值填充
- 2.2 贷款数据处理
- - 2.2.1 特征构建
  - 2.2.2 数据过滤
  - - 2.2.2.1 基于逾期时间窗口过滤数据
    - 2.2.2.2 基于业务实际过滤字段
    - 2.2.2.3 过滤数据信息相似的字段
  - 2.2.3 数据去重
  - - 2.2.3.1 整体去重
    - 2.2.3.2 基于客户标识码去重
    - 2.2.3.3 拼接去重数据
  - 2.2.4 缺失值填充
  - - 2.2.4.1 基于征信数据填充缺失值
    - 2.2.4.2 去重数据缺失值填充
- 2.3 征信数据处理
- - 2.3.1 数据过滤
  - - 2.3.1.1 基于字段缺失率过滤
    - 2.3.1.2 基于业务实际过滤字段
  - 2.3.2 数据去重
  - - 2.3.2.1 整体去重
    - 2.3.2.2 基于客户标识码去重
  - 2.3.3 数据整合
- 2.4 百融数据处理
- - 2.4.1 合并消费贷、房贷、循环贷数据
  - 2.4.2 数据去重
  - 2.4.3 数据过滤
  - 2.4.4 特征构建
  - 2.4.5 数据整合

一、项目背景及目的

1.1 项目背景

随着我国经济飞速发展，信用贷款业务逐渐发展，信贷客户的信用风险管理问题逐渐受到人们的广泛关注，传统的信用征信虽然能在一定程度上减少风险隐患，但在信息获取的及时性、全面性上明显存在短板。随着互联网迅猛发展，大数据、用户画像等新技术应用，为银行等财富管理机构识别优质客户和融通资金、降低信贷风险，开拓了新的思路和方法。

1.2 项目目的

本项目基于用户的贷款逾期数据、征信数据、消费金融数据，通过对数据的多维度、精细化、关联性的挖掘，来构建用户画像，并对用户分群，识别优质客户与高风险用户，为银行提供贷后本息催收过程的风险识别与控制。

1.3 数据说明

数据包含征信数据、百度金融数据以及用户在商行一段时间内的贷款逾期数据：

征信数据共63个字段约65000条记录
贷款数据共60个字段约61500条记录，逾期数据共13个字段约10000条记录，循环贷共66个字段约1700条记录。客户贷款信息表和逾期信息表都是借据层的原始数据，需要一定逻辑的计算汇总之后才是客户级的数据；循环贷为客户级数据，数据量较小，里面已经标注了好坏客户标签，无需再匹配。
百融数据包括房贷、消费贷以及循环贷数据，涉及领域丰富，内容多样化，但部分字段缺失严重。
项目分析中以贷款和逾期数据为主，其余数据为辅。
其中各类数据如图：

二、业务与数据理解

主要结合业务理解数据，并观察各字段数据的特征。
针对不同类型数据采取不同方法：

数值型：分布特征分析
类别型：占比分析
时间数据：时序分析（变化特征）

2.1 贷款、逾期数据

2.1.1 贷款数据

# 载入数据
loan_data = pd.read_excel('昆山农商行数据/贷款、逾期数据/1客户贷款信息宽表_20170510.xlsx',na_values=['(null)','无','未知'])
loan_data.head() # 查看前5行数据
loan_data.info() # 查看数据质量

总共60个字段，籍贯、户籍等一些字段值缺失严重。

类别型数据分析（占比分析）示例：

# 绘制饼图
loan_data.groupby(loan_data['客户类型']).count().标识码.plot(kind='pie',figsize=(8,8),autopct='%1.1f%%')

时间型数据分析（时序分析）示例：

# 绘制折线图
loan_data.groupby(loan_data['申请时间']).count()['借据编号——唯一标识'].plot(figsize =(12,8))
# 贷款时间大部分是2015-2016年

数值型数据分析（分布分析）示例：

# 涉及金额的数据（二八定律——帕累托分布）取对数再看分布
sns.distplot(np.log(loan_data[loan_data['职业收入（元）']>0]['职业收入（元）'].dropna()), kde=False,color='blue',bins=200)

贷款数据唯一标志识别：

# 查看唯一标志
len(loan_data),len(loan_data['借据编号——唯一标识'].unique())

存在问题：'借据编号——唯一标识’字段存在重复值，即数据说明中提到的客户贷款信息表是借据层的原始数据，需要一定逻辑的计算汇总之后才是客户级的数据。通过统计同一借据编号下出现多个值的字段来分析具体原因。

# 分析"借据编号——唯一标识"不唯一的原因
from collections import defaultdict
from tqdm import tqdm
d_result_dict = defaultdict(int)
for d_id in tqdm(loads_duplicated_data['借据编号——唯一标识'].unique()):
    d_data = loan_data[loan_data['借据编号——唯一标识'] == d_id]
    for d_data_col in d_data.columns:
        if len(d_data[d_data_col].unique())>1:
            d_result_dict[d_data_col] += 1
d_result_dict

结论： 根据分析结果，借据编号不唯一的原因是同一个借据编号，由于抵押物认定价值的变化，银行更新数据导致的。

2.1.2 逾期数据

overdue_data = pd.read_excel('昆山农商行数据/贷款、逾期数据/2客户逾期信息宽表.xlsx', na_values=['(null)','无','未知'])
overdue_data.head()
overdue_data.info()

# 查看有多少个借据存在逾期现象
len(overdue_data),len(overdue_data['借据编号'].unique())

逾期数据量较少，其中应还本金、应还利息等几个字段缺失值较多。在总共6万余个借据中，有3745个借据出现过逾期现象。

时间型数据分析（时序分析）：

可以发现，与贷款数据中时序分析结果差异较大，贷款数据中借据申请时间大多集中在2015-2016年（近期），而逾期数据中借据大多为申请时间较早，2008-2011年期间多。这个现象很容易从业务场景去理解，假设某个人每年的逾期概率相同，时间周期越长，其发生逾期的概率越高：1-（1-p）^n

# 看一下逾期时间的分布
overdue_data.groupby(overdue_data['逾期时间']).count().借据编号.plot(figsize =(12,8))

结果表明，逾期时间大多集中在2016-2017年，结合业务可以发现，早期的逾期事件都已经由平台处理掉了。

贷款数据唯一标志识别：

# 查看唯一标志
len(overdue_data),len(overdue_data['借据编号'].unique())

存在问题：'借据编号——唯一标识’字段存在重复值，与贷款数据一致，通过统计同一借据编号下出现多个值的字段来分析具体原因。

结论： 根据分析结果，借据编号不唯一的原因是同一个借据编号，可能因为多次还款或反复逾期产生多条数据，导致不唯一。

2.1.3 循环贷数据

查看循环贷数据与贷款数据关联性：

# 查看循环贷数据与贷款数据关联性
re_loan_data = pd.read_excel('昆山农商行数据/贷款、逾期数据/3循环贷宽表.xlsx', na_values=['(null)','无','未知'])
loan_data_merge = pd.merge(loan_data,re_loan_data, left_on=['标识码'], right_on=['CUS_ID'], how='inner')
len(loan_data['标识码'].unique()), len(re_loan_data['CUS_ID'].unique()), len(loan_data_merge['标识码'].unique())

结论： 循环贷对应的1692个客户均能匹配到贷款数据中，也就是说贷款数据已经包含了循环贷数据信息，因此舍弃该数据。

2.2 征信数据

2.1.1 征信数据

# 载入数据
credit_data = pd.read_excel('昆山农商行数据/昆山农商行征信数据/征信数据201704前.xlsx', na_values=['(null)','缺失','--'])
credit_data.head() # 查看前5行数据
credit_data.info() # 查看数据质量

# 查看唯一标志
len(credit_data),len(credit_data['客户标识码'].unique())

征信数据存在的问题：

征信数据以记录客户违约记录为主，所以大量字段为空值
数据缺乏时间戳，且信息冗余度较高（一个客户具有多条征信数据）
因此数据预处理时考虑针对同一个客户直接通过取median的方式对数值型字段去重、取众数对类别型变量去重。

2.1.2 征信查询数据

# 数据读取
credit_query_data = pd.read_excel('昆山农商行数据/昆山农商行征信数据/征信查询201704前.xlsx', na_values=['(null)','缺失','--'])
credit_query_data.head()
credit_query_data.info()

# 查看数据时间跨度
credit_query_data['id'] = credit_query_data.index
credit_query_data.groupby(pd.to_datetime(credit_query_data['查询日期']).dt.date).count().id.plot(figsize =(12,8))

数据存在的问题： 1、缺少单次查询的唯一标识，无法与其余数据匹配；2、时间跨度为2016.12-2017.05，和贷款逾期时间重合较少。综合以上原因，舍弃此数据。

2.3 百融数据

2.1.1 征信数据

# 数据读取
bairong_data10 = pd.read_excel('昆山农商行数据/百融数据/1-0 房贷_百融评分、风险规则、审批建议.xlsx', na_values=['.'])
# 数据读取
bairong_data20 = pd.read_excel('昆山农商行数据/百融数据/2-0 消费贷_百融评分、风险规则、审批建议.xlsx', na_values=['.'])
# 数据读取
bairong_data30 = pd.read_excel('昆山农商行数据/百融数据/3-0 循环贷_百融评分、风险规则、审批建议.xlsx', na_values=['.'])

分别与贷款数据进行连接，查看有多少数据能够匹配到贷款数据：

# 数据连接示例：
loan_data_merge = pd.merge(loan_data,bairong_data10, left_on=['标识码'], right_on=['客户编号'], how='inner')
len(loan_data['标识码'].unique()), len(bairong_data10['客户编号'].unique()), len(loan_data_merge['标识码'].unique())

结论： 房贷数据有896个客户均能匹配到贷款数据中；消费贷数据有947个客户均能匹配到贷款数据中；循环贷数据有1200个客户均能匹配到贷款数据中。

数据关联性分析：

bairong_data_merge1020 = pd.merge(bairong_data10,bairong_data20, left_on=['客户编号'], right_on=['客户编号'], how='inner')
bairong_data_merge1030 = pd.merge(bairong_data10,bairong_data30, left_on=['客户编号'], right_on=['客户编号'], how='inner')
bairong_data_merge2030 = pd.merge(bairong_data20,bairong_data30, left_on=['客户编号'], right_on=['客户编号'], how='inner')
len(bairong_data_merge1020['客户编号'].unique()), len(bairong_data_merge1030['客户编号'].unique()), len(bairong_data_merge2030['客户编号'].unique())

结果显示：三份数据对应客户编号完全独立。
百融数据存在的问题： 数据涉及领域丰富，内容多样化，但命中率偏低，且部分字段缺失严重。因此在应用时选择命中率高、并且字段完整的部分用于数据维度补齐。

二、数据预处理

包括过滤、新建、去重、补缺几个步骤。
过滤：初步过滤掉缺失率大约90%的字段以及从业务角度上与是否逾期无关的字段
新建：基于原始数据构建一些能够用于预测是否逾期的新字段/特征
去重：数据整体去重以及基于客户识别码（唯一标识）去重
补缺：根据业务实际来对缺失值进行填充

2.1 逾期数据处理

2.1.1 字段过滤

调用missingno模块的matrix函数来对数据缺失概览：

import missingno
missingno.matrix(overdue_data)

# 按缺失率排序：从高到低
check_null = overdue_data.isnull().sum(axis = 0).sort_values(ascending = False)/float(len(overdue_data))
check_null[check_null > 0][:20]

逾期数据不含缺失率高于90%的字段，且数据包含的字段都可被使用，因此不采取过滤操作。

2.1.2 特征构建

基于原始字段构造新特征：逾期时长、本金未还清、利息未还清、本金利息都未还清、逾期金额、逾期次数。

overdue_data['逾期时长'] = (overdue_data['该笔逾期还清时间']-overdue_data['逾期时间']).dt.days
overdue_data['本金未还清'] = overdue_data['应还本金'] != overdue_data['已还逾期本金金额']
overdue_data['利息未还清'] = overdue_data['应还利息'] != overdue_data['已还逾期利息金额']
overdue_data['本金利息都未还清']  = (overdue_data['应还利息'] != overdue_data['已还逾期利息金额']) & (overdue_data['应还本金'] != overdue_data['已还逾期本金金额'])
overdue_data['逾期金额'] = overdue_data['应还本金'] - overdue_data['已还逾期本金金额'] + overdue_data['应还利息'] - overdue_data['已还逾期利息金额']
overdue_data_clean['逾期次数'] = overdue_data[['借据编号','标识码']].groupby('借据编号').count().reset_index()['标识码']

overdue_data[['借据编号', '逾期时长', '本金未还清', '利息未还清', '本金利息都未还清', '逾期金额']].head()

2.1.3 数据去重

2.1.3.1 基于客户识别码去重

# 整体去重
overdue_data_clean = overdue_data.drop_duplicates()

2.1.3.2 基于借据编号去重

# 按照借据编号去重
overdue_data_clean = overdue_data_clean[['借据编号', '逾期时长', '本金未还清', '利息未还清', '本金利息都未还清', '逾期金额', '逾期次数']].groupby('借据编号').agg({'逾期时长':'sum','本金未还清':'sum','利息未还清':'sum','本金利息都未还清':'sum','逾期金额':'sum','逾期时长':np.max}).reset_index()

data_large = pd.merge(loan_data, overdue_data_clean, left_on=['借据编号——唯一标识'], right_on=['借据编号'], how='left')
len(loan_data), len(overdue_data_clean), len(data_large)

去重的逾期数据中有3745个借据编号能连接到贷款数据中。

2.1.4 缺失值填充

# 缺失值填补，根据业务实际都填充0值
data_large['逾期时长'].fillna(0, inplace = True)
data_large['本金未还清'].fillna(0, inplace = True)
data_large['利息未还清'].fillna(0, inplace = True)
data_large['本金利息都未还清'].fillna(0, inplace = True)
data_large['逾期金额'].fillna(0, inplace = True)
data_large['逾期次数'].fillna(0, inplace = True)

2.2 贷款数据处理

2.2.1 特征构建

贷款数据的特征构建包括：

去重前，基于原始字段构造理论贷款结束时间、抵押物溢出价值、抵押物溢出比例；
在去重过程中，基于原始字段构造_sum、_std等字段（见去重过程）；
去重后，基于去重数据构造信息透明度字段

去重前，构造理论贷款结束时间、抵押物溢出价值、抵押物溢出比例：

# 理论贷款结束时间
data_large['理论贷款结束时间'] = pd.to_datetime(data_large['放款时间']) + pd.to_timedelta(data_large['贷款期限'], unit='D')
# 抵押物溢出价值
data_large['抵押物溢出价值'] = data_large['抵押物认定价值'] - data_large['合同额度（元）']
# 抵押物溢出比例
data_large['抵押物溢出比例'] = data_large['抵押物认定价值'] / data_large['合同额度（元）'] - 1

数据去重后构造信息透明度字段：

# 信息透明度——基于是否有通讯地址、电话号码等数据构建
Infoclear_cols = [col for col in data_clean.columns if '是否有' in col]
data_clean['信息公开度'] = data_clean[Infoclear_cols].replace('是', 1).replace('否', 0).sum(axis=1)/len(Infoclear_cols)

2.2.2 数据过滤

包括：

基于逾期时间窗口过滤时间窗口之外的数据
基于业务实际过滤不重要的字段
过滤数据信息相似的字段

2.2.2.1 基于逾期时间窗口过滤数据

逾期数据时间窗口为2015.11-2017.1，因此筛选在2016年存在完整还款周期的贷款数据，即申请时间在2016年1月1日之前，理论贷款结束时间在2016年12月31日之后。

data_large_clean = data_large[(data_large['申请时间'] < '2016-01-01') & (data_large['理论贷款结束时间'] > '2016-12-31')]

2.2.2.2 基于业务实际过滤字段

data_large_clean.drop(['公司性质', '公司地址', '本单位入职时间', '借据编号', '现居住地址', '是否我行职工','户籍', '是否我行股东', '职业', ], axis=1, inplace = True)

2.2.2.3 过滤数据信息相似的字段

# 最高学历信息量完全被最高学位覆盖，可考虑删除
data_large_clean.drop(['最高学历'], axis=1, inplace = True)

2.2.3 数据去重

2.2.3.1 整体去重

# 整体去重
data_large_clean = data_large_clean.drop_duplicates()

2.2.3.2 基于客户标识码去重

首先将字段分类，分为去重取众数（类别型变量）、取均值、取中位数、求和、求标准差以及求最大值的字段列表，再分别进行相应去重操作。

mode_cols = ['客户类型', '出生日期', '性别', '民族', '政治面貌', '国籍', '籍贯', '是否农户', '最高学位', '最高学历', '职务', '婚姻状况', '有无子女', '家庭人数', '住房情况', '是否有通讯地址', '是否有邮箱', '是否有传真', '是否有家庭电话', '是否有手机号码', '是否有配偶手机号', '行业类别', '是否有公司电话', '还款来源', '计息周期', '还款方式','担保方式', '贷款形式','产品名称']
median_cols = ['贷款期限', '抵质押率', '逾期时长', '逾期金额', '逾期次数']
mean_cols = ['职业收入（元）', '抵押物溢出价值', '抵押物溢出比例', '合同额度（元）','贷款剩余本金（元）', '正常执行利率(年）']
sum_cols = ['贷款期限', '逾期时长', '本金未还清', '利息未还清', '本金利息都未还清', '逾期金额']
std_cols = ['职业收入（元）', '贷款期限', '抵押物溢出价值', '合同额度（元）','贷款剩余本金（元）', '正常执行利率(年）', '逾期时长', '逾期金额']
max_cols = ['贷款五级分类状态']

取众数字段：
在Python中，使用scipy.stats.mode函数寻找数组或者矩阵每行/每列中最常出现成员[0][0]以及出现的次数 [1][0]。

from scipy import stats
data_clean_mode = data_large_clean[mode_cols+['借据编号——唯一标识','标识码']].drop_duplicates()
data_clean_mode = data_clean_mode.groupby('标识码').agg(lambda x: stats.mode(x)[0][0])#.rename(columns={i:i+'_mode' for i in mode_cols})
data_clean_mode.head()

取均值字段：

data_clean_mean = data_large_clean[mean_cols+['借据编号——唯一标识','标识码']].drop_duplicates()
data_clean_mean = data_clean_mean.groupby('标识码').mean().rename(columns={i:i+'_mean' for i in mean_cols})
data_clean_mean.head()

取中位数字段：

data_clean_median = data_large_clean[median_cols+['借据编号——唯一标识','标识码']].drop_duplicates()
data_clean_median = data_clean_median.groupby('标识码').median().rename(columns={i:i+'_median' for i in median_cols})
data_clean_median.head()

求和字段：

data_clean_sum = data_large_clean[sum_cols+['借据编号——唯一标识','标识码']].drop_duplicates()
data_clean_sum = data_clean_sum.groupby('标识码').sum().rename(columns={i:i+'_sum' for i in sum_cols})
data_clean_sum.head()

求标准差字段：

data_clean_std = data_large_clean[std_cols+['借据编号——唯一标识','标识码']].drop_duplicates()
data_clean_std = data_clean_std.groupby('标识码').std().rename(columns={i:i+'_std' for i in std_cols})
data_clean_std.head()

取最大值字段：

level5_mapping = {"正常": 1, "可疑": 2, "关注": 3, "次级": 4, "损失": 5}
data_large_clean['贷款五级分类'] = data_large_clean['贷款五级分类状态'].map(level5_mapping)
data_clean_max = data_large_clean[['标识码', '贷款五级分类']].groupby('标识码').max()
data_clean_max.head()

计数字段：构造贷款次数

data_clean_count = data_large_clean[['标识码', '借据编号——唯一标识']].groupby('标识码').count()
data_clean_count = data_clean_count.rename(columns={'借据编号——唯一标识':'贷款次数'})
data_clean_count.head()

2.2.3.3 拼接去重数据

data_clean = pd.concat([data_clean_mode, data_clean_mean, data_clean_median, data_clean_sum, data_clean_std, data_clean_max, data_clean_count], axis=1).reset_index()
data_clean.head()

2.2.4 缺失值填充

2.2.4.1 基于征信数据填充缺失值

在数据去重前进行该操作，利用征信数据相同的字段来填充贷款数据，可是标识码作为连接键。

# 通过数据B的相似字段填补数据A的缺失
def fillna_by_replace(DataA, DataB, colA, colB, indexA, indexB):
    fillna_times = 0
    fillna_before = DataA[colA].isnull().sum()
    for index in tqdm(DataB[~DataB[colB].isnull()][indexB]):
        if DataA[DataA[indexA] == index][colA].isnull().sum() > 0:
            DataA.loc[DataA[indexA] == index, colA] = DataB[DataB[indexB] == index][colB].values[0]
            fillna_times += 1
    fillna_after = DataA[colA].isnull().sum()
    print('字段 '+str(colA)+' 填补次数：'+ str(fillna_times) + ' 缺失补齐数：'+ str(fillna_before-fillna_after))
fillna_by_replace(data_large_clean, credit_data_obj, '行业类别', '行业', '标识码', '客户标识码')
fillna_by_replace(data_large_clean, credit_data_obj, '职务', '职务', '标识码', '客户标识码')

结论：实现了少量缺失数据填充。

2.2.4.2 去重数据缺失值填充

data_clean["抵押物溢出价值_std"].fillna(0, inplace=True)
data_clean["逾期金额_std"].fillna(0, inplace=True)
data_clean["逾期时长_std"].fillna(0, inplace=True)
data_clean["贷款剩余本金（元）_std"].fillna(0, inplace=True)
data_clean["合同额度（元）_std"].fillna(0, inplace=True)
data_clean["贷款期限_std"].fillna(0, inplace=True)
data_clean["职业收入（元）_std"].fillna(0, inplace=True)
data_clean["抵押物溢出比例_mean"].fillna(data_clean["抵押物溢出比例_mean"].mean(), inplace=True)
data_clean["抵押物溢出价值_mean"].fillna(data_clean["抵押物溢出价值_mean"].mean(), inplace=True)
data_clean["抵质押率_median"].fillna(data_clean["抵质押率_median"].median(), inplace=True)
missingno.matrix(data_clean)

# 将处理好的贷款逾期数据存储
data_clean.to_excel('input/data_clean.xlsx')

2.3 征信数据处理

2.3.1 数据过滤

2.3.1.1 基于字段缺失率过滤

missingno.matrix(credit_data)

# 过滤掉缺失率大于90%的字段
credit_data_clean = credit_data.dropna(thresh = len(credit_data)*0.1, axis =1)

2.3.1.2 基于业务实际过滤字段

credit_data_clean.drop(['证件类型','职业', '行业', '职务', '职称', '进入本单位年份'], axis = 1, inplace = True)
# 按缺失率排序：从高到低
check_null = credit_data_clean.isnull().sum(axis = 0).sort_values(ascending = False)/float(len(credit_data_clean))
check_null[check_null > 0][:20]

2.3.2 数据去重

2.3.2.1 整体去重

credit_data_clean = credit_data_clean.drop_duplicates()

2.3.2.2 基于客户标识码去重

# 类别型变量取众数
object_cols = [c for c in credit_data_clean.columns if credit_data_clean[c].dtypes == object]
credit_data_clean_obj = credit_data_clean[object_cols].groupby('客户标识码').agg(lambda x: stats.mode(x)[0][0]).reset_index()
# 数值型变量取中位数
credit_data_clean_num = credit_data_clean.groupby('客户标识码').median().reset_index()
# 将数据拼接
data_clean = pd.concat([credit_data_clean_obj, credit_data_clean_num], axis=1).reset_index()

# 将处理好的征信数据存储
data_clean.to_excel('input/credit_data.xlsx')

2.3.3 数据整合

目的：查看处理好的征信数据与贷款逾期数据按照客户标识码的重叠数量

data_merge_credit = pd.merge(data_clean,credit_data_clean_median, left_on=['标识码'], right_on=['客户标识码'], how='inner')
len(data_merge_credit),len(data_merge_credit['标识码'].unique())

结果显示：征信数据与贷款数据仅有446条数据重叠。

2.4 百融数据处理

2.4.1 合并消费贷、房贷、循环贷数据

file_type_dict = {1:'房贷', 2:'消费贷', 3:'循环贷'}
names_dict = {0:'百融评分、风险规则、审批建议.xlsx', 1:'用户信用评估产品.xlsx', 2:'反欺诈产品.xlsx', 
              3:'支付消费.xlsx', 4:'手机在网时长.xlsx', 5:'手机在网状态.xlsx', # 6:'身份证二要素.xlsx', 7:'银行卡四要素.xlsx', 
              8:'手机三要素.xlsx', 9:'个人对外投资.xlsx', # 10:'个人不良信息.xlsx',
              11:'法院执行人.xlsx', 12:'移动消费档次.xlsx'}
def concat_df_in_dict(dicts_df):
    # 拼接dict中的df
    return pd.concat([v for v in dicts_df.values()])

def data_cooked_for_bairong(names_dict, file_type_dict):
    result = pd.DataFrame()
    for k_n, v_n in tqdm(names_dict.items()):
        tmp_df_dict = {}
        for k_f, v_f in file_type_dict.items():
            try:
                file_name = '昆山农商行数据/百融数据/'+str(k_f)+'-'+str(k_n)+' '+v_f+'_'+v_n
                tmp_df = pd.read_excel(file_name, na_values=['.','#N/A','缺失']).rename(columns={'客户标识码':'客户编号'})\
                .rename(columns={'cus_num':'客户编号'}).rename(columns={'number':'客户编号'}) # 统一唯一编号
            except Exception as e:
                print(e)
            tmp_df_clean = tmp_df.dropna(thresh = len(tmp_df)*0.1, axis =1) # 先过滤掉缺失大于90%的列
            if len(tmp_df_clean) != 0:
                tmp_df_clean = tmp_df_clean.groupby('客户编号').first().reset_index()
            tmp_df_dict[k_f] = tmp_df_clean
        if len(result) == 0:
            result = concat_df_in_dict(tmp_df_dict)
        else:
            result = pd.merge(result, concat_df_in_dict(tmp_df_dict), on='客户编号', how='left', suffixes=('_保留值','_删除值'))       
    return result
bairong_data = data_cooked_for_bairong(names_dict, file_type_dict)
bairong_data.head()

2.4.2 数据去重

# 去除重复行
bairong_data_clean = bairong_data_clean.drop_duplicates()
# 去除重复列
bairong_data_clean = bairong_data_clean.loc[:,~bairong_data_clean.columns.duplicated()]

2.4.3 数据过滤

过滤缺失率大于90%的列：

bairong_data_clean = bairong_data.dropna(thresh = len(bairong_data)*0.1, axis =1)

用户储蓄卡、信用卡消费数据、收入数据等颗粒度太细，需要删除一部分列：

del_months = ['第1', '第2', '第3', '第4', '第5', '第6', '7-9', '10-12','13-15']
del_cols = []
for month_str in del_months:
    del_cols.append('储蓄卡过去'+month_str+'个月末可用余额')
    del_cols.append('储蓄卡过去'+month_str+'个月支出金额')
    del_cols.append('储蓄卡过去'+month_str+'个月支出笔数')
    del_cols.append('储蓄卡过去'+month_str+'个月投资金额')
    del_cols.append('储蓄卡过去'+month_str+'个月还贷金额')    
    del_cols.append('储蓄卡过去'+month_str+'个月收入金额')
    del_cols.append('储蓄卡过去'+month_str+'个月收入笔数')    
    del_cols.append('信用卡过去'+month_str+'个月支出金额')
    del_cols.append('信用卡过去'+month_str+'个月支出笔数')
    del_cols.append('信用卡过去'+month_str+'个月取现金额')  
    del_cols.append('信用卡过去'+month_str+'个月收入金额')
    del_cols.append('信用卡过去'+month_str+'个月收入笔数')   
    del_cols.append('过去'+month_str+'个月是否按时还贷')
    del_cols.append('过去'+month_str+'个月贷款金额')    
    del_cols.append('过去'+month_str+'个月个人消费金额')
    del_cols.append('过去'+month_str+'个月单笔最大入账金额')
bairong_data_clean.drop(del_cols, axis = 1, inplace = True)

在合并数据时，产生了一部分多余的字段，需要将其删除：

reserve_cols = []
delete_cols = []
for col in list(bairong_data_clean.columns):
    if '保留值' in col:
        reserve_cols.append(col)
    elif '删除值' in col  or '.1' in col or '.2' in col:
        delete_cols.append(col)
# 初步删除重复列
for reserve_col in reserve_cols:
    if '删除值' in reserve_col:
        bairong_data_clean[reserve_col.replace('保留值', '删除值')].fillna(bairong_data_clean[reserve_col])
    elif '.1' in reserve_col:
        bairong_data_clean[reserve_col.replace('.1', '')].fillna(bairong_data_clean[reserve_col])
    elif '.2' in reserve_col:
        bairong_data_clean[reserve_col.replace('.2', '')].fillna(bairong_data_clean[reserve_col])
bairong_data_clean.drop(delete_cols, axis = 1, inplace = True)
rename_dict = {'运营商类型 _保留值':'运营商类型',
  '空：无结果\n1：[0,6)\n2：[6,12)\n3：[12,24)\n4：[24,+)\n单位：月_保留值':'手机在网时长',
  'value_保留值':'移动消费档次'}
bairong_data_clean = bairong_data_clean.rename(columns=rename_dict)

基于业务实际过滤字段：

delete_cols2 = [ '匹配身份证', '匹配手机号', '匹配电子邮箱', '匹配关健值', '匹配家庭座机','匹配公司座机', '匹配姓名', 'operation_保留值', '电信；联通；移动；其他运营商，如电信70', '运营商类型','result_保留值','运营商代码', '查询结果代码', '状态编号', '手机三要素查询产品输出标识', '返回三要素验证结果', 'flag_telCheck', '是否查询到结果', '运营商编号', '查询结果', '状态码描述','查询状态','货币单位', '注册资本币种']
bairong_data_clean.drop(delete_cols2, axis = 1, inplace = True)

2.4.4 特征构建

# 构建关联度（次数）
connected_cols = ['关联身份证个数', '关联手机号个数','关联电子邮箱数', '关联姓名数', '关联座机数', '关联地址数']
bairong_data_clean['关联度'] = bairong_data_clean[connected_cols].sum(axis=1)/len(Infoclear_cols)
bairong_data_clean.drop(connected_cols, axis = 1, inplace = True)

# 将处理好的百融数据存储
bairong_data_clean.to_excel('input/bairong_data.xlsx')

2.4.5 数据整合

目的：查看处理好的百融数据与贷款逾期数据按照客户标识码的重叠数量

data_merge_bairong = pd.merge(data_clean,bairong_data_clean, left_on=['标识码'], right_on=['客户编号'], how='inner')
len(data_merge_bairong),len(data_merge_bairong['标识码'].unique())

结果显示：百融数据与贷款数据仅有927条数据重叠。

征信数据、百融数据的缺失值填充放在模型构建部分处理。

你可能感兴趣的:(数据分析项目,数据分析,数据挖掘,python)

【Python科研数据爬虫】基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理 lys_828 python科研数据处理及绘图 python 爬虫能源行业标准国家标准
基于国家标准查询平台和能源标准化信息平台的海上风电相关行业标准查询信息爬取及处理1背景2标准检索平台2.1能源标准化信息平台2.2全国标准信息公共服务平台3标准信息数据的爬取与处理3.1能源标准化信息平台的信息爬取3.2全国标准信息公共服务平台的信息爬取3.3标准信息处理1背景在进行项目背景介绍时，有时需要使用到有关标准进行背书，因此查询某一行业领域的标准信息就是第一步操作。接下来就是以海上风电相
Python多张图片存入PDF：一步步教你实现木头左 python办公自动化 python 钉钉自动化
哈喽，大家好，我是木头左！引言在当今的数字时代，经常需要将多张图片整合成一个PDF文件。无论是为了分享、备份还是打印，PDF都是一个理想的格式。在这篇文章中，我将详细介绍如何使用Python将多张图片存入PDF。准备工作在开始之前，需要确保已经安装了以下库：Pillow：一个强大的图像处理库，用于打开、操作和保存各种图像文件格式。ReportLab：一个用于创建PDF文件的库。你可以通过以下命令安
python实现PDF (附完整源码) 源代码大师 Python实战教程 python pdf 前端
python实现PDF安装ReportLab完整源码示例代码说明使用FPDF生成PDF（可选）安装FPDF2完整源码示例代码说明总结要使用Python生成PDF文件，ReportLab是一个功能强大且广泛使用的库。下面是使用ReportLab生成简单PDF的完整源码示例。安装ReportLab首先，确保已经安装了ReportLab库。你可以使用pip来安装：pipinstallreportlab完
Python的未来 future模块 gftygff
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！转载：http://omencathay.itpub.net/post/30163/414347简单介绍一下python未来将会支持的一些语言特点,虽然Ibm的网站上也有介绍.但是太凌乱了.而且中翻译过后,代码的
华为OD机试E卷 - 最优资源分配/芯片资源占用（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为华为od 华为OD机试E卷 python java javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述某块业务芯片最小容量单位为1.25G，总容量为M*1.25G，对该芯片资源编号为1，2，…，M。该芯片支持3种不同的配置，分别为A、B、C。配置A：占用容量为1.25*1=1.25G配置B：占用容量为1.25*2=2.5G配置C：占用容量为1.25*8=10G某块板卡上集成了N块上述芯片，对芯片编号为1，2，…，N，各
华为OD机试 - 微服务的集成测试（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为华为OD 华为od 华为机试算法
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述现在有n个容器服务，服务的启动可能有一定的依赖性（有些服务启动没有依赖），其次服务自身启动加载会消耗一些时间。给你一个nxn的二维矩阵useTime，其中useTime[i][i]=10表示服务i自身启动加载需要消耗10suseTime[i][j]=1表示服务i启动依赖服务j启动完成useTime[i][k]=0表示服
python实现get请求 admin`` Python python http
python——get请求importurllib.requesturl="http://www.csdn.net"response=urllib.request.urlopen(url)#打印请求的状态码print(response.getcode())msg=response.read()#打印请求的网页内容的长度print(len(msg))输出：2001148023Processfinis
Python进行HTTP GET请求华科℡云微服务云原生自动化
在Python编程中，HTTPGET请求是获取网络资源的一种常用方式。GET请求通过向服务器发送请求行和请求头，从指定的URL获取数据。本文将详细介绍如何在Python中使用requests库发送HTTPGET请求，并处理响应。一、安装requests库首先，确保你的Python环境中安装了requests库。如果没有安装，可以使用以下命令进行安装：bash复制代码pipinstallreques
【Python】2.1字面量我是初九人生苦短我爱Python python 字符串
字面量(literal)在计算机科学中，字面量（literal）是用于表达源代码中一个固定值的表示法（notation）。几乎所有计算机编程语言都具有对基本值的字面量表示，诸如：整数、浮点数以及字符串；而有很多也对布尔类型和字符类型的值也支持字面量表示；还有一些甚至对枚举类型的元素以及像数组、记录和对象等复合类型的值也支持字面量表示法。简单地说，字面量是用于表示固定值的符号(token)字面量是某
typing库离开那天 windows
typing库是Python标准库的一部分，用于支持静态类型检查。通过使用typing库，你可以为函数、变量和类添加类型注解，从而提高代码的可读性和可维护性，并帮助工具如IDE和类型检查器（例如mypy）进行静态类型检查。以下是typing库的一些常见用法和示例：1.基本类型注解你可以为函数参数和返回值添加类型注解：defgreet(name:str)->str:returnf"Hello,{na
python 类型标注-typing --- 类型标注支持 — Python 3.7.9 文档 weixin_39892481
类,函数和修饰器.¶这个模块定义了如下的类,模块和修饰器.classtyping.TypeVar¶类型变量用法:T=TypeVar("T")#CanbeanythingA=TypeVar("A",str,bytes)#MustbestrorbytesTypevariablesexistprimarilyforthebenefitofstatictypecheckers.Theyserveasthe
Python基础 - 发起http请求 shawn.zhang. python java ajax json curl
目录[-]1、Python发起http请求#!/usr/bin/envpython#coding=utf-8#licenseremovedfor******importrospyimportpycurlimportStringIOimporturllibfromstd_msgs.msgimportStringimportjsonimporthashlibfromcyber_msgs.msgimpo
青少年编程与数学 02-008 Pyhon语言编程基础 03课题、环境准备明月看潮生编程与数学第02阶段青少年编程 python 编程与数学编程语言
青少年编程与数学02-008Pyhon语言编程基础03课题、环境准备一、开发环境二、PyCharm安装PyCharm配置PyCharm三、VSCode安装VSCode配置VSCode四、Python（解释器）Windows系统：macOS系统：Linux系统：五、PythonShell特点：如何打开PythonShell：使用示例：六、PythonIDLE特点如何使用IDLE局限性七、Jupyte
在 Python 中，`typing` 模块提供了类型提示（Type Hints）的功能，可以用来标记变量、函数参数和返回值等的类型，Any, Dict, List, Literal, Optiona 愚昧之山绝望之谷开悟之坡笔记 python python 开发语言
在Python中，typing模块提供了类型提示（TypeHints）的功能，可以用来标记变量、函数参数和返回值等的类型。下面是typing模块中几个常用的类型的详细解释和举例。Any类型表示一个可以是任何类型的值，它可以作为变量的类型、函数的参数类型或返回类型等。这个类型通常用于那些无需考虑类型约束，或是需要通过检查变量类型来进行调试的代码中。以下是一个使用Any类型的例子：fromtyping
深入解析华为OD机试：开放日活动“取出尽量少的球”题解及C++、Java、JavaScript、Python详细实现 m0_57781768 华为od c++java
深入解析华为OD机试：开放日活动“取出尽量少的球”题解及C++、Java、JavaScript、Python详细实现在华为OD机试的算法考题中，字符串处理、动态规划、二分查找等算法问题都频繁出现。这不仅是为了考查面试者的算法基础，还要求能够通过高效的逻辑思维解决问题。今天我们将深度分析一道关于“取出尽量少的球”的题目，并通过C++、Java、JavaScript、Python四种编程语言详细解析和
【华为OD-E卷 - VLAN资源池 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python c++javascript
【华为OD-E卷-VLAN资源池100分（python、java、c++、js、c）】题目VLAN是一种对局域网设备进行逻辑划分的技术，为了标识不同的VLAN，引入VLANID(1-4094之间的整数)的概念。定义一个VLANID的资源池(下称VLAN资源池)，资源池中连续的VLAN用开始VLAN-结束VLAN表示，不连续的用单个整数表示，所有的VLAN用英文逗号连接起来。现在有一个VLAN资源池
Python中的HTTP请求：从菜鸟到高手的全面指南傻啦嘿哟 python http 开发语言
目录一、HTTP请求基础知识二、Python中的HTTP请求库安装requests库使用requests库发送HTTP请求GET请求POST请求PUT请求DELETE请求三、处理HTTP响应获取状态码获取响应头获取响应体四、高级技巧与实践使用连接池设置请求头处理Cookies和Session错误处理设置超时时间使用代理HTTP认证五、高级功能与实践自定义请求头文件上传流式响应处理重定向SSL证书验
【2024年华为OD机试】 (A卷,200分)- 开放日活动、取出尽量少的球（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od javascript java c语言 python
一、问题描述题目描述某部门开展FamilyDay开放日活动，其中有个从桶里取球的游戏，游戏规则如下：有N个容量一样的小桶等距排开。每个小桶默认装了数量不等的小球，记录在数组bucketBallNums中。游戏开始时，要求所有桶的小球总数不能超过SUM。如果小球总数超过SUM，则需对所有小桶统一设置一个容量最大值maxCapacity，并将超过容量最大值的小球拿出来，直至小桶里的小球数量小于maxC
Python3.9、Python3.10、Python3.11和Python3.12的发展历程和区别 Ceeeeen 编程与算法 python3.11 python 开发语言
文章目录1.Python3.9（2020年10月发布）主要新特性2.Python3.10（2021年10月发布）主要新特性：3.Python3.11（2022年10月发布）主要新特性4.Python3.12（2023年10月发布）主要新特性总结对比：1.Python3.9（2020年10月发布）主要新特性引入了新的字典运算符|和|=，简化了字典的合并和更新操作。#合并字典dict1={"a":1,
【Python高阶篇】探索人工智能：使用Python构建一个简单的聊天机器人码农必胜客 python 人工智能机器人
人工智能是计算机科学中一个非常热门的领域，近年来得到了越来越多的关注。它通过模拟人类思考过程和智能行为来实现对复杂任务的自主处理和学习，已经被广泛应用于许多领域，包括语音识别、自然语言处理、机器人技术、图像识别和推荐系统等。本文将介绍如何使用Python构建一个简单的聊天机器人，以展示人工智能的基本原理和应用。我们将使用Python语言和自然语言处理库来构建一个聊天机器人，该机器人可以接收用户的输
Python使用socket传输对数据AES和MD5加密夜语醉星辰 Python python
一、使用socket通信defclient_communication(data):#通信host="127.0.0.1"#服务器IP地址port=12345#服务器端口号#处理发送数据data=json.dumps(data)#将字典转换为json字符串data=encryption_AES(data)#加密数据try:client_socket=socket.socket(socket.AF_
盘点Python网页开发轻量级框架Flask知识傻啦嘿哟关于python那些事儿 python flask 开发语言
目录一、Flask框架概述二、核心组件1、WSGI服务器2、Jinja2模板引擎3、URL路由4、数据库集成三、应用场景博客平台内容管理系统（CMS）API开发四、优缺点优点：缺点：五、总结随着Web开发的日益普及，各种开发框架也层出不穷。其中，Python的Flask框架作为一种轻量级的Web开发工具，受到了广泛的欢迎。本文将对Flask框架进行深入的剖析，让您全面了解它的基本概念、核心组件、应
通过python实现发送钉钉个人工作通知白白不白zab pyhton python 钉钉开发语言
一、钉钉官方开放文档https://open.dingtalk.com/document/isvapp/before-you-start在开发前需要看一遍官方开放文档的相关内容，来避免一些奇奇怪怪的问题出现，比如新旧版接口域名变更，请求方式不同、调用频率限制、是否开放对应接口权限、白名单等等。二、开发前准备首先开发使用的账号需要有钉钉管理员权限在钉钉后台自建应用获取应用AGENT_ID,APP_K
vs2019安装ironpython_选择并安装 Python 解释器 - Visual Studio | Microsoft Docs weixin_39861905
安装Python解释器InstallPythoninterpreters06/05/2019本文内容默认情况下，在VisualStudio2017和更高版本中安装Python开发工作负载也会同时安装Python3(64位)。Bydefault,installingthePythondevelopmentworkloadinVisualStudio2017andlateralsoinstallsPy
Python打包和部署利器:Pex ivwdcwso 开发运维 python 开发语言开发
在Python项目开发中,如何高效地打包和部署代码一直是一个挑战。传统的方式需要在目标环境中预先安装所有依赖,非常繁琐。而Pex则为我们提供了一种更简单、更可靠的解决方案。一、Pex是什么?Pex的核心在于.pex文件,这是一种自包含的Python可执行环境。它类似于virtualenv,但更轻量、更易于部署。.pex文件包含了你的Python代码、依赖库以及运行所需的Python解释器(可选)。
Python Flask中集成SQLAlchemy和Flask-Login ivwdcwso 开发 flask python 后端 web 开发
在现代Web应用开发中,数据库和用户认证是两个非常重要的功能。Flask作为一个轻量级的PythonWeb框架,本身只提供了最基本的Web功能。但是,它可以通过集成各种优秀的扩展库来增强功能。本文将介绍如何在Flask应用中集成SQLAlchemy(数据库)和Flask-Login(用户认证),并提供一个完整的示例供参考。©ivwdcwso(ID:u012172506)准备工作安装Python确保
python程序发钉钉消息乌11111 python
参考：使用python通过接口方式发送钉钉消息分两步：1.在钉钉群---智能群助手里添加机器人，拿到webhook链接，设置关键词。2.写python代码，用requests请求接口的方式。参考代码和实现结果如下。#python发钉钉消息importjson,requestsdefsendDing(msg):dingding_url='https://oapi.dingtalk.com/robot
Python支持向量机（SVM）算法：面向对象的实现与案例详解闲人编程进阶算法案例支持向量机算法 python 深度学习数据分析
目录Python支持向量机（SVM）算法：面向对象的实现与案例详解引言一、支持向量机算法概述1.1支持向量机的基本思想1.2SVM的分类问题1.3SVM的优化目标二、面向对象的SVM实现2.1类的设计2.2Python代码实现2.3代码详解三、案例分析3.1案例一：鸢尾花分类问题描述数据准备模型训练与预测输出结果3.2案例二：手写数字识别问题描述数据准备模型训练与预测输出结果四、SVM的优化与核方
PEX: Python Executable魔力工具箱史艾岭
PEX:PythonExecutable魔力工具箱pexAtoolforgenerating.pex(PythonEXecutable)files,lockfilesandvenvs.项目地址:https://gitcode.com/gh_mirrors/pe/pex项目基础介绍及主要编程语言PEX（PythonEXecutable）是Pantsbuild团队维护的一个强大开源项目，致力于简化Py
U-Net 生物医学图像分割开源项目介绍祝珺月
U-Net生物医学图像分割开源项目介绍unetU-NetBiomedicalImageSegmentation项目地址:https://gitcode.com/gh_mirrors/une/unet1.项目基础介绍及主要编程语言U-Net是由IntelAI开发的一个生物医学图像分割的开源项目。该项目基于TensorFlow和Keras框架，使用Python语言编写，旨在为医学图像分析提供高效的解决
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟