Honghao Wang

招商银行2020FinTech精英训练营数据赛道参赛回顾

比赛简介
参赛背景
比赛过程

1、流程熟悉
2、模块导入，数据读取
3、数据初探、概览

3.1 标签数据集数据预处理
3.2 交易行为数据集数据预处理
3.3 APP行为数据集数据预处理

4、图形探索

4.1 标签数据集
4.2 交易行为数据集
4.3 APP行为数据集

5、数据清洗函数构建

5.1 异常值处理函数
5.2 缺失值处理函数

6、数据清洗

6.1 异常值处理
6.2 缺失值处理
6.3 去除共线性
6.4 合并三表格
6.5 修改名字会导致训练异常的列
6.6 去掉与训练无关的用户标识列
6.7 重新采样，平衡类别
6.8 划分训练集和测试集，为建模训练模型作准备

7、模型训练-xgboost模型
8、预测并生成结果

比赛简介

比赛规则
1.竞赛时间：4月29日11:00-5月12日17:00；
2.采用数据竞赛的形式，4月29日11:00-5月9日24:00，赛道开放A榜数据，预测结果数据每天限提交5次；5月10日00:00-5月12日17:00，赛道开放B榜数据，预测结果数据每天限提交3次。结果提交后请务必点击“运行”按钮，方可查看当前个人排名，最终排名以B榜成绩为准；

比赛任务
基于训练数据集，通过有效的特征提取，构建信用违约预测模型，并将模型应用在评分数据集上，输出评分数据集中每个用户的违约概率

比赛数据
训练集和评分(测试)集各分为三组数据，放在三个csv文件里。
分别为：

用户标签表
交易行为表
APP行为表

参赛背景

个人基础：数据分析实战零基础小白一枚，文科僧，本科经济类。认为未来职业发展懂一些IT知识会比较有益，遂想学一些技术。自学一年略懂一些Python，Java，SQL 和 HTML/CSS/JavaScript。

可想而知我基础很差非常菜，流程上肯定会有很捉鸡很不专业的地方。只是一个通过比赛对学习到知识和技能的回顾与汇总，轻喷。

花费大约十天的时间网上搜索相关资料，边看边学。

比赛过程

1、流程熟悉

因对数据分析一无所知，所以首先网上搜索数据分析相关流程，重点收藏关注与比赛案例相似的文章。

此次比赛主要参考以下几篇文章：
债务违约预测之一：数据探索
债务违约预测之二：图形探索
债务违约预测之三：利用sklearn进行预测
债务违约预测之四：利用人工神经网络进行预测
我信你个拐 ! — 信用违约预测模型 | Kaggle

非常感谢作者们的思路，流程很清晰，受益匪浅。

2、模块导入，数据读取

经过大致搜索，数据分析一般需要用到numpy，pandas， matplotlib, seaborn, sklearn 这些模块。并且xgboost貌似在kaggle等竞赛中被广泛应用。

首先先引用下列模块，后续还会根据需要增加

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
import xgboost as xgb
import warnings
warnings.filterwarnings('ignore')

特别指出我当前的Mac版本 (MacOS Catalina Version10.15.4) 不知怎的在网上查了很多资料都无法直接正常安装上xgboost模块。

我的解决方法是安装Anaconda，然后PyCharm内选择Conda Environment作为Interpreter，然后再在PyCharm内才成功安装了xgboost.

但是貌似免费版PyCharm不能用Conda Environment？如果只有免费版的情况下我可能会选择用Anaconda内整合的Jupyter Notebook.

文件读取：

df1 = pd.read_csv('训练数据集_tag.csv')
df2 = pd.read_csv('训练数据集_trd.csv')
df3 = pd.read_csv('训练数据集_beh.csv')

重命名各列名为中文，更易读：

# translate columns names to Chinese
df1.rename(columns={'id': '用户标识',
                    'flag': '目标变量',
                    'cur_debit_cnt': '持有招行借记卡张数',
                    'cur_credit_cnt': '持有招行信用卡张数',
                    'cur_debit_min_opn_dt_cnt': '持有招行借记卡天数',
                    'cur_credit_min_opn_dt_cnt': '持有招行信用卡天数',
                    'cur_debit_crd_lvl': '招行借记卡持卡最高等级代码',
                    'hld_crd_card_grd_cd': '招行信用卡持卡最高等级代码',
                    'crd_card_act_ind': '信用卡活跃标识',
                    'l1y_crd_card_csm_amt_dlm_cd': '最近一年信用卡消费金额分层',
                    'atdd_type': '信用卡还款方式',
                    'perm_crd_lmt_cd': '信用卡永久信用额度分层',
                    'age': '年龄',
                    'gdr_cd': '性别',
                    'mrg_situ_cd': '婚姻',
                    'edu_deg_cd': '教育程度',
                    'acdm_deg_cd': '学历',
                    'deg_cd': '学位',
                    'job_year': '工作年限',
                    'ic_ind': '工商标识',
                    'fr_or_sh_ind': '法人或股东标识',
                    'dnl_mbl_bnk_ind': '下载并登录招行APP标识',
                    'dnl_bind_cmb_lif_ind': '下载并绑定掌上生活标识',
                    'hav_car_grp_ind': '有车一族标识',
                    'hav_hou_grp_ind': '有房一族标识',
                    'l6mon_agn_ind': '近6个月代发工资标识',
                    'frs_agn_dt_cnt': '首次代发工资距今天数',
                    'vld_rsk_ases_ind': '有效投资风险评估标识',
                    'fin_rsk_ases_grd_cd': '用户理财风险承受能力等级代码',
                    'confirm_rsk_ases_lvl_typ_cd': '投资强风评等级类型代码',
                    'cust_inv_rsk_endu_lvl_cd': '用户投资风险承受级别',
                    'l6mon_daim_aum_cd': '近6个月月日均AUM分层',
                    'tot_ast_lvl_cd': '总资产级别代码',
                    'pot_ast_lvl_cd': '潜力资产等级代码',
                    'bk1_cur_year_mon_avg_agn_amt_cd': '本年月均代发金额分层',
                    'l12mon_buy_fin_mng_whl_tms': '近12个月理财产品购买次数',
                    'l12_mon_fnd_buy_whl_tms': '近12个月基金购买次数',
                    'l12_mon_insu_buy_whl_tms': '近12个月保险购买次数',
                    'l12_mon_gld_buy_whl_tms': '近12个月黄金购买次数',
                    'loan_act_ind': '贷款用户标识',
                    'pl_crd_lmt_cd': '个贷授信总额度分层',
                    'ovd_30d_loan_tot_cnt': '30天以上逾期贷款的总笔数',
                    'his_lng_ovd_day': '历史贷款最长逾期天数'}, inplace=True)
df2.rename(columns={'id': '用户标识',
                    'flag': '目标变量',
                    'Dat_Flg1_Cd': '交易方向',
                    'Dat_Flg3_Cd': '支付方式',
                    'Trx_Cod1_Cd': '收支一级分类代码',
                    'Trx_Cod2_Cd': '收支二级分类代码',
                    'trx_tm': '交易时间',
                    'cny_trx_amt': '交易金额'}, inplace=True)
df3.rename(columns={'id': '用户标识',
                    'flag': '目标变量',
                    'page_no': '页面编码',
                    'page_tm': '访问时间'}, inplace=True)

加起来可能得有50个列左右，也就是大概50个特征值，非常多，数据维度很大。

3、数据初探、概览

加入这三行代码可以让打印结果全部显示出来：

pd.options.display.max_columns = None
pd.options.display.max_rows = None
np.set_printoptions(threshold=np.inf)

3.1 标签数据集数据预处理

一个一个来，先观察标签数据集df1

Input:

print(df1.目标变量.value_counts())

Output:

# 类别分布不平衡，会影响建模效果，可能需要过采样或欠采样处理
0    30970
1     8953

Input:

print(df1.info())
print(df1.head().T)
print(df1.describe())

运行
Output:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39923 entries, 0 to 39922
Data columns (total 43 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   用户标识            39923 non-null  object
 1   目标变量            39923 non-null  int64 
 2   性别              39923 non-null  object
 3   年龄              39923 non-null  int64 
 4   婚姻              39923 non-null  object
 5   教育程度            27487 non-null  object
 6   学历              39922 non-null  object
 7   学位              18960 non-null  object
 8   工作年限            39923 non-null  object
 9   工商标识            39923 non-null  object
 10  法人或股东标识         39923 non-null  object
 11  下载并登录招行APP标识    39923 non-null  object
 12  下载并绑定掌上生活标识     39923 non-null  object
 13  有车一族标识          39923 non-null  object
 14  有房一族标识          39923 non-null  object
 15  近6个月代发工资标识      39923 non-null  object
 16  首次代发工资距今天数      39923 non-null  object
 17  有效投资风险评估标识      39923 non-null  object
 18  用户理财风险承受能力等级代码  39923 non-null  object
 19  投资强风评等级类型代码     39923 non-null  object
 20  用户投资风险承受级别      39923 non-null  object
 21  近6个月月日均AUM分层    39923 non-null  int64 
 22  总资产级别代码         39923 non-null  object
 23  潜力资产等级代码        39923 non-null  object
 24  本年月均代发金额分层      39923 non-null  int64 
 25  近12个月理财产品购买次数   39923 non-null  object
 26  近12个月基金购买次数     39923 non-null  object
 27  近12个月保险购买次数     39923 non-null  object
 28  近12个月黄金购买次数     39923 non-null  object
 29  贷款用户标识          39923 non-null  object
 30  个贷授信总额度分层       39923 non-null  int64 
 31  30天以上逾期贷款的总笔数   39923 non-null  object
 32  历史贷款最长逾期天数      39923 non-null  object
 33  招行信用卡持卡最高等级代码   39923 non-null  object
 34  信用卡活跃标识         39923 non-null  object
 35  最近一年信用卡消费金额分层   39923 non-null  object
 36  信用卡还款方式         16266 non-null  object
 37  信用卡永久信用额度分层     39923 non-null  int64 
 38  持有招行借记卡张数       39923 non-null  int64 
 39  持有招行信用卡张数       39923 non-null  int64 
 40  持有招行借记卡天数       39923 non-null  int64 
 41  持有招行信用卡天数       39923 non-null  int64 
 42  招行借记卡持卡最高等级代码   39923 non-null  int64 
dtypes: int64(11), object(32)
memory usage: 13.1+ MB
None
                      0        1        2        3        4
用户标识            U7A4BAD  U557810  U1E9240  U6DED00  UDA8E28
目标变量                  0        0        0        0        0
性别                    M        M        M        F        F
年龄                   41       35       53       41       42
婚姻                    B        A        B        B        B
教育程度                  B      NaN        A      NaN        B
学历                    Z        G        C        Z        Z
学位                  NaN      NaN        C      NaN        B
工作年限                  3        4        9        0        3
工商标识                  0        0        0        0        1
法人或股东标识               0        0        0        0        1
下载并登录招行APP标识          0        0        1        0        1
下载并绑定掌上生活标识           1        0        1        0        0
有车一族标识                0        0        0        0        0
有房一族标识                0        0        0        0        1
近6个月代发工资标识            0        0        1        0        0
首次代发工资距今天数           -1       -1      935       -1       -1
有效投资风险评估标识            0        0        1        0        0
用户理财风险承受能力等级代码       -1       -1        3       -1       -1
投资强风评等级类型代码           4       -1        3       -1       -1
用户投资风险承受级别            1        1        6        1        1
近6个月月日均AUM分层          0        0        7        0        5
总资产级别代码              -1       -1       -1       -1       -1
潜力资产等级代码              6       -1        2        6        3
本年月均代发金额分层            0        0        8        0        0
近12个月理财产品购买次数         0        0        6        0        0
近12个月基金购买次数           0        0        0        0        0
近12个月保险购买次数           0        0        0        0        0
近12个月黄金购买次数           0        0        0        0        0
贷款用户标识                0        0        0        0        1
个贷授信总额度分层             0        0        0        0        6
30天以上逾期贷款的总笔数         0        0        0        0        0
历史贷款最长逾期天数            0        0        0        0        4
招行信用卡持卡最高等级代码        -1       -1       -1       -1       -1
信用卡活跃标识               0        0        0        0        0
最近一年信用卡消费金额分层         0        0        0        0        0
信用卡还款方式               0        0        0        0        0
信用卡永久信用额度分层           3        1        7        1        2
持有招行借记卡张数             1        1        2        1        7
持有招行信用卡张数             0        0        0        0        0
持有招行借记卡天数          3492     4575     4894     4938     2378
持有招行信用卡天数            -1       -1       -1       -1       -1
招行借记卡持卡最高等级代码        10       10       40       10       20
               目标变量            年龄  近6个月月日均AUM分层    本年月均代发金额分层     个贷授信总额度分层  \
count  39923.000000  39923.000000  39923.000000  39923.000000  39923.000000   
mean       0.224257     34.325727      0.875235      0.403652      0.187060   
std        0.417097      8.541069      1.354406      1.293567      0.963996   
min        0.000000     19.000000     -1.000000     -1.000000     -1.000000   
25%        0.000000     28.000000      0.000000      0.000000      0.000000   
50%        0.000000     33.000000      0.000000      0.000000      0.000000   
75%        0.000000     39.000000      1.000000      0.000000      0.000000   
max        1.000000     84.000000      9.000000     10.000000      9.000000   

        信用卡永久信用额度分层     持有招行借记卡张数     持有招行信用卡张数     持有招行借记卡天数     持有招行信用卡天数  \
count  39923.000000  39923.000000  39923.000000  39923.000000  39923.000000   
mean       3.690179      1.109110      1.440924   1221.380608   1293.431305   
std        2.124529      2.521372      1.497116   1604.667054   1270.756497   
min       -1.000000      0.000000      0.000000     -1.000000     -1.000000   
25%        2.000000      0.000000      1.000000     -1.000000    360.000000   
50%        3.000000      1.000000      1.000000    493.000000    861.000000   
75%        5.000000      1.000000      2.000000   1851.000000   1810.000000   
max        8.000000    178.000000    173.000000   9538.000000   6086.000000   

       招行借记卡持卡最高等级代码  
count   39923.000000  
mean        8.700999  
std         7.894769  
min         0.000000  
25%         0.000000  
50%        10.000000  
75%        10.000000  
max        80.000000  

Process finished with exit code 0

可以发现许多列都是object数据类型，不是int或float类型，这样无法直接计算。

但其实大部分列的数据本都是数值型数据，这是怎么回事呢？

观察csv文件发现是因为有部分非数值型数据混入了这些数值当中。拿“工作年限”列来作例子：
Input:

print(df1.工作年限.value_counts())

Output:

0     17235
1      6270
2      4128
3      2789
5      1565
4      1495
6       892
10      816
8       649
7       604
\N      493
15      335
9       314
12      273
20      261
14      218
13      215
16      203
11      201
17      145
18      115
30       96
25       87
22       58
19       51
21       48
28       47
24       43
23       41
26       40
27       36
32       24
35       23
29       20
31       19
33       17
37       12
34       12
36       10
38        7
40        6
39        4
43        2
41        2
42        1
99        1
Name: 工作年限, dtype: int64

Process finished with exit code 0

发现有493个 ‘\N’ 值。其他未被识别成数值型的列也是同样这种情况。

此外“教育程度”，“学位”，“信用卡还款方式” 列都有大量的null值。
第九列以后都是混有非数值型的数值型数据，因此直接把他们强制转为数值，非数值型的填充为Nan值

第九列以前的五个特征值本身为非数值型数据，用pandas自带的方法转为独热编码（One-Hot Encoding）标识

# 转换列dtype从object到int或float数据
df1.iloc[:, 8:] = df1.iloc[:, 8:].apply(pd.to_numeric, errors='coerce')
df1_object = df1[['性别', '婚姻', '教育程度', '学历', '学位']]
df1.drop(columns=['性别', '婚姻', '教育程度', '学历', '学位'], inplace=True)
# One-Hot Encoding
df1 = df1.join(pd.get_dummies(df1_object))

3.2 交易行为数据集数据预处理

接着观察df2

Input:

print(df2.info())
print(df2.head().T)
print(df2.describe())

Output:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1367211 entries, 0 to 1367210
Data columns (total 8 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   用户标识      1367211 non-null  object 
 1   目标变量      1367211 non-null  int64  
 2   交易方向      1367211 non-null  object 
 3   支付方式      1367211 non-null  object 
 4   收支一级分类代码  1367211 non-null  int64  
 5   收支二级分类代码  1367211 non-null  int64  
 6   交易时间      1367211 non-null  object 
 7   交易金额      1367211 non-null  float64
dtypes: float64(1), int64(3), object(4)
memory usage: 83.4+ MB
None
                            0                    1                    2  \
用户标识                  UFDC88A              UFDC88A              UFDC88A   
目标变量                        0                    0                    0   
交易方向                        B                    B                    B   
支付方式                        B                    B                    B   
收支一级分类代码                    1                    1                    1   
收支二级分类代码                  116                  116                  136   
交易时间      2019-06-20 07:15:28  2019-06-16 10:09:13  2019-05-14 16:11:32   
交易金额                  -127.99               -55.88                 -557   

                            3                    4  
用户标识                  UFDC88A              UFDC88A  
目标变量                        0                    0  
交易方向                        B                    B  
支付方式                        B                    B  
收支一级分类代码                    1                    1  
收支二级分类代码                  136                  113  
交易时间      2019-05-19 21:54:40  2019-06-18 08:23:59  
交易金额                    -77.8              -271.62  
               目标变量      收支一级分类代码      收支二级分类代码          交易金额
count  1.367211e+06  1.367211e+06  1.367211e+06  1.367211e+06
mean   1.573503e-01  1.475148e+00  1.666500e+02  4.892947e+00
std    3.641308e-01  7.740244e-01  7.177708e+01  6.997166e+04
min    0.000000e+00  1.000000e+00  1.010000e+02 -2.390000e+07
25%    0.000000e+00  1.000000e+00  1.170000e+02 -2.000000e+02
50%    0.000000e+00  1.000000e+00  1.340000e+02 -2.400000e+01
75%    0.000000e+00  2.000000e+00  2.090000e+02 -2.000000e+00
max    1.000000e+00  3.000000e+00  3.110000e+02  3.389516e+07

Process finished with exit code 0

观察原csv文件和打印信息，发现此表数据包含大量同一用户的多行信息，这样是没办法和标签数据集直接合并的。

因为此债务违约预测是基于每个用户数据行为进行预测，所以我这里的处理方法是根据用户ID对他们的交易行为进行汇总统计。

首先先把时间数据由object转为datetime格式：

df2['交易时间'] = pd.to_datetime(df2['交易时间'])

然后拆解交易行为表，根据不同的列做不同的统计汇总：

# 拆解交易行为表
# 计算每个用户的交易金额的总值，平均值，最小值和最大值
df2_left = pd.pivot_table(df2,
                          index=['用户标识'],
                          values=['交易金额'],
                          aggfunc={'交易金额': [np.sum, np.mean, np.min, np.max]})
# 重命名列使其更易读
df2_left.rename(columns={'amax': '最大交易金额',
                         'amin': '最小交易金额',
                         'mean': '平均交易金额',
                         'sum': '总交易金额'}, inplace=True)
# 计算交易次数和最后一次交易距第一次交易的时间跨度
df2_mid = pd.pivot_table(df2,
                         index=['用户标识'],
                         values=['交易时间'],
                         aggfunc={'交易时间': ['count', lambda x: x.max() - x.min()]})
# 重命名列使其更易读
df2_mid.rename(columns={'count': '交易次数',
                        '': '交易时间跨度'}, inplace=True)
# 计算交易频繁度（平均一次交易间隔多少天）
df2_mid['交易频繁度', '平均n天一次'] = df2_mid['交易时间', '交易时间跨度']/df2_mid['交易时间', '交易次数']
# datetime 数据类型转为 float型，用于后续的样本训练，因为训练模型无法直接训练日期型数据
df2_mid['交易时间', '交易时间跨度'] = df2_mid['交易时间', '交易时间跨度']/timedelta(days=1)
df2_mid['交易频繁度', '平均n天一次'] = df2_mid['交易频繁度', '平均n天一次']/timedelta(days=1)
# 计算每个用户各种交易方向、支付方式等的次数
df2_right = df2[['用户标识', '交易方向', '支付方式', '收支一级分类代码', '收支二级分类代码']]
df2_right = df2_right.melt('用户标识')
df2_right = pd.pivot_table(df2_right,
                           index=['用户标识'],
                           columns=['variable', 'value'],
                           aggfunc="size",
                           fill_value=0)

将上述拆分并交易行为数据进行合并

df2_pivot = pd.merge(df2_left, df2_mid, how='left', on='用户标识')
df2_pivot = pd.merge(df2_pivot, df2_right, how='left', on='用户标识')

3.3 APP行为数据集数据预处理

df3表格初始列名与应对应数据有一点错位，需要进行修复：

df3.drop(columns='访问时间', inplace=True)
df3.rename(columns={'Unnamed: 3': '访问时间'}, inplace=True)

然后数据处理的思路同df2基本一样，也是基于用户ID进行统计汇总。

# 拆解交易行为表
df3_left = pd.pivot_table(df3,
                          index=['用户标识'],
                          values=['目标变量'],
                          aggfunc='count')
df3_left.rename(columns={'目标变量': '访问总次数'}, inplace=True)
df3_left.drop(columns='访问总次数', inplace=True)

df3_mid = df3[['用户标识', '页面编码']]
df3_mid = df3_mid.melt('用户标识')
df3_mid = pd.pivot_table(df3_mid,
                         index=['用户标识'],
                         columns=['variable', 'value'],
                         aggfunc='size',
                         fill_value=0)

df3_right = df3[['用户标识', '访问时间']]
df3_right = pd.pivot_table(df3_right,
                           index=['用户标识'],
                           values=['访问时间'],
                           aggfunc={'访问时间': ['count', lambda x: x.max()-x.min()]})
df3_right.rename(columns={'': '浏览时间跨度',
                          'count': '浏览总次数'}, inplace=True)
df3_right['浏览频率', '平均n天一次'] = df3_right['访问时间', '浏览时间跨度']/df3_right['访问时间', '浏览总次数']
df3_right['访问时间', '浏览时间跨度'] = df3_right['访问时间', '浏览时间跨度']/timedelta(days=1)
df3_right['浏览频率', '平均n天一次'] = df3_right['浏览频率', '平均n天一次']/timedelta(days=1)

合并APP行为表：

df3_pivot = pd.merge(df3_left, df3_mid, how='left', on='用户标识')
df3_pivot = pd.merge(df3_pivot, df3_right, how='left', on='用户标识')

4、图形探索

因为各个表格特征值过多，所以三个表格分开绘图分析

加入此行代码解决matplotlib中文显示为方块的问题

plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

4.1 标签数据集

画出标签数据集各列的的数据分布柱状图：

Input:

plt.figure(figsize=(200, 140), dpi=50)
plt.subplots_adjust(wspace=0.5, hspace=0.5)
for n, i in enumerate(df1.iloc[:, 1:].columns):
    plt.subplot(9, 9, n+1)
    plt.title(i, fontsize=9)
    plt.grid(linestyle='--')
    df1[i].hist(color='grey', alpha=0.5)
plt.show()
plt.close()

Output:

许多特征分布偏态，后续建模需考虑纠偏处理

画出箱型图：
Input:

plt.figure(figsize=(200, 140), dpi=50)
plt.subplots_adjust(wspace=0.5, hspace=0.5)
for n, i in enumerate(df1.iloc[:, 1:].columns):
    plt.subplot(9, 9, n+1)
    plt.title(i, fontsize=9)
    plt.grid(linestyle='--')
    df1[[i]].boxplot(sym='.')
plt.show()
plt.close()

Output:

大部分数据看起来都存在异常值，需要根据具体情况做不同的后续处理。

画出热力图:
因数据维度过大，无法全部清晰显示，先画出原始值为数值型数据的热力图
Input:

plt.figure(figsize=(80, 80), dpi=50)
sns.heatmap(df1.iloc[:, 1:37].corr(), cmap='Reds', annot=True)
plt.show()
plt.close()

Output:

独热编码后的数据热力图：

Input:

plt.figure(figsize=(60, 60), dpi=50)
sns.heatmap(df1.iloc[:, 37:].corr(), cmap='Reds', annot=True)
plt.show()
plt.close()

Output:

大于0.8的数值之间共线性可能比较高，可考虑后续去共线性

4.2 交易行为数据集

与标签数据集类似，也是绘制出柱状分布图，箱型图，热力图进行观察
分布图
Input:

plt.figure(figsize=(100, 100), dpi=50)
plt.subplots_adjust(wspace=0.5, hspace=0.5)
for n, i in enumerate(df2_pivot.iloc[:, :].columns):
    plt.subplot(9, 9, n+1)
    plt.title(i, fontsize=9)
    plt.grid(linestyle='--')
    df2_pivot[i].hist(color='grey', alpha=0.5)
plt.show()
plt.close()

Output:

箱型图：
Input:

plt.figure(figsize=(100, 100), dpi=50)
plt.subplots_adjust(wspace=0.5, hspace=0.5)
for n, i in enumerate(df2_pivot.iloc[:, 1:].columns):
    plt.subplot(9, 9, n+1)
    plt.title(i, fontsize=11)
    plt.grid(linestyle='--')
    df2_pivot[[i]].boxplot(sym='.')
plt.show()
plt.close()

Output:

热力图：
Input:

plt.figure(figsize=(60, 60), dpi=50)
sns.heatmap(df2_pivot.iloc[:, :].corr(), cmap='Reds', annot=True)
plt.show()
plt.close()

Output:

4.3 APP行为数据集

同上
分布柱状图：
Input:

plt.figure(figsize=(100, 100), dpi=50)
plt.subplots_adjust(wspace=0.5, hspace=0.5)
for n, i in enumerate(df3_pivot.iloc[:, :].columns):
    plt.subplot(6, 6, n+1)
    plt.title(i, fontsize=10)
    plt.grid(linestyle='--')
    df3_pivot[i].hist(color='grey', alpha=0.5)
plt.show()
plt.close()

箱型图：
Input:

plt.figure(figsize=(100, 100), dpi=50)
plt.subplots_adjust(wspace=0.5, hspace=0.5)
for n, i in enumerate(df3_pivot.iloc[:, :].columns):
    plt.subplot(6, 6, n+1)
    plt.title(i, fontsize=11)
    plt.grid(linestyle='--')
    df3_pivot[[i]].boxplot(sym='.')
plt.show()
plt.close()

Output:

热力图：
Input:

plt.figure(figsize=(60, 60), dpi=50)
sns.heatmap(df3_pivot.iloc[:, :].corr(), cmap='Reds', annot=True)
plt.show()
plt.close()

Output:

5、数据清洗函数构建

5.1 异常值处理函数

将异常值替换为该列的众数，平均值或指定值

def error_filling(df, col, condition, value=0, func=1):
    """
    :param df: DataFrame resouce
    :param col: column to be modified
    :param condition: error condition
    :param value to be filled when func = 2
    :param func: 1(deafault): fill with mode; 0: fill with mean
    :return:
    """
    if func == 1:
        df.loc[df[col] > condition, col] = df[col].mode()[0]
    elif func == 0:
        df.loc[df[col] > condition, col] = df[col].mean()
    elif func == 2:
        df.loc[df[col] > condition, col] = value
    else:
        print('Value error!')

5.2 缺失值处理函数

将缺失值替换为该列的众数或平均数

def missing_values_processing(df, col, func=1):
    """
    缺失值处理
    :param df: DataFrame resource
    :param func: 默认为1, 众数填充; 0, 去除带空值
    :return:
    """
    if func == 1:
        df.loc[:, col].fillna(df.loc[:, col].mode()[0], inplace=True)
    elif func == 0:
        df.loc[:, col].fillna(df.loc[:, col].mean(), inplace=True)
    else:
        print('parameter wrong!')

6、数据清洗

6.1 异常值处理

df1_train = df1
# 工作年限，卡持有天数都与年龄有一定关系
error_filling(df1_train, '工作年限', df1_train.年龄-16)
error_filling(df1_train, '持有招行借记卡天数', df1_train.年龄*366)
error_filling(df1_train, '持有招行信用卡天数', (df1_train.年龄-17)*366)
# 将过大的值都限定到一个上限
error_filling(df1_train, '年龄', 55, value=55, func=2)
error_filling(df1_train, '工作年限', 25, value=25, func=2)
error_filling(df1_train, '首次代发工资距今天数', 50, value=50, func=2)
error_filling(df1_train, '近12个月理财产品购买次数', 20, value=20, func=2)
error_filling(df1_train, '近12个月基金购买次数', 20, value=20, func=2)
error_filling(df1_train, '近12个月保险购买次数', 5, value=5, func=2)
error_filling(df1_train, '近12个月黄金购买次数', 15, value=15, func=2)
error_filling(df1_train, '30天以上逾期贷款的总笔数', 10, value=10, func=2)
error_filling(df1_train, '历史贷款最长逾期天数', 50, value=50, func=2)
error_filling(df1_train, '招行信用卡持卡最高等级代码', 40, value=40, func=2)
error_filling(df1_train, '持有招行借记卡张数', 25, value=25, func=2)
error_filling(df1_train, '持有招行信用卡张数', 20, value=20, func=2)

6.2 缺失值处理

将缺失的值都填充为该列众数

missing_values_processing(df1_train, '工作年限')
missing_values_processing(df1_train, '工商标识')
missing_values_processing(df1_train, '法人或股东标识')
missing_values_processing(df1_train, '下载并登录招行APP标识')
missing_values_processing(df1_train, '下载并绑定掌上生活标识')
missing_values_processing(df1_train, '有车一族标识')
missing_values_processing(df1_train, '有房一族标识')
missing_values_processing(df1_train, '近6个月代发工资标识')
missing_values_processing(df1_train, '首次代发工资距今天数')
missing_values_processing(df1_train, '有效投资风险评估标识')
missing_values_processing(df1_train, '用户理财风险承受能力等级代码')
missing_values_processing(df1_train, '投资强风评等级类型代码')
missing_values_processing(df1_train, '用户投资风险承受级别')
missing_values_processing(df1_train, '总资产级别代码')
missing_values_processing(df1_train, '潜力资产等级代码')
missing_values_processing(df1_train, '近12个月理财产品购买次数')
missing_values_processing(df1_train, '近12个月基金购买次数')
missing_values_processing(df1_train, '近12个月保险购买次数')
missing_values_processing(df1_train, '近12个月黄金购买次数')
missing_values_processing(df1_train, '贷款用户标识')
missing_values_processing(df1_train, '30天以上逾期贷款的总笔数')
missing_values_processing(df1_train, '历史贷款最长逾期天数')
missing_values_processing(df1_train, '招行信用卡持卡最高等级代码')
missing_values_processing(df1_train, '信用卡活跃标识')
missing_values_processing(df1_train, '最近一年信用卡消费金额分层')
missing_values_processing(df1_train, '信用卡还款方式')

6.3 去除共线性

将相互之间热力值高的特征列去掉，仅保留一列

# 标签数据
df1_train.drop(columns='本年月均代发金额分层', inplace=True)
df1_train.drop(columns='用户理财风险承受能力等级代码', inplace=True)
df1_train.drop(columns='个贷授信总额度分层', inplace=True)
df1_train.drop(columns=r'婚姻_\N', inplace=True)
df1_train.drop(columns=r'教育程度_\N', inplace=True)
df1_train.drop(columns=r'学历_\N', inplace=True)
df1_train.drop(columns=r'学位_\N', inplace=True)
# 交易行为数据
df2_pivot.drop('交易次数', axis=1, level=1, inplace=True)
df2_pivot.drop(('交易方向', 'B'), axis=1, inplace=True)
df2_pivot.drop(('收支一级分类代码', 2), axis=1, inplace=True)
df2_pivot.drop(('交易方向', 'C'), axis=1, inplace=True)
df2_pivot.drop(('支付方式', 'A'), axis=1, inplace=True)
df2_pivot.drop(('收支一级分类代码', 1), axis=1, inplace=True)
df2_pivot.drop(('收支二级分类代码', 134), axis=1, inplace=True)

# APP行为数据
df3_pivot.drop(columns=('页面编码', 'FTR'), inplace=True)
df3_pivot.drop(columns=('访问时间', '浏览总次数'), inplace=True)
df3_pivot.drop(columns=('页面编码', 'BWA'), inplace=True)
df3_pivot.drop(columns=('页面编码', 'EGA'), inplace=True)
df3_pivot.drop(columns=('页面编码', 'LCT'), inplace=True)

6.4 合并三表格

合并后无交易行为或APP行为的用户该部分数据会变为Nan值，需要进行填充。既然没有该行为，那么用0来填充。

df_total = pd.merge(df1_train, df2_pivot, how='left', on='用户标识')
df_total = pd.merge(df_total, df3_pivot, how='left', on='用户标识')
# 将df1中无交易行为或APP行为的用户数据填充为零
df_total.fillna(0, inplace=True)

6.5 修改名字会导致训练异常的列

后续训练中发现，xgboost训练模型会对列名中’[’, ‘<’ 和 ‘]’ 字符的列报错，所以需要修改相应列的名字，用正则表达式修改：

import re

regex = re.compile(r"\[|\]|<", re.IGNORECASE)
df_total.columns = [regex.sub("_", str(col)) if any(str(x) in str(col) for x in set(('[', ']', '<'))) else str(col) for col in df_total.columns.values]

6.6 去掉与训练无关的用户标识列

df_total.drop(columns='用户标识', inplace=True)

6.7 重新采样，平衡类别

from imblearn.over_sampling import RandomOverSampler

# 分离训练特征和标签
X = df_total.drop(['目标变量'], axis=1)
y = df_total['目标变量']

ros =RandomOverSampler(random_state=0)
X_resample, y_resample = ros.fit_sample(X, y)

检验一下：
Input:

print(X_resample.shape[0])
print(y_resample.shape[0])
print(y_resample.value_counts())

Output:

61940
61940
1    30970
0    30970
Name: 目标变量, dtype: int64

Process finished with exit code 0

6.8 划分训练集和测试集，为建模训练模型作准备

x_train, x_test, y_train, y_test = train_test_split(X_resample, y_resample, test_size=0.2)

# 分层k折交叉拆分器 - 用于网格搜索
cv = StratifiedKFold(n_splits=3,shuffle=True)

# 分类模型性能查看函数
def performance_clf(model, X, y, name=None):
    y_predict = model.predict(X)
    if name:
        print(name, ':')
    print(f'accuracy score is: {accuracy_score(y,y_predict)}')
    print(f'precision score is: {precision_score(y,y_predict)}')
    print(f'recall score is: {recall_score(y,y_predict)}')
    print(f'auc: {roc_auc_score(y,y_predict)}')
    print('- - - - - - ')

7、模型训练-xgboost模型

鉴于时间和提交次数有限，本次比赛只使用了这一个模型，广泛用于Kaggle比赛中
Input:

# xgboost 模型
xgb_clf = xgb.XGBClassifier(objective='binary:logistic',
                            n_jobs=-1,
                            booster='gbtree',
                            n_estimators=1000,
                            learning_rate=0.01)

# 参数设定
xgb_params = {'max_depth':[6, 9],
              'subsample': [0.6, 0.9],
              'colsample_bytree': [0.5, 0.6],
              'reg_alpha': [0.05, 0.1]}

# 参数搜索
xgb_gridsearch = GridSearchCV(xgb_clf, xgb_params, cv=cv, n_jobs=-1,
                              scoring='roc_auc', verbose=10, refit=True)

# 工作流管道
pipe_xgb = Pipeline([
    ('sc', StandardScaler()),   # 标准化Z-score
    ('pow_trans', PowerTransformer()),  # 纠偏
    ('xgb_grid', xgb_gridsearch)
])

# 搜索参数并训练模型
pipe_xgb.fit(x_train, y_train)

# 最佳参数组合
print(pipe_xgb.named_steps['xgb_grid'].best_params_)

# 训练集性能指标
performance_clf(pipe_xgb, x_train, y_train, name='train')

# 测试集性能指标
performance_clf(pipe_xgb, x_test, y_test, name='test')

Output:

Fitting 3 folds for each of 16 candidates, totalling 48 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.6 .
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.9 
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.9 
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.6 
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.6 
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.6 .
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.6 
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.6, score=0.824, total= 7.4min
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.6, score=0.824, total= 7.4min
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.6, score=0.827, total= 7.4min
[Parallel(n_jobs=-1)]: Done   2 tasks      | elapsed:  7.4min
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.9 .
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.6, score=0.827, total= 7.4min
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.6, score=0.828, total= 7.4min
[CV] colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.9 .
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.9, score=0.824, total= 7.4min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.9, score=0.829, total= 7.4min
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.05, subsample=0.9, score=0.828, total= 7.4min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.6 
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.6, score=0.827, total= 7.1min
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed: 14.5min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.9, score=0.824, total= 7.1min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.9, score=0.829, total= 7.1min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.5, max_depth=6, reg_alpha=0.1, subsample=0.9, score=0.828, total= 7.1min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.6, score=0.887, total=10.2min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.6, score=0.886, total=10.2min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.6, score=0.883, total=10.2min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.9, score=0.891, total=10.3min
[Parallel(n_jobs=-1)]: Done  16 tasks      | elapsed: 17.7min
[CV] colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.6, score=0.887, total=10.5min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.6, score=0.883, total=10.5min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.9, score=0.886, total=10.5min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.05, subsample=0.9, score=0.890, total=10.5min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.6, score=0.886, total= 9.8min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.9, score=0.891, total= 9.9min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.9, score=0.886, total= 9.9min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.5, max_depth=9, reg_alpha=0.1, subsample=0.9, score=0.890, total= 9.8min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.6, score=0.825, total= 7.7min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.6 .
[Parallel(n_jobs=-1)]: Done  25 tasks      | elapsed: 32.7min
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.6, score=0.829, total= 7.7min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.6, score=0.829, total= 7.8min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.9, score=0.830, total= 7.8min
[CV] colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.9, score=0.824, total= 7.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.05, subsample=0.9, score=0.829, total= 7.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.6, score=0.829, total= 7.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.6 
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.6, score=0.825, total= 7.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.6, score=0.828, total= 7.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.9, score=0.829, total= 7.9min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.9 
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.9, score=0.824, total= 7.9min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.6, max_depth=6, reg_alpha=0.1, subsample=0.9, score=0.829, total= 7.9min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.6 .
[Parallel(n_jobs=-1)]: Done  38 out of  48 | elapsed: 46.2min remaining: 12.2min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.6, score=0.888, total=10.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.6 .
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.6, score=0.884, total=10.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.6, score=0.888, total=10.8min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.9, score=0.892, total=10.9min
[CV] colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.9 .
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.9, score=0.886, total=10.9min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.6, score=0.888, total=10.8min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.6, score=0.884, total=10.8min
[Parallel(n_jobs=-1)]: Done  43 out of  48 | elapsed: 51.5min remaining:  6.0min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.05, subsample=0.9, score=0.890, total=10.9min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.6, score=0.888, total= 8.7min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.9, score=0.886, total= 8.8min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.9, score=0.892, total= 8.8min
[CV]  colsample_bytree=0.6, max_depth=9, reg_alpha=0.1, subsample=0.9, score=0.891, total= 8.8min
[Parallel(n_jobs=-1)]: Done  48 out of  48 | elapsed: 55.0min remaining:    0.0s
[Parallel(n_jobs=-1)]: Done  48 out of  48 | elapsed: 55.0min finished
{'colsample_bytree': 0.6, 'max_depth': 9, 'reg_alpha': 0.1, 'subsample': 0.9}
train :
accuracy score is: 0.8878955440749112
precision score is: 0.8931096859069232
recall score is: 0.8802625714169942
auc: 0.8878657769238713
- - - - - - 
test :
accuracy score is: 0.8361317403939296
precision score is: 0.8516256808054135
recall score is: 0.8202193609918932
auc: 0.8363848978159398
- - - - - - 

Process finished with exit code 0

8、预测并生成结果

评分集数据需要从头进行数据预处理，过程同训练集基本一致。
唯一需要注意的是pandas内置的get_dummies()方法会使所以非数值型数据的种类各占一列。因为训练集和测试集不是一起处理的，会导致部分列不同，无法直接预测。
这时需要手动在在训练集和测试集插入彼此缺失的列，或者删除不同的列。

我的解决方案是先用insert方法插入值为None的缺失列，再用to_numeric方法，errors=‘coerce’，将其转换为Nan值。最后用fillna方法将所以Nan值转为0

文章过长，评分集的具体操作就不赘述了。

你可能感兴趣的:(招商银行2020FinTech精英训练营数据赛道参赛回顾)

《网络安全应急响应技术实战指南》知识点总结（第1~2章网络安全应急响应概述和基础技能）太菜是我的应急响应网络安全 windows
一、应急响应概念一个组织为应对各种意外事件的发生所做的准备，以及在时间发生之后所采取的措施，以减少突发事件造成的损失。二、应急响应流程PDCERF方法：准备阶段（预防）检测阶段（检测已发生或者正在发生的事件以及原因）抑制阶段（限制破坏的范围，同时降低潜在的损失）根除阶段（通过事件分析找出根源并彻底根除，以防再次发生）恢复阶段（把破坏的信息彻底还原到正常运作状态）总结阶段（回顾应急响应事件的过程，分
Navicat 17 for Mac 数据库管理 1alisa 数据库
Navicat17forMac数据库管理文章目录Navicat17forMac数据库管理一、介绍二、效果三、下载一、介绍NavicatPremium17forMac是一款专业的数据库管理工具，适用于开发人员、数据库管理员和分析师等用户。它提供了强大的数据管理功能和丰富的工具，使用户能够轻松地管理和维护数据库，提高数据处理效率。提供了无缝数据迁移功能;多元化操作工具，可以轻松地将不同格式的数据传输到
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
零基础到网络安全工程师幼儿园扛把子\ web安全安全
爆肝！三个月从零基础到网络安全工程师：2025年黑客技术实战指南（附工具包+100G资源）网络安全攻防示意图|数据来源：CSDN技术社区关键词：网络安全、红队实战、CTF竞赛、渗透测试、漏洞挖掘一、为什么90%的人学不会黑客技术？这3个误区正在毁掉你！1.错误认知：把"黑客"等同于"攻击者"真相：网络安全法实施后，合规的渗透测试工程师（白帽黑客）已成国家战略人才，平均月薪25K+案例：某学员通过挖
Python第六章03：列表的常用操作苹果.Python.八宝粥 python windows 开发语言
#列表的常用操作"""如:定义、下标索引获取数据、插入元素、删除元素、清空列表、修改元素、统计修改元素个数在Python中，如果将函数定义为class的成员，那么函数称为方法函数：defadd(x,y):returnx+y方法：classStudent:defadd(self,x,y):returnx+y方法和函数的功能一样，可以传入参数，有返回值，方法调用使用格式不同：函数的使用：num=add
Python第六章01：列表（lsit）定义语法苹果.Python.八宝粥 python 开发语言
#列表（list）的定义语法#基本语法：#字面量：#[元素1，元素2，元素3，元素4，......]#定义变量#变量名称=[元素1，元素2，元素3，元素4，......]#定义空列表#变量名称=[]#变量名称=list[]#列表内的每一个数据，称之为元素#1.以[]作为标识#2.列表内每一个元素直接用，逗号隔开#3.列表可以一次存储多个数据，且可以为不同的数据类型，支持嵌套。#定义一个列表my_l
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
巨人学术搜索官网入口，免费参考文献论文及学术搜索引擎黄豆匿zlib 学习方法
巨人学术搜索自2024年上线以来，迅速成为学术界不可或缺的重要工具，尤其受到研究人员、教师及学生的青睐。这款专注于学术领域的专业搜索引擎，覆盖了自然科学、人文科学、社会科学等多个学科领域，整合了国内外众多主流数据库，包括维普、万方、Elsevier、WebofScience等，为用户提供了期刊论文、学位论文、专利、图书、预印本等多种类型资源的精准检索服务。与普通搜索引擎相比，巨人学术搜索的优势在于
分布式事务解决方案：Seata原理详解与实战教程 Cloud_. 分布式 wpf seata
一、为什么需要Seata？在微服务架构中，跨服务的事务管理成为核心痛点：传统事务失效：服务拆分导致无法使用本地事务数据不一致风险：网络抖动、服务宕机等情况导致数据错乱复杂场景处理难：涉及多个数据库、消息队列等异构存储Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，提供AT模式、TCC模式、Saga模式三
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
C#基于MVC模式实现TCP三次握手，附带简易日志管理模块风，停下 C#设计模式网络协议 c#mvc tcp/ip
C#基于MVC模式实现TCP三次握手1Model1.1ServerModel1.2ClientModel1.3配置参数模块1.4日志管理模块1.4.1数据结构1.4.1日志管理工具类1.4.1日志视图展示1.4.1.1UcLogManage.cs1.4.1.2UcLogManage.Designer.cs2视图（View）2.1ViewServer2.1.1ViewServer.cs2.1.1Vi
c#:使用串口通讯实现数据的发送和接收妮妮学代码 c#串口通讯 c#开发语言
串口通讯（SerialCommunication）是一种常见的硬件设备与计算机之间的数据传输方式，广泛应用于工业控制、嵌入式系统、传感器数据采集等领域。本文将详细介绍如何使用C#实现基于串口通讯的数据发送和接收，并结合代码示例解析其实现过程。1.概述串口通讯的核心是System.IO.Ports.SerialPort类，它封装了串口操作的底层细节，提供了简单易用的接口。以下是串口通讯的基本流程：1
C#：使用UDP协议实现数据的发送和接收妮妮学代码 c#UDP c#udp
UDP（UserDatagramProtocol）是一种无连接的、轻量级的传输协议，适用于对实时性要求较高的应用场景，如视频流、在线游戏等。与TCP不同，UDP不保证数据的可靠传输，但其传输效率更高。本文将详细介绍如何使用C#实现基于UDP协议的数据发送和接收，并结合代码示例解析其实现过程。1.概述UDP通讯的核心是UdpClient类，它封装了UDP协议的底层操作，提供了简单易用的接口。以下是U
JAVA泛型 TraceChen JAVA java
JAVA泛型Java泛型（generic）是在JDK1.5版本引用的一种新的特性，泛型提供编译时安全检查机制，该机制允许程序员在编译时检查非安全的类型。一、泛型本质泛型本质是数据化类型，即先给类型指定一个参数，然后使用时再指定参数具体的值，那么这个类型可以在使用时候决定，这种参数类型可以用在类、接口、方法中，分别被称为泛型类、泛型接口、泛型方法。 Listlist=newArrayListl
数学建模清风课程笔记——第二章 TOPSIS法 minpengyuanBITer 数学建模数学建模笔记
TOPSIS(TechniqueforOrderPreferencebySimilaritytoIdealSolution)可翻译为逼近理想解排序法，国内简称为优劣解距离法。TOPSIS法是一种常用的综合评价方法，其能充分利用原始数据的信息，其结果能够精确地反映各评价方案之间的差距。评价类问题1TOPSIS法TOPSIS法概念：TOPSIS法是一种常用的综合评价方法，能充分利用原始数据的信息，其结
JDK8 Stream 数据流效率分析，Java开发你需要了解的那些事气质大叔程序员后端面试 java
此外还有一系列特化流，如IntStream，LongStream，DoubleStream等），Java8引入的的Stream主要用于取代部分Collection的操作，每个流代表一个值序列，流提供一系列常用的聚集操作，可以便捷的在它上面进行各种运算。集合类库也提供了便捷的方式使我们可以以操作流的方式使用集合、数组以及其它数据结构；作为阅读福利，小编也整理了一些Java学习笔记（包含面试真题+脑图
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
STM32 SPI总线驱动CH376T实现U盘/TF卡读写全解析—SPI通信、命令集与文件操作（下） | 零基础入门STM32第七十五步触角01010001 STM32入门教程（100步）stm32 驱动开发单片机嵌入式硬件物联网
主题内容教学目的/扩展视频CH376芯片重点课程电路原理，跳线设置，切换U盘和TF卡。手册分析。驱动程序。调用常用函数。会调用现有函数操作U盘即可。师从洋桃电子，杜洋老师文章目录1.引言2.硬件连接3.驱动程序分析3.1SPI通信机制4.CH376命令集详解4.1常用命令表4.2命令使用示例5.初始化程序解析6.数据读写函数实现6.1写数据到文件6.2从文件读取数据7.应用示例：U盘状态检测8.扩
固态电池行业深度研究报告：技术变革与市场展望萧十一郎@ 知识科普大数据人工智能
目录一、引言1.1研究背景与目的1.2研究方法与数据来源二、固态电池概述2.1定义与分类2.1.1定义2.1.2分类2.2工作原理2.3发展历程三、固态电池技术优势与挑战3.1技术优势3.1.1高安全性3.1.2高能量密度3.1.3长循环寿命3.2技术挑战3.2.1离子电导率低3.2.2固-固界面问题3.2.3锂枝晶生长3.2.4成本高昂四、固态电池材料体系与技术路线4.1固态电解质材料4.1.1
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
前端面经真题解析10-字节/抖音电商/前端/超详细记录浪里个浪zxf 前端面试前端
文章目录1.自我介绍2.介绍下自己的项目3.看你项目里面用了axios,说下请求拦截和响应拦截怎么做？4.说下项目里面前后端交互过程及设计？5.怎么处理切换分页请求数据的，优化手段？6.说下你爬取别人网站数据的时候，别人如果设置了拦截，你的解决方案是？7.你说下http请求的refer字段？**Origin字段：****Referer字段：****Host字段****区别：**8.看你做了路由懒加
优化Redis AOF重写配置：解决AOF文件过大的终极指南冯·诺依曼的 redis 数据库缓存云计算
核心配置参数解析与优化以下配置参数位于Redis配置文件/etc/redis.conf中，用于控制AOF持久化与重写行为。通过合理调整这些参数，可显著减少AOF文件体积并提升性能。1.appendfsync：AOF文件同步策略默认值：everysec修改建议：appendfsyncno作用：控制AOF日志同步到磁盘的频率。everysec（默认）：每秒同步一次，平衡性能与数据安全。no：由操作系统
Vue.js 中常见的以 $ 开头的实例属性和方法遇见~未来 Vue.js vue.js javascript 前端
1.$data作用：包含Vue实例或组件的响应式数据对象。用法：通过this.$data访问组件的data数据。示例：exportdefault{data(){return{message:'Hello,Vue!'};},created(){console.log(this.$data.message);//输出:Hello,Vue!}};2.$el作用：指向Vue实例或组件的根DOM元素。用法：
Java泛型 lgily-1225 日常积累 java 开发语言后端
Java泛型是Java5引入的一项重要特性，旨在增强类型安全、减少代码冗余，并支持更灵活的代码设计。以下是对泛型的详细介绍及使用指南：一、泛型核心概念泛型允许在类、接口、方法中使用类型参数（如），使得代码可以处理多种数据类型，而无需重复编写逻辑。解决的问题类型安全：避免运行时ClassCastException。消除强制类型转换：编译器自动处理类型转换。代码复用：同一逻辑可处理不同类型的数据。二、
MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？墨瑾轩 Java乐园 mybatis
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣MyBatis-Plus中使用@Transactional注解的5大陷阱，你中招了吗？在使用MyBatis-Plus进行持久层开发时，事务控制是确保数据一致性的重要手段。然而，在实践中，不当的使用@Transactional注解可能导致各种意想不到的问题。本文
学习积累规划一个DBA的成功之路小藤椅 Oracle基础知识数据库 db2 sql server informix ibm oracle
一个DBA的数据库学习经验：选定发展方向1999年，我在开始读研时就给自己确定了以后的发展方向。当时有两个方向：网络，数据库技术。因为在2000年之时，网络大热，市场上拥有CCNP、CCIE证书的人特别牛。所以我当时也考下了CCNP证书，但后来发现网络方向涉及很多硬件层面的东西，这些都对厂商的依赖性太强，个人发挥空间不大。而我喜欢钻研，所以慢慢开始转向专攻数据库技术。在认准数据库这个方向后，我开始
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
开源模型应用落地-qwen模型小试-调用Qwen2-7B-Instruct-进阶篇（十二）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言经过前五篇“qwen模型小试”文章的学习，我们已经熟练掌握qwen大模型的使用。然而，就在前几天阿里云又发布了Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。本文将介绍如何使用Transformers库进行模型推理（相较于qwen1系列，使用方式上有较大的调整），现在，我们赶紧跟上脚步，去体验一下新版本模型
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

招商银行2020FinTech精英训练营数据赛道参赛回顾