查尔char

金融风控-贷款违约预测学习笔记(Part3：特征工程)

金融风控-贷款违约预测学习笔记（Part3：特征工程）

1.特征预处理
- 1.1 处理类别型特征和数值型特征
- 1.2 缺失值填充
- 1.3 时间格式处理
- 1.4 将对象类型特征转换到数值
- 1.5 类别特征处理
- 1.6 异常值处理
- - 1.6.1 异常检测方法一：均方差
  - 1.6.2 异常检测方法二：箱型图
- 1.7 数据分桶
- - 1.7.1 特征分箱的目的：
  - 1.7.2数据分桶的对象：
  - 1.7.3 分箱的原因：
  - 1.7.4 分箱的优点：
  - 1.7.5 分箱的基本原则：
  - 1.7.6 分箱算法：
  - 1.7.7 分箱结果的评价
2. 特征交互
3. 特征编码
- 3.1 在树模型中使用labelEncode
- 3.2 逻辑回归模型需要另外处理的特征工程
4. 特征选择
- 4.1 Filter
- 4.2 Wrapper(Recursive feature elimination, RFE)
- 4.3 Embedded
5. 模型训练

了解各种特征工程以及分析方法

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from tqdm import tqdm
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.preprocessing import MinMaxScaler
import xgboost as xgb
import lightgbm as lgb
from catboost import CatBoostRegressor
import warnings
from sklearn.model_selection import StratifiedKFold,KFold
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, log_loss
warnings.filterwarnings('ignore')

data_train = pd.read_csv('Dataset/train_new.csv')
data_testA = pd.read_csv('Dataset/testA_new.csv')

1.特征预处理

1.1 处理类别型特征和数值型特征

numerical_fea = data_train.select_dtypes(exclude=['object']).columns.to_list()
category_fea = list(filter(lambda x: x not in numerical_fea,
                           data_train.columns.to_list()))
label = 'isDefault'
numerical_fea.remove(label)

1.2 缺失值填充

缺失值填充是数据预处理中影响重大的一个环节。缺失值处理有多种方式，可以尝试多种填充方式并对比出结果最优的一种。但是这种尝试往往是基于对业务逻辑的正确理解之上。

缺失值填充方法:

1.DataFrame的fillna()方法。

1.1 可以对缺失值填充指定数值。

例1：

data_train = data_train.fillna(0)

1.2 也可以按行或者列进行前向填充（把缺失值替换成前面最近的非缺失值）或者后向填充（把缺失值替换成后面最近的非缺失值），并且可以限制填充的个数。

例2：

data_train = data_train.fillna(axis=0, method='ffill', limit=2)

2.DataFrame的interpolate()方法。

除了可以实现fillna()的功能，还可以对缺失值进行线性插值。

用法：
DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None，**kwargs)

method:插值方式,可选参数值：

nearest：最邻近插值法
zero：阶梯插值
slinear、linear：线性插值
quadratic、cubic：2、3阶B样条曲线插值

详情请参考官方文档：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html

例3：

s = pd.Series([0, 1, np.nan, 3])
s

0    0.0
1    1.0
2    NaN
3    3.0
dtype: float64

s.interpolate()

0    0.0
1    1.0
2    2.0
3    3.0
dtype: float64

例4：

s = pd.Series([0, 2, np.nan, 8])
s.interpolate(method='polynomial', order=2)

0    0.000000
1    2.000000
2    4.666667
3    8.000000
dtype: float64

# 查看缺失值
data_train.isnull().sum()

id                        0
loanAmnt                  0
term                      0
interestRate              0
installment               0
grade                     0
subGrade                  0
employmentTitle           1
employmentLength      46799
homeOwnership             0
annualIncome              0
verificationStatus        0
issueDate                 0
isDefault                 0
purpose                   0
postCode                  1
regionCode                0
dti                     239
delinquency_2years        0
ficoRangeLow              0
ficoRangeHigh             0
openAcc                   0
pubRec                    0
pubRecBankruptcies      405
revolBal                  0
revolUtil               531
totalAcc                  0
initialListStatus         0
applicationType           0
earliesCreditLine         0
title                     1
policyCode                0
n0                    40270
n1                    40270
n2                    40270
n3                    40270
n4                    33239
n5                    40270
n6                    40270
n7                    40270
n8                    40271
n9                    40270
n10                   33239
n11                   69752
n12                   40270
n13                   40270
n14                   40270
dtype: int64

# 按中位数填充数值特征
data_train[numerical_fea] = data_train[numerical_fea].fillna(data_train[numerical_fea].median())
data_testA[numerical_fea] = data_testA[numerical_fea].fillna(data_train[numerical_fea].median())

# 按众数填充类别特征
"使用众数填充类别特征的原因？"
data_train[category_fea] = data_train[category_fea].fillna(data_train[category_fea].mode())
data_testA[category_fea] = data_testA[category_fea].fillna(data_train[category_fea].mode())

data_train.isnull().sum()

id                        0
loanAmnt                  0
term                      0
interestRate              0
installment               0
grade                     0
subGrade                  0
employmentTitle           0
employmentLength      46799
homeOwnership             0
annualIncome              0
verificationStatus        0
issueDate                 0
isDefault                 0
purpose                   0
postCode                  0
regionCode                0
dti                       0
delinquency_2years        0
ficoRangeLow              0
ficoRangeHigh             0
openAcc                   0
pubRec                    0
pubRecBankruptcies        0
revolBal                  0
revolUtil                 0
totalAcc                  0
initialListStatus         0
applicationType           0
earliesCreditLine         0
title                     0
policyCode                0
n0                        0
n1                        0
n2                        0
n3                        0
n4                        0
n5                        0
n6                        0
n7                        0
n8                        0
n9                        0
n10                       0
n11                       0
n12                       0
n13                       0
n14                       0
dtype: int64

category_fea

['grade', 'subGrade', 'employmentLength', 'issueDate', 'earliesCreditLine']

1.3 时间格式处理

for data in [data_train, data_testA]:
    data['issueDate'] = pd.to_datetime(data['issueDate'], format='%Y-%m-%d')
    startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
    # 构建时间特征
    data['issueDateDT'] = data['issueDate'].apply(lambda x: x-startdate).dt.days

data_train['employmentLength'].value_counts(dropna=False).sort_index()

1 year        52489
10+ years    262753
2 years       72358
3 years       64152
4 years       47985
5 years       50102
6 years       37254
7 years       35407
8 years       36192
9 years       30272
< 1 year      64237
NaN           46799
Name: employmentLength, dtype: int64

data_train['earliesCreditLine'].sample(5)

296825    Mar-1995
119736    Nov-1980
452511    Mar-2000
542871    Oct-2000
248791    Oct-1998
Name: earliesCreditLine, dtype: object

for data in [data_train, data_testA]:
    data['earliesCreditLine'] = data['earliesCreditLine'].apply(lambda x: int(x[-4:]))
    
data_train['earliesCreditLine'].sample(5)

630921    2011
634448    2009
135912    2008
73773     2003
606984    1995
Name: earliesCreditLine, dtype: int64

这里把月份丢弃了，如果要加上月份，可以用 “年份+月份/12”的方法。代码如下：

for data in [data_train, data_testA]:
    data['earliesCreditLine'] = data['earliesCreditLine'].apply(lambda x: int(x[-4:])) \
                                + pd.to_datetime(data['earliesCreditLine'], format='%b-%Y').dt.month / 12

data_train['earliesCreditLine'].sample(5)

281248    2005.083333
297228    2005.500000
512734    2005.666667
48758     2003.416667
783447    2005.000000
Name: earliesCreditLine, dtype: float64

1.4 将对象类型特征转换到数值

def employmentLength_to_int(data):
    if pd.isnull(data):
        return data
    else:
        return np.int8(data.split()[0])

for data in [data_train, data_testA]:
    data['employmentLength'].replace(to_replace='10+ years', value='10 years', inplace=True)
    data['employmentLength'].replace('< 1 year', '0 years', inplace=True)
    data['employmentLength'] = data['employmentLength'].apply(employmentLength_to_int)

data_train['employmentLength'].value_counts(dropna=False).sort_index()

0.0      64237
1.0      52489
2.0      72358
3.0      64152
4.0      47985
5.0      50102
6.0      37254
7.0      35407
8.0      36192
9.0      30272
10.0    262753
NaN      46799
Name: employmentLength, dtype: int64

1.5 类别特征处理

# 部分类别特征
cate_features = ['grade', 'subGrade', 'employmentTitle', 'homeOwnership', 'verificationStatus',
                 'purpose', 'postCode', 'regionCode', 'applicationType', 'initialListStatus',
                 'title', 'policyCode']
for fea in cate_features:
    print(fea, '类型数： ', data[fea].nunique())

grade 类型数：  7
subGrade 类型数：  35
employmentTitle 类型数：  79282
homeOwnership 类型数：  6
verificationStatus 类型数：  3
purpose 类型数：  14
postCode 类型数：  889
regionCode 类型数：  51
applicationType 类型数：  2
initialListStatus 类型数：  2
title 类型数：  12058
policyCode 类型数：  1

这种具有优先级的类别特征，可以用 labelencode或者自映射。

grade_code = dict([(v, k) for k, v in enumerate(data_train['grade'].unique())])
for data in [data_train, data_testA]:
    data['grade'] = data['grade'].map(grade_code)

# 类型数大于等于2，又不是高纬稀疏的，且为纯分类的特征

for data in [data_train, data_testA]:
    data = pd.get_dummies(data, columns=['subGrade', 'homeOwnership', 'verificationStatus',
                                         'purpose', 'regionCode'], drop_first=True)

1.6 异常值处理

观察到异常值时，需要先找到异常值产生的原因，再考虑如何处理异常值。

1.如果异常值的出现是没有规律的，极其偶然的现象，且在业务中不需要考虑（不用研究）的偶然现象，这时可以将其剔除。

2.有时候，异常值还代表着一种真实存在的现象的时候，就不能随便删除。如当前的场景中，因为欺诈行为本身产生了相对于正常事件来说是异常的值时，就需要把这些异常点保留，重新拟合模型，研究异常点出现的规律。可使用监督模型算法，同时也可以考虑使用异常检测的算法。
测试集出现的异常值不可以删除！

1.6.1 异常检测方法一：均方差

与正态分布的性质有关。

由于“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件，认为在一次试验中该事件是几乎不可能发生的。由此可见，服从正态分布的随机变量X，落在（μ-3σ,μ+3σ）以外的概率小于千分之三，在实际问题中常认为相应的事件是不会发生的，基本上可以把区间（μ-3σ,μ+3σ）看作是随机变量X实际可能的取值区间，这称之为正态分布的“3σ”原则。

统计检验法中，判断异常值的方法还有很多种。例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。

每种统计检验法都会犯错误1和错误2。但是有人做过统计，在所有方法中，格拉布斯法犯这两种错误的概率最小。

def find_outliers_by_3segama(data, fea):
    data_std = np.std(data[fea])
    data_mean = np.mean(data[fea])
    outliers_cut_off = data_std * 3
    lower_rule = data_mean - outliers_cut_off
    upper_rule = data_mean + outliers_cut_off
    data[fea+'_outliers'] = data[fea].apply(lambda x: str('异常值') 
                                            if x > upper_rule or x < lower_rule 
                                            else '正常值')
    return data

进一步分析特征异常值和目标变量的关系。

data_train = data_train.copy()
for fea in numerical_fea:
    data_train = find_outliers_by_3segama(data_train, fea)
    print(data_train[fea+'_outliers'].value_counts())
    print(data_train.groupby(fea+'_outliers')['isDefault'].sum())
    print('*'*30)

正常值    800000
Name: id_outliers, dtype: int64
id_outliers
正常值    159610
Name: isDefault, dtype: int64
******************************
正常值    800000
Name: loanAmnt_outliers, dtype: int64
loanAmnt_outliers
正常值    159610
Name: isDefault, dtype: int64
******************************
正常值    800000
Name: term_outliers, dtype: int64
term_outliers
正常值    159610
Name: isDefault, dtype: int64
******************************
正常值    794259
异常值      5741
Name: interestRate_outliers, dtype: int64
interestRate_outliers
异常值      2916
正常值    156694
Name: isDefault, dtype: int64
******************************
正常值    792046
异常值      7954
Name: installment_outliers, dtype: int64
installment_outliers
异常值      2152
正常值    157458
Name: isDefault, dtype: int64
******************************
正常值    800000
Name: employmentTitle_outliers, dtype: int64
employmentTitle_outliers
正常值    159610
Name: isDefault, dtype: int64
******************************
正常值    799701
异常值       299
Name: homeOwnership_outliers, dtype: int64
homeOwnership_outliers
异常值        62
正常值    159548
Name: isDefault, dtype: int64
******************************
正常值    793973
异常值      6027
Name: annualIncome_outliers, dtype: int64
annualIncome_outliers
异常值       756
正常值    158854
Name: isDefault, dtype: int64
******************************
正常值    800000
Name: verificationStatus_outliers, dtype: int64
verificationStatus_outliers
正常值    159610
Name: isDefault, dtype: int64
******************************
正常值    783003
异常值     16997
Name: purpose_outliers, dtype: int64
purpose_outliers
异常值      3635
正常值    155975
Name: isDefault, dtype: int64
******************************
正常值    798931
异常值      1069
Name: postCode_outliers, dtype: int64
postCode_outliers
异常值       221
正常值    159389
Name: isDefault, dtype: int64
******************************
正常值    799994
异常值         6
Name: regionCode_outliers, dtype: int64
regionCode_outliers
异常值         1
正常值    159609
Name: isDefault, dtype: int64
******************************
正常值    798440
异常值      1560
Name: dti_outliers, dtype: int64
dti_outliers
异常值       466
正常值    159144
Name: isDefault, dtype: int64
******************************
正常值    778245
异常值     21755
Name: delinquency_2years_outliers, dtype: int64
delinquency_2years_outliers
异常值      5089
正常值    154521
Name: isDefault, dtype: int64
******************************
正常值    788261
异常值     11739
Name: ficoRangeLow_outliers, dtype: int64
ficoRangeLow_outliers
异常值       778
正常值    158832
Name: isDefault, dtype: int64
******************************
正常值    788261
异常值     11739
Name: ficoRangeHigh_outliers, dtype: int64
ficoRangeHigh_outliers
异常值       778
正常值    158832
Name: isDefault, dtype: int64
******************************
正常值    790889
异常值      9111
Name: openAcc_outliers, dtype: int64
openAcc_outliers
异常值      2195
正常值    157415
Name: isDefault, dtype: int64
******************************
正常值    792471
异常值      7529
Name: pubRec_outliers, dtype: int64
pubRec_outliers
异常值      1701
正常值    157909
Name: isDefault, dtype: int64
******************************
正常值    794120
异常值      5880
Name: pubRecBankruptcies_outliers, dtype: int64
pubRecBankruptcies_outliers
异常值      1423
正常值    158187
Name: isDefault, dtype: int64
******************************
正常值    790001
异常值      9999
Name: revolBal_outliers, dtype: int64
revolBal_outliers
异常值      1359
正常值    158251
Name: isDefault, dtype: int64
******************************
正常值    799948
异常值        52
Name: revolUtil_outliers, dtype: int64
revolUtil_outliers
异常值        23
正常值    159587
Name: isDefault, dtype: int64
******************************
正常值    791663
异常值      8337
Name: totalAcc_outliers, dtype: int64
totalAcc_outliers
异常值      1668
正常值    157942
Name: isDefault, dtype: int64
******************************
正常值    800000
Name: initialListStatus_outliers, dtype: int64
initialListStatus_outliers
正常值    159610
Name: isDefault, dtype: int64
******************************
正常值    784586
异常值     15414
Name: applicationType_outliers, dtype: int64
applicationType_outliers
异常值      3875
正常值    155735
Name: isDefault, dtype: int64
******************************
正常值    775134
异常值     24866
Name: title_outliers, dtype: int64
title_outliers
异常值      3900
正常值    155710
Name: isDefault, dtype: int64
******************************
正常值    800000
Name: policyCode_outliers, dtype: int64
policyCode_outliers
正常值    159610
Name: isDefault, dtype: int64
******************************
正常值    782773
异常值     17227
Name: n0_outliers, dtype: int64
n0_outliers
异常值      3485
正常值    156125
Name: isDefault, dtype: int64
******************************
正常值    790500
异常值      9500
Name: n1_outliers, dtype: int64
n1_outliers
异常值      2491
正常值    157119
Name: isDefault, dtype: int64
******************************
正常值    789067
异常值     10933
Name: n2_outliers, dtype: int64
n2_outliers
异常值      3205
正常值    156405
Name: isDefault, dtype: int64
******************************
正常值    789067
异常值     10933
Name: n3_outliers, dtype: int64
n3_outliers
异常值      3205
正常值    156405
Name: isDefault, dtype: int64
******************************
正常值    788660
异常值     11340
Name: n4_outliers, dtype: int64
n4_outliers
异常值      2476
正常值    157134
Name: isDefault, dtype: int64
******************************
正常值    790355
异常值      9645
Name: n5_outliers, dtype: int64
n5_outliers
异常值      1858
正常值    157752
Name: isDefault, dtype: int64
******************************
正常值    786006
异常值     13994
Name: n6_outliers, dtype: int64
n6_outliers
异常值      3182
正常值    156428
Name: isDefault, dtype: int64
******************************
正常值    788430
异常值     11570
Name: n7_outliers, dtype: int64
n7_outliers
异常值      2746
正常值    156864
Name: isDefault, dtype: int64
******************************
正常值    789625
异常值     10375
Name: n8_outliers, dtype: int64
n8_outliers
异常值      2131
正常值    157479
Name: isDefault, dtype: int64
******************************
正常值    786384
异常值     13616
Name: n9_outliers, dtype: int64
n9_outliers
异常值      3953
正常值    155657
Name: isDefault, dtype: int64
******************************
正常值    788979
异常值     11021
Name: n10_outliers, dtype: int64
n10_outliers
异常值      2639
正常值    156971
Name: isDefault, dtype: int64
******************************
正常值    799434
异常值       566
Name: n11_outliers, dtype: int64
n11_outliers
异常值       112
正常值    159498
Name: isDefault, dtype: int64
******************************
正常值    797585
异常值      2415
Name: n12_outliers, dtype: int64
n12_outliers
异常值       545
正常值    159065
Name: isDefault, dtype: int64
******************************
正常值    788907
异常值     11093
Name: n13_outliers, dtype: int64
n13_outliers
异常值      2482
正常值    157128
Name: isDefault, dtype: int64
******************************
正常值    788884
异常值     11116
Name: n14_outliers, dtype: int64
n14_outliers
异常值      3364
正常值    156246
Name: isDefault, dtype: int64
******************************

需要分析的方向：

异常值在目标变量上的分布是否符合整体的分布？
如果出现异常值只分布在目标变量的个别类别上的情况，又代表着什么？

# 删除异常值

for fea in numerical_fea:
    data_train = data_train[data_train[fea+'_outliers']=='正常值']
    data_train = data_train.reset_index(drop=True)

1.6.2 异常检测方法二：箱型图

与四分位数有关。
总结一句话：四分位数会将数据分为三个点和四个区间，IQR = Q3 -Q1，下触须=Q1 − 1.5x IQR，上触须=Q3 + 1.5x IQR；

1.7 数据分桶

1.7.1 特征分箱的目的：

从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定。

1.7.2数据分桶的对象：

将连续变量离散化。

将多态的离散变量合并成少状态。

1.7.3 分箱的原因：

在数据的特征内的值跨度比较大时，如果使用有监督和无监督中算法，如k-means聚类，其使用欧式距离作为相似度来测量数据点之间的相似度，都会造成大吃小的影响。

通过数据分桶（数据分箱）,对特征数值进行区间量化，可以解决这个问题。

1.7.4 分箱的优点：

处理缺失值：当数据源可能存在缺失值，此时可以把null单独作为一个分箱。

处理异常值：当数据中存在离群点时，可以将其通过分箱离散化处理，从而提高变量的鲁棒性（抗干扰能力）。例如，age特征出现200这种异常值时，可分入"age > 60"这个分箱里，排除影响。

业务解释性：当变量存在非线性相关性时，可以经过WOE变换。

1.7.5 分箱的基本原则：

（1）最小分箱占比不低于5%

（2）箱内不能全部是好客户

（3）连续箱单调

1.7.6 分箱算法：

1. 固定宽度分箱
  
  当特征数值横跨多个数量级时，最好按照10的幂（或其他参数的幂）来进行分组： 0,10,100,100 或者 9,99,999,9999
  
  固定宽度分箱非常容易计算，但如果计数值中有比较大的缺口，就会产生很多没有任何数据的空箱子。

# 通过除法映射到间隔均匀的分箱中，每个分箱的取值范围都是 loanAmnt/1000
data['loanAmnt_bin1'] = np.floor_divide(data['loanAmnt'], 1000)# 通过对数函数映射到指数宽度分箱
data['loanAmnt_bin2'] = np.floor(np.log10(data['loanAmnt']))

2.分位数分箱

又叫等频分箱。在分箱后，每个箱内数据的个数是大致相等的，使得数据集均匀分布在每个箱子里。

data['loanAmnt_bin3'] = pd.qcut(data['loanAmnt'], 10, labels=False)

3.卡方分箱及其他分箱方法

它以卡方分布和卡方值为基础，判断某个因素是否会影响目标变量。例如，在检验性别是否会影响违约概率时，可以用卡方检验来判断。

卡方检验的无效假设H0是：观察频数与期望频数没有差别，即该因素不会影响到目标变量。

基于该假设计算出χ2值，它表示观察值与理论值之间的偏离程度。

根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。

如果P值很小，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有差别。

参考来源：https://zhuanlan.zhihu.com/p/101771771

卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
基本思想:对于精确的离散化，相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

分箱步骤：

第零步：预先设定一个卡方的阈值

第一步：初始化

根据要离散的属性对实例进行排序：每个实例属于一个区间

第二步：合并区间

（1）计算每一对相邻区间的卡方值

（2）将卡方值最小的一对区间合并

卡方值计算公式：

•m:该因素取值个数;

•k：类别数

•A_ij：因素i组中，k类别的观察频数

•E_ij：原假设下A_ij的期望。

当样本总量比较大时，χ2统计量近似服从(m-1)(k-1)个自由度的卡方分布。

卡方阈值的确定：

　　根据显著性水平和自由度得到卡方值。

　　自由度比类别数量小1。例如：有3类,自由度为2，则90%置信度(10%显著性水平)下，卡方的值为4.6。

阈值的意义
　　类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6。

　　大于阈值4.6的卡方值就说明属性和类不是相互独立的，不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的区间数量少、区间大。

参考来源：https://blog.csdn.net/hxcaifly/article/details/80203663

分箱停止条件

卡方分箱的停止条件有如下两种选择：

（1）分箱个数等于指定的分箱数目（max_interval）：限制最终的分箱个数结果，每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并，直到分箱个数达到限制条件为止。

（2）最小卡方值大于卡方阈值（chi2_threshold）：根据自由度和显著性水平得到对应的卡方阈值，如果分箱的各区间最小卡方值小于卡方阈值，则继续合并，直到最小卡方值超过设定阈值为止。
可以两个同时用，也可以只用一个。看实际需求调整即可。

此外还有树模型分箱等方法。对此了解不深，暂时不讨论。

1.7.7 分箱结果的评价

分箱完成后，要对分箱结果进行评价。

评分卡模型中最常用的是WOE和IV值。要注意的一点是，WOE和IV值只能针对二分类问题计算。
参考资料：https://zhuanlan.zhihu.com/p/80134853
以下是我个人对上面分箱知识的理解和应用，如有谬误，烦请指明。

def WOE_evaluation(data, cats, col='isDefault'):
    """
    data: 用于分箱的数据集
    cats: 每个样本所属的箱的数据集
    col: 目标变量
    return：每个箱的WOE值，以及整个分箱效果的IV值
    """
    # cats = cats.astype('category')
    encode_set = data.groupby([cats, data[col]]).size().unstack().fillna(0)
    WOE_values = np.log((encode_set[0] / encode_set.sum()[0]) / ((encode_set[1] / encode_set.sum()[1])))
    IV_value = np.sum((encode_set[0] / encode_set.sum()[0] - encode_set[1] / encode_set.sum()[1])* WOE_values)
    print('IV value: ',IV_value)
    
    plt.figure(figsize=(10, 4))
    x = range(encode_set.shape[0])
    sns.lineplot(x, WOE_values)
    # plt.xticks(x, cats.cat.categories, rotation=45)
    plt.xticks(x, cats.unique(), rotation=45)
    plt.show()
    
    return WOE_values, IV_value

# 'dti'特征里面有一个-1值，属于异常值，需要去掉
data_train = data_train[data_train['dti'] >= 0].copy()
data_train.reset_index(drop=True, inplace=True)

bins = [i for i in np.arange(0, 41, 5)]  # 固定宽度分箱
bins.append(int(data_train['dti'].max())+1)  # 偏态分布的尾部，分为一箱
cats = pd.cut(data_train['dti'], bins, right=False)
WOE, IV = WOE_evaluation(data_train, cats)
WOE

IV value:  0.0712144251530253

dti
[0, 5)        0.359301
[5, 10)       0.346582
[10, 15)      0.226937
[15, 20)      0.056710
[20, 25)     -0.102537
[25, 30)     -0.282429
[30, 35)     -0.466837
[35, 40)     -0.587163
[40, 1000)   -0.607468
dtype: float64

分箱结果虽然呈现单调下降的趋势，但是IV值只有0.07，对预测结果的影响很弱。

2. 特征交互

交互特征的构造非常简单，使用起来的却代价不菲（在时间或空间上）。

如果线性模型中包含有交互特征对，那它的训练时间和评分时间就会从 O(n) 增加到 O(n2)，其中 n 是单一特征的数量。

for col in ['grade', 'subGrade']:
    temp_dict = data_train.groupby([col])['isDefault'].agg(['mean']).reset_index().rename(columns={'mean': col+'_target_mean'})
    temp_dict.index = temp_dict[col].values
    temp_dict = temp_dict[col+'_target_mean'].to_dict()
    
    data_train[col+'_target_mean'] = data_train[col].map(temp_dict)
    data_testA[col+'_target_mean'] = data_testA[col].map(temp_dict)

# 其他衍生变量 mean 和 std
for df in [data_train, data_testA]:
    for item in ['n'+str(i) for i in range(15)]:
        df['grade_to_mean_' + item] = df['grade'] / df.groupby([item])['grade'].transform('mean')
        df['grade_to_std_' + item] = df['grade'] / df.groupby([item])['grade'].transform('std')

以上是特征交互的思路。但是特征和特征之间交互衍生出新的特征和衍生的算法还不止这些。

3. 特征编码

3.1 在树模型中使用labelEncode

for col in tqdm(['employmentTitle', 'postCode', 'title', 'subGrade']):
    le = LabelEncoder()
    le.fit(data_train[col].astype(str).to_list() + data_testA[col].astype(str).to_list())
    data_train[col] = le.transform(data_train[col].astype(str).to_list())
    data_testA[col] = le.transform(data_testA[col].astype(str).to_list())
print('Label Encoding 完成。')

100%|███████████████████████████████████████████████████████████████████████████| 4/4 [00:06<00:00,  1.73s/it]

Label Encoding 完成。

3.2 逻辑回归模型需要另外处理的特征工程

需要进行特征归一化和去除相关性高的特征。

归一化目的是让训练过程更好更快的收敛，同时避免特征大吃小的问题（即纲量不一致带来的影响）。
2种归一化的方式：

（1）最大最小化（名字可能有误）
Yi = (Xi - min) / (max - min)

（2）均值标准化

Yi = (Xi - μ) / s

Xi：样本特征值；μ：样本特征均值；

s：样本特征方差；Yi：演变特征值经过归一化后的值
去除相关性是增加模型的可解释性（对高相关的特征赋予更小的权值，以此减小多重共线性），加快预测过程。

2种去相关性的方式：

（1）相关性检验

（2）L1正则化（LASSO）或者弹性网
LASSO中，参数值为0的参数，可能是参数存在多重共线性，或者是噪声参数，对模型的影响不大。具有较强的可解释性。
举例归一化过程

#伪代码
for fea in [要归一化的特征列表]：
    data[fea] = ((data[fea] - np.min(data[fea])) / (np.max(data[fea]) - np.min(data[fea])))
<br>

4. 特征选择

特征选择技术可以精简掉无用的特征，以降低最终模型的复杂性，最终得到一个简约模型，并且在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。

特征选择不是为了减少训练时间（实际上，一些技术会增加总体训练时间），而是为了减少模型评分时间。

特征选择的方法：

1.Filter

方差选择法

相关系数选择法（person相关系数）

卡方检验

互信息法
2.Wrapper（RFE）

递归特征消除法
3.Embedded

基于惩罚的特征选择法

基于树模型的特征选择

4.1 Filter

基于特征间的关系进行筛选

方差选择法
方差选择法中，先要计算各个特征的方差，然后根据设定的阈值，选择方差大于阈值的特征。

from sklearn.feature_selection import VarianceThreshold

# 参数 threshold为方差的阈值

VarianceThreshold(threshold=3).fit_transform(train, traget_train)

相关系数法
Person相关系数（皮尔森相关系数）是一种最简单的，可以帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性。

结果的取值区间为[-1, 1]。 -1表示完全的负相关， +1表示完全的正相关， 0表示没有线性相关。

from sklearn.feature_selection import SelectKBest
from scipy.stats import pearsonr


# 选择K个最好的特征，返回选择特征后的数据
# 第一个参数为计算评估特征是否好的函数，该函数输入特征矩阵和目标向量，
# 输出二元组（评分， P值）的数组，数组第i项为第i个特征的评分和P值。在此定义为计算系数。
# 参数K为选择的特征个数
SelectKBest(k=5).fit_transform(train, traget_train)

卡方检验
经典的卡方检验是用于检验自变量对因变量的相关性。

假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观测值与期望的差距。其统计量如下：

χ2=∑(A−T)2T

其中A为实际值，T为理论值

注意：卡方检验只能运用在正定矩阵上，否则会报错(Input X must be non-negative)。

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# 参数K 为选择的特征个数
SelectKBest(chi2, k=5).fit_transform(train, target_train)

互信息法
经典的互信息也是评价自变量对因变量的相关性的。

在sklearn.feature_selection库的SelectKBest类结合最大信息系数法可以用于特征选择。

# !pip install minepy
from sklearn.feature_selection import SelectKBest
from minepy import MINE

# 由于MINE的设计不是函数式的，通过以下定义的mic函数将其转化为函数式
# 返回结果为一个二元元组，元组的第二项设置成固定的P值0.5
def mic(x, y):
    m = MINE()
    m.compute_socre(x, y)
    return (m.mic(), 0.5)
   
# 参数K为选择的特征个数
SelectKBest(lambda X, Y: np.arry(map(lambda x: mic(x, Y), X.T)).T,
            k=2).fit_transform(train, target_train)

4.2 Wrapper(Recursive feature elimination, RFE)

递归特征消除法使用一个基模型来进行多伦训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。

在sklearn.feature_selection库中的RFE类可以用于特征选择。以下用逻辑回归为例：

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogistRegresstion

# 递归特征消除法，返回特征选择后的数据
# 参数estimator为基模型
# 参数n_features_to_select为选择的特征个数
RFE(estimator=LoistRegresstion(), n_features_to_select=2).fit_transform(train, target_train)

4.3 Embedded

基于惩罚项的特征选择法

使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。

在sklearn.feature_selection库中的SelectFromModel类，结合逻辑回归模型可以用于选择特征。

from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression

# 带L1惩罚项的逻辑回归作为基模型的特征选择
SelectFromModel(LogisticRegression(penalty-'l1', C=0.1)).fit_transform(train, target_train)

基于树模型的特征选择
树模型中GBDT也是可用来作为基模型进行特征选择。
在sklearn.feature_selection库中的SelectFromModel类，结合GBDT模型可以用于特征选择。

from sklearn.feature_selection import SelectFromModel
from sklarn.ensemble import GradientBoostingClassifier

# GBDT作为基模型的特征选择
SelecFromModel(GradientBoostingClassifier()).fit_transform(train, target_train)

对本数据集使用协方差进行特征选择

# 删除不需要的数据
for data in [data_train, data_testA]:
    data.drop(['issueDate', 'id'], axis=1, inplace=True)

# 纵向用缺失值上面的值替换缺失值
data_train = data_train.fillna(axis=0, method='ffill')

x_train = data_train.drop(['isDefault'], axis=1)

# 计算协方差
# 计算相关性
data_corr = x_train.corrwith(data_train.isDefault)
# result = pd.DataFrame(columns=['features', 'corr'])
# result['features'] = data_corr.index
# result['corr'] = data_corr.values
data_corr = data_corr.reset_index()
data_corr.columns = ['features', 'corr']

# 特征相关系性可视化
data_numeric = data_train[numerical_fea[1:]]
correlation = data_numeric.corr()

plt.figure(figsize=(7, 7))
plt.title('Correlation of Numberic Features with Price', y=1, size=16)
sns.heatmap(correlation, square=True, vmax=0.8)
plt.show()

features = [col for col in data_train.columns 
           if col not in ['id', 'issuDate', 'isDefault'] and '_outliers' not in col]
x_train = data_train[features]   
x_test = data_testA[features]
y_train = data_train['isDefault']

保存数据，以便后续模型调参和模型融合时候调用。

x_train.to_csv('Dataset/data_for_model.csv', index=False)
y_train.to_csv('Dataset/label_for_model.csv', index=False)
x_test.to_csv('Dataset/testA_With_FeatureEngineering.csv', index=False)

5. 模型训练

def cv_model(clf, train_x, train_y, test_x, clf_name):
    folds = 5
    seed = 2020
    kf = KFold(n_splits=folds, shuffle=True, random_state=seed)
    
    train = np.zeros(train_x.shape[0])
    test = np.zeros(test_x.shape[0])
    
    cv_scores = []
    
    for i, (train_index, valid_index) in enumerate(kf.split(train_x, train_y)):
        print('*'*30,str(i+1),'*'*30)
        trn_x, trn_y, val_x, val_y = (train_x.iloc[train_index], train_y[train_index],
                                      train_x.iloc[valid_index], train_y[valid_index])
        
        if clf_name == 'lgb':
            train_matrix = clf.Dataset(trn_x, label=trn_y)
            valid_matrix = clf.Dataset(val_x, label=val_y)
            
            parmas = {
                'boosting_type': 'gbdt',
                'objective': 'binary',
                'metric': 'auc',
                'min_child_weight': 5,
                'num_leaves': 2**5,
                'lambda_12': 10,
                'feature_fraction': 0.8,
                'bagging_fraction': 0.8,
                'bagging_freq': 4,
                'learning_rate': 0.1,
                'seed': seed,
                'nthread': 28,
                'n_jobs': 24,
                'silent': True,
                'verbose': -1
            }
            
            model = clf.train(parmas, train_matrix, 500000, valid_sets=[train_matrix, valid_matrix],
                              verbose_eval=200, early_stopping_rounds=200)
            val_pred = model.predict(val_x, num_iteration=model.best_iteration)
            test_pred = model.predict(test_x, num_iteration=model.best_iteration)
            
        if clf_name == 'xgb':
            train_matrix = clf.DMatrix(trn_x, label=trn_y)
            valid_matrix = clf.DMatrix(val_x, label=val_y)
            test_matrix = clf.DMatrix(test_x)
            
            parmas = {
                'booster': 'gbtree',
                'objective': 'binary:logistic',
                'eval_metric': 'auc',
                'gamma': 1,
                'min_child_weight': 1.5,
                'max_depth': 5,
                'lambda': 10,
                'subsample': 0.7,
                'colsample_bytree': 0.7,
                'colsample_bylevel': 0.7,
                'eta': 0.04,
                'tree_method': 'exact',
                'seed': seed,
                'nthread': 36,
                'silent': True,
                 # 'tree_method': 'gpu_hist'
            }
            
            watchlist = [(train_matrix, 'train'), (valid_matrix, 'eval')]
            
            model = clf.train(parmas, train_matrix, num_boost_round=50000, evals=watchlist,
                              verbose_eval=200, early_stopping_rounds=200)
            val_pred = model.predict(valid_matrix, ntree_limit=model.best_ntree_limit)
            test_pred = model.predict(test_matrix, ntree_limit=model.best_ntree_limit)
            
        if clf_name == 'cat':
            parmas = {
                'learning_rate': 0.05,
                'depth': 5,
                'l2_leaf_reg': 10,
                'bootstrap_type': 'Bernoulli',
                'od_type': 'Iter',
                'od_wait': 50,
                'random_seed': 11,
                'allow_writing_files': False
            }
            
            model = clf(iterations=20000, **parmas)
            model.fit(trn_x, trn_y, eval_set=(val_x, val_y),
                      cat_features=[], use_best_model=True, verbose=500)
            
            val_pred = model.predict(val_x)
            test_pred = model.predict(test_x)
         
        train[valid_index] = val_pred
        test += test_pred / kf.n_splits
        cv_scores.append(roc_auc_score(val_y, val_pred))
        
        print(cv_scores)
        
    print('%s_scotrainre_lsit: ' % clf_name, cv_scores)
    print('%s_score_mean: ' % clf_name, np.mean(cv_scores))
    print('%s_score_std: ' % clf_name, np.std(cv_scores))
    return train, test

def lgb_model(x_train, y_train, x_test):
    lgb_train, lgb_test = cv_model(lgb, x_train, y_train, x_test, 'lgb')
    return lgb_train, lgb_test

def xgb_model(x_train, y_train, x_test):
    xgb_train, xgb_test = cv_model(xgb, x_train, y_train, x_test, 'xgb')
    return xgb_train, xgb_test

def cat_model(x_train, y_train, x_test):
    cat_train, cat_test = cv_model(CatBoostRegressor, x_train, y_train, x_test, 'cat')
    return cat_train, cat_test

lgb_train, lgb_test = lgb_model(x_train, y_train, x_test)

****************************** 1 ******************************
Training until validation scores don't improve for 200 rounds
[200]	training's auc: 0.75152	valid_1's auc: 0.728813
[400]	training's auc: 0.770784	valid_1's auc: 0.729129
Early stopping, best iteration is:
[323]	training's auc: 0.763994	valid_1's auc: 0.729426
[0.7294259254463246]
****************************** 2 ******************************
Training until validation scores don't improve for 200 rounds
[200]	training's auc: 0.751572	valid_1's auc: 0.730902
[400]	training's auc: 0.770774	valid_1's auc: 0.731029
Early stopping, best iteration is:
[339]	training's auc: 0.765356	valid_1's auc: 0.731286
[0.7294259254463246, 0.7312857834764355]
****************************** 3 ******************************
Training until validation scores don't improve for 200 rounds
[200]	training's auc: 0.750642	valid_1's auc: 0.731674
[400]	training's auc: 0.769801	valid_1's auc: 0.732319
[600]	training's auc: 0.786078	valid_1's auc: 0.732263
Early stopping, best iteration is:
[582]	training's auc: 0.784663	valid_1's auc: 0.732347
[0.7294259254463246, 0.7312857834764355, 0.7323471951456343]
****************************** 4 ******************************
Training until validation scores don't improve for 200 rounds
[200]	training's auc: 0.751853	valid_1's auc: 0.727029
[400]	training's auc: 0.770701	valid_1's auc: 0.727655
Early stopping, best iteration is:
[307]	training's auc: 0.76223	valid_1's auc: 0.72777
[0.7294259254463246, 0.7312857834764355, 0.7323471951456343, 0.7277698679698775]
****************************** 5 ******************************
Training until validation scores don't improve for 200 rounds
[200]	training's auc: 0.750566	valid_1's auc: 0.732136
[400]	training's auc: 0.7692	valid_1's auc: 0.732618
Early stopping, best iteration is:
[373]	training's auc: 0.766763	valid_1's auc: 0.732762
[0.7294259254463246, 0.7312857834764355, 0.7323471951456343, 0.7277698679698775, 0.732762205282248]
lgb_scotrainre_lsit:  [0.7294259254463246, 0.7312857834764355, 0.7323471951456343, 0.7277698679698775, 0.732762205282248]
lgb_score_mean:  0.730718195464104
lgb_score_std:  0.0018717034520938764

cat_train, cat_test = cat_model(x_train, y_train, x_test)

****************************** 1 ******************************
0:	learn: 0.3943984	test: 0.3964334	best: 0.3964334 (0)	total: 230ms	remaining: 1h 16m 42s
500:	learn: 0.3728079	test: 0.3756736	best: 0.3756736 (500)	total: 1m 12s	remaining: 46m 44s
1000:	learn: 0.3712148	test: 0.3750919	best: 0.3750911 (998)	total: 2m 28s	remaining: 46m 50s
1500:	learn: 0.3699919	test: 0.3748420	best: 0.3748420 (1500)	total: 3m 43s	remaining: 45m 58s
2000:	learn: 0.3688915	test: 0.3746858	best: 0.3746842 (1990)	total: 4m 49s	remaining: 43m 28s
2500:	learn: 0.3678739	test: 0.3745857	best: 0.3745830 (2480)	total: 5m 52s	remaining: 41m 7s
Stopped by overfitting detector  (50 iterations wait)

bestTest = 0.3745742218
bestIteration = 2598

Shrink model to first 2599 iterations.
[0.7309683524594143]
****************************** 2 ******************************
0:	learn: 0.3947297	test: 0.3950963	best: 0.3950963 (0)	total: 169ms	remaining: 56m 28s
500:	learn: 0.3731510	test: 0.3743435	best: 0.3743435 (500)	total: 1m 12s	remaining: 47m 18s
1000:	learn: 0.3715005	test: 0.3738019	best: 0.3738019 (1000)	total: 2m 20s	remaining: 44m 33s
1500:	learn: 0.3702694	test: 0.3735912	best: 0.3735912 (1500)	total: 3m 36s	remaining: 44m 23s
2000:	learn: 0.3691661	test: 0.3734402	best: 0.3734392 (1997)	total: 4m 44s	remaining: 42m 35s
2500:	learn: 0.3681716	test: 0.3733360	best: 0.3733354 (2486)	total: 5m 59s	remaining: 41m 55s
3000:	learn: 0.3672144	test: 0.3732713	best: 0.3732689 (2996)	total: 7m 17s	remaining: 41m 19s
Stopped by overfitting detector  (50 iterations wait)

bestTest = 0.3732575734
bestIteration = 3088

Shrink model to first 3089 iterations.
[0.7309683524594143, 0.7326572146779085]
****************************** 3 ******************************
0:	learn: 0.3950712	test: 0.3937140	best: 0.3937140 (0)	total: 168ms	remaining: 55m 54s
500:	learn: 0.3734495	test: 0.3730873	best: 0.3730873 (500)	total: 1m 25s	remaining: 55m 22s
1000:	learn: 0.3718337	test: 0.3724441	best: 0.3724438 (999)	total: 2m 45s	remaining: 52m 28s
1500:	learn: 0.3706096	test: 0.3721854	best: 0.3721854 (1497)	total: 4m 6s	remaining: 50m 43s
2000:	learn: 0.3695474	test: 0.3720525	best: 0.3720515 (1997)	total: 5m 21s	remaining: 48m 13s
2500:	learn: 0.3685663	test: 0.3719417	best: 0.3719415 (2494)	total: 6m 36s	remaining: 46m 11s
Stopped by overfitting detector  (50 iterations wait)

bestTest = 0.3719013034
bestIteration = 2838

Shrink model to first 2839 iterations.
[0.7309683524594143, 0.7326572146779085, 0.7340265229814408]
****************************** 4 ******************************
0:	learn: 0.3949297	test: 0.3943073	best: 0.3943073 (0)	total: 201ms	remaining: 1h 6m 58s
500:	learn: 0.3731882	test: 0.3740583	best: 0.3740583 (500)	total: 1m 24s	remaining: 54m 59s
1000:	learn: 0.3715885	test: 0.3735140	best: 0.3735129 (998)	total: 2m 37s	remaining: 49m 41s
1500:	learn: 0.3703487	test: 0.3732792	best: 0.3732792 (1500)	total: 3m 48s	remaining: 46m 56s
2000:	learn: 0.3692554	test: 0.3731344	best: 0.3731331 (1984)	total: 5m 9s	remaining: 46m 19s
Stopped by overfitting detector  (50 iterations wait)

bestTest = 0.3731228401
bestIteration = 2114

Shrink model to first 2115 iterations.
[0.7309683524594143, 0.7326572146779085, 0.7340265229814408, 0.7289299541394646]
****************************** 5 ******************************
0:	learn: 0.3948878	test: 0.3944737	best: 0.3944737 (0)	total: 338ms	remaining: 1h 52m 44s
500:	learn: 0.3733459	test: 0.3734735	best: 0.3734735 (500)	total: 1m 23s	remaining: 53m 56s
1000:	learn: 0.3716805	test: 0.3729340	best: 0.3729336 (999)	total: 2m 35s	remaining: 49m 17s
1500:	learn: 0.3704593	test: 0.3727339	best: 0.3727339 (1499)	total: 3m 53s	remaining: 47m 51s
2000:	learn: 0.3693569	test: 0.3726087	best: 0.3726087 (2000)	total: 5m 11s	remaining: 46m 42s
Stopped by overfitting detector  (50 iterations wait)

bestTest = 0.3725807976
bestIteration = 2216

Shrink model to first 2217 iterations.
[0.7309683524594143, 0.7326572146779085, 0.7340265229814408, 0.7289299541394646, 0.7336854992714498]
cat_scotrainre_lsit:  [0.7309683524594143, 0.7326572146779085, 0.7340265229814408, 0.7289299541394646, 0.7336854992714498]
cat_score_mean:  0.7320535087059357
cat_score_std:  0.001889698211194384

测试集A有缺失值，无法使用贝叶斯分类算法，暂时没有查到解决的方法。
后面再试试逻辑回归预测。

from sklearn.naive_bayes import BernoulliNB

folds = 5
seed = 2020
kf = KFold(n_splits=folds, shuffle=True, random_state=seed)

train = np.zeros(x_train.shape[0])
test = np.zeros(x_test.shape[0])

cv_scores = []

for i, (train_index, valid_index) in enumerate(kf.split(x_train, y_train)):
    print('*'*30,str(i+1),'*'*30)
    trn_x, trn_y, val_x, val_y = (x_train.iloc[train_index], y_train[train_index],
                                  x_train.iloc[valid_index], y_train[valid_index])
    ber_nb = BernoulliNB()
    ber_nb.fit(trn_x, trn_y)
    val_pred = ber_nb.predict(val_x)
    test_pred = ber_nb.predict(x_test)
    train[valid_index] = val_pred
    test = test_pred / kf.n_splits
    score = roc_auc_score(val_y, val_pred)
    print(score)
    cv_scores.append()

使用2个模型预测结果的平均数作为最终预测结果。

rh_test = lgb_test*0.5 + cat_test*0.5

# 前面删除了ID 特征，这里需要重新读取
data_testA = pd.read_csv('Dataset/testA_new.csv', usecols=['id'])

data_testA['isDefault'] = rh_test

data_testA[['id', 'isDefault']].to_csv('AfterFeatureEngineering.csv', index=False)

提交结果为：0.7325

你可能感兴趣的:(数据挖掘学习笔记)

GEO数据挖掘学习笔记二 slim_zhang
学习教程来源于《手把手教你GEO数据库差异基因分析》本次学习笔记内容为通过GEO2R在线工具进行差异基因分析通过了解，个人觉得这个方法相比R语言的优势是更普适性，以及更加“傻瓜”，方便学不明白R语言的同学。第一步：同R语言，找到相关的数据集第二步：点进页面详情，进行GEO2R在线分析第三步：选择分组信息，点击分析第四步：下载数据，得到差异基因数据集，如果仅得到差异基因即可，可不进行后续操作。第五步
数据挖掘学习笔记2-数据预处理 irony_202 数据挖掘
一、数据清洗1.数据缺失：①忽视（删除）仅占比较小（2-3%）时可用②填充——固定填充；根据经验、样本猜测2.离群点（正常）V.S.异常点离群点是相对概念（根据平均距离算）3.重复数据①使用滑动窗口，窗口内两两比较（假设：高度疑似的数据是紧挨的→生成KEY（根据相关知识），按key排序）二、数据转换1.类型转换2.标准化（编码化，需要注意非顺序类的编码化，如果默认按0、1、2编码，则暗含了距离的属
【数据挖掘学习笔记】数据挖掘中主要问题有哪些？ Shaw_tingshu #数据挖掘数据挖掘
数据挖掘是一个动态、强势快速扩展的领域。数据挖掘研究的主要问题，可划分为五组：挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。一、挖掘方法目前大牛们已经开发了一些数据挖掘方法，涉及到新的知识类型的研究、多维空间挖掘、集成其他领域的方法以及数据对象之间语义捆绑考虑。此外，数据挖掘应该考虑诸如数据的不确定性、噪声和不完全性等问题。有些数据挖掘方法探索如何使用用户指定的度量评估所
数据挖掘学习笔记之决策树阳光里哭泣的狗决策树算法数据挖掘 python 机器学习
决策树从数据中产生决策树的数据学习称为决策数学习,简称决策数.决策树是数据挖掘中最常用的一种分类和预测技术,使用其可建立分类和预测模型;它的形状如同一棵树,每个节点对于与对象的某个属性,每个分支对应这个属性的某个可能取值,每个叶节点表示经历从根节点到该叶节点这条路径上的对象的值;决策树模型(图片来自于网络)决策树算法的关键技术决策树算法中有以下三项关键技术:1.选择最能区别数据集中实例属性的方法2
数据挖掘学习笔记(1) sherrymi 学习笔记数据挖掘
数据挖掘相关概念当被存储在本地时的数据称作数据，当把数据经过加工处理，它们转变成了有用的信息。如果信息经过合理的组合能够产生价值，特别是商业价值，此时就可以称其为知识。数据挖掘的过程就是数据加工处理变成信息，最后转化为知识的过程。数据挖掘的一些主要工具：商用的MATLAB、IBMIntelligentMiner、SASEnterpriseMiner、SPSSClementine和开源工具Weka。
数据挖掘学习笔记：余弦相似性 code_carrot 数据挖掘
为何选择余弦度量相似性：定义余弦相似性(余弦相似度)：通过计算两个向量的夹角余弦值来评估他们的相似性。令x，y是两个待比较的向量，使用余弦度量作为相似性函数：其中，是向量的欧几里得范数，定义为，从概念上讲，就是向量x的长度。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的
数据挖掘学习笔记1-相关拓展学习资料 irony_202 数据挖掘数据仓库人工智能
一、数据挖掘教材：1.数据挖掘概念/技术（黑书）2.模式分类3.美丽数据（实际案例）二、国际会议：ICDMICMEICMLPCKDDACKDD三、期刊：TKDE（数据工程上的技术和知识）NNLS（神经网络和学习系统）四、公共数据集：UCI五、数据挖掘软件：weka（开源）数据挖掘前：数据预处理——数据清洗（填充、剔除无效数据）、数据类型转换、标准化数据挖掘后：数据、结论可视化：利用软件（群友推荐o
数据挖掘学习笔记——GEO数据库：芯片数据分析福旺旺生物信息学数据挖掘学习数据库
数据挖掘数据挖掘学习笔记——GEO数据库：芯片数据分析文章目录数据挖掘一、芯片基础知识1.1、背景二、GEO数据库概述2.1、基础简介2.2、检索页面展示三、GSE项目的三种下载方式3.1、主页下载原始数据3.2、主页下载表达矩阵3.3、GEOquery包下载表达量四、基因名与探针ID的转换技巧4.1、获取对照关系4.1.1、利用Bioconductor中汇总的R包4.1.2、利用平台的数据4.1
数据挖掘学习笔记（一）陨落的小白
数据挖掘体系介绍数据挖掘是什么？什么是数据挖掘，简而言之，对数据进行挖掘，从中提取出有效的信息。一般我们会把这种信息通过概念、规则、规律、模式等有组织的方式展示出来，形成所谓的知识。特别是在这个大数据时代，当数据多到一定程度，统计学原理会让一些内在的、不易察觉的规律慢慢放大、展示出来，而数据挖掘，就是希望在这种大数据背景下，以一种更加高效的方式，找到这些潜在的规律。光有数据是不够的，只有形成知识，
Python数据挖掘学习笔记（4）KNN分类算法----以简单的手写数字的图像识别为例 ZYH@Smart3S Python Python KNN 图像识别
一、相关理论：KNN算法，又叫邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依
python导入鸢尾花数据集_python数据挖掘学习笔记】十九.鸢尾花数据集可视化、线性回归、决策树花样分析... weixin_39565390 python导入鸢尾花数据集
#2018-04-0516:57:26AprilThursdaythe14week,the095daySZSSMRpython数据挖掘学习笔记】十九.鸢尾花数据集可视化、线性回归、决策树花样分析1.鸢尾花数据集可视化分析2.线性回归分析鸢尾花花瓣长度和宽度的关系3.决策树分析鸢尾花数据集4.Kmeans聚类分析鸢尾花数据集一.鸢尾花数据集介绍本章采用Python的Sklearn机器学习库中自带的数
数据挖掘学习笔记02——算法（分类、聚类、回归、关联）显然易证数据挖掘数据挖掘算法学习 python 自然语言处理
数据挖掘——算法前言分类算法KNN算法决策树朴素贝叶斯支持向量机人工神经网络实践1：使用XGB是实现酒店信息消歧聚类算法K-meansDBScan实践2：使用word2vec和k-means聚类回归算法线性回归和逻辑回归实践3：线性回归预测房价关联分析Apriori与FP-Growth前言笔记来源于系统学习以下课程：B站最完整系统的Python数据分析-数据挖掘教程，72小时带你快速入门，轻松转行
python与数据挖掘上机实验pandas_Python与数据挖掘学习笔记（1）——Pandas模块 weixin_39601657
从图书馆借了一本有关于使用Python进行数据挖掘的书，是机械工业出版社出版的由张良均写的一本书，拿来作为入门，今天在学习使用Pandas模块时耗费了比较久的时间，记录一下今天的心得和体会。书中有一道题目是基于给定的数据集，完成一系列操作：1.判断第一列中(Id)是否有缺失值，如果有的话补充完整；2.判断是否有重复记录，如果有，删除至唯一。3.计算成绩的平均值，作为新的一列加入到原始数据框中。4.
数据挖掘学习笔记 codexxs python 机器学习数据挖掘
第一章python基础1.4python基本数据类型#1.41数值类型int,float,bool#1.42字符串strs1='abcd's2='''abcd'''1.4.3列表ListL1=[1,'a1',2,'aa']#[1,'a1',2,'aa']1.4.4元组Tuple处在元组中的元素不能修改T1=(1,'a1')T1=(1,'C1','A1')#(1,'C1','A1')T1[1]=2#
数据挖掘学习笔记-第四章神经网络 weixin_30929011 人工智能
第四章神经网络NetralNetworksBiologicalMotivation例子Perceprons感知积PowerofPerceprons实现一些逻辑上的功能GradientDescent根据误差来调整权重DeltaRuleBatchLearningStochasticLearning感知积可以用来解决线性分类问题，线性分类器。不能解决线性不可分问题比如：NANDMultilayerper
数据挖掘学习笔记4-神经网络 irony_202 神经网络数据挖掘深度学习
一、感知机（单层神经网络）采用梯度下降（gradientdescend）方法进行训练，wi=wi-ηΣ（t-o）xi单层神经网络无法处理线性不可分问题（如异或）二、多层感知机（带隐含层神经网络）通过将输入映射到隐含层，将线性不可分问题化简为线性可分问题，再用线性决策平面划分，以此解决线性不可分问题。训练方法为backpropagation（反向传播），输出层的权重w由于误差已知，可简便算出wi=w
数据挖掘学习笔记8-推荐算法 irony_202 数据挖掘推荐算法机器学习
一、基于内容的推荐（根据商品内容进行推荐）二、协同推荐（根据用户的好友评价进行推荐）tf-idf：tf——termfrequency词频频率idf——inversedocumentfrequency在其他文档中出现的频率三、向量空间模型将文档转换为向量，两篇文档的相似度就可以用向量的夹角余弦表示（1的时候相似度最大，0的时候相似度最小）难点：同义词、多义词难以识别解决方法：做矩阵分解，类似pca，
数据挖掘学习笔记3-贝叶斯与决策树 irony_202 决策树数据挖掘机器学习
一、朴素贝叶斯贝叶斯的基础上增加了一个强假设：在y发生的条件下，各特征发生的概率独立（条件独立）即将联合条件概率转换为各条件概率的连乘积二、决策树特点是容易解读，用属性将样本层层分类，直到样本被完全分离或属性用完。ID3：把大信息增益（为防止将生日、身份证号这类过学习属性，增加分类数量惩罚项）的属性用在树根，递归实现决策树。为防止过学习，决策树还有修剪的过程（从树梢开始，将叶节点数量大的样本值赋给
python数据挖掘学习笔记——岭回归和lasso回归仇邇 python 数据挖掘学习
python数据挖掘学习笔记岭回归可视化方法确定λ的值交叉验证法确定λ值模型的预测lasso回归可视化处理交叉验证法确定λ模型的预测众所周知，当数据具有较强的多重共线性的时候便无法使用普通的多元线性回归，这在数学上有严谨的证明但本文并不做介绍。有关公式的推导本文均不做说明，如有需要可在论文写作时查阅参考文献。本文仅供个人学习时记录笔记使用Reference：《从零开始学Python数据分析与挖掘》
python数据挖掘学习笔记——logistic逻辑回归实现仇邇 python 逻辑回归数据挖掘学习
Logistic逻辑回归分析logistic模型的基本介绍python中实现logistic回归模型的评价混淆矩阵ROC曲线，AUC值Logistic模型是经典的用于分类问题的模型，通常用于判断一件事物的好坏或将其分类。本文着重介绍logistic模型的在二分类上的应用，对于数学的推导证明则省略，logistic模型还有很多拓展的使用，如正则化、通过惩罚项调整系数等都值得学习研究，但本文不做赘述只
数据挖掘学习笔记之K-means算法阳光里哭泣的狗算法聚类数据挖掘机器学习 python
目录K-means(K-均值算法)算法背景什么是k-means算法?K-means算法的核心目标?K-means算法工作流程K-means实例K-means总结K-means算法python实现K-means(K-均值算法)算法背景K-means聚类算法由J.B.MacQueen在1967年提出，是最为经典也是使用最为广泛的一种基于划分的聚类算法，属于基于距离的聚类算法。基于距离的聚类算法是指采用
数据挖掘学习笔记01——数据挖掘的基本流程显然易证数据挖掘数据挖掘学习 python
数据挖掘前言数据挖掘01——什么是数据挖掘，能解决什么问题数据挖掘02——Python的数据结构和基本用法数据挖掘03——工欲善其事必先利其器扩展包与Python环境数据挖掘04——数据学习网站数据挖掘05——数据挖掘的具体步骤数据挖掘06——如何处理出完整干净的数据？数据挖掘07——数据建模：该如何选择一个适合我需求的算法？数据挖掘08——数据评估：如何确认我们的模型已经达标？数据挖掘09——数
Apriori算法python实现（数据挖掘学习笔记）一个人的牛牛 Python学习 python 数据挖掘机器学习
目录1.算法伪代码2.算法代码3.测试数据4.结果1.算法伪代码输入：事务数据库D；最小支持度阈值。输出：D中的频繁项集L。方法：L1=find_frequent_1_itemsets(D);//找出频繁1-项集的集合L1for(k=2;Lk-1≠∅;k++){//产生候选，并剪枝Ck=aproiri_gen(Lk-1,min_sup);foreachtransactiont∈D{//扫描D进行候
Fp-growth算法python实现（数据挖掘学习笔记）一个人的牛牛 Python学习 python 算法
目录1.算法伪代码2.算法代码3.测试数据4.结果1.算法伪代码输入：D：事务数据库。min_sup：最小支持度阈值。输出：频繁模式的完全集。方法：1.按照以下步骤构造FP树：（a）扫描事务数据库D一次。收集频繁项的集合F和他们的支持度。对F按照支持度计数降序排序，结果为频繁项集L。（b）创建FP树的根节点，以“null”标记它。对于D中每一个事务trans，执行：选择trans中的频繁项集，并且
GEO数据挖掘学习笔记一 slim_zhang
全部流程来自：GEO数据库挖掘—生信技能树B站视频，建议去看原文！第一步：找到相关的GEO数据集（文献/搜索），以胃癌gastriccancer为例可去文献中查找，用于练习第二步：运行R包GEOquery获取数据（非常看网速，尽量下载下一点的包）library(GEOquery)eSetsymbolID/entrezID#分两步走：过滤probe_id，得到每个基因所对应的唯一的probe_id得
数据挖掘学习笔记之关联规则阳光里哭泣的狗算法机器学习数据挖掘大数据
关联规则关联规则的一般表现为蕴含式规则形式:X—>Y其中的X为前提或先导条件,Y为结果或后继关联规则与传统的用于分类的产生式规则有两点不同:1)在某条关联规则中以前提条件出现的属性可以出现在下一条关联规则的结果中2)传统的用于分类的产生式规则的结果中仅能有一个属性,而关联规则中则允许其结果包含一个或多个属性置信度和支持度(1)使用置信度来度量每个关联规则在前提条件下结果发生的可能性置信度:(2)使
数据挖掘学习笔记二 cg_Amaz1ng 数据挖掘
数据挖掘学习笔记二数据仓库中的ETLETL作用：是数据仓库获得高质量的数据的环节。解决数据分散问题。解决数据不清洁问题。方便企业各部门构筑数据集市。ETL：六个子过程数据提取（dataextract)数据验证(dataverification)数据清理(datacleaning)数据集成(dataintegration)数据聚集(dataaggregation)数据装载(dataload)**数据
数据挖掘学习笔记（三）翊小宸数据挖掘
数据分析与数据挖掘的方法1.频繁模式频繁模式：数据中频繁出现的模式。频繁项集：频繁在事务数据集中一起出现的商品集合。例如，信用卡分析、患者就诊分析、购物车分析…2.分类与回归分类与标签预测是找出描述和区分数据类或概念的模型或函数，以便能够使用模型预测类标识未知的对象的类标号。分类预测类别（离散的、无序的）标号，回归建立连续值函数模型，也就是用来预测缺失的或难以获得的数值数据值。典型方法：决策树、朴
数据挖掘学习笔记（四）翊小宸数据挖掘
第二章数据数据预处理是数据挖掘过程的第一个主要步骤，了解数据才能为分析与挖掘做好预处理。数据的属性：数据值类型数据的分布图形表示形式数据的相似性与相异性数据的属性1.数据对象数据集由数据对象组成。一个数据对象代表一个实体。例如：销售数据库：顾客、商品、销售医疗数据库：患者、医生、诊断治疗大学生数据库：学生、教授、课程数据对象又称为样本、实例、数据点、对象或元组。数据对象用属性描述。数据表的行对应数
【数据挖掘学习笔记】5.分类基础 sigmeta 数据挖掘学习笔记
一、特征与分类特征作用数据库通常存放大量的细节数据。然而，用户通常希望以简洁的描述形式观察汇总的数据集提供一类数据的概貌，或将它与对比类相区别方便、灵活地以不同的粒度和从不同的角度描述数据集概念描述方法数据泛化解析特征挖掘类比较数据泛化数据泛化是一个过程，它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层解析特征–通过属性相关性分析，过滤掉统计不相关或弱相关的属性，保留与挖掘任务最相关的属
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st