Grateful_Dead424

项目一特征衍生实战

【Kaggle】Telco Customer Churn 电信用户流失预测案例

第四部分导读

在案例的第二、三部分中，我们详细介绍了关于特征工程的各项技术，特征工程技术按照大类来分可以分为数据预处理、特征衍生、特征筛选三部分，其中特征预处理的目的是为了将数据集整理、清洗到可以建模的程度，具体技术包括缺失值处理、异常值处理、数据重编码等，是建模之前必须对数据进行的处理和操作；而特征衍生和特征筛选则更像是一类优化手段，能够帮助模型突破当前数据集建模的效果上界。并且我们在第二部分完整详细的介绍机器学习可解释性模型的训练、优化和解释方法，也就是逻辑回归和决策树模型。并且此前我们也一直以这两种算法为主，来进行各个部分的模型测试。
而第四部分，我们将开始介绍集成学习的训练和优化的实战技巧，尽管从可解释性角度来说，集成学习的可解释性并不如逻辑回归和决策树，但在大多数建模场景下，集成学习都将获得一个更好的预测结果，这也是目前效果优先的建模场景下最常使用的算法。
总的来说，本部分内容只有一个目标，那就是借助各类优化方法，抵达每个主流集成学习的效果上界。换而言之，本部分我们将围绕单模优化策略展开详细的探讨，涉及到的具体集成学习包括随机森林、XGBoost、LightGBM、和CatBoost等目前最主流的集成学习算法，而具体的优化策略则包括超参数优化器的使用、特征衍生和筛选方法的使用、单模型自融合方法的使用，这些优化方法也是截至目前，提升单模效果最前沿、最有效、同时也是最复杂的方法。其中有很多较为艰深的理论，也有很多是经验之谈，但无论如何，我们希望能够围绕当前数据集，让每个集成学习算法优化到极限。值得注意的是，在这个过程中，我们会将此前介绍的特征衍生和特征筛选视作是一种模型优化方法，衍生和筛选的效果，一律以模型的最终结果来进行评定。而围绕集成学习进行海量特征衍生和筛选，也才是特征衍生和筛选技术能发挥巨大价值的主战场。
而在抵达了单模的极限后，我们就会进入到下一阶段，也就是模型融合阶段。需要知道的是，只有单模的效果到达了极限，进一步的多模型融合、甚至多层融合，才是有意义的，才是有效果的。

Part 4.集成算法的训练与优化技巧

# 基础数据科学运算库
import numpy as np
import pandas as pd

# 可视化库
import seaborn as sns
import matplotlib.pyplot as plt

# 时间模块
import time

import warnings
warnings.filterwarnings('ignore')

# sklearn库
# 数据预处理
from sklearn import preprocessing
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import OneHotEncoder

# 实用函数
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score
from sklearn.model_selection import train_test_split

# 常用评估器
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier

# 网格搜索
from sklearn.model_selection import GridSearchCV

# 自定义评估器支持模块
from sklearn.base import BaseEstimator, TransformerMixin

# 自定义模块
from telcoFunc import *
# 导入特征衍生模块
import features_creation as fc
from features_creation import *

# re模块相关
import inspect, re

# 其他模块
from tqdm import tqdm
import gc

然后执行Part 1中的数据清洗相关工作：

# 读取数据
tcc = pd.read_csv('WA_Fn-UseC_-Telco-Customer-Churn.csv')

# 标注连续/离散字段
# 离散字段
category_cols = ['gender', 'SeniorCitizen', 'Partner', 'Dependents',
                'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 
                'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
                'PaymentMethod']

# 连续字段
numeric_cols = ['tenure', 'MonthlyCharges', 'TotalCharges']
 
# 标签
target = 'Churn'

# ID列
ID_col = 'customerID'

# 验证是否划分能完全
assert len(category_cols) + len(numeric_cols) + 2 == tcc.shape[1]

# 连续字段转化
tcc['TotalCharges']= tcc['TotalCharges'].apply(lambda x: x if x!= ' ' else np.nan).astype(float)
tcc['MonthlyCharges'] = tcc['MonthlyCharges'].astype(float)

# 缺失值填补
tcc['TotalCharges'] = tcc['TotalCharges'].fillna(0)

# 标签值手动转化 
tcc['Churn'].replace(to_replace='Yes', value=1, inplace=True)
tcc['Churn'].replace(to_replace='No',  value=0, inplace=True)

features = tcc.drop(columns=[ID_col, target]).copy()
labels = tcc['Churn'].copy()

同时，创建自然编码后的数据集以及经过时序特征衍生的数据集：

# 划分训练集和测试集
train, test = train_test_split(tcc, random_state=22)

X_train = train.drop(columns=[ID_col, target]).copy()
X_test = test.drop(columns=[ID_col, target]).copy()

y_train = train['Churn'].copy()
y_test = test['Churn'].copy()

X_train_seq = pd.DataFrame()
X_test_seq = pd.DataFrame()

# 年份衍生
X_train_seq['tenure_year'] = ((72 - X_train['tenure']) // 12) + 2014
X_test_seq['tenure_year'] = ((72 - X_test['tenure']) // 12) + 2014

# 月份衍生
X_train_seq['tenure_month'] = (72 - X_train['tenure']) % 12 + 1
X_test_seq['tenure_month'] = (72 - X_test['tenure']) % 12 + 1

# 季度衍生
X_train_seq['tenure_quarter'] = ((X_train_seq['tenure_month']-1) // 3) + 1
X_test_seq['tenure_quarter'] = ((X_test_seq['tenure_month']-1) // 3) + 1

# 独热编码
enc = preprocessing.OneHotEncoder()
enc.fit(X_train_seq)

seq_new = list(X_train_seq.columns)

# 创建带有列名称的独热编码之后的df
X_train_seq = pd.DataFrame(enc.transform(X_train_seq).toarray(), 
                           columns = cate_colName(enc, seq_new, drop=None))

X_test_seq = pd.DataFrame(enc.transform(X_test_seq).toarray(), 
                          columns = cate_colName(enc, seq_new, drop=None))

# 调整index
X_train_seq.index = X_train.index
X_test_seq.index = X_test.index

ord_enc = OrdinalEncoder()
ord_enc.fit(X_train[category_cols])

X_train_OE = pd.DataFrame(ord_enc.transform(X_train[category_cols]), columns=category_cols)
X_train_OE.index = X_train.index
X_train_OE = pd.concat([X_train_OE, X_train[numeric_cols]], axis=1)

X_test_OE = pd.DataFrame(ord_enc.transform(X_test[category_cols]), columns=category_cols)
X_test_OE.index = X_test.index
X_test_OE = pd.concat([X_test_OE, X_test[numeric_cols]], axis=1)

Ch.1 海量特征衍生与筛选

海量特征的特征筛选

在特征筛选的最后一部分，我们开始讨论关于海量特征的特征筛选方法。正如上一小节讨论的一样，建模的目的不同，相应的特征工程策略也会有所不同。而在上一小节中，我们已经详细介绍了关于小量样本情况下的特征筛选方法，而如果是追求建模的最终预测效果，则不可避免会在特征衍生环节通过批量特征衍生来创造大量特征，而此时的特征筛选，也就必然是面对海量特征来进行筛选。
当然，除了面对的特征数量不同外，效果优先的机器学习建模策略也往往会采用集成学习+模型融合的策略，因此，我们筛选出来的特征也不仅仅是为了单独模型效果服务，而是为了最终融合结果服务。而这样的特征筛选过程，也必然要综合考虑模型融合的建模要求。因此，本节开始也将补充部分模型融合的基础知识，而更多的融合理论及策略，则将在下一部分详细介绍。

特征筛选整体流程

总的来说，模型效果优先的特征衍生和特征筛选并不是割裂的，甚至和模型训练也不是割裂的，而是相互关联、相互穿插的。也就是说我们完全可以按照特征衍生-特征筛选-模型训练-根据模型效果再次进行特征衍生-再次进行特征筛选-再次模型训练等步骤来执行，而在这个过程中，我们往往可以根据下游步骤的结果来调整上游操作，例如可以根据筛选结果调整衍生策略、可以根据模型训练结果调整筛选策略等。也就是说，实际的特征工程和模型训练，并没有完美的、固定的流程，要设计一个行之有效的特征工程和模型训练的策略，还是会比较考验建模工作者的实际经验。

特征筛选过程的核心矛盾

当然，从根据这个流程，我们也不难发现，特征筛选过程的核心矛盾仍然还是效果和效率的平衡，面对海量特征，我们无法做到非常精确的评估（例如是10000个特征最好还是10001个特征最好），当然，考虑到特征衍生环节也没有最优解，因此特征筛选过程寻求这个个证数量的最优解也是毫无意义的。面对最终要执行的模型融合，如何快速的筛选出一批相对高质量的特征，才是核心需要考虑的问题。
而接下来围绕本案例的数据集进行特征工程和模型训练，则是整个案例阶段的第一次尝试。我们将根据当前数据集的实际情况来设计特征衍生、筛选和模型训练的流程，并最终借助模型融合的方法，达到一个更好的建模效果。

一、基本思路

首先需要执行的就是特征衍生相关工作，考虑到本数据集样本数量有限，为了更好的做到效果和效率之间的平衡，此处考虑采用更为稳妥的特征衍生策略，即在特征衍生阶段更加侧重衍生特征的质量而非数量，这就需要在衍生的各个阶段配合进行同步的特征筛选相关工作。

原始特征的特征筛选

在实际执行特征衍生之前，我们需要围绕原始特征进行最基础的过滤——也就是缺失值过滤和方差过滤，需要剔除那些缺失值占比极高、或者方差为0的特征。不过根据此前数据探索的结果，原始变量中并不存在这类特征，因此本环节可以直接跳过。

需要注意的是，一般来说围绕原始特征的特征筛选工作都会一定程度放宽要求，除非是非常肯定的无用特征，否则一般都会考虑保留，以最大程度保留衍生特征的可能性原始数据集的完整信息（当然，原始数据集特征非常多的情况除外）。而如果是衍生特征，则可以根据实际情况提高筛选门槛，以提高后续模型筛选和训练的效率。

时序衍生特征

由于本数据时序特征较为特殊，在此前的数据准备过程中已经手动完成了相关特征的衍生工作：

X_train_seq.head()

X_train_seq.shape
#(5282, 23)

时序衍生均为离散特征，考虑到后续将纳入这些特征进行交叉分组，因此创建一个包含所有离散特征变量名称的对象cat_all：

cat_all = (category_cols + list(X_train_seq.columns)).copy()
cat_all
# ['gender',
#  'SeniorCitizen',
#  'Partner',
#  'Dependents',
#  'PhoneService',
#  'MultipleLines',
#  'InternetService',
#  'OnlineSecurity',
#  'OnlineBackup',
#  'DeviceProtection',
#  'TechSupport',
#  'StreamingTV',
#  'StreamingMovies',
#  'Contract',
#  'PaperlessBilling',
#  'PaymentMethod',
#  'tenure_year_2014',
#  'tenure_year_2015',
#  'tenure_year_2016',
#  'tenure_year_2017',
#  'tenure_year_2018',
#  'tenure_year_2019',
#  'tenure_year_2020',
#  'tenure_month_1',
#  'tenure_month_2',
#  'tenure_month_3',
#  'tenure_month_4',
#  'tenure_month_5',
#  'tenure_month_6',
#  'tenure_month_7',
#  'tenure_month_8',
#  'tenure_month_9',
#  'tenure_month_10',
#  'tenure_month_11',
#  'tenure_month_12',
#  'tenure_quarter_1',
#  'tenure_quarter_2',
#  'tenure_quarter_3',
#  'tenure_quarter_4']

写入本地

为了方便后续单独调用某部分衍生特征，考虑将时序衍生特征写入本地：

X_train_seq.to_csv('featuresCreation/X_train_seq.csv', index=False)
X_test_seq.to_csv('featuresCreation/X_test_seq.csv', index=False)

二、交叉组合特征衍生与筛选

1.交叉组合特征衍生过程

然后来进行交叉组合特征衍生。由于交叉组合并不会衍生太多特征，因此可以考虑带入包括时序特征在内的全部离散特征，并进行两两组合：

Cross_Combination?
#Signature: Cross_Combination(colNames, X_train, X_test, multi=False, OneHot=True)
#Docstring:
#交叉组合特征衍生函数
#
#:param colNames: 参与交叉衍生的列名称
#:param X_train: 训练集特征
#:param X_test: 测试集特征
#:param multi: 是否进行多变量交叉组合
#:param OneHot: 是否进行独热编码
#
#:return：交叉衍生后的新特征和特征名称
#File:      d:\work\jupyter\telco\features_creation.py
#Type:      function
# 调整index
X_train_seq.index = X_train.index
X_test_seq.index = X_test.index

# 拼接数据集
train_temp = pd.concat([X_train, X_train_seq], axis=1)
test_temp = pd.concat([X_test, X_test_seq], axis=1)

# 带有时序特征的交叉组合      
CrossComb_train, CrossComb_test, colNames_train_new, colNames_test_new = Cross_Combination(cat_all, 
                                                                                           train_temp, 
                                                                                           test_temp)

CrossComb_train.head()

CrossComb_train.shape
#(5282, 3589)

离散特征在两两组合情况下总共衍生3589个特征。

2.交叉组合特征筛选过程

方差过滤

接下来，围绕交叉组合衍生特征进行特征筛选。这里首先可以考虑进行方差过滤。需要注意的是，交叉组合衍生的特征都是二分类离散变量，为了提高整体衍生特征质量，我们可以设置一个更高的方差阈值。这里考虑剔除少数类样本:多数类样本比例低于1:99的特征，即以0.01 * 0.99 = 0.0099为阈值，进行方差过滤：

0.01 * 0.99
#0.0099
from sklearn.feature_selection import VarianceThreshold
sel = VarianceThreshold()
sel.fit(CrossComb_train)
#VarianceThreshold()
CrossComb_cols = CrossComb_train.columns[sel.variances_ > 0.0099]
CrossComb_cols
# Index(['gender&SeniorCitizen_Female&0', 'gender&SeniorCitizen_Female&1',
#        'gender&SeniorCitizen_Male&0', 'gender&SeniorCitizen_Male&1',
#        'gender&Partner_Female&No', 'gender&Partner_Female&Yes',
#        'gender&Partner_Male&No', 'gender&Partner_Male&Yes',
#        'gender&Dependents_Female&No', 'gender&Dependents_Female&Yes',
#        ...
#        'tenure_quarter_1&tenure_quarter_4_1.0&0.0',
#        'tenure_quarter_2&tenure_quarter_3_0.0&0.0',
#        'tenure_quarter_2&tenure_quarter_3_0.0&1.0',
#        'tenure_quarter_2&tenure_quarter_3_1.0&0.0',
#        'tenure_quarter_2&tenure_quarter_4_0.0&0.0',
#        'tenure_quarter_2&tenure_quarter_4_0.0&1.0',
#        'tenure_quarter_2&tenure_quarter_4_1.0&0.0',
#        'tenure_quarter_3&tenure_quarter_4_0.0&0.0',
#        'tenure_quarter_3&tenure_quarter_4_0.0&1.0',
#        'tenure_quarter_3&tenure_quarter_4_1.0&0.0'],
#       dtype='object', length=3474)

能够发现，此处剔除了100多个特征。

卡方检验

然后继续执行基于标签关联度的特征筛选。这里我们可以同时进行卡方检验和互信息法计算，然后选择两种方法挑选出来特征的交集（若希望选取更多衍生特征，也可以考虑二者的并集）。
首先先进行卡方检验，并以0.01为阈值进行特征筛选：

from sklearn.feature_selection import chi2
CrossComb_train[CrossComb_cols].head()

chi2(CrossComb_train[CrossComb_cols], y_train)
#(array([4.70486948e+00, 5.34073272e+01, 1.26267171e+01, ...,
#        9.90547662e+01, 1.46860817e+02, 1.10886375e-03]),
# array([3.00772856e-02, 2.71083872e-13, 3.80272424e-04, ...,
#        2.45614672e-23, 8.41700181e-34, 9.73435668e-01]))
chi2_p = chi2(CrossComb_train[CrossComb_cols], y_train)[1]
chi2_CrossComb_cols = []

for pValue, colname in zip(chi2_p, CrossComb_cols):
    if pValue < 0.01:
        chi2_CrossComb_cols.append(colname)

print(len(chi2_CrossComb_cols))
#2495

最终挑选出2495个特征。

互信息法特征筛选

接下来，继续进行互信息法的特征筛选：

from sklearn.feature_selection import mutual_info_classif
MI = mutual_info_classif(CrossComb_train[CrossComb_cols], y_train, discrete_features=True, random_state=22)
MI
#array([7.68870178e-04, 5.03288801e-03, 2.09448319e-03, ...,
#       1.80071779e-02, 1.94739071e-02, 1.34373500e-07])

此处仍然可以采用众数量级后推小数点后两位的方法进行特征筛选，即设置0.1 * mean为阈值进行特征筛选：

MI.mean()
#0.010353000716212672
MI_threshold = MI.mean() * 0.1
MI_threshold
#0.0010353000716212671
MI_CrossComb_cols = []

for MIvalue, colname in zip(MI, CrossComb_cols):
    if MIvalue > MI_threshold:
        MI_CrossComb_cols.append(colname)

print(len(MI_CrossComb_cols))        
#2419

然后取方差分析和互信息法挑选出来特征的交集，可以通过如下方法实现：

set(chi2_CrossComb_cols) & set(MI_CrossComb_cols)

CrossComb_cols_select = list(set(chi2_CrossComb_cols) & set(MI_CrossComb_cols))
len(CrossComb_cols_select)
#2369

从最终结果能够看出，卡方检验和互信息法筛选出来的特征还是高度一致的，而CrossComb_cols_select也就是最终筛选出来的交叉组合衍生特征。

这里需要注意，由于上述过程涉及集合对象的创建，而集合是无序对象，因此最终输出的CrossComb_cols_select特征顺序会发生改变。

写入本地

同样，我们将上述衍生特征写入本地：

CrossComb_train[CrossComb_cols_select]

CrossComb_train[CrossComb_cols_select].to_csv('featuresCreation/X_train_CrossComb.csv', index=False)
CrossComb_test[CrossComb_cols_select].to_csv('featuresCreation/X_test_CrossComb.csv', index=False)

三、多项式特征衍生与筛选

1.多项式特征衍生过程

接下来进一步考虑多项式特征衍生。由于数据集只存在三个连续变量，可以考虑进行最高三阶多项式的、带入全部连续变量的两两组合多项式组合特征衍生：

Polynomial_Features?
# Signature: Polynomial_Features(colNames, degree, X_train, X_test, multi=False)
# Docstring:
# 多项式特征衍生函数

# :param colNames: 参与交叉衍生的列名称
# :param degree: 多项式最高阶
# :param X_train: 训练集特征
# :param X_test: 测试集特征
# :param multi: 是否进行多变量多项式组衍生

# :return：多项式衍生后的新特征和新列名称
# File:      d:\work\jupyter\telco\features_creation.py
# Type:      function
Poly_train, Poly_test, colNames_train_new, colNames_test_new = Polynomial_Features(numeric_cols, 
                                                                                   3, 
                                                                                   X_train, 
                                                                                   X_test, 
                                                                                   multi=False)

Poly_train.head()

Poly_train.shape
#(5282, 21)

多项式特征衍生总共创建21个新特征。

2.多项式衍生特征的特征筛选

方差过滤

首先是方差过滤。多项式计算过程并不会造成大量零值，因此衍生特征中也不会存在方差为0的特征：

sel = VarianceThreshold()
sel.fit(Poly_train)
#VarianceThreshold()
Poly_cols = Poly_train.columns[sel.variances_ > 0]
Poly_cols = list(Poly_cols)
Poly_cols
# ['tenure**2*MonthlyCharges**0',
#  'tenure**1*MonthlyCharges**1',
#  'tenure**0*MonthlyCharges**2',
#  'tenure**3*MonthlyCharges**0',
#  'tenure**2*MonthlyCharges**1',
#  'tenure**1*MonthlyCharges**2',
#  'tenure**0*MonthlyCharges**3',
#  'tenure**2*TotalCharges**0',
#  'tenure**1*TotalCharges**1',
#  'tenure**0*TotalCharges**2',
#  'tenure**3*TotalCharges**0',
#  'tenure**2*TotalCharges**1',
#  'tenure**1*TotalCharges**2',
#  'tenure**0*TotalCharges**3',
#  'MonthlyCharges**2*TotalCharges**0',
#  'MonthlyCharges**1*TotalCharges**1',
#  'MonthlyCharges**0*TotalCharges**2',
#  'MonthlyCharges**3*TotalCharges**0',
#  'MonthlyCharges**2*TotalCharges**1',
#  'MonthlyCharges**1*TotalCharges**2',
#  'MonthlyCharges**0*TotalCharges**3']
len(Poly_cols)
#21

方差分析

接下来继续进行基于关联度指标的特征筛选。多项式衍生特征都是连续变量，可以考虑方差分析和互信息计算，然后挑选二者选出特征的并集作为最终特征筛选结果。
首先是方差分析特征筛选过程：

from sklearn.feature_selection import f_classif
f_classif(Poly_train, y_train)
# (array([613.06960446, 245.40152491, 124.76344154, 515.91186261,
#         292.16044487, 119.32037883,  78.31501911, 613.06960446,
#         291.00481002, 172.88676712, 515.91186261, 282.94514445,
#         181.83285997, 135.86888563, 124.76344154, 118.52840666,
#         172.88676712,  78.31501911,  79.18553416, 125.32427404,
#         135.86888563]),
#  array([3.82932349e-128, 4.24721102e-054, 1.19847172e-028, 4.75460035e-109,
#         8.52211388e-064, 1.75059872e-027, 1.17981151e-018, 3.82932349e-128,
#         1.47627483e-063, 7.03410902e-039, 4.75460035e-109, 6.83637464e-062,
#         9.06241025e-041, 5.09799183e-031, 1.19847172e-028, 2.58680629e-027,
#         7.03410902e-039, 1.17981151e-018, 7.64280682e-019, 9.09338472e-029,
#         5.09799183e-031]))
f_classif_p = f_classif(Poly_train, y_train)[1]
f_classif_Poly_cols = []

for pValue, colname in zip(f_classif_p, Poly_cols):
    if pValue < 0.01:
        f_classif_Poly_cols.append(colname)

print(len(f_classif_Poly_cols))
#21

能够看出，多项式衍生的特征质量都比较高。

互信息法

接下来继续执行互信息法的计算，由于全部衍生特征都是连续变量，因此在调用mutual_info_classif计算时不用进行额外参数设置：

MI = mutual_info_classif(Poly_train[Poly_cols], y_train)
MI
# array([0.08244379, 0.06146415, 0.04667433, 0.07714242, 0.07425349,
#        0.0271758 , 0.04536536, 0.0791969 , 0.04709366, 0.04340931,
#        0.07998568, 0.07682973, 0.0618343 , 0.04272974, 0.04856117,
#        0.04318058, 0.04326713, 0.04812398, 0.0258615 , 0.03179083,
#        0.04407073])

然后同样选取mean*0.1作为阈值进行特征筛选：

MI.mean()
#0.05383117009190194
MI_threshold = MI.mean() * 0.1
MI_threshold
#0.005383117009190194
MI_Ploy_cols = []

for MIvalue, colname in zip(MI, Poly_cols):
    if MIvalue > MI_threshold:
        MI_Ploy_cols.append(colname)

print(len(MI_Ploy_cols))    
#21

筛选结果仍然是保留全部21个衍生特征。因此，结合方差过滤、方差分析的结果，最终围绕多项式衍生的特征结果是保留全部特征：

Poly_cols_select = Poly_cols
Poly_cols_select
# ['tenure**2*MonthlyCharges**0',
#  'tenure**1*MonthlyCharges**1',
#  'tenure**0*MonthlyCharges**2',
#  'tenure**3*MonthlyCharges**0',
#  'tenure**2*MonthlyCharges**1',
#  'tenure**1*MonthlyCharges**2',
#  'tenure**0*MonthlyCharges**3',
#  'tenure**2*TotalCharges**0',
#  'tenure**1*TotalCharges**1',
#  'tenure**0*TotalCharges**2',
#  'tenure**3*TotalCharges**0',
#  'tenure**2*TotalCharges**1',
#  'tenure**1*TotalCharges**2',
#  'tenure**0*TotalCharges**3',
#  'MonthlyCharges**2*TotalCharges**0',
#  'MonthlyCharges**1*TotalCharges**1',
#  'MonthlyCharges**0*TotalCharges**2',
#  'MonthlyCharges**3*TotalCharges**0',
#  'MonthlyCharges**2*TotalCharges**1',
#  'MonthlyCharges**1*TotalCharges**2',
#  'MonthlyCharges**0*TotalCharges**3']

写入本地

同样，我们将上述衍生特征写入本地：

Poly_train[Poly_cols_select]

Poly_train[Poly_cols_select].to_csv('featuresCreation/X_train_Poly.csv', index=False)
Poly_test[Poly_cols_select].to_csv('featuresCreation/X_test_Poly.csv', index=False)

四、分组统计特征衍生与筛选

1.分组统计特征衍生

接下来进行分组统计特征衍生，此处若如果带入全部离散特征进行带拓展项的分组统计特征衍生，则会创建近10万条特征。考虑到数据集本身样本数量只有五千多条，我们可以考虑借助此前探索得到的“分组衍生特征性能和KeyCol原始性能接近”的规律，提前对KeyCol进行筛选，只挑选那些表现较好的KeyCol进行分组统计特征衍生，以提高整体执行效率。

KeyCol筛选

这里围绕cat_all离散变量的筛选可以用卡方检验也可以用互信息法，这里我们采用一种组合方法，即先用卡方检验剔除显著性不到0.01的特征，再用互信息法剔除那些MI值明显小于众数的特征，然后最终取交集。具体执行流程如下：

# 拼接数据集
train_temp_OE = pd.concat([X_train_OE, X_train_seq], axis=1)
test_temp_OE = pd.concat([X_test_OE, X_test_seq], axis=1)
train_temp_OE[cat_all]

y_train
# 4067    0
# 3306    0
# 3391    0
# 3249    0
# 2674    0
#        ..
# 5478    0
# 356     0
# 4908    1
# 6276    0
# 2933    0
# Name: Churn, Length: 5282, dtype: int64
chi2(train_temp_OE[cat_all], y_train)
#(array([9.11414942e-01, 8.73653155e+01, 6.99267855e+01, 8.58416151e+01,
#        3.28337137e-03, 5.05565036e+00, 9.87028913e+00, 4.70600801e+02,
#        1.79111384e+02, 1.66587107e+02, 4.13243802e+02, 6.73755161e+00,
#        1.06279915e+01, 8.30862655e+02, 7.51550195e+01, 5.15568690e+01,
#        2.18414361e+02, 4.71022384e+01, 2.04721265e+01, 6.82195893e+00,
#        2.93245371e+00, 3.73933423e+02, 3.54011792e+00, 8.08923275e+01,
#        3.28456745e+01, 1.81976499e+00, 6.08334094e+00, 1.10199338e+01,
#        1.68886049e+00, 1.83342748e+00, 3.25740687e-02, 1.42652376e+00,
#        6.54213677e+00, 1.15481920e+01, 1.74805428e+02, 9.35057147e+01,
#        1.66365418e+01, 1.10886375e-03, 1.46860817e+02]),
# array([3.39739272e-001, 9.02188129e-021, 6.15469914e-017, 1.94940242e-020,
#        9.54305655e-001, 2.45457682e-002, 1.67969111e-003, 2.37153824e-104,
#        7.57606574e-041, 4.11736822e-038, 7.21175221e-092, 9.44041024e-003,
#        1.11388631e-003, 1.05225513e-182, 4.35169013e-018, 6.95529154e-013,
#        2.00566021e-049, 6.73786928e-012, 6.05060006e-006, 9.00437475e-003,
#        8.68154542e-002, 2.60482189e-083, 5.99012025e-002, 2.38357316e-019,
#        9.97728284e-009, 1.77341253e-001, 1.36462456e-002, 9.01372909e-004,
#        1.93751250e-001, 1.75723244e-001, 8.56773496e-001, 2.32332602e-001,
#        1.05348739e-002, 6.78151694e-004, 6.60231742e-040, 4.05029391e-022,
#        4.52703733e-005, 9.73435668e-001, 8.41700181e-034]))
chi2_p = chi2(train_temp_OE[cat_all], y_train)[1]
chi2_select_cols = []

for pValue, colname in zip(chi2_p, cat_all):
    if pValue < 0.01:
        chi2_select_cols.append(colname)

print(len(chi2_select_cols))
chi2_select_cols
# 26
# ['SeniorCitizen',
#  'Partner',
#  'Dependents',
#  'InternetService',
#  'OnlineSecurity',
#  'OnlineBackup',
#  'DeviceProtection',
#  'TechSupport',
#  'StreamingTV',
#  'StreamingMovies',
#  'Contract',
#  'PaperlessBilling',
#  'PaymentMethod',
#  'tenure_year_2014',
#  'tenure_year_2015',
#  'tenure_year_2016',
#  'tenure_year_2017',
#  'tenure_year_2019',
#  'tenure_month_1',
#  'tenure_month_2',
#  'tenure_month_5',
#  'tenure_month_11',
#  'tenure_month_12',
#  'tenure_quarter_1',
#  'tenure_quarter_2',
#  'tenure_quarter_4']

接下来继续执行互信息法特征筛选：

MI = mutual_info_classif(train_temp_OE[cat_all], y_train, discrete_features=True, random_state=22)
MI
# array([1.73090078e-04, 9.13473736e-03, 1.29159500e-02, 1.24089586e-02,
#        3.11949909e-06, 4.99279481e-04, 5.43286385e-02, 7.08580232e-02,
#        4.78061879e-02, 4.70107520e-02, 6.57416875e-02, 3.30813850e-02,
#        3.34860937e-02, 9.78731272e-02, 1.81578691e-02, 4.59939447e-02,
#        3.20973276e-02, 5.65419301e-03, 2.33501821e-03, 7.58878530e-04,
#        3.18699916e-04, 4.89210895e-02, 5.74417822e-04, 1.02552592e-02,
#        3.81369383e-03, 1.90633022e-04, 6.48159371e-04, 1.19899259e-03,
#        1.76110815e-04, 1.91702192e-04, 3.30476176e-06, 1.43599947e-04,
#        6.48822228e-04, 1.14373671e-03, 1.75928217e-02, 1.30391564e-02,
#        2.05498995e-03, 1.34373500e-07, 1.94739071e-02])

此处仍然可以采用均值*0.1作为阈值进行特征筛选：

MI_select_cols = []
MI_threshold = MI.mean() * 0.1

for MIvalue, colname in zip(MI, cat_all):
    if MIvalue > MI_threshold:
        MI_select_cols.append(colname)

print(len(MI_select_cols))        
MI_select_cols
# 23
# ['SeniorCitizen',
#  'Partner',
#  'Dependents',
#  'InternetService',
#  'OnlineSecurity',
#  'OnlineBackup',
#  'DeviceProtection',
#  'TechSupport',
#  'StreamingTV',
#  'StreamingMovies',
#  'Contract',
#  'PaperlessBilling',
#  'PaymentMethod',
#  'tenure_year_2014',
#  'tenure_year_2015',
#  'tenure_year_2016',
#  'tenure_year_2019',
#  'tenure_month_1',
#  'tenure_month_2',
#  'tenure_month_12',
#  'tenure_quarter_1',
#  'tenure_quarter_2',
#  'tenure_quarter_4']

然后取方差分析和互信息法挑选出来特征的交集：

set(chi2_select_cols) & set(MI_select_cols)
# {'Contract',
#  'Dependents',
#  'DeviceProtection',
#  'InternetService',
#  'OnlineBackup',
#  'OnlineSecurity',
#  'PaperlessBilling',
#  'Partner',
#  'PaymentMethod',
#  'SeniorCitizen',
#  'StreamingMovies',
#  'StreamingTV',
#  'TechSupport',
#  'tenure_month_1',
#  'tenure_month_12',
#  'tenure_month_2',
#  'tenure_quarter_1',
#  'tenure_quarter_2',
#  'tenure_quarter_4',
#  'tenure_year_2014',
#  'tenure_year_2015',
#  'tenure_year_2016',
#  'tenure_year_2019'}

接下来我们采用这些特征作为KeyCol来进行分组统计特征衍生：

# 创建一个未被选中离散变量的list
cat_rest = []

for col in cat_all:
    if col not in keycol:
        cat_rest.append(col)

cat_rest
# ['gender',
#  'PhoneService',
#  'MultipleLines',
#  'tenure_year_2017',
#  'tenure_year_2018',
#  'tenure_year_2020',
#  'tenure_month_3',
#  'tenure_month_4',
#  'tenure_month_5',
#  'tenure_month_6',
#  'tenure_month_7',
#  'tenure_month_8',
#  'tenure_month_9',
#  'tenure_month_10',
#  'tenure_month_11',
#  'tenure_quarter_3']

分组统计特征衍生

Group_Statistics?
# 创建容器
col_temp = keycol.copy()
GroupStat_train = pd.DataFrame()
GroupStat_test = pd.DataFrame()

for i in range(len(col_temp)):
    keyCol = col_temp.pop(i)
    features_train1, features_test1, colNames_train, colNames_test = Group_Statistics(keyCol,
                                                                                      train_temp_OE,
                                                                                      test_temp_OE,
                                                                                      col_num=numeric_cols,
                                                                                      col_cat=col_temp+cat_rest, 
                                                                                      extension=True)
    
    GroupStat_train = pd.concat([GroupStat_train, features_train1],axis=1)
    GroupStat_test = pd.concat([GroupStat_test, features_test1],axis=1)
    
    col_temp = keycol.copy()
    
GroupStat_train.head()

GroupStat_train.shape
#(5282, 16905)

分组统计特征衍生最终创建了16905个特征。

2.分组统计衍生特征的特征筛选

分组统计特征变量类型讨论

接下来，考虑围绕分组统计衍生特征进行特征筛选。这里需要注意，分组统计衍生特征从原理层面来看应该属于离散变量，这些特征取值大小本身不仅具有标记作用，而且具有数值绝对大小意义（都是统计量的计算结果）。但同时，这些特征的数值分布和KeyCol一致，也就是尽管是连续变量，但取值个数有限。例如衍生特征’tenure_month_10_DeviceProtection_mean’，是tenure_month_10在DeviceProtection分组下组内均值计算结果，均值本身数值有数值大小意义，数值越小代表组内用户10月入网占比越少，但同时tenure_month_10_DeviceProtection_mean只有三个不同的取值，且分布和DeviceProtection数值分布相同：

GroupStat_train['tenure_month_10_DeviceProtection_mean']
# 0       0.088851
# 1       0.088851
# 2       0.080142
# 3       0.069307
# 4       0.080142
#           ...   
# 5277    0.069307
# 5278    0.088851
# 5279    0.069307
# 5280    0.080142
# 5281    0.080142
# Name: tenure_month_10_DeviceProtection_mean, Length: 5282, dtype: float64
GroupStat_train['tenure_month_10_DeviceProtection_mean'].nunique()
#3
X_train_OE['DeviceProtection']
#4067    0.0
#3306    0.0
#3391    1.0
#3249    2.0
#2674    1.0
#       ... 
#5478    2.0
#356     0.0
#4908    2.0
#6276    1.0
#2933    1.0
#Name: DeviceProtection, Length: 5282, dtype: float64
X_train_OE['DeviceProtection'].nunique()
#3

同时我们也能够观察到，很多时候由于被分组统计的都是0-1离散变量，因此不同组的部分统计量（如均值）的统计结果也都是在0-1之间，并且彼此差异并不大。

方差过滤

基于分组统计衍生特征的基本情况，我们可以制定如下特征筛选策略：首先，无需进行缺失值过滤，由于我们自定义的特征衍生函数并不会创造缺失值，而原始数据集中的缺失值已经完成了填补，因此无需进行缺失值过滤；其次，对于方差过滤来说，零方差过滤是必须要执行的，但小方差过滤意义不大，即只剔除那些零方差的特征，而不剔除小方差的特征。这么做的主要原因是很多统计结果数值都较小，并且同一列的不同取值差异并不大，如上述tenure_month_10_DeviceProtection_mean，而这些特征数值较小的根本原因因为被统计的离散变量数值较小，即tenure_month_10_DeviceProtection_mean特征取值较小的原因是tenure_month_10是0-1变量，而如果把0、1这两个数值标记改为0、100（tenure_month_10是名义变量，数值没有大小意义，可以任意修改数值标记），则衍生特征tenure_month_10_DeviceProtection_mean取值也会变大。但这种数值上的变化没有任何意义，因此从这个角度来说，无需对分组统计特征进行小方差特征过滤。
接下来对分组统计衍生特征进行0方差过滤：

sel = VarianceThreshold()
sel.fit(GroupStat_train)
#VarianceThreshold()
GroupStat_cols = list(GroupStat_train.columns[sel.variances_ > 0])
len(GroupStat_cols)
#11345

能够看出，0方差过滤还是剔除了很多特征的，最终剩下11345个特征。这里我们可以进一步观察0方差过滤到底剔除了那些特征：

set(GroupStat_train.columns) - set(GroupStat_cols)

GroupStat_train['tenure_quarter_4_PaperlessBilling_median']
#0       0.0
#1       0.0
#2       0.0
#3       0.0
#4       0.0
#       ... 
#5277    0.0
#5278    0.0
#5279    0.0
#5280    0.0
#5281    0.0
#Name: tenure_quarter_4_PaperlessBilling_median, Length: 5282, dtype: float64
GroupStat_train['InternetService_PaymentMethod_max']
# 0       2.0
# 1       2.0
# 2       2.0
# 3       2.0
# 4       2.0
#        ... 
# 5277    2.0
# 5278    2.0
# 5279    2.0
# 5280    2.0
# 5281    2.0
# Name: InternetService_PaymentMethod_max, Length: 5282, dtype: float64

能够看出，大多数剔除的特征都是统计变量为离散变量时进行的数值分布规律的统计量，例如极值、四分位数等。仔细思考其实也不难理解，很多时候不同组内的离散变量取值分布较为类似，例如不同支付方式的用户都有没有购买互联网服务的情况，此时就会出现’InternetService_PaymentMethod_max’全都取值为2的情况。因此围绕分组统计衍生特征进行0方差的过滤是非常有必要的。

但这里需要注意，尽管很多离散变量不同组的极值、分位数的分组统计结果相同，但这并不代表极值、分位数等统计量不重要。恰好相反的是，正是因为很多离散变量的不同组的极值、分位数的分组统计结果相同，那些不同组内极值、分位数的分组统计结果不同的特征，往往是提升模型效果的关键。

而GroupStat_cols就是经过方差过滤后的特征名称列表。

方差分析

接下来继续考虑进行标签关联度指标特征筛选。正如此前所说，分组统计的特征本质上其实是连续变量，因此可以考虑方差分析与互信息法特征筛选。并且根据之前介绍的方差分析与互信息的基本原理可知，两种方法并不会受连续变量的绝对数值大小影响，因此可信度较高。
首先是方差分析，我们带入全部方差过滤后的GroupStat_cols进行检验：

f_classif_p = f_classif(GroupStat_train[GroupStat_cols], y_train)[1]

f_classif_GroupStat_cols = []

for pValue, colname in zip(f_classif_p, GroupStat_cols):
    if pValue < 0.01:
        f_classif_GroupStat_cols.append(colname)

print(len(f_classif_GroupStat_cols))
#11123

互信息法

接下来继续执行互信息法的计算，由于全部衍生特征都是连续变量，因此在调用mutual_info_classif计算时不用进行额外参数设置：

MI = mutual_info_classif(GroupStat_train[GroupStat_cols], y_train, random_state=22)
MI
#array([0.00454814, 0.        , 0.0120663 , ..., 0.03797375, 0.02559527,
#       0.02455003])

然后同样选取mean*0.1作为阈值进行特征筛选：

MI.mean()
#0.03027058891310412
MI_threshold = MI.mean() * 0.1
MI_threshold
#0.003027058891310412
MI_GroupStat_cols = []

for MIvalue, colname in zip(MI, GroupStat_cols):
    if MIvalue > MI_threshold:
        MI_GroupStat_cols.append(colname)

print(len(MI_GroupStat_cols))  
#10210

最后将两种方法挑选出来的特征取交集，并得到最终筛选出来的特征GroupStat_cols_select：

GroupStat_cols_select = list(set(f_classif_GroupStat_cols) & set(MI_GroupStat_cols))
len(GroupStat_cols_select)
#9988

总共有9988个特征，在整个初筛阶段，总共剔除了40%个衍生特征：

1 - 9988/16905
#0.4091688849452825

需要注意的是，尽管我们在互信息法中设置了随机数种子，但由于本身数值精度较高，因此会在小数点后6位左右存在误差，这也会导致筛选结果会存在随机性。

写入本地

同样，我们将上述衍生特征写入本地：

GroupStat_train[GroupStat_cols_select]

GroupStat_train[GroupStat_cols_select].to_csv('featuresCreation/X_train_GroupStat.csv', index=False)
GroupStat_test[GroupStat_cols_select].to_csv('featuresCreation/X_test_GroupStat.csv', index=False)

五、目标编码特征衍生与筛选

1.目标编码特征衍生过程

接下来继续进行目标编码，由于目标编码本身的计算特性，较强的KeyCol不一定能衍生出较强的特征，因此需要带入全部离散特征进行计算。此外，由于目标编码的特殊性，有效特征产出率较低，因此建议采用extension方式进行特征衍生，创建更多特征：

Target_Encode?

# 定义标签
col_cat = [target]
print(col_cat)

# 创建容器
col_temp = cat_all.copy()
TarEnc_train = pd.DataFrame()
TarEnc_test = pd.DataFrame()

for keyCol in col_temp:
    features_train1, features_test1, colNames_train_new, colNames_test_new = Target_Encode(keyCol, 
                                                                                           train_temp_OE, 
                                                                                           y_train,
                                                                                           test_temp_OE, 
                                                                                           col_cat=col_cat, 
                                                                                           extension=True)
    
    TarEnc_train = pd.concat([TarEnc_train, features_train1],axis=1)
    TarEnc_test = pd.concat([TarEnc_test, features_test1],axis=1)
    
    col_temp = cat_all.copy()
#['Churn']
TarEnc_train.head()

TarEnc_train.shape
#(5282, 702)

2.目标编码特征筛选

接下来继续进行目标编码的衍生特征的特征筛选。目标编码也是某种意义上的分组统计，因此首先需要进行零值方差过滤，然后再考虑使用标签关联度指标进行特征筛选。

方差过滤

首先是方差过滤，这里仍然采用0值方差过滤：

sel = VarianceThreshold()
sel.fit(TarEnc_train)
#VarianceThreshold()
TarEnc_cols = list(TarEnc_train.columns[sel.variances_ > 0])
len(TarEnc_cols)
#456

能够看出，在0方差过滤中被剔除的特征也大都是组内分布统计量：

set(TarEnc_train.columns) - set(TarEnc_cols)

TarEnc_train['Churn_Contract_max_kfold']
# 0       1.0
# 1       1.0
# 3       1.0
# 4       1.0
# 6       1.0
#        ... 
# 7038    1.0
# 7039    1.0
# 7040    1.0
# 7041    1.0
# 7042    1.0
# Name: Churn_Contract_max_kfold, Length: 5282, dtype: float64

方差分析

接下来进行目标编码的标签关联度特征筛选，这里需要注意的是目标编码衍生出来的特征都是间接统计出来的结果，因此从数值层面上来看，衍生特征和标签的关联度或者和标签分布的一致性都会比较若，但这并不代表这些特征在建模过程中无法提供有效信息。简而言之，目标编码的衍生特征往往在标签关联度指标上会表现较弱（这点在特征衍生的实验中也有所体现），因此在进行特征筛选时可以略微放宽条件。

换个角度来说，之所以要进行交叉统计，也是为了让衍生特征的分布和标签分布尽可能有差异，以免标签信息泄露。

f_classif_p = f_classif(TarEnc_train[TarEnc_cols], y_train)[1]
f_classif_p

能够大概看出，整体p值较高，因此这里在进行特征筛选时，可以稍微放宽显著性水平，由原来的0.01改为0.05。筛选过程如下：

f_classif_TarEnc_cols = []

for pValue, colname in zip(f_classif_p, TarEnc_cols):
    if pValue < 0.05:
        f_classif_TarEnc_cols.append(colname)

print(len(f_classif_TarEnc_cols))
#28
f_classif_TarEnc_cols
# ['Churn_cv_OnlineBackup_kfold',
#  'Churn_PaymentMethod_q2_kfold',
#  'Churn_dive1_Churn_PaymentMethod_mean_kfold',
#  'Churn_gap_PaymentMethod_kfold',
#  'Churn_tenure_year_2015_mean_kfold',
#  'Churn_tenure_year_2015_var_kfold',
#  'Churn_tenure_year_2015_count_kfold',
#  'Churn_tenure_year_2015_q2_kfold',
#  'Churn_dive1_Churn_tenure_year_2015_mean_kfold',
#  'Churn_dive2_Churn_tenure_year_2015_median_kfold',
#  'Churn_minus1_Churn_tenure_year_2015_mean_kfold',
#  'Churn_minus2_Churn_tenure_year_2015_mean_kfold',
#  'Churn_norm_tenure_year_2015_kfold',
#  'Churn_gap_tenure_year_2015_kfold',
#  'Churn_mag1_tenure_year_2015_kfold',
#  'Churn_cv_tenure_year_2015_kfold',
#  'Churn_tenure_year_2019_mean_kfold',
#  'Churn_tenure_year_2019_var_kfold',
#  'Churn_tenure_year_2019_count_kfold',
#  'Churn_tenure_year_2019_q2_kfold',
#  'Churn_dive1_Churn_tenure_year_2019_mean_kfold',
#  'Churn_dive2_Churn_tenure_year_2019_median_kfold',
#  'Churn_minus1_Churn_tenure_year_2019_mean_kfold',
#  'Churn_minus2_Churn_tenure_year_2019_mean_kfold',
#  'Churn_norm_tenure_year_2019_kfold',
#  'Churn_gap_tenure_year_2019_kfold',
#  'Churn_mag1_tenure_year_2019_kfold',
#  'Churn_cv_tenure_year_2019_kfold']

最终筛选出28个特征。

互信息法

接下来继续进行互信息法的特征筛选。这里有两点需要注意，其一是因为目标编码衍生的特征和标签关联度较弱，因此互信息计算结果整体数值较小，建议加上随机数种子以确保结果可以重复。其二则是这里也可以考虑放宽筛选条件，但由于互信息的筛选阈值是基于均值制定的，无论是否放宽筛选条件，互信息的阈值总是能一定程度确保最后筛选出来的特征数量（严重左偏除外）的，在方差分析仅筛选出了28个特征并且最终取交集的情况下，互信息无论是否放宽筛选条件，对最终的结果都不一定会有太大影响。

MI = mutual_info_classif(TarEnc_train[TarEnc_cols], y_train, random_state=22)
len(MI)
#456

然后同样选取mean*0.01作为阈值进行特征筛选：

MI.mean()
#0.0025913521951452675
MI_threshold = MI.mean() * 0.01
MI_threshold
#2.5913521951452675e-05
MI_TarEnc_cols = []

for MIvalue, colname in zip(MI, TarEnc_cols):
    if MIvalue > MI_threshold:
        MI_TarEnc_cols.append(colname)

print(len(MI_TarEnc_cols))  
#232

最后将两种方法挑选出来的特征取交集，并得到最终筛选出来的特征TarEnc_cols_select：

TarEnc_cols_select = list(set(f_classif_TarEnc_cols) & set(MI_TarEnc_cols))
len(TarEnc_cols_select)
#15
TarEnc_cols_select
# ['Churn_mag1_tenure_year_2015_kfold',
#  'Churn_gap_tenure_year_2015_kfold',
#  'Churn_tenure_year_2015_q2_kfold',
#  'Churn_minus2_Churn_tenure_year_2019_mean_kfold',
#  'Churn_norm_tenure_year_2019_kfold',
#  'Churn_tenure_year_2019_q2_kfold',
#  'Churn_dive1_Churn_PaymentMethod_mean_kfold',
#  'Churn_norm_tenure_year_2015_kfold',
#  'Churn_cv_OnlineBackup_kfold',
#  'Churn_tenure_year_2015_count_kfold',
#  'Churn_minus2_Churn_tenure_year_2015_mean_kfold',
#  'Churn_tenure_year_2015_var_kfold',
#  'Churn_PaymentMethod_q2_kfold',
#  'Churn_tenure_year_2019_mean_kfold',
#  'Churn_dive2_Churn_tenure_year_2019_median_kfold']

写入本地

同样，我们将上述衍生特征写入本地：

TarEnc_train[TarEnc_cols_select].reset_index(drop=True)

TarEnc_train[TarEnc_cols_select].reset_index(drop=True).to_csv('featuresCreation/X_train_TarEnc.csv', index=False)
TarEnc_test[TarEnc_cols_select].reset_index(drop=True).to_csv('featuresCreation/X_test_TarEnc.csv', index=False)

六、NLP特征衍生与筛选

NLP特征衍生无论是特征衍生过程还是特征筛选过程，都基本上和分组统计特征过程类似，衍生过程需要采用更强的KeyCol以增强特征衍生效果，而筛选过程则是将衍生特征视作连续变量，采用0值方差过滤、方差分析以及互信息法进行特征筛选。

1.NLP特征衍生过程

NLP特征衍生分为两部分执行，首先是围绕较强原始特征的IT-IDF特征衍生，然后是以这些较强原始特征为KeyCol来进行分组CountVectorizer和IT-IDF计算：

NLP_Group_Stat?
# 关键变量
col_temp = keycol.copy()

# 单变量if-idf计算
NLP_train, NLP_test, colNames_train_new, colNames_test_new = NLP_Group_Stat(train_temp_OE, 
                                                                            test_temp_OE, 
                                                                            col_temp)

# 以强原始特征作为keycol进行分组NLP特征衍生
for i in range(len(col_temp)):
    keyCol = col_temp.pop(i)
    features_train1, features_test1, colNames_train, colNames_test = NLP_Group_Stat(train_temp_OE, 
                                                                                    test_temp_OE, 
                                                                                    col_temp+cat_rest,
                                                                                    keyCol)
    
    NLP_train = pd.concat([NLP_train, features_train1],axis=1)
    NLP_test = pd.concat([NLP_test, features_test1],axis=1)
    
    col_temp = keycol.copy()

NLP_train.head()

NLP_train.shape
#(5282, 1771)

NLP特征衍生总共创建1771个特征。

2.NLP衍生特征的筛选过程

接下来继续进行特征筛选，同样也是方差过滤、方差分析和互信息法三部分：

方差过滤

首先是方差过滤，这里仍然采用0值方差过滤：

sel = VarianceThreshold()
sel.fit(NLP_train)
#VarianceThreshold()
NLP_cols = list(NLP_train.columns[sel.variances_ > 0])
len(NLP_cols)
#1771

能够看出，NLP衍生特征中并不存在0方差的特征，主要原因也是组内元素个数的统计和TF-IDF的计算不太可能出现完全相同的结果。

方差分析

然后进一步进行方差分析：

f_classif_p = f_classif(NLP_train[NLP_cols], y_train)[1]
f_classif_p
#array([4.53400235e-12, 4.44310685e-47, 8.16284694e-77, ...,
#       3.18557233e-20, 1.74233920e-27, 1.79119043e-52])

这里仍然选取0.01为阈值，进行特征筛选：

f_classif_NLP_cols = []

for pValue, colname in zip(f_classif_p, NLP_cols):
    if pValue < 0.01:
        f_classif_NLP_cols.append(colname)

print(len(f_classif_NLP_cols))
#1744

最终筛选出1744个特征，大部分特征都经过了方差分析的筛选。

互信息法

接下来进行互信息法特征筛选：

MI = mutual_info_classif(NLP_train[NLP_cols], y_train, random_state=22)
MI
#array([0.01609048, 0.06766434, 0.07854761, ..., 0.03468068, 0.03966413,
#       0.02046427])
len(MI)
#1771

然后同样选取mean*0.1作为阈值进行特征筛选：

MI.mean()
#0.031270008838771964
MI_threshold = MI.mean() * 0.1
MI_threshold
#0.0031270008838771967
MI_NLP_cols = []

for MIvalue, colname in zip(MI, NLP_cols):
    if MIvalue > MI_threshold:
        MI_NLP_cols.append(colname)

print(len(MI_NLP_cols))    
#1603

互信息法挑选出1603个特征。最后将两种方法挑选出来的特征取交集，并得到最终筛选出来的特征NLP_cols_select：

NLP_cols_select = list(set(f_classif_NLP_cols) & set(MI_NLP_cols))
len(NLP_cols_select)
#1576

最终筛选出1576个特征。而至此，我们也完成了全部特征衍生及初步特征筛选工作。

写入本地

同样，我们将上述衍生特征写入本地：

NLP_train[NLP_cols_select]

NLP_train[NLP_cols_select].to_csv('featuresCreation/X_train_NLP.csv', index=False)
NLP_test[NLP_cols_select].to_csv('featuresCreation/X_test_NLP.csv', index=False)

七、关于平衡效率与效果的相关讨论

需要注意的是，关于上述特征衍生与特征筛选的流程，并不是完全固定的，也并不一定是唯一最优的策略，总体来看仍然是希望能够在保证效率的情况下，尽可能创建更好的结果，也就是做到效果和效率的平衡。

上行拓展

当然，如果算力足够，也可以在每个阶段进行更大规模的特征衍生，如多变量交叉组合、三阶多项式、双变量交叉组合分组衍生等等，同时也完全可以在特征初筛阶段放宽筛选要求，例如都以p值0.05作为阈值进行筛选、或者选择互信息的均值作为阈值进行筛选等。当然，这样一来，特征筛选的压力就会转移到下个阶段、也就是带入模型进行特征筛选的阶段。这样一来或许能创建更多更好的特征，但也将极大的增加算力的消耗。

下行拓展

另一方面，如果算力紧张，也可以略微精简上述流程，例如只针对效果最好的连续变量进行多项式衍生、提高分组统计特征衍生KeyCol的筛选标准等等；而在特征筛选阶段，也可以稍微提高特征筛选阈值，以减少下个阶段模型筛选的算力压力。当然，代价就是可能会损失一些对建模有帮助的高价值特征。
不过就目前数据集的数据量规模来看，当前的特征衍生和特征筛选流程是能够较好的兼顾到效果和效率。上述全部代码运行耗时差不多在10分钟内，没有必要再精简流程。

八、衍生特征读取过程

如果是从本部分开始运行代码，则可以通过如下过程进行衍生特征读取与全数据拼接。

衍生特征读取

X_train_seq = pd.read_csv('featuresCreation/X_train_seq.csv')
X_train_CrossComb = pd.read_csv('featuresCreation/X_train_CrossComb.csv')
X_train_Poly = pd.read_csv('featuresCreation/X_train_Poly.csv')
X_train_GroupStat = pd.read_csv('featuresCreation/X_train_GroupStat.csv')
X_train_TarEnc = pd.read_csv('featuresCreation/X_train_TarEnc.csv')
X_train_NLP = pd.read_csv('featuresCreation/X_train_NLP.csv')
X_test_seq = pd.read_csv('featuresCreation/X_test_seq.csv')
X_test_CrossComb = pd.read_csv('featuresCreation/X_test_CrossComb.csv')
X_test_Poly = pd.read_csv('featuresCreation/X_test_Poly.csv')
X_test_GroupStat = pd.read_csv('featuresCreation/X_test_GroupStat.csv')
X_test_TarEnc = pd.read_csv('featuresCreation/X_test_TarEnc.csv')
X_test_NLP = pd.read_csv('featuresCreation/X_test_NLP.csv')

数据集拼接

features_train_new = pd.concat([X_train_seq, 
                                X_train_CrossComb, 
                                X_train_Poly, 
                                X_train_GroupStat, 
                                X_train_TarEnc, 
                                X_train_NLP], axis=1)
features_test_new = pd.concat([X_test_seq, 
                               X_test_CrossComb, 
                               X_test_Poly, 
                               X_test_GroupStat, 
                               X_test_TarEnc, 
                               X_test_NLP], axis=1)
features_train_new.shape
#(5282, 13992)
features_test_new.shape
#(1761, 13992)
assert features_train_new.shape[1] == (X_train_seq.shape[1] + 
                                       X_train_CrossComb.shape[1] + 
                                       X_train_Poly.shape[1] + 
                                       X_train_GroupStat.shape[1] + 
                                       X_train_TarEnc.shape[1] + 
                                       X_train_NLP.shape[1])
assert features_test_new.shape[1] == (X_test_seq.shape[1] + 
                                      X_test_CrossComb.shape[1] + 
                                      X_test_Poly.shape[1] + 
                                      X_test_GroupStat.shape[1] + 
                                      X_test_TarEnc.shape[1] + 
                                      X_test_NLP.shape[1])
features_train_new.head()

写入完整的衍生特征数据集

features_train_new.to_csv('featuresCreation/features_train_new.csv', index=False)
features_test_new.to_csv('featuresCreation/features_test_new.csv', index=False)

后续的各项建模工作将统一上述数据集作为衍生数据集。

你可能感兴趣的:(机器学习,人工智能,数据挖掘,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

项目一 特征衍生实战

【Kaggle】Telco Customer Churn 电信用户流失预测案例

第四部分导读

Part 4.集成算法的训练与优化技巧

Ch.1 海量特征衍生与筛选

一、基本思路

二、交叉组合特征衍生与筛选

1.交叉组合特征衍生过程

2.交叉组合特征筛选过程

三、多项式特征衍生与筛选

1.多项式特征衍生过程

2.多项式衍生特征的特征筛选

四、分组统计特征衍生与筛选

1.分组统计特征衍生

2.分组统计衍生特征的特征筛选

五、目标编码特征衍生与筛选

1.目标编码特征衍生过程

2.目标编码特征筛选

六、NLP特征衍生与筛选

1.NLP特征衍生过程

2.NLP衍生特征的筛选过程

七、关于平衡效率与效果的相关讨论

八、衍生特征读取过程

你可能感兴趣的:(机器学习,人工智能,数据挖掘,机器学习)

项目一特征衍生实战