PatrikYip

阿里天池学习赛-金融风控-贷款违约预测

1 赛题理解
- 1.1 赛题数据
- 1.2 评测标准
2 探索性分析（EDA）
- 2.1 初窥数据
- 2.2 查看缺失值占比
- 2.3 数值型变量
- - 2.3.1 数据分布
  - 2.3.2 变量关系
- 2.4 离散变量
- - 2.4.1 数据分布
- 2.5 正负样本的数据差异
3 特征工程
- 3.1 数据预处理
- - 3.1.1 缺失值处理
  - 3.1.2 时间格式处理
  - 3.1.3 对象类型特征转换到数值
- 3.2 异常值处理
- 3.3 数据分箱
- 3.4 数据编码
- 3.5 特征衍生
- 3.5 特征筛选
4 建模及调参
- 4.1 Baseline
- 4.2 调参
- - 4.2.1 max_depth
  - 4.2.2min_child_weight
  - 4.2.3 subsample
- 4.3 更新模型
- 4.4 预测结果并提交
5 模型融合
- 5.1 stacking\blending详解
- 5.1 stacking 代码

1 赛题理解

项目地址：
https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl

比赛地址：
https://tianchi.aliyun.com/competition/entrance/531830/introduction

1.1 赛题数据

赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

字段如下：

Field	Description
id 为贷款清单分配的唯一信用证标识
loanAmnt	贷款金额
term	贷款期限（year）
interestRate	贷款利率
installment	分期付款金额
grade	贷款等级
subGrade	贷款等级之子级
employmentTitle	就业职称
employmentLength	就业年限（年）
homeOwnership	借款人在登记时提供的房屋所有权状况
annualIncome	年收入
verificationStatus	验证状态
issueDate	贷款发放的月份
purpose	借款人在贷款申请时的贷款用途类别
postCode	借款人在贷款申请中提供的邮政编码的前3位数字
regionCode	地区编码
dti	债务收入比
delinquency_2years	借款人过去2年信用档案中逾期30天以上的违约事件数
ficoRangeLow	借款人在贷款发放时的fico所属的下限范围
ficoRangeHigh	借款人在贷款发放时的fico所属的上限范围
openAcc	借款人信用档案中未结信用额度的数量
pubRec	贬损公共记录的数量
pubRecBankruptcies	公开记录清除的数量
revolBal	信贷周转余额合计
revolUtil	循环额度利用率，或借款人使用的相对于所有可用循环信贷的信贷金额
totalAcc	借款人信用档案中当前的信用额度总数
initialListStatus	贷款的初始列表状态
applicationType	表明贷款是个人申请还是与两个共同借款人的联合申请
earliesCreditLine	借款人最早报告的信用额度开立的月份
title	借款人提供的贷款名称
policyCode	公开可用的策略_代码=1新产品不公开可用的策略_代码=2
n系列匿名特征	匿名特征n0-n14，为一些贷款人行为计数特征的处理

1.2 评测标准

提交结果为每个测试样本是1的概率，也就是y为1的概率。评价方法为AUC评估模型效果

2 探索性分析（EDA）

探索性分析可以让我们更好了解数据以及数据之间的关系，让我们在数据清洗和建模的时候能够更加顺利。

2.1 初窥数据

首先导入数据并且大致看一下数据

test = pd.read_csv("./testA.csv")
train = pd.read_csv("./train.csv")
train.drop("id", axis= 1,inplace = True)
train.head()
train.info(verbose = True)
train.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800000 entries, 0 to 799999
Data columns (total 46 columns):
loanAmnt              800000 non-null float64
term                  800000 non-null int64
interestRate          800000 non-null float64
installment           800000 non-null float64
grade                 800000 non-null object
subGrade              800000 non-null object
employmentTitle       799999 non-null float64
employmentLength      753201 non-null object
homeOwnership         800000 non-null int64
annualIncome          800000 non-null float64
verificationStatus    800000 non-null int64
issueDate             800000 non-null object
isDefault             800000 non-null int64
purpose               800000 non-null int64
postCode              799999 non-null float64
regionCode            800000 non-null int64
dti                   799761 non-null float64
delinquency_2years    800000 non-null float64
ficoRangeLow          800000 non-null float64
ficoRangeHigh         800000 non-null float64
openAcc               800000 non-null float64
pubRec                800000 non-null float64
pubRecBankruptcies    799595 non-null float64
revolBal              800000 non-null float64
revolUtil             799469 non-null float64
totalAcc              800000 non-null float64
initialListStatus     800000 non-null int64
applicationType       800000 non-null int64
earliesCreditLine     800000 non-null object
title                 799999 non-null float64
policyCode            800000 non-null float64
n0                    759730 non-null float64
n1                    759730 non-null float64
n2                    759730 non-null float64
n2.1                  759730 non-null float64
n4                    766761 non-null float64
n5                    759730 non-null float64
n6                    759730 non-null float64
n7                    759730 non-null float64
n8                    759729 non-null float64
n9                    759730 non-null float64
n10                   766761 non-null float64
n11                   730248 non-null float64
n12                   759730 non-null float64
n13                   759730 non-null float64
n14                   759730 non-null float64
dtypes: float64(33), int64(8), object(5)
memory usage: 280.8+ MB

发现数据的类型主要既有数值型也有分类变量，并且有不少变量中存在缺失值。

#正负样本
plt.hist(train['isDefault'])
plt.title("positive vs negative")
plt.show()

可以看到负样本比正样本多很多，这也是金融风控模型评估的中常见的现象，毕竟大多数的人还是不会拖欠贷款的。

2.2 查看缺失值占比

#缺失值占比
missing_val = train.isnull().sum()/train.shape[0]
missing_val[missing_val >0].sort_values().plot.bar()

缺失值最多的变量是n11，大概占9%，但是还不算特别多，因此这个变量还是可以保留的
一般缺失值的办法有很多，如果缺失值很多的话可以选择删除变量，否则可以根据适当的方法进行填充，一般有平均值填充法，众数填充或者随机森林填充等，可以根据具体情况选择。

2.3 数值型变量

稍微深入查看数值型变量

2.3.1 数据分布

numerical_cols = []
for col in train.columns:
    if train[col].dtype != object:
        numerical_cols.append(col)  #数值列
numerical_cols.remove("isDefault")
f,ax = plt.subplots(len(numerical_cols)//4,4,figsize = (15,60))
for i, col in enumerate(numerical_cols):
    sns.distplot(train[col], ax = ax[i//4,i%4])

这里可以看出几点：

大部分数据呈现出右偏趋势，说明数据较大的可能是异常值
policyCode 只有一个取值，因此这个变量对于预测不会起到任何作用，可以删除；initialListstatus是一个二分类变量；n2 和n2.1有非常相似的分布，可能是重复列

2.3.2 变量关系

用热力图查看各变量之间的关系，比较值观

f, ax = plt.subplots(1,1, figsize = (20,20))
cor = train[numerical_cols].corr()
sns.heatmap(cor, annot = True, linewidth = 0.2, linecolor = "white", ax = ax, fmt =".1g" )

从这个图中能看到有一些变量有很强的相关性：

loanAmnt 和installment 相关性为1，这两个变量一个是贷款总额，一个是分期付款金额，因此这两者是会有很强的想关性
ficoRangeLow he ficoRangeHigh 相关性为1，这两个是fico的上下限，因此也肯定有很强的相关性
n2和n2.1也有强相关性，根据之前的分布图来看，这两列基本可以确定是重复列，可以删除其中一列
n1 n2 n4 n5 n7 n9 n10正相关关系较强
installment(Y) 和 loanAmnt (X)的关系图

plt.scatter(train['loanAmnt'],train['installment'])

ficoRangeLow he ficoRangeHigh 关系图

 plt.scatter(train['ficoRangeLow'],train['ficoRangeHigh'])

这两个变量就是线性关系，因此也可以删除其中一个

2.4 离散变量

离散变量数不能直接用来建模的，必须通过一定的处理变成数值之后再放进模型，方法有很多。可以直接映射，也有one-hot Encoding, Target Encoding等编码方式。在风控模型中还会常用到分箱的方法赋值。

2.4.1 数据分布

Grade

train['grade'].value_counts().sort_index().plot.bar()

可以直接映射转化

subGrade

train['subGrade'].value_counts().sort_index().plot.bar(figsize=(15,5))

还是可以考虑映射，或者分箱

issueDate
日期变量，贷款发放时间，转换为离数据集最早的发放时间的天数差

def transform_issueDate(df):
    df['issueDate'] = pd.to_datetime(df['issueDate'],format='%Y-%m-%d')
    startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
    df['issueDateDT'] = df['issueDate'].apply(lambda x: x-startdate).dt.days
    return df
train = transform_issueDate(train)
test = transform_issueDate(test)
plt.hist(train['issueDateDT'],label = "train")
plt.hist(test['issueDateDT'], label = "test")

earliesCreditLine_Year
贷款人最早报告的信用额度的时间
转化为在距离2020的年数

def transform_earliesCreditLine(df):
    df['earliesCreditLine_Year'] = df['earliesCreditLine'].apply(lambda x: 2020-int(x[-4:]))
    return df
train =  transform_earliesCreditLine(train)
test =  transform_earliesCreditLine(test)
plt.hist(train['earliesCreditLine_Year'],label = "train")
plt.hist(test['earliesCreditLine_Year'],label = "test")

2.5 正负样本的数据差异

把数据集按正负样本分成两份，查看变量的分布差异

train_positve = train[train['isDefault'] == 1]
train_negative = train[train['isDefault'] != 1]
f, ax = plt.subplots(len(numerical_cols),2,figsize = (10,80))
for i,col in enumerate(numerical_cols):
    sns.distplot(train_positve[col],ax = ax[i,0],color = "blue")
    ax[i,0].set_title("positive")
    sns.distplot(train_negative[col],ax = ax[i,1],color = 'red')
    ax[i,1].set_title("negative")
plt.subplots_adjust(hspace = 1)

总体的分布差异不大，revolUtil的差别较大

3 特征工程

特征筛选是机器学习里面比较重要的一个环节，特征工程大致包括以下步骤：

数据预处理
异常值处理
数据分箱
特征衍生
数据编码
特征选择

3.1 数据预处理

数据预处理大致包括以下三个方面：

缺失值处理
时间格式处理
对象类型特征转换到数值

3.1.1 缺失值处理

在上一步我们查看了缺失值，有不少变量中存在缺失值，并且可以看到n10和n4缺失值的数量是一样的，除了n10，n4和n11之外的其他匿名变量的缺失值数量也是一样的，所以很有可能这些缺失值在这些变量中同时缺失
以下验证我们的猜想

is_null_index = train['n10'].isnull()
for col in train.columns:
    if train[col][is_null_index].notnull().sum() == 0:
        print(col)
        
n0
n1
n2
n2.1
n4
n5
n6
n7
n8
n9
n10
n11
n12
n13
n14

is_null_index = train['n1'].isnull()
for col in train.columns:
    if train[col][is_null_index].notnull().sum() == 0:
        print(col)
        
n0
n1
n2
n5
n6
n7
n8
n9
n11
n12
n13
n14

以上结果可以看出，n10缺失的行，其他匿名变量也全部缺失；n1缺失的行，除了n10和n4也全部缺失。因此推测这些匿名变量是有一定关联性的：

n10缺失，则匿名变量均缺失；
n1缺失，则除n10和n4以外的所有匿名变量均缺失；

这样看来匿名变量的缺失不应该填充，应该当作一个值丢进模型。
EmploymentLength这个变量的缺失值也比较多

3.1.2 时间格式处理

这个数据集一共有两个时间变量，在EDA的时候已经顺便处理了

3.1.3 对象类型特征转换到数值

对象类型特征有“grade",“subGrade” 和 ”employmentLength“

"grade"和”subGrade“都是表示贷款等级的特征，因此应该是有一定的顺序的，比如A>B，A1>A2之类，因此可以直接映射成数值，这种方法和Label Encoding 是一样的。

for colname in ['grade',"subGrade"]
    unique_num = train.append(test)[colnamee].nunique()
    unuque_val = sorted(train.append(test)[colname].unique())
    for data in [train,test]:
        map_dict = {
     x:y for x,y in zip(unuque_val,range(unique_num))}
        data[colname] = data[colname].map(map_dict)

“employmentLength”

train['employmentLength'].unique()

array(['2 years', '5 years', '8 years', '10+ years', nan, '7 years',
       '9 years', '1 year', '3 years', '< 1 year', '4 years', '6 years'],
      dtype=object)

把数字后面的years去掉并且把10+改成10，<1改成0

for data in [train,test]:
    data['employmentLength'].replace("< 1 year", "0 year", inplace=True)
    data['employmentLength'].replace("10+ years", "10 years", inplace=True)
    data['employmentLength'] = data['employmentLength'].apply(lambda x: int(str(x).split()[0]) if pd.notnull(x) else x)

3.2 异常值处理

异常值的存在很可能会影响模型的最终结果，但是当我们发现异常值的时候也不能马上就删除，应该先看看这个异常值是不是有特殊原因造成的，特别是在金融风控问题中，异常值的出现往往是存在意义的。

此处打算先不作异常值处理，二十

3.3 数据分箱

L特征分箱的目的：
从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定。
数据分桶的对象：
- 将连续变量离散化
- 将多状态的离散变量合并成少状态
分箱的原因：
数据的特征内的值跨度可能比较大，对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响，其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱，然后使用量化后的结果。
分箱的优点：
- 处理缺失值：当数据源可能存在缺失值，此时可以把null单独作为一个分箱。
- 处理异常值：当数据中存在离群点时，可以把其通过分箱离散化处理，从而提高变量的鲁棒性（抗干扰能力）。例如，age若出现200这种异常值，可分入“age > 60”这个分箱里，排除影响。
- 业务解释性：我们习惯于线性判断变量的作用，当x越来越大，y就越来越大。但实际x与y之间经常存在着非线性关系，此时可经过WOE变换。
特别要注意一下分箱的基本原则：

（1）最小分箱占比不低于5%
（2）箱内不能全部是好客户
（3）连续箱单调

python暂时没找到卡方分箱的包，按照自己的理解手写了一个

import numpy as np
class ChiMerge():
    def __init__(self,df,col_name,target):
        self.num_bins = df[col_name].nunique() 
        self.sorted_df = df.sort_values(by = col_name)[[target,col_name]]
        self.target = target
        self.unique_val =  np.sort(df[col_name].unique())
        self.col_name = col_name
        self.reverse = 1
        self.shape = df.shape[0]
        
    def check_max_and_min_bin(self,to_merge_df):
        max_bin = to_merge_df[self.col_name].value_counts().values[0]
        
        min_bin = to_merge_df[self.col_name].value_counts().values[-1]

        return max_bin/self.shape, min_bin/self.shape   
    
    def cal_Chi2(self,bin1,bin2, epsilon = 1e-8):
        #计算单个两个箱体的卡方值，加入epsilon为了防止除0错误
        
        bins = bin1.append(bin2)
        total = bins.shape[0]
        positive_rate = bins[self.target].sum()/total
        negative_rate = 1- positive_rate
        
        chi2_val = (bin1[self.target].sum() - positive_rate * bin1.shape[0])**2/(positive_rate * bin1.shape[0] + epsilon) +\
        (bin2[self.target].sum() - positive_rate * bin2.shape[0])**2/(positive_rate * bin2.shape[0] +epsilon) +\
        (bin1.shape[0] - bin1[self.target].sum() - negative_rate * bin1.shape[0])**2/(negative_rate * bin1.shape[0] + epsilon)+\
        (bin2.shape[0] - bin2[self.target].sum() - negative_rate * bin2.shape[0])**2/(negative_rate * bin2.shape[0] + epsilon)
        
        return chi2_val
    
    def calculate_every_Chi2(self):
        
        chi2_list = []
        if self.reverse ==1:
            # 如果数值较多的时候可能会出现很多卡方为0的箱，为了减少次数，两头循坏，避免全列表遍历
            # 水平较低，想暂时使用这个方法减少分箱时间
            for i in range(self.num_bins - 1):
                chi2  = self.cal_Chi2(self.sorted_df[self.sorted_df[self.col_name]==self.unique_val[i]],self.sorted_df[self.sorted_df[self.col_name]==self.unique_val[i+1]])
                chi2_list.append(chi2)
                if chi2 ==0:
                    break
        else:
            for i in range(self.num_bins - 1,0,self.reverse):
                chi2  = self.cal_Chi2(self.sorted_df[self.sorted_df[self.col_name]==self.unique_val[i]],self.sorted_df[self.sorted_df[self.col_name]==self.unique_val[i+1]])
                chi2_list.append(chi2)
                if chi2 ==0:
                    break
                    
            
        self.reverse = self.reverse * (-1)
        
        return chi2_list
    

    def chi2Merge(self,chi2_val):

        max_bin,min_bin = self.check_max_and_min_bin(self.sorted_df)
        
        if max_bin>0.95:
            print("The max bin has more than 95% of samples")
            return self.sorted_df
        # 先初次判断，如果初始数据已经有箱体过大的情况，无法分箱
            
        chi2_list = [0]
        while self.num_bins > 5 and min(chi2_list) < chi2_val: 
            
            remove_flag = True
            chi2_list = self.calculate_every_Chi2()
            unique_val = self.unique_val
            
            while remove_flag:
                to_merge = np.argmin(chi2_list)
                to_merge_df = self.sorted_df
                to_merge_df[self.col_name][to_merge_df[self.col_name] == unique_val[to_merge]] = unique_val[to_merge + 1]
                max_bin,min_bin = self.check_max_and_min_bin(to_merge_df)
                if max_bin > 0.95:
                    chi2_list.pop(to_merge)
                    unique_val.pop(to_merge)
                else:
                    remove_flag = False
                    self.unique_val = unique_val
                    
            self.sorted_df[self.col_name][self.sorted_df[self.col_name] == self.unique_val[to_merge]] = self.unique_val[to_merge + 1]
            self.unique_val =  np.sort(self.sorted_df[self.col_name].unique())
            self.num_bins -=1
            if self.num_bins%1000 == 0:
                print(self.num_bins)
        _,min_bin = self.check_max_and_min_bin(self.sorted_df)
        if min_bin < 0.05:
            print("too small bin")

在初始值较多的特征上使用的话速度比较慢，而且分箱结果不太好，打算之后再尝试改进或者使用其他方法。

3.4 数据编码

编码就是把一些离散的变量变成能够表示特征间关系的的数值放入模型，常用的方法有:

Label Encoding
即类似{A=1,B=2}的映射
One-Hot Encoding
生成稀疏矩阵，比如有A,B,C三类，分别表示为[0,0,1] [0,1,0]和 [1,0,0]
Target Encoding
把target的均值赋给变量，比如：

target	feature
1	A
1	A
1	A
0	A
1	B
1	B
0	B
0	B

取值为A时，有三个target是1，一个是0，因此A = 3/4=0.75
同理 B= 2/4 = 0.5
这个方法的缺点是容易过拟合，因此一般会使用交叉验证或者添加噪音的方式去编码，我们这里的编码使用target encoding

class KFoldTargetEncoderTrain(base.BaseEstimator, base.TransformerMixin):

    def __init__(self, colnames,targetName,n_fold=5,verbosity=True,discardOriginal_col=False):

        self.colnames = colnames
        self.targetName = targetName
        self.n_fold = n_fold
        self.verbosity = verbosity
        self.discardOriginal_col = discardOriginal_col

    def fit(self, X, y=None):
        return self


    def transform(self,X):

        assert(type(self.targetName) == str)
        assert(type(self.colnames) == str)
        assert(self.colnames in X.columns)
        assert(self.targetName in X.columns)

        mean_of_target = X[self.targetName].mean()
        kf = KFold(n_splits = self.n_fold, shuffle = False)



        col_mean_name = self.colnames + '_' + 'Kfold_Target_Enc'
        X[col_mean_name] = np.nan

        for tr_ind, val_ind in kf.split(X):
            X_tr, X_val = X.iloc[tr_ind], X.iloc[val_ind]
#             print(tr_ind,val_ind)
            X.loc[X.index[val_ind], col_mean_name] = X_val[self.colnames].map(X_tr.groupby(self.colnames)[self.targetName].mean())

        X[col_mean_name].fillna(mean_of_target, inplace = True)

        if self.verbosity:

            encoded_feature = X[col_mean_name].values
            print('Correlation between the new feature, {} and, {} is {}.'.format(col_mean_name,
                                                                                      self.targetName,
                                                                                      np.corrcoef(X[self.targetName].values, encoded_feature)[0][1]))
        if self.discardOriginal_col:
            X = X.drop(self.colnames, axis=1)
            
        return X
    
class KFoldTargetEncoderTest(base.BaseEstimator, base.TransformerMixin):
    
    def __init__(self,train,colNames,encodedName):
        
        self.train = train
        self.colNames = colNames
        self.encodedName = encodedName
        
        
    def fit(self, X, y=None):
        return self

    def transform(self,X):


        mean = self.train[[self.colNames,self.encodedName]].groupby(self.colNames).mean().reset_index() 
        
        dd = {
     }
        for index, row in mean.iterrows():
            dd[row[self.colNames]] = row[self.encodedName]

        
        X[self.encodedName] = X[self.colNames]
        X = X.replace({
     self.encodedName: dd})

        return X

对’purpose’,“verificationStatus”, “regionCode”,“grade”,"subGrade"五个变量进行target encoding

for colname in ['purpose',"verificationStatus", "regionCode"，"grade"，"subGrade"]:
    targetc = KFoldTargetEncoderTrain(colname,'isDefault',n_fold=5)
    train = targetc.fit_transform(train)
    test_targetc  = KFoldTargetEncoderTest(train,colname,colname + '_' + 'Kfold_Target_Enc')
    test = test_targetc.fit_transform(test)

3.5 特征衍生

3.11 里提到了匿名变量里缺失值可能是某种原因造成的，分成以下三类缺失查看正负样本比

只有n11缺失
除了n4和n10之外都缺失
全部缺失
无缺失

for data in [train,test]:
    data['extra_col1'] = 3
    data['extra_col1'].loc[data['n10'].isnull()] = 1
    data['extra_col1'].loc[data['n1'].isnull() & data['n10'].notnull()] = 2
    data['extra_col1'].loc[data['n11'].isnull() & data['n1'].notnull()] = 4
 for i in range(1,5):
    print(train[train['extra_col1']==i]['isDefault'].sum()/train[train['extra_col1']==i]['isDefault'].count())

0.14362646288997863
0.17678850803584129
0.19927476692849552
0.27382809850078016

以上说明缺失值的程度似乎对正负样本的比例有影响，因此我们可以衍生一个这样的变量尽管他的关系不一定是线性的(后续可以进行Target Encoding)。

LA_ration (loanAmnt / annualIncome)

3.5 特征筛选

特征筛选目的是在不牺牲模型效果的情况下减少模型和训练时间，由于此处数据集并不算特别大，暂时先不做特征筛选，如果后面有需要再回来补充这一步骤。

4 建模及调参

之前做了这么多准备工作，最后的目的还是为了输出结果，这一步我们可以开始建立模型，并且根据评价指标不断优化模型

这次建模打算先用机器学习建模神器Xgboost，使用的是sklearn的接口，先导入可能会用到的包

from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split,KFold
from sklearn.metrics import auc, roc_curve
from xgboost import plot_importance
from sklearn.metrics import auc, roc_curve
from sklearn.model_selection import GridSearchCV,RandomizedSearchCV

4.1 Baseline

target = train['isDefault']
train_X = train.drop("isDefault", axis=1)
#切分训练和检验集
X_train,X_test,y_train,y_test = train_test_split(train_X, target,test_size = 0.2, random_state = 0)

随手设置一些参数：

def XGB():
    model =  XGBClassifier(learning_rate=0.1,
                              n_estimators=600,             
                              max_depth=5,                
                              min_child_weight=5,      
                              gamma=1,                 
                              subsample=0.8,        
                              random_state=27,              
                              verbosity= 1,                   
                              nthread=-1
                          )
    return model

具体的xgboost 参数设置可以参考官网

%%time
model = XGB()
model.fit(X_train, y_train, eval_set = [(X_train,y_train),(X_test,y_test)],eval_metric="auc")
result = model.evals_result()


pre = model.predict_proba(X_train)[:,1]
fpr, tpr, thresholds = roc_curve(y_train, pre)
score = auc(fpr, tpr)

f,[ax1,ax2] = plt.subplots(2,1,figsize = (7,15))

ax1.plot([i for i in range(1,600+1)],result['validation_0']['auc'])
ax1.plot([i for i in range(1,600+1)],result['validation_1']['auc'])
ax2.set_xlim(0,1)
ax2.set_ylim(0,1)
ax2.plot(fpr,tpr,label = "AUC = {:.3f}".format(score))
ax2.plot([0,1],[0,1],linestyle = "--")
plt.legend()

左图表示随着迭代次数，训练集和测试集的AUC变化，可以看到大概在200次迭代以后测试集的auc变化就已经很小了，因此后续可以把n_estimator设置在200-300之前以减少训练时间

4.2 调参

有了baseline 之后我们可以根据基础模型对模型参数进行优化。
由于Xgboost参数较多，而且运行的速度比较慢，如果直接使用网格搜索可能要耗费几天时间，因此我们按一个参数一个参数调。

在定义以下基准模型
model = XGBClassifier(
    learning_rate=0.1,
    n_estimators=300,             
    max_depth=5,                 
    min_child_weight=6,        
    gamma=1,                    
    subsample=0.8,   
    scale_pos_weight=4,          
    random_state=27,                 
    verbosity= 1,                   
    nthread=-1 
)

4.2.1 max_depth

这个参数决定最大深度

param_grid = {
     
	"max_depth":[i for i in range(3, 11)]
}
xgb_grid = GridSearchCV(
	model,
	param_grid = param_grid, 
	scoring= #"roc_auc", "这次评价标准的auc"
	verbose=True, #"输出过程"
	cv=5, #"5折检验"
	n_jobs=-1 #"使用所有CPU"
	) 
xgb_grid.best_param_
# 5

4.2.2min_child_weight

最小叶子节点权重和，如果在一次分裂中，叶子节点上所有样本的权重和小于min_child_weight則停止分裂，能够有效的防止过拟合，防止学到特殊样本。

param_grid = {
     
	"min_child_weight":[i for i in range(3, 11)]
}
xgb_grid = GridSearchCV(
	model,
	param_grid = param_grid, 
	scoring= #"roc_auc", "这次评价标准的auc"
	verbose=True, #"输出过程"
	cv=5, #"5折检验"
	n_jobs=-1 #"使用所有CPU"
	) 
xgb_grid.best_param_
# 6

4.2.3 subsample

param_grid = {
     
	"subsampele":[i*0.1 for i in range(3, 11)]
}
xgb_grid = GridSearchCV(
	model,
	param_grid = param_grid, 
	scoring= #"roc_auc", "这次评价标准的auc"
	verbose=True, #"输出过程"
	cv=5, #"5折检验"
	n_jobs=-1 #"使用所有CPU"
	) 
xgb_grid.best_param_
# 0.6

4.3 更新模型

使用调整后的参数再次进行检验

def XGB():
    model =  XGBClassifier(learning_rate=0.1,
                              n_estimators=600,             
                              max_depth=5,                
                              min_child_weight=6,      
                              gamma=1,                 
                              subsample=0.6,        
                              random_state=27,              
                              verbosity= 1,                   
                              nthread=-1
                          )
    return model
    
%%time
model = XGB()
model.fit(X_train, y_train)
pre = model.predict_proba(X_test)[:,1]
fpr, tpr, thresholds = roc_curve(y_test, pre)
score = auc(fpr, tpr)
print(score)
#0.7373661712901491

4.4 预测结果并提交

使用更新好的模型提交结果看看最终评分怎样

test= test[train_X.columns]
pre = model.predict_proba(test)[:,1]
pd.DataFrame({
     'isDefault':pre},index=test.index).reset_index().rename(columns={
     "index":"id"}).to_csv('submit.csv', index=0)

线上的AUC得分是0.7337，目前大概排在前50

5 模型融合

模型融合大概有三种：stacking,bagging,blending和boosting
由于xgboost本身就已经是基于boosting的算法，而随机森林是基于bagging的算法，因此这两种将不会在这使用了，主要还是通过blending和stacking来融合模型

5.1 stacking\blending详解

stacking 将若干基学习器获得的预测结果，将预测结果作为新的训练集来训练一个学习器。但是由于直接由多个基学习器获得结果直接带入模型中，容易导致过拟合。所以在使用多个基模型进行预测的时候，可以考虑使用K折验证，防止过拟合。
blending 与stacking不同，blending是将预测的值作为新的特征和原特征合并，构成新的特征值，用于预测。为了防止过拟合，将数据分为两部分d1、d2，使用d1的数据作为训练集，d2数据作为测试集。预测得到的数据作为新特征使用d2的数据作为训练集结合新特征，预测测试集结果。
Blending与stacking的不同
- stacking
  stacking中由于两层使用的数据不同，所以可以避免信息泄露的问题。
  在组队竞赛的过程中，不需要给队友分享自己的随机种子。
- Blending
  由于blending对将数据划分为两个部分，在最后预测时有部分数据信息将被忽略。
  同时在使用第二层数据时可能会因为第二层数据较少产生过拟合现象。

5.1 stacking 代码

使用之前的训练的lgb和xgb模型作为基分类器，逻辑回归作为目标分类器做stacking

from mlxtend.classifier import StackingClassifier
sclf = StackingClassifier(classifiers=[lgb_model,xgb_model], 
                          meta_classifier=LR,
                         use_probas=True,
                         verbose= 1)
sclf.fit(X_train,y_train)
pre =sclf.predict_proba(X_test)[:,1]
fpr, tpr, thresholds = roc_curve(y_test, pre)
score = auc(fpr, tpr)
print(score)
#0.7390504896093062

最后提交测试结果，得分为0.7347

你可能感兴趣的:(数据分析)

拼多多根据ID取商品详情原数据API接口的开发、运用与收益前端后端运维数据挖掘api
拼多多作为中国电商市场的重要参与者，通过开放平台提供了丰富的API接口，其中根据ID取商品详情原数据的API接口尤为重要。该接口允许开发者通过编程方式获取商品的详细信息，为电商数据分析、竞品分析、价格监测、商品推荐等多个领域带来了丰富的应用场景和显著的收益。本文将深入解析拼多多根据ID取商品详情原数据API接口的开发、运用与收益，并提供相关的代码示例。一、拼多多商品详情API接口的开发拼多多开放平
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
Ceph数据恢复方案–分布式文件系统删除数据的恢复 San结构数据恢复数据恢复相关 ceph
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Ceph的三种存储结构二、Ceph中删除数据的恢复提取1.本次案例情况简介：2.数据分析：2.1：BlueStore架构2.2分布式存储中元数据概述2.3提取元数据2.3.2：获取meta_data2.3.4.元数据整理2.3.5.计算数据地址3.数据恢复提取总结前言什么是分布式文件系统分布式文件系统（Distribu
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
玛哈特矫平机：引领制造业平整技术的新篇章玛哈特-小易制造校平机矫平机大数据微信公众平台
玛哈特矫平机：引领制造业平整技术的新篇章在制造业的广阔舞台上，材料的平整度是确保产品质量与精度的关键要素。玛哈特矫平机，凭借其出色的性能和前沿技术，正逐步成为推动制造业发展的重要驱动力。技术的飞跃与创新的引领玛哈特矫平机不仅代表了传统矫平技术的升级，更是一次技术的飞跃和创新的引领。它融合了先进的传感器网络、实时数据分析系统以及自动化控制平台，为材料矫平提供了智能化的解决方案。这种创新的技术组合，使
基于Wasm的边缘计算Pandas：突破端侧AI的最后一公里——让数据分析在手机、IoT设备上飞驰 Eqwaak00 Pandas 人工智能 wasm 边缘计算 pandas 架构深度学习
引言：边缘计算的算力觉醒在智能家居设备每秒产生数万条传感器数据、手机App需要实时分析用户行为的今天，传统云计算模式面临高延迟、隐私风险、带宽成本三大挑战。本文将揭示如何通过WebAssembly（Wasm）+Pandas的技术组合，在边缘设备上实现零云端依赖的实时数据分析，并通过智慧工厂设备预测性维护案例，展示从理论到工程的全链路实现。一、技术架构设计1.1边缘计算范式演进mermaid：gra
职场人必存！DeepSeek提示词大合集：周报速成、爆款文案、旅行攻略一键生成阳光永恒736 AI工具人工智能 deepseek AI提示词
引言：AI时代，为什么你的提示词总“词不达意”？“同样的AI工具，同事用DeepSeek半小时写完周报还附赠数据分析图，我却只会问‘帮我总结本周工作’？”这可能是多数职场人的真实写照。AI工具的能力边界早已超越基础问答，但90%的用户仍停留在“无效提问”阶段10。而真正拉开差距的，是一套精准的提示词指令库——它能将模糊需求转化为AI可执行的“操作指南”，让效率提升10倍不止。一、职场效率：从“加班
StarRocks 主键（Primary Key）深度解析数据库数据分析主键缓存物化视图
一、StarRocks产品简介StarRocks是一款高性能分析型数据库，专为海量数据的实时分析而设计。作为新一代湖仓（Lakehouse）加速引擎，StarRocks融合了MPP架构和列式存储引擎的优势，能够支持亿级数据秒级查询响应。核心特性：全面的数据模型：支持明细模型、主键模型和聚合模型，满足多样化业务场景实时数据分析：提供高效的数据导入与更新能力，支持实时数据处理分布式架构：采用无共享（S
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
MATLAB语言的编程竞赛苏墨瀚包罗万象 golang 开发语言后端
MATLAB语言的编程竞赛引言随着计算机科学的飞速发展，编程技能已成为现代社会中不可或缺的一部分。尤其是在科学计算、工程应用和数据分析领域，MATLAB（矩阵实验室）因其强大的数学计算能力和简洁的编程语法而备受青睐。在这一背景下，MATLAB编程竞赛应运而生。本文将围绕MATLAB编程竞赛的意义、内容、组织形式以及如何准备和参与等方面展开讨论，希望能够为参与者提供一些有价值的参考。一、MATLAB
MDX语言的软件工程苏墨瀚包罗万象 golang 开发语言后端
MDX语言的软件工程引言在现代软件开发中，技术的进步不断推动着开发流程的变化与优化。MDX（MultidimensionalExpressions）语言作为一种用于查询和操作多维数据集的表达式语言，已在数据分析、商业智能等领域得到了广泛应用。本文将探讨MDX语言在软件工程中的应用，包括其基本概念、工作原理、最佳实践以及在数据分析系统中的具体案例。1.MDX语言概述MDX最初由微软开发，通常用于访问
AI推动地理信息系统（GIS）软件的创新发展与应用拓展酥脆可口 facebook
摘要地理信息系统（GIS）软件作为空间数据处理与分析的核心工具，在城市规划、资源管理、环境监测等领域发挥着关键作用。本文深入探讨人工智能（AI）如何推动GIS软件的创新发展，分析AI技术在提升空间数据分析能力、优化地图制图、拓展应用场景等方面的重要作用，剖析面临的挑战，并对未来发展趋势进行展望，旨在为GIS行业借助AI实现升级提供理论与实践参考。一、引言传统GIS软件主要依赖基于规则的分析方法和人
如何做好性能测试测试
如何做好性能测试主要依靠测试策略规划、性能测试工具选择、数据分析优化**。其中测试策略规划尤为关键，通过制定详细的测试目标和场景，明确各阶段测试重点，有助于降低项目风险和优化系统性能。实践中，企业普遍发现，完善的测试策略可以使系统响应时间降低20%～30%，大大提升用户体验和业务稳定性。一、性能测试的基本概念与重要性性能测试是指通过模拟用户操作及系统负载，对软件系统的响应时间、吞吐量、资源利用率等
云牧场智能环境控制系统的设计与实现雲明
本文还有配套的精品资源，点击获取简介：本文详细探讨了基于云牧场的智能环境控制系统的构建、功能及实现原理。系统的硬件由传感器和执行器组成，软件平台负责数据分析处理与环境控制设备的自动调整。系统包括数据采集、实时监控、自动控制、预警与报警以及数据分析与决策支持等核心功能模块。此外，文章还分析了云计算与物联网技术的应用、系统安全性与可靠性，并通过实际案例说明了该系统对提高畜牧业生产效益的重要性。1.云牧
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
互联网运营为何必须做好用户行为数据分析开源软件埋点数据分析
近年来互联网运营已经成为大多数企业不可或缺的一部分。随着互联网技术的不断发展和数字化转型的推进，越来越多的企业都在加速向互联网运营转型，而在这一过程当中，分析用户行为数据是至关重要的。接下来，我们就来探讨一下其中的原因。一、什么是用户行为数据？用户行为数据指的是在用户与产品、服务或平台交互过程中产生的各种数据。举个例子：某app中，某个用户在某个时间点在某个地方以某种方式完成了某个具体的操作。实际
SQL语言的散点图苏墨瀚包罗万象 golang 开发语言后端
SQL语言的散点图引言在数据科学和数据分析的领域中，数据可视化是一项重要的技能。有效的数据可视化可以帮助我们理解复杂的数据集，发现数据中的潜在规律，进而支持决策制定。散点图作为一种基本而有效的数据可视化形式，广泛应用于各种领域。本文将深入探讨散点图的概念、使用场景、SQL查询与散点图的结合，以及如何通过SQL语言生成散点图。散点图的定义与特点散点图是一种二维图形，用来展示两个变量之间的关系。每个点
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
电商API接口防爬虫实战：日均拦截千万级恶意请求的技术揭秘 lovelin+vI7809804594 python 人工智能 java 大数据数据库
在电子商务蓬勃发展的今天，API（应用程序编程接口）接口作为电商平台与外部系统交互的桥梁，承载着商品管理、订单处理、支付结算、用户管理、数据分析等重要功能。然而，这些功能也使电商API接口成为攻击者的目标，面临着来自多个方面的安全挑战。本文将深入探讨电商API接口防爬虫的策略与技术，揭秘日均拦截千万级恶意请求的实践过程。一、电商API接口的重要性与风险1.API接口的定义与作用API接口是一种定义
使用Java爬虫根据关键词获取Shopee商品列表？小爬虫程序猿 java 爬虫开发语言
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例
如何轻松爬取 TikTok 评论？手把手教你高效采集数据！ pzhyy 大数据数据分析数据挖掘内容运营新媒体运营
引言随着TikTok的全球火爆，越来越多的数据分析师、营销人员和研究人员希望获取TikTok视频评论，以分析用户反馈、市场趋势或热门内容。然而，手动整理TikTok评论既耗时又低效，因此，使用一款高效的TikTok采集器成为刚需。Tapicker是一款功能强大的TikTok采集软件，可以帮助用户自动爬取TikTok评论，省去繁琐的手工整理工作。本文将详细介绍如何使用Tapicker爬取TikTok
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
Julia语言的饼图尤宸翎包罗万象 golang 开发语言后端
Julia语言的饼图：全面剖析与实战指南引言在数据可视化的领域中，饼图作为一种经典的可视化工具，广泛用于展示各个分类在总体中的占比关系。尽管饼图在一些数据分析师中被视为相对简单和直观的图形，但它在实际运用中依然扮演着重要角色。本文将重点探讨如何使用Julia语言实现饼图的绘制，分析其背后的逻辑，并通过实例帮助读者掌握这一基本技能。Julia语言简介Julia是一种高性能、高级别的编程语言，适用于数
如何用Python批量将CSV文件编码转换为UTF-8并转为Excel格式？字节王德发 python python excel 开发语言
在处理数据时，CSV文件格式常常用作数据的交换格式。不过，很多情况下我们会遇到编码问题，特别是当文件不是UTF-8编码时。为了更好地处理这些文件，可能需要将它们转换为UTF-8编码，并且将其转换为Excel格式，这样可以方便后续的数据分析和使用。今天就来聊聊如何用Python实现这一过程。准备工作：安装必要的库我们需要确保安装了所需的Python库。主要用到的库有pandas和openpyxl。p
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l