chnhbhndchngn

基于机器学习预测Lending Club网站贷款申请结果

前提简介：Lending Club是美国的一家贷款公司，自2007年以来，致力于将借款人和投资者聚集在一起，改变人们获得信贷的方式。在过去的十年中，帮助数百万人控制了他们的债务，发展了他们的小企业并为未来投资。

本文意在从Lending Club网站下载贷款申请的数据来创建模型，预测贷款申请的结果。本文所使用的数据来源是该公司网站公开提供的，网址是：https://www.lendingclub.com/info/download-data.action

一、数据处理

首先看一下数据集的样本个数以及特征个数

import pandas as pd
loans_2016S3 = pd.read_csv('2016S3.csv', skiprows=1)
print(loans_2016S3.shape)

(42538, 145)

从网站下载的原始数据存在大量的缺失数据，下面列出部分数据的情况

删除缺失值比较多的特征

# 保留至少三分之一不为空的特征属性
half_count = len(loans_2016S3) * 2 / 3
# 保留多于thresh不为空的列属性
loans_2016S3 = loans_2016S3.dropna(thresh=half_count, axis=1)
print(loans_2016S3.shape)

(42538, 54)

删除一些个人认为与结果无关的特征（这可能是模型最终结果不太理想的原因）

# 删除desc属性，贷款原因的大段描述
loans_2016S3 = loans_2016S3.drop(['desc'],axis=1)
loans_2016S3.to_csv('loans_2016S3.csv', index=False)
loans_2016S3 = pd.read_csv("loans_2016S3.csv")
# 删除特征
loans_2016S3 = loans_2016S3.drop([ "funded_amnt", "funded_amnt_inv", "grade", "sub_grade", "emp_title", "issue_d"], axis=1)
# 删除特征
loans_2016S3 = loans_2016S3.drop(["zip_code", "out_prncp", "out_prncp_inv", "total_pymnt", "total_pymnt_inv", "total_rec_prncp"], axis=1)
# 删除特征
loans_2016S3 = loans_2016S3.drop(["total_rec_int", "total_rec_late_fee", "recoveries", "collection_recovery_fee", "last_pymnt_d", "last_pymnt_amnt"], axis=1)
print(loans_2016S3.shape)
print(loans_2016S3.info())

(42538, 35)

RangeIndex: 42538 entries, 0 to 42537
Data columns (total 35 columns):
loan_amnt                     42535 non-null float64
term                          42535 non-null object
int_rate                      42535 non-null object
installment                   42535 non-null float64
emp_length                    42535 non-null object
home_ownership                42535 non-null object
annual_inc                    42531 non-null float64
verification_status           42535 non-null object
loan_status                   42535 non-null object
pymnt_plan                    42535 non-null object
purpose                       42535 non-null object
title                         42523 non-null object
addr_state                    42535 non-null object
dti                           42535 non-null float64
delinq_2yrs                   42506 non-null float64
earliest_cr_line              42506 non-null object
inq_last_6mths                42506 non-null float64
open_acc                      42506 non-null float64
pub_rec                       42506 non-null float64
revol_bal                     42535 non-null float64
revol_util                    42445 non-null object
total_acc                     42506 non-null float64
initial_list_status           42535 non-null object
last_credit_pull_d            42531 non-null object
collections_12_mths_ex_med    42390 non-null float64
policy_code                   42535 non-null float64
application_type              42535 non-null object
acc_now_delinq                42506 non-null float64
chargeoff_within_12_mths      42390 non-null float64
delinq_amnt                   42506 non-null float64
pub_rec_bankruptcies          41170 non-null float64
tax_liens                     42430 non-null float64
hardship_flag                 42535 non-null object
disbursement_method           42535 non-null object
debt_settlement_flag          42535 non-null object
dtypes: float64(17), object(18)
memory usage: 11.4+ MB
None

查看数据集中申请贷款的结果：

# 打印贷款的申请结果类型及数量统计
print(loans_2016S3['loan_status'].value_counts())

Fully Paid                                             34116
Charged Off                                             5670
Does not meet the credit policy. Status:Fully Paid      1988
Does not meet the credit policy. Status:Charged Off      761
Name: loan_status, dtype: int64

我们只需要最终发放和不发放贷款的情况，其他的情况删除不考虑，并将发放样本标记为1，为发放样本标记为0.

# 只保留贷款成功和而不成功的情况，删除需要等待的情况
loans_2016S3 = loans_2016S3[(loans_2016S3['loan_status'] == "Fully Paid") | (loans_2016S3['loan_status'] == "Charged Off")]
status_replace = {
    "loan_status" : { "Fully Paid": 1,
                      "Charged Off": 0, }
}
# 将成功申请的情况用1代替，将申请失败的情况使用0代替
loans_2016S3 = loans_2016S3.replace(status_replace)
print(loans_2016S3.shape)

(39786, 35)

从数据集中删除特征值只有一项的属性，因为这样的特征对最终的结果没有任何影响

# 删除属性值只有一项的属性，因为其对预测没有任何意义

orig_columns = loans_2016S3.columns
drop_columns = []
for col in orig_columns:
    # 判断删除空值后是否是单一值
    col_series = loans_2016S3[col].dropna().unique()
    if len(col_series) == 1:
        drop_columns.append(col)
# 删除属性值单一的特征
loans_2016S3 = loans_2016S3.drop(drop_columns, axis=1)
# 打印单一的属性特征
print(drop_columns)
# 打印删除单一特征后剩下的特征属性数量
print(loans_2016S3.shape)

['pymnt_plan', 'initial_list_status', 'collections_12_mths_ex_med', 'policy_code', 'application_type', 'acc_now_delinq', 'chargeoff_within_12_mths', 'delinq_amnt', 'tax_liens', 'hardship_flag', 'disbursement_method']
(39786, 24)

统计每个特征的缺失值情况，如果缺失值较少，则删除缺失值对应的样本，如果缺失值数量较多，则直接删除该特征

null_counts = loans.isnull().sum() # 统计每列空值的个数
print(null_counts)
loans = loans.drop("pub_rec_bankruptcies", axis=1) # 空值多的，删除整列
loans = loans.dropna(axis=0) # 空值少的，直接删除该行

loan_amnt                 0
term                      0
int_rate                  0
installment               0
emp_length                0
home_ownership            0
annual_inc                0
verification_status       0
loan_status               0
purpose                   0
title                    10
addr_state                0
dti                       0
delinq_2yrs               0
earliest_cr_line          0
inq_last_6mths            0
open_acc                  0
pub_rec                   0
revol_bal                 0
revol_util               50
total_acc                 0
last_credit_pull_d        2
pub_rec_bankruptcies    697
debt_settlement_flag      0
dtype: int64

统计一下所有特征的特征值的类型，并统计各宗类型的个数

# 统计所有特征值的类型，并统计类型个数
print(loans.dtypes.value_counts()) # 统计特征类型的个数

object     12
float64    10
int64       1
dtype: int64

# 寻找特征值是object类型特征，打印其第一个特征值
object_columns_df = loans.select_dtypes(include=["object"]) 
print(object_columns_df.iloc[0])

term                      36 months
int_rate                     10.65%
emp_length                10+ years
home_ownership                 RENT
verification_status        Verified
purpose                 credit_card
title                      Computer
addr_state                       AZ
earliest_cr_line           Jan-1985
revol_util                    83.7%
last_credit_pull_d         Jan-2018
debt_settlement_flag              N
Name: 0, dtype: object

下面的一大堆代码都是处理特征值的类型为object且特征值中同时包含数字和其他字符的特征值

# 首先处理特征值中带有数值类型的特征
# 删除冗余的列
loans = loans.drop(["last_credit_pull_d", "earliest_cr_line", "addr_state", "title"], axis=1)
# 删除百分号
loans["int_rate"] = loans["int_rate"].str.rstrip("%").astype("float")
# 删除百分号
loans["revol_util"] = loans["revol_util"].str.rstrip("%").astype("float")
# 替换
mapping_dict = {
    "emp_length": {
        "10+ years": 10,
        "9 years": 9,
        "8 years": 8,
        "7 years": 7,
        "6 years": 6,
        "5 years": 5,
        "4 years": 4,
        "3 years": 3,
        "2 years": 2,
        "1 year": 1,
        "< 1 year": 0,
        "n/a": 0
    }
}
loans = loans.replace(mapping_dict)

# 对于时间将最后的month去掉。只保留前面的月数
loans['term'] = loans['term'].apply(lambda x: int(x[:-7]))

查看剩余的类型为object的特征值的情况

object_columns_df = loans.select_dtypes(include=["object"]) 
# 寻找特征值是object类型特征的第一个特征值
print(object_columns_df.iloc[0])

home_ownership                 RENT
verification_status        Verified
purpose                 credit_card
debt_settlement_flag              N
Name: 0, dtype: object

查看上面的四种特征的特征值的种类以及统计每种特征值的个数

cols = ['home_ownership', 'verification_status', "purpose", "debt_settlement_flag"]
for c in cols:
    print(loans[c].value_counts())# 打印每个object类型特征的特征值及个数
    print("================================")

RENT        18881
MORTGAGE    17688
OWN          3056
OTHER          96
NONE            3
Name: home_ownership, dtype: int64
================================
Not Verified       16890
Verified           12833
Source Verified    10001
Name: verification_status, dtype: int64
================================
debt_consolidation    18661
credit_card            5134
other                  3985
home_improvement       2980
major_purchase         2182
small_business         1827
car                    1549
wedding                 947
medical                 693
moving                  581
house                   382
vacation                380
educational             320
renewable_energy        103
Name: purpose, dtype: int64
================================
N    39576
Y      148
Name: debt_settlement_flag, dtype: int64
================================

对以上的特征以及特征值进行独热编码处理

# 对某列具有某几个不同的字符串类型的属性进行处理，进行get_dummies编码
cat_columns = ["home_ownership", "verification_status", "purpose", "debt_settlement_flag"]
dummy_df = pd.get_dummies(loans[cat_columns])
loans = pd.concat([loans, dummy_df], axis=1)
loans = loans.drop(cat_columns, axis=1)

查看数据集最终的处理结果

# 查看最终的数据处理结果 
print(loans.info())
print(loans.shape)
loans[0:20]


RangeIndex: 39724 entries, 0 to 39723
Data columns (total 39 columns):
loan_amnt                              39724 non-null float64
term                                   39724 non-null int64
int_rate                               39724 non-null float64
installment                            39724 non-null float64
emp_length                             39724 non-null int64
annual_inc                             39724 non-null float64
loan_status                            39724 non-null int64
dti                                    39724 non-null float64
delinq_2yrs                            39724 non-null float64
inq_last_6mths                         39724 non-null float64
open_acc                               39724 non-null float64
pub_rec                                39724 non-null float64
revol_bal                              39724 non-null float64
revol_util                             39724 non-null float64
total_acc                              39724 non-null float64
home_ownership_MORTGAGE                39724 non-null int64
home_ownership_NONE                    39724 non-null int64
home_ownership_OTHER                   39724 non-null int64
home_ownership_OWN                     39724 non-null int64
home_ownership_RENT                    39724 non-null int64
verification_status_Not Verified       39724 non-null int64
verification_status_Source Verified    39724 non-null int64
verification_status_Verified           39724 non-null int64
purpose_car                            39724 non-null int64
purpose_credit_card                    39724 non-null int64
purpose_debt_consolidation             39724 non-null int64
purpose_educational                    39724 non-null int64
purpose_home_improvement               39724 non-null int64
purpose_house                          39724 non-null int64
purpose_major_purchase                 39724 non-null int64
purpose_medical                        39724 non-null int64
purpose_moving                         39724 non-null int64
purpose_other                          39724 non-null int64
purpose_renewable_energy               39724 non-null int64
purpose_small_business                 39724 non-null int64
purpose_vacation                       39724 non-null int64
purpose_wedding                        39724 non-null int64
debt_settlement_flag_N                 39724 non-null int64
debt_settlement_flag_Y                 39724 non-null int64
dtypes: float64(12), int64(27)
memory usage: 11.8 MB
None
(39724, 39)

最终对特征值进行标准化处理

#分离特征和标签
cols = loans.columns
train_cols = cols.drop("loan_status")
#标签
target = loans["loan_status"]
#特征值
features = loans[train_cols]
# 标准化
features = (features - features.mean(axis=0)) / (features.std(axis=0))

features["loan_status"] = target
print(features.shape)
features.to_csv('dealed_loans_2016S3--7.csv', index=False)

(39724, 39)

二、模型分析

第一部分主要是对数据进行预处理为后续的模型建立做准备，下面建立模型进行预测。

import pandas as pd
import matplotlib.pyplot as plt
# 设置中文编码和负号的正常显示
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import KFold, cross_val_score
from sklearn.metrics import confusion_matrix,recall_score,classification_report 
%matplotlib inline

data = pd.read_csv("dealed_loans_2016S3--7.csv")
data.head()

显示结果如下：

	loan_amnt	term	int_rate	installment	emp_length	annual_inc	dti	delinq_2yrs	inq_last_6mths	open_acc	...	purpose_medical	purpose_moving	purpose_other	purpose_renewable_energy	purpose_small_business	purpose_vacation	purpose_wedding	debt_settlement_flag_N	debt_settlement_flag_Y	loan_status
0	-0.836004	-0.606506	-0.368436	-0.775832	1.430128	-0.705878	2.146047	-0.298007	0.122478	-1.432408	...	-0.133247	-0.12183	-0.333916	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	1
1	-1.170923	1.648746	0.871349	-1.268983	-1.342721	-0.611784	-1.845732	-0.298007	3.859990	-1.432408	...	-0.133247	-0.12183	-0.333916	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	0
2	-1.184319	-0.606506	1.056512	-1.151726	1.430128	-0.890114	-0.689390	-0.298007	1.056856	-1.659771	...	-0.133247	-0.12183	-0.333916	-0.050986	4.554363	-0.098276	-0.156272	0.061152	-0.061152	1
3	-0.166166	-0.606506	0.393683	0.068614	1.430128	-0.310683	1.000189	-0.298007	0.122478	0.159132	...	-0.133247	-0.12183	2.994688	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	1
4	-1.103939	1.648746	0.179001	-1.230886	-1.065436	0.172334	0.691631	-0.298007	-0.811900	1.295947	...	-0.133247	-0.12183	2.994688	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	1
5 rows × 39 columns

使用pd进行简单的画图，查看数据的不平衡型

count_classes = pd.value_counts(data['loan_status'], sort = True).sort_index()
print(count_classes)
count_classes.plot(kind = 'bar')
plt.title("贷款申请结果统计")
plt.xlabel("loan_status")
plt.ylabel("Frequency")

0     5651
1    34073
Name: loan_status, dtype: int64

Text(0,0.5,'Frequency')

X = data.ix[:, data.columns != 'loan_status']
print(X[0:2])
y = data.ix[:, data.columns == 'loan_status']
print(y[0:2])

   loan_amnt      term  int_rate  installment  emp_length  annual_inc  \
0  -0.836004 -0.606506 -0.368436    -0.775832    1.430128   -0.705878   
1  -1.170923  1.648746  0.871349    -1.268983   -1.342721   -0.611784   

        dti  delinq_2yrs  inq_last_6mths  open_acc           ...            \
0  2.146047    -0.298007        0.122478 -1.432408           ...             
1 -1.845732    -0.298007        3.859990 -1.432408           ...             

   purpose_major_purchase  purpose_medical  purpose_moving  purpose_other  \
0               -0.241081        -0.133247        -0.12183      -0.333916   
1               -0.241081        -0.133247        -0.12183      -0.333916   

   purpose_renewable_energy  purpose_small_business  purpose_vacation  \
0                 -0.050986               -0.219564         -0.098276   
1                 -0.050986               -0.219564         -0.098276   

   purpose_wedding  debt_settlement_flag_N  debt_settlement_flag_Y  
0        -0.156272                0.061152               -0.061152  
1        -0.156272                0.061152               -0.061152  

[2 rows x 38 columns]
   loan_status
0            1
1            0

将数据集分为训练集和测试集

from sklearn.cross_validation import train_test_split
# Whole dataset
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.3, random_state = 0)

print("Number transactions train dataset: ", len(X_train))
print("Number transactions test dataset: ", len(X_test))
print("Total number of transactions: ", len(X_train)+len(X_test))

Number transactions train dataset:  27806
Number transactions test dataset:  11918
Total number of transactions:  39724

编写函数 用于寻找最优的参数
def printing_Kfold_scores(x_train_data,y_train_data):
    
    # 五折交叉运算
    fold = KFold(len(y_train_data),5,shuffle=False) 
    penalty_range = ['l1', 'l2']
    c_param_range = [0.05, 0.1, 1, 10, 25, 50, 100]
    results_table = pd.DataFrame(index = range(len(c_param_range),2), columns = ['C_parameter','Mean recall score'])
    results_table['C_parameter'] = c_param_range
    j = 0
    for chengfa in penalty_range:
        for c_param in c_param_range:
            # 召回率
            TPR  = []
            # 真负率
            TNR = []
            for iteration, indices in enumerate(fold,start=1):
                lr = LogisticRegression(C = c_param, penalty = 'l1')
                lr.fit(x_train_data.iloc[indices[0],:],y_train_data.iloc[indices[0],:].values.ravel())
                y_pred = lr.predict(x_train_data.iloc[indices[1],:].values)
                # 计算混淆矩阵
                cnf_matrix = confusion_matrix(y_train_data.iloc[indices[1],:].values.ravel(),y_pred)
                np.set_printoptions(precision=2)
                # 召回率（真正率）
                tpr = cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1])
                # 真负率
                ntr = cnf_matrix[0,0]/(cnf_matrix[0,0]+cnf_matrix[0,1])
                TPR .append(tpr)
                TNR.append(ntr)
            results_table.ix[j,'Mean recall score'] = np.mean(TPR )
            j += 1
            print('惩罚项是', chengfa, '\t惩罚系数=', c_param, '\t平均召回率 = ', np.mean(TPR), '\t平均真负率 = ', np.mean(TNR)

绘制混淆矩阵

def plot_confusion_matrix(cm, classes, title='Confusion matrix', cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    """
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=0)
    plt.yticks(tick_marks, classes)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j], horizontalalignment="center", color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

2.1.直接在全部数据上寻找最优的参数

printing_Kfold_scores(X_train,y_train)

从结果中选取最优的参数简历分类器

import itertools
lr = LogisticRegression(C = 100, penalty = 'l1')
lr.fit(X_train,y_train.values.ravel())
y_pred_undersample = lr.predict(X_test.values)

# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test,y_pred_undersample)
np.set_printoptions(precision=2)

print("真负率: ", cnf_matrix[0,0]/(cnf_matrix[0,0]+cnf_matrix[0,1]))
print("召回率: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))
print("准确率: ", (cnf_matrix[1,1] + cnf_matrix[0,0])/(cnf_matrix[1,0]+cnf_matrix[1,1]+cnf_matrix[0,0]+cnf_matrix[0,1]))

# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names, title='Confusion matrix')
plt.show()

真负率:  0.0349170005724
召回率:  0.997935306263
准确率:  0.856771270347

2.2.下采样的处理¶寻找标签是1（大量同意）的样本的索引值和数量

number_records_fraud = len(data[data.loan_status == 1])
print(number_records_fraud)
fraud_indices = np.array(data[data.loan_status == 1].index)

寻找标签是0（少量拒绝）的样本的索引值和数量

normal_indices = data[data.loan_status == 0].index
number_normal_indices = len(normal_indices)
print(number_normal_indices)
normal_indices

Int64Index([    1,     8,     9,    12,    14,    21,    24,    26,    27,
               46,
            ...
            39645, 39647, 39659, 39660, 39673, 39674, 39675, 39676, 39685,
            39695],
           dtype='int64', length=5651)

从Class==0的索引值中随机选择number_records_fraud492个,不替换地选择

random_normal_indices = np.random.choice(fraud_indices, number_normal_indices, replace = False)
random_normal_indices = np.array(random_normal_indices)
print(len(random_normal_indices))
random_normal_indices[0:20]

array([24544, 38969, 37763,  7887, 39280,   763, 14901, 36654,  4806,
       35899, 29887, 20594, 19683,  2657, 36457, 36588,  1360, 27285,
       34438, 31871], dtype=int64)

将两种索引（欺诈和正常样本数目相同）合并

under_sample_indices = np.concatenate([normal_indices,random_normal_indices])
print(len(under_sample_indices))

按照合并的索引从原始数据中获取下采样的数据

under_sample_data = data.iloc[under_sample_indices,:]
under_sample_data.head()

	loan_amnt	term	int_rate	installment	emp_length	annual_inc	dti	delinq_2yrs	inq_last_6mths	open_acc	...	purpose_medical	purpose_moving	purpose_other	purpose_renewable_energy	purpose_small_business	purpose_vacation	purpose_wedding	debt_settlement_flag_N	debt_settlement_flag_Y	loan_status
1	-1.170923	1.648746	0.871349	-1.268983	-1.342721	-0.611784	-1.845732	-0.298007	3.859990	-1.432408	...	-0.133247	-0.12183	-0.333916	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	0
8	-0.755623	1.648746	2.484143	-0.825989	-0.233581	-0.454960	-1.164209	-0.298007	1.056856	0.386495	...	-0.133247	-0.12183	-0.333916	-0.050986	4.554363	-0.098276	-0.156272	0.061152	-0.061152	0
9	-0.785766	1.648746	0.179001	-0.974069	-1.342721	-0.847019	0.712601	-0.298007	-0.811900	-1.659771	...	-0.133247	-0.12183	2.994688	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	0
12	-0.300134	-0.606506	0.393683	-0.093776	-1.342721	-0.611784	-0.485682	-0.298007	0.122478	-1.205045	...	-0.133247	-0.12183	-0.333916	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	0
14	-0.166166	-0.606506	-0.368436	0.003667	-0.510866	0.485981	-0.938033	-0.298007	1.056856	1.068584	...	-0.133247	-0.12183	2.994688	-0.050986	-0.219564	-0.098276	-0.156272	0.061152	-0.061152	0

X_undersample = under_sample_data.ix[:, under_sample_data.columns != 'loan_status']
y_undersample = under_sample_data.ix[:, under_sample_data.columns == 'loan_status']
print("Percentage of normal transactions: ", len(under_sample_data[under_sample_data.loan_status == 0])/len(under_sample_data))
print("Percentage of fraud transactions: ", len(under_sample_data[under_sample_data.loan_status == 1])/len(under_sample_data))
print("Total number of transactions in resampled data: ", len(under_sample_data))

Percentage of normal transactions:  0.5
Percentage of fraud transactions:  0.5
Total number of transactions in resampled data:  11302

count_classes = pd.value_counts(under_sample_data['loan_status'], sort = True).sort_index()
print(count_classes)
count_classes.plot(kind = 'bar')

0    5651
1    5651
Name: loan_status, dtype: int64

X_train_undersample, X_test_undersample, \
y_train_undersample, y_test_undersample = train_test_split(X_undersample, y_undersample,test_size = 0.3,random_state = 0)
print("")
print("Number transactions train dataset: ", len(X_train_undersample))
print("Number transactions test dataset: ", len(X_test_undersample))
print("Total number of transactions: ", len(X_train_undersample)+len(X_test_undersample))

Number transactions train dataset:  7911
Number transactions test dataset:  3391
Total number of transactions:  11302

寻找对于下采样数据集的最优参数

printing_Kfold_scores(X_train_undersample,y_train_undersample)

惩罚项是 l1 	惩罚系数= 0.05 	平均召回率 =  0.63856736542 	平均真负率 =  0.647293869207
惩罚项是 l1 	惩罚系数= 0.1 	平均召回率 =  0.640638410934 	平均真负率 =  0.643538009998
惩罚项是 l1 	惩罚系数= 1 	平均召回率 =  0.646274901414 	平均真负率 =  0.640283210678
惩罚项是 l1 	惩罚系数= 10 	平均召回率 =  0.646529100623 	平均真负率 =  0.640027914019
惩罚项是 l1 	惩罚系数= 25 	平均召回率 =  0.64653296593 	平均真负率 =  0.640278855048
惩罚项是 l1 	惩罚系数= 50 	平均召回率 =  0.646791030446 	平均真负率 =  0.640278855048
惩罚项是 l1 	惩罚系数= 100 	平均召回率 =  0.646791030446 	平均真负率 =  0.640278855048
惩罚项是 l2 	惩罚系数= 0.05 	平均召回率 =  0.638309300904 	平均真负率 =  0.647293869207
惩罚项是 l2 	惩罚系数= 0.1 	平均召回率 =  0.640638410934 	平均真负率 =  0.643538009998
惩罚项是 l2 	惩罚系数= 1 	平均召回率 =  0.646274901414 	平均真负率 =  0.640283210678
惩罚项是 l2 	惩罚系数= 10 	平均召回率 =  0.646529100623 	平均真负率 =  0.640027914019
惩罚项是 l2 	惩罚系数= 25 	平均召回率 =  0.64653296593 	平均真负率 =  0.640278855048
惩罚项是 l2 	惩罚系数= 50 	平均召回率 =  0.646791030446 	平均真负率 =  0.640278855048
惩罚项是 l2 	惩罚系数= 100 	平均召回率 =  0.64653296593 	平均真负率 =  0.640278855048

lr = LogisticRegression(C = 50, penalty = 'l1')
lr.fit(X_train_undersample,y_train_undersample.values.ravel())
y_pred_undersample = lr.predict(X_test_undersample.values)

cnf_matrix = confusion_matrix(y_test_undersample,y_pred_undersample)
np.set_printoptions(precision=2)

print("真负率: ", cnf_matrix[0, 0]/(cnf_matrix[0,0]+cnf_matrix[0,1]))
print("召回率: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names, title='Confusion matrix')
plt.show()

真负率:  0.645493042952
召回率:  0.624280782509

将下采样数据建立的模型应用于全部测试数据集进行测试

lr = LogisticRegression(C = 50, penalty = 'l1')
lr.fit(X_train_undersample,y_train_undersample.values.ravel())
y_pred = lr.predict(X_test.values)

cnf_matrix = confusion_matrix(y_test,y_pred)
np.set_printoptions(precision=2)

print("真负率: ", cnf_matrix[0, 0]/(cnf_matrix[0,0]+cnf_matrix[0,1]))
print("召回率: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names, title='Confusion matrix')
plt.show()

真负率:  0.648540354894

召回率:  0.641824795989

2.3.进行SMOTE处理

import pandas as pd
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

credit_cards=pd.read_csv('dealed_loans_2016S3--7.csv')
columns=credit_cards.columns
features_columns=columns.delete(len(columns)-1)
features=credit_cards[features_columns]
labels=credit_cards['loan_status']

features_train, features_test, labels_train, labels_test = train_test_split(features, labels, test_size=0.2, random_state=0)
# 创建SMOTE对象，并对分割后的数据集进行处理
oversampler=SMOTE(random_state=0)
os_features,os_labels=oversampler.fit_sample(features_train,labels_train)
len(os_labels[os_labels==1])
len(os_labels[os_labels==0])

通过SMOTE得到的负例样本和正例一样多

# 将数据集转换成dataframe类型的数据
os_features = pd.DataFrame(os_features)
os_labels = pd.DataFrame(os_labels)

# 寻找最优的参数
printing_Kfold_scores(os_features,os_labels)

lr = LogisticRegression(C = 25, penalty = 'l1')
lr.fit(os_features,os_labels.values.ravel())
y_pred = lr.predict(features_test.values)
# Compute confusion matrix
cnf_matrix = confusion_matrix(labels_test,y_pred)
np.set_printoptions(precision=2)
print("真负率: ", cnf_matrix[0, 0]/(cnf_matrix[0,0]+cnf_matrix[0,1]))
print("召回率: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))
# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=class_names , title='Confusion matrix')
plt.show()

真负率:  0.721527777778
召回率:  0.756411011335

总结：对于不平衡数据进行处理时，对结果的评价不能只看准确率和正确率，还要看ROC曲线，本文由于时正样本数量时负样本数量的7倍左右，因此以召回率和真负率作为评价标准，经过对参数的多次调解，该模型最终的结果并不是很理想，可能是跟数据处理的情况有关，本文的数据处理并没有参考贷款公司的其他业务知识，只是将所有数据直接进行处理的，影响了最终的模型的准确性。

你可能感兴趣的:(数据挖掘,贷款模型,逻辑回归LR,下采样,SMOTE)

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
今日囧事唯愿岁月可回首
今天晚上，房东打来电话说晚上过来取个东西。晚上到家后，洗了一下水果，把卧室的空调打开，在卧室的阳台叠衣服。不一会儿，听见了敲门声，老公和丫头出去开门，果然是房东来了。由于我在叠衣服，床上比较乱，老公随手就把卧室门带上了。我赶紧把衣服收在柜子里，一拧门，好吧，打不开。听见外面热热闹闹的，我喊老公帮我开门，开了几次都开不开。丫头说：妈妈，你先在里面休息一会，我们正在找钥匙。听见外面房东拿了自己东西，老
今天我破防了 sin信仰
今天本来是大年初一，新年的第一天，应该是高高兴兴的一天，但是我怎么也高兴不起来。具体原因很简单，原本计划年后去县城找了一份会计的工作，被公公婆婆否定了，我心里立马就不舒服了，但是当时刚好肚子疼，我去了厕所，等我上完厕所，公公由于喝了酒还在那里和婆婆唠叨个没完。然后我就在心情极度压抑的情况下把午饭吃完的碗筷和锅给刷了。边刷碗筷和锅，边在那里难受，感觉自己在这个家里真的是过的憋屈死了，公婆不让我去上班
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
郎朗大婚娶公主：所有光环的背后，都是十年如一日的自律简小尘
近日，关于郎朗大婚的新闻上了热搜，看了新娘的照片，既有天使般的面容，更有魔鬼般的身材，关键是人家还身世好，又有才华，这真的是让所有男人羡慕嫉妒恨哪。有些人不禁会想，“凭什么郎朗的人生就象开挂了一样，可我却每天都活得这么狼狈！”其实，每个开挂的人生背后，都是苦行僧般的自律。01欲戴王冠，必承其重。练琴不能只靠兴趣，更需要自律！我们先来看一下朗朗在小时候的作息时间表：早晨5:45起床，练琴1小时。中午
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
梁文道《尽头:怎样是好的阅读和书写》片段白夜书摘
1、写小说的人，有时会强烈地感到一种现实的召唤，想去面对和回应现实。这时他们会觉得自己正站在时代中心，就像黑格尔说的，要把时代精神掌握在自己的小说（不是哲学）里面。但是这也很危险，当一个作家像一个时代那样书写，可能就会出现问题了。2、文字是远比语言大块而且湿冷的木头，又距离我们内心的火花稍远，不容易瞬间点燃起来，这处隙缝，给了我们回身的余地，可以再多看一下想一下设身处地一下；人类过往这最后五千年，
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option