PiedPiper0

大数据背景下的银行智能销售体系建设——基于XGBoost算法的银行产品销售情况分析

概要

一个数据科学项目。通过对客户的信息分析、客户与银行的通话信息分析、经济情况分析和相关其它信息分析，来判断最有可能购买银行存款产品的群体，从而对其做出智能的推荐。

1.问题分析

1.1.相关背景

该数据与葡萄牙银行机构的直接营销活动（电话）有关，我们的最终目标是预测客户是否将会定期存款(变量y)，为了访问产品（银行定期存款）是否被订阅，通常需要与同一客户进行多次联系。

1.2.属性信息

1.2.1.银行客户信息：bank_client
1.age：int类型，代表年龄
2.job：string类型，代表职业，共12种(‘admin.’, ‘blue-collar’, ‘entrepreneur’, ‘housemaid’, ‘management’, ‘retired’,
‘self-employed’, ‘services’, ‘student’, ‘technician’, ‘unemployed’, ‘unknown’)
3.marital：string类型，代表婚姻情况，共4种(‘divorced’, ‘married’, ‘single’, ‘unknown’)
4.education：string类型，代表教育情况，共8种(‘illiterate’,‘basic.4y’,‘basic.6y’,‘basic.9y’,‘high.school’,‘professional.course’,
‘university.degree’,‘unknown’)
5.default：string类型，代表是否有违约信用(‘no’, ‘yes’, ‘unknown’)
6.housing：string类型，代表是否有房(‘no’, ‘yes’, ‘unknown’)
7.loan：string类型，代表是否有个人贷款(‘no’, ‘yes’, ‘unknown’)

1.2.2.最后一次与相关人员联系的信息：bank_contact
8.contact：string类型，代表联系方式(‘cellular’,‘telephone’)
9.month：string类型，代表月份(‘jan’, ‘feb’, ‘mar’, …, ‘nov’, ‘dec’)
10.day_of_week：string类型，代表最后联系的天，周末不上班(‘mon’,‘tue’,‘wed’,‘thu’,‘fri’)
11.duration：double类型，代表最后一次联系的持续时间，以秒为单位
注：duration对结果的影响度非常高，如果duration=0那么y=’no’。

1.2.3.社交和经济背景信息：bank_economical
12.emp.var.rate：double类型，代表就业变动率-季度
13.cons.price.idx：double类型，代表消费物价指数-月
14.cons.conf.idx：double类型，代表消费者信心指数-月
15.euribor3m：double类型，代表欧元3个月利率-日
16.nr.employed：double类型，代表员工人数-季度

1.2.4.其它信息：bank_another
17.campaign：int类型，代表此客户与相关人员的通话数量
18.pdays：int类型，距离最后一次联系相关人员的天数(999代表没有联系过)
19.previous：int类型，代表在此产品上线之前和客户联系的次数
20.poutcome：string类型，代表营销的结果(‘failure’,‘nonexistent’,‘success’)

1.2.5.结果
y：string类型，代表是否订阅定期存款产品

2.数据预处理 pre_process.py

2.1.文件总览

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import pandas as pd


def generate_file():
   result = []
   with open('bank-additional-full.csv', encoding='utf-8') as fp:
       for line in fp:
           line = line.replace('"', '').replace('\n', '').replace(' ', '').split(';')
           result.append(line)

   del (result[0])
   df = pd.DataFrame(result, columns=['age', 'job', 'marital', 'education', 'default', 'housing', 'loan', 'contact',
                                      'month', 'day_of_week', 'duration', 'campaign', 'pdays', 'previous', 'poutcome',
                                      'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed',
                                      'y'])
   df.to_csv('dataset.csv', index=0)


def show_information():
   fp = pd.read_csv('dataset.csv')
   print('types:')
   print(fp.dtypes, '\n')
   print('null:')
   print(fp.isnull().any())


if __name__ == '__main__':
   # generate_file()
   # show_information()

处理前的数据形式

处理后的数据形式

2.1.1.generate_file()
通过python原生的函数来处理文件，将文件转化为一个DataFrame结构，之所以不用pandas包下的read_csv()函数是因为python原生函数对文件中某行的字符处理要更为友善。

2.1.2.show_information()
展示所生成文件每个特征的数据类型和是否有缺失值，可以看出，数据为object，int64和float64类型，同时数据完整，没有缺失值

2.2. 使用SPSS将数据可视化

通过生成的dataset.csv将数据导入SPSS依次生成堆积图，结果如下
2.2.1.银行客户信息分析（7个特征）

age：由直方图可知，年龄的分布是离散化的，仅仅看这个图表我们不能得出结论如果年龄对y有很大影响。与此同时，年龄在偏高的地方呈断崖式下跌，若不经过处理则会影响模型准确性。
job：由直方图可知，退休人员和学生的订阅率最高，这两类人员种缺乏相关理财知识的人占比较高，所以大多会选择风险低的定期存款。因此可以多向这两类人群投送广告，同时其他相同工作层次的人订阅率相差不大。

marital：由直方图可知，单身人群存款比例更高。
education：由直方图可知，大学生的存款比例最高。

default：由直方图可推断，有违约信用的几乎不存款。
housing：由直方图可知，是否有房存款的比例差别不大。
loan：由直方图可知，是否贷款与是否存款比例差距不大。

2.2.2.最后一次与相关人员联系的信息分析（4个特征）

contact：由直方图可知，使用手机联系的存款比例较高，推测使用手机的可能家庭较富裕
month：由直方图可知，五月的存款比例最低

day_of_week: 由直方图可知，在每个工作日存款人数比例接近
duration: 由直方图可知，数据分布过于离散，需要进行进一步的处理

2.2.3.社交和经济背景信息分析（5个特征）

由直方图可得，经济类的五个特征表现出相似的行为。

2.2.4.其它信息分析（4个特征）

campaign：由直方图可得，银行工作人员跟客户联系持续的时间越长，客户订阅产品的概率越大。
pdays：由直方图可得，客户在产品出来前如果联系相关人员，订阅率几乎为百分之百，这说明了产品宣传的重要性。

previous：由直方图可得，联系次数越多，存款的几率越大
poutcome：由直方图可得，营销结果成功的情况下，存款几率很高
2.2.5.综合分析
去掉离群样本的特征：age, duration, campaign，共3个
手动编码的特征：education，共1个
LabelEncoder编码的特征：job, marital, default, loan, contact, month, poutcome，共6个
放缩的特征：age, duration, euribor3m, pdays，共5个
不需要处理的特征：previous，emp.var.rate, cons.price.idx, cons.conf.idx, nr.emplyed，共6个
意义不大的特征：housing, day_of_week，共2个

3.特征工程 feature_engineer.py

3.1.代码概览

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from pandas import DataFrame as dF
from sklearn.preprocessing import LabelEncoder


# 20 columns + y
# ['age', 'job', 'marital', 'education', 'default', 'housing', 'loan'] 'housing' is useless
# ['contact', 'month', 'day_of_week', 'duration'] 'day_of_week' is useless
# ['campaign', 'pdays', 'previous', 'poutcome']
# ['emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed']
def process():
    filename = 'dataset.csv'
    bank = pd.read_csv(filename)
    label_encoder = LabelEncoder()
    bank.drop('housing', axis=1, inplace=True)
    bank.drop('day_of_week', axis=1, inplace=True)
    bank = remove_outliers(bank, 'age', low=True, high=True)
    bank = remove_outliers(bank, 'campaign', low=False, high=True)
    bank = remove_outliers(bank, 'duration', low=False, high=True)

    # 6 columns of 7
    bank_client = bank.loc[:, ['age', 'job', 'marital', 'education', 'default', 'loan']]
    process_bank_client(bank_client, label_encoder)
    # 3 columns of 4
    bank_contact = bank.loc[:, ['contact', 'month', 'duration']]
    process_bank_contact(bank_contact, label_encoder)
    # 5 columns
    bank_economy = bank.loc[:, ['emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed']]
    process_bank_economy(bank_economy, label_encoder)
    # 4 columns
    bank_another = bank.loc[:, ['campaign', 'pdays', 'previous', 'poutcome']]
    process_bank_another(bank_another, label_encoder)

    bank_ret = pd.concat([bank_client, bank_contact, bank_economy, bank_another], axis=1)
    y = bank.loc[:, ['y']]
    y['y'].replace(['no', 'yes'], [0, 1], inplace=True)
    # show(bank_ret)
    return bank_ret, y


def process_bank_client(client, label_encoder):
    """Process the information of client with 6 columns"""
    q1 = client['age'].quantile(0.25)
    q2 = client['age'].quantile(0.5)
    q3 = client['age'].quantile(0.75)
    client.loc[client['age'] <= q1, 'age'] = 1
    client.loc[(client['age'] > q1) & (client['age'] <= q2), 'age'] = 2
    client.loc[(client['age'] > q2) & (client['age'] <= q3), 'age'] = 3
    client.loc[client['age'] > q3, 'age'] = 4

    client['job'] = label_encoder.fit_transform(client['job'])
    client['marital'] = label_encoder.fit_transform(client['marital'])
    client['education'].replace(['unknown', 'illiterate', 'basic.4y', 'basic.6y', 'basic.9y', 'high.school',
                                 'professional.course', 'university.degree', ], [1, 2, 3, 4, 5, 6, 7, 8], inplace=True)
    client['default'] = label_encoder.fit_transform(client['default'])
    client['loan'] = label_encoder.fit_transform(client['loan'])


def process_bank_contact(contact, label_encoder):
    """Process the information of contact with 3 columns"""
    q1 = contact['duration'].quantile(0.25)
    q2 = contact['duration'].quantile(0.5)
    q3 = contact['duration'].quantile(0.75)
    contact.loc[contact['duration'] <= q1, 'duration'] = 1
    contact.loc[(contact['duration'] > q1) & (contact['duration'] <= q2), 'duration'] = 2
    contact.loc[(contact['duration'] > q2) & (contact['duration'] <= q3), 'duration'] = 3
    contact.loc[contact['duration'] > q3, 'duration'] = 4

    contact['contact'] = label_encoder.fit_transform(contact['contact'])
    contact['month'] = label_encoder.fit_transform(contact['month'])


def process_bank_economy(economy, label_encoder):
    """Process the information of economy with 5 columns"""
    economy.loc[(economy['euribor3m'] <= 1), 'euribor3m'] = 1
    economy.loc[(economy['euribor3m'] > 1) & (economy['euribor3m'] <= 2), 'euribor3m'] = 2
    economy.loc[(economy['euribor3m'] > 2) & (economy['euribor3m'] <= 3), 'euribor3m'] = 3
    economy.loc[(economy['euribor3m'] > 3) & (economy['euribor3m'] <= 4), 'euribor3m'] = 4
    economy.loc[(economy['euribor3m'] > 4), 'euribor3m'] = 5


def process_bank_another(another, label_encoder):
    """Process the information of another with 4 columns"""
    another.loc[(another['pdays'] == 999), 'pdays'] = 1
    another.loc[(another['pdays'] > 0) & (another['pdays'] != 999), 'pdays'] = 2
    another['poutcome'] = label_encoder.fit_transform(another['poutcome'])


def remove_outliers(bank, feature, low=False, high=False):
    """Remove the outliers of a specific feature"""
    q1 = bank[feature].quantile(0.25)
    q3 = bank[feature].quantile(0.75)
    iqr = q3 - q1
    low = q1 - 1.5 * iqr if low is True else 0
    high = q3 + 1.5 * iqr if high is True else 0
    bank = bank[(bank[feature] > low) & (bank[feature] < high)]
    return bank


def show(bank_ret):
    plt.figure()
    sns.heatmap(dF.corr(bank_ret), annot=True)
    plt.show()


if __name__ == '__main__':
    process()

3.2.代码分析

3.2.1.通过DataFrame中的drop()函数，处理意义较小的特征：housing, day_of_week
axis: 0代表行，1代表列
inplace：默认False，代表不对原始数据进行修改，此处为True

3.2.2.处理某些特征的离群样本
通过remove_ourliers()函数对离群样本进行去除

def remove_outliers(bank, feature, low=False, high=False):
    """Remove the outliers of a specific feature"""
    q1 = bank[feature].quantile(0.25)
    q3 = bank[feature].quantile(0.75)
    iqr = q3 - q1
    low = q1 - 1.5 * iqr if low is True else 0
    high = q3 + 1.5 * iqr if high is True else 0
    bank = bank[(bank[feature] > low) & (bank[feature] < high)]
    return bank

feature：特征名称
low：代表是否处理左端离群点，默认为False
high：代表是否处理右端离群点，默认为False
IQR值：设q1, q2, q3为特征X的四等分点，则四分位距IQR(Interquartile range)的值为q3–q1，左端离群点的范围为[0, q1–IQR]，右端离群点的范围为[q3 + IQR, INF）。

3.2.3.处理银行客户信息
age：去掉离群样本后，通过四等分点来放缩
job, marital, default, loan：通过LabelEncoder的fit_transform()自动编码
education：通过replace()函数手动编码
house：已被删除

def process_bank_client(client, label_encoder):
    """Process the information of client with 6 columns"""
    q1 = client['age'].quantile(0.25)
    q2 = client['age'].quantile(0.5)
    q3 = client['age'].quantile(0.75)
    client.loc[client['age'] <= q1, 'age'] = 1
    client.loc[(client['age'] > q1) & (client['age'] <= q2), 'age'] = 2
    client.loc[(client['age'] > q2) & (client['age'] <= q3), 'age'] = 3
    client.loc[client['age'] > q3, 'age'] = 4

    client['job'] = label_encoder.fit_transform(client['job'])
    client['marital'] = label_encoder.fit_transform(client['marital'])
    client['education'].replace(['unknown', 'illiterate', 'basic.4y', 'basic.6y', 'basic.9y', 'high.school',
                                 'professional.course', 'university.degree', ], [1, 2, 3, 4, 5, 6, 7, 8], inplace=True)
    client['default'] = label_encoder.fit_transform(client['default'])
    client['loan'] = label_encoder.fit_transform(client['loan'])

3.2.4.处理最后一次与相关人员联系的信息
duration：去掉离群样本后，通过四等分点来放缩
contact, month：通过LabelEncoder的fit_transform()自动编码

def process_bank_contact(contact, label_encoder):
    """Process the information of contact with 3 columns"""
    q1 = contact['duration'].quantile(0.25)
    q2 = contact['duration'].quantile(0.5)
    q3 = contact['duration'].quantile(0.75)
    contact.loc[contact['duration'] <= q1, 'duration'] = 1
    contact.loc[(contact['duration'] > q1) & (contact['duration'] <= q2), 'duration'] = 2
    contact.loc[(contact['duration'] > q2) & (contact['duration'] <= q3), 'duration'] = 3
    contact.loc[contact['duration'] > q3, 'duration'] = 4
    
    contact['contact'] = label_encoder.fit_transform(contact['contact'])
    contact['month'] = label_encoder.fit_transform(contact['month'])

3.2.5.处理经济信息
euribor3m：数据过于密集，结合堆积图进行放缩
emp.var.rate, cons.price.idx, cons.conf.idx, nr.emplyed：float类型，暂不处理

def process_bank_economy(economy, label_encoder):
    """Process the information of economy with 5 columns"""
    economy.loc[(economy['euribor3m'] <= 1), 'euribor3m'] = 1
    economy.loc[(economy['euribor3m'] > 1) & (economy['euribor3m'] <= 2), 'euribor3m'] = 2
    economy.loc[(economy['euribor3m'] > 2) & (economy['euribor3m'] <= 3), 'euribor3m'] = 3
    economy.loc[(economy['euribor3m'] > 3) & (economy['euribor3m'] <= 4), 'euribor3m'] = 4
    economy.loc[(economy['euribor3m'] > 4), 'euribor3m'] = 5

3.2.6.处理其它信息
campaign：int类型，去掉离群样本后不需要处理
pdays：结合堆积图，分为pdays=999和pdays!=999两个类别
previous：int类型，不需要处理
poutcome：通过LabelEncoder的fit_transform()自动编码

def process_bank_another(another, label_encoder):
    """Process the information of another with 4 columns"""
    another.loc[(another['pdays'] == 999), 'pdays'] = 1
    another.loc[(another['pdays'] > 0) & (another['pdays'] != 999), 'pdays'] = 2
    another['poutcome'] = label_encoder.fit_transform(another['poutcome'])

3.2.7.信息整合、协方差矩阵、返回值
调用pandas中的concat()函数进行信息的整合，其中axis=1代表列的整合
协方差矩阵如下图

可以得到的是
1.各经济指标之间联系极大。
2.previous和经济类指标和contact相关，即经济比较景气的时候银行的相关产品销售情况会好转。
3.marital和age强相关，但是由于marital为自动编码，故无法得出有效结论。

4.模型训练 train_model.py

4.1.代码总览

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import warnings

import matplotlib.pyplot as plt
import numpy as np
import xgboost as xgb
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from xgboost.sklearn import XGBClassifier

from feature_engineer import process


def main():
    bank, y = process()
    x = ['age', 'job', 'marital', 'education', 'default', 'loan',
         'contact', 'month', 'duration',
         'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed',
         'campaign', 'pdays', 'previous', 'poutcome']
    bank.set_feature_name(x)
    x_train, x_test, y_train, y_test = train_test_split(bank, y, test_size=0.25, random_state=49)

    standard_scaler = StandardScaler()
    x_train = standard_scaler.fit_transform(x_train.astype(np.float64))
    x_test = standard_scaler.transform(x_test.astype(np.float64))
    y_train = np.ravel(y_train)

    # knn_coefficient(x_train, y_train)
    use_knn(x_train, x_test, y_train, y_test)
    use_logistic_regression(x_train, x_test, y_train, y_test)
    use_svm(x_train, x_test, y_train, y_test)
    use_adaboost(x_train, x_test, y_train, y_test)
    use_gradient_boost(x_train, x_test, y_train, y_test)
    use_bagging(x_train, x_test, y_train, y_test)
    # xgboost_coefficient(x_train, y_train)
    use_xgboost(x_train, x_test, y_train, y_test)
    use_random_forest(x_train, x_test, y_train, y_test)
    # use_xgboost_optimization(x_train, x_test, y_train, y_test)


def knn_coefficient(x_train, y_train):
    """Calculate the coefficient of kNN, and the best value of k is 22"""
    ks = range(1, 26)
    cv_scores = []
    for k in ks:
        knn = KNeighborsClassifier(n_neighbors=k, weights='uniform', p=2, metric='euclidean')
        score = cross_val_score(knn, x_train, y_train, cv=k_fold, scoring='accuracy')
        cv_scores.append(score.mean())
        print(f'k = {k}, accuracy = {score.mean()}')

    best_k = ks[cv_scores.index(max(cv_scores))]
    print(best_k)
    plt.plot(ks, cv_scores)
    plt.scatter(best_k, cv_scores[best_k - 1], c='r')
    plt.xlabel('k')
    plt.ylabel('Accuracy')
    plt.show()


def use_knn(x_train, x_test, y_train, y_test):
    knn = KNeighborsClassifier(n_neighbors=23)
    process_clf(x_train, x_test, y_train, y_test, 'kNN', knn)


def use_logistic_regression(x_train, x_test, y_train, y_test):
    logistic_regression = LogisticRegression(solver='lbfgs')
    process_clf(x_train, x_test, y_train, y_test, 'logistic regression', logistic_regression)


def use_svm(x_train, x_test, y_train, y_test):
    svc = SVC(kernel='sigmoid', gamma='auto')
    svc.fit(x_train, y_train)
    cv_svm = cross_val_score(svc, x_train, y_train, cv=k_fold, n_jobs=1, scoring='accuracy', error_score='raise').mean()
    print('svm:', cv_svm)


def use_adaboost(x_train, x_test, y_train, y_test):
    adaboost = AdaBoostClassifier()
    process_clf(x_train, x_test, y_train, y_test, 'adaboost', adaboost)


def use_gradient_boost(x_train, x_test, y_train, y_test):
    gradient_boost = GradientBoostingClassifier()
    process_clf(x_train, x_test, y_train, y_test, 'gradient_boost', gradient_boost)


def xgboost_coefficient(x_train, y_train):
    cv_params = {'n_estimators’: [400, 500, 600, 700, 800]}
    params = {'learning_rate': 0.1,
              'n_estimators': 330,
              'max_depth': 3,
              'min_child_weight': 6,
              'random_state': 0,
              'subsample': 0.6,
              'colsample_bytree': 0.9,
              'gamma': 0,
              'reg_alpha': 3,
              'reg_lambda': 0.05}
    xgboost = XGBClassifier(**params)
    optimized_xgboost = GridSearchCV(estimator=xgboost, param_grid=cv_params, scoring='r2', cv=5, verbose=1, n_jobs=4)
    optimized_xgboost.fit(x_train, y_train)
    print(f'learning_rate：{optimized_xgboost.best_params_}')


def use_xgboost(x_train, x_test, y_train, y_test):
    xgboost = XGBClassifier()
    process_clf(x_train, x_test, y_train, y_test, 'xgboost', xgboost)


def use_xgboost_optimization(x_train, x_test, y_train, y_test):
    xgboost = XGBClassifier(learning_rate=0.1,
                            n_estimators=330,
                            max_depth=3,
                            min_child_weight=6,
                            random_state=0,
                            subsample=0.6,
                            colsample_bytree=0.9,
                            gamma=0,
                            reg_alpha=3,
                            reg_lambda=0.05)
    process_clf(x_train, x_test, y_train, y_test, 'xgboost', xgboost)
    xgboost.get_booster().feature_names = ['age', 'job', 'marital', 'education', 'default', 'loan',
                                           'contact', 'month', 'duration',
                                           'emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m',
                                           'nr.employed',
                                           'campaign', 'pdays', 'previous', 'poutcome']
    xgb.plot_importance(xgboost)
    plt.show()


def use_bagging(x_train, x_test, y_train, y_test):
    bagging = BaggingClassifier()
    process_clf(x_train, x_test, y_train, y_test, 'bagging', bagging)


def use_random_forest(x_train, x_test, y_train, y_test):
    random_forest = RandomForestClassifier(n_estimators=200)
    random_forest.fit(x_train, y_train)
    cv_random_forest = cross_val_score(random_forest, x_train, y_train, cv=k_fold, n_jobs=1, scoring='accuracy').mean()
    print('random forest:', cv_random_forest)


def process_clf(x_train, x_test, y_train, y_test, name, clf):
    """Print confusion matrix, accuracy score"""
    clf.fit(x_train, y_train)
    predict = clf.predict(x_test).ravel()
    score = accuracy_score(y_test, predict)
    print(name + ':', score)


if __name__ == '__main__':
    warnings.simplefilter('error')
    k_fold = KFold(n_splits=10, shuffle=True, random_state=1)
    main()

4.2.main()函数

使用多种算法来拟合数据：包括kNN，logistic回归，svm，adaboost，gradient boost，bagging，xgboost，随机森林，排除过于初级效果也偏低的决策树和朴素贝叶斯

4.2.1.kNN
使用knn_coefficient函数来确定knn的k值

def knn_coefficient(x_train, y_train):
    """Calculate the coefficient of kNN, and the best value of k is 22"""
    ks = range(1, 26)
    cv_scores = []
    for k in ks:
        knn = KNeighborsClassifier(n_neighbors=k, weights='uniform', p=2, metric='euclidean')
        score = cross_val_score(knn, x_train, y_train, cv=k_fold, scoring='accuracy')
        cv_scores.append(score.mean())
        print(f'k = {k}, accuracy = {score.mean()}')

    best_k = ks[cv_scores.index(max(cv_scores))]
    print(best_k)
    plt.plot(ks, cv_scores)
    plt.scatter(best_k, cv_scores[best_k - 1], c='r')
    plt.xlabel('k')
    plt.ylabel('Accuracy')
    plt.show()

k的部分取值展示，解得k=23

4.2.2.多种算法&结果分析
调用多种算法来进行结果检验，可以看出，kNN调参后达到了0.93的准确率。纵观选择的所有算法，准确率在0.934以上的有gradient boost，xgboost。
同时，logistic回归和boost类算法的运行速度很快，远远超过其它的算法。由此可得，boost算法在此数据集上的表现要超过其余算法，综合算法的性能来看，选择功能比较强大的xgboost进行进一步的参数调节。

4.2.3.xgboost及调参
xgboost(Extrame Gradient Boost)算法，是由Tianqi Chen最初开发的实现可扩展，便携，分布式 gradient boosting (GBDT, GBRT or GBM) 算法的一个库，所应用的算法是Gradient Boosting Decision Tree，既可以用于分类也可以用于回归。Boosting算法的核心是将很多弱分类器f_i(x)组合起来形成强分类器F(X)的一种方法。我们对其的调参如下。
1）参数初始化

 params = {'learning_rate': 0.1,
              'n_estimators': 330,
              'max_depth': 3,
              'min_child_weight': 6,
              'random_state': 0,
              'subsample': 0.6,
              'colsample_bytree': 0.9,
              'gamma': 0,
              'reg_alpha': 3,
              'reg_lambda': 0.05}

learning_rate：学习率，代表算法往最佳点收缩的速率，默认为0.1，初始化为0.1。
n_estimators：算法构造树的数量，即最佳迭代次数，默认为100，初始化为500。
max_depth：树的最大深度，max_depth的值越大，则算法越容易过拟合，默认为6，初始化5。
min_child_weight：孩子结点中最小的样本权重和，如果某个叶子结点的样本权重和小于min_child_weight则炒粉过程结束。min_child_weight越大，算法越保守，默认为1，初始化为1。
random_state：随机数种子，与之前版本的seed意义相同，默认为0，初始化为0。
subsample：用于训练模型的子样本占整个样本集合的比例，默认为1，初始化为0.8。
colsample_bytree：在建立树时对特征采样的比例，默认为1，初始化为0.8。
gamma：在树的叶结点上进一步分离所需的最小损失值，gamma越大，算法越保守，默认为0，初始化为0。
reg_alpha：L1正则化项的权重（类似于Lasso回归），默认为0，初始化为0。
reg_lambda：关于权重的L2正则项（类似于岭回归），默认为1，初始化为1。
2）参数调整步骤
通过cv_params字典来进行参数的保存，如n_estimators中的待选值保存为

cv_params = {'n_estimators’: [400, 500, 600, 700, 800]}。

反复更改cv_params中的参数以及待选值来得到最终的参数。
在这些参数中，最重要的参数为n_estimators和learning_rate，n_estimators极大影响算法的准确度，learning_rate极大地影响算法的性能。
3）n_estimators的调整
令n_estimators分别取 [400, 500, 600, 700, 800]。

当前最佳取值为400，我们选择的数据跨度较大，比较粗糙。
选择更为精细的区间，经过多次调整后得到

n_estimators的最佳取值为330。
4）max_depth和min_child_weight的调整
令max_depth分别取[3, 4, 5, 6, 7, 8, 9, 10]，min_child_weight分别取[1, 2, 3, 4, 5, 6]。

max_depth的最佳取值为3，min_child_weight的最佳取值为6。
5）subsample和colsample_bytree的调整
令subsample分别取[0.6, 0.7, 0.8, 0.9]，colsample_bytree分别取[0.6, 0.7, 0.8, 0.9]。

subsample的最佳取值为0.6，colsample_bytree的最佳取值为0.9。
6）reg_alpha和reg_lambda的调整
令reg_alpha分别取[0.05, 0.1, 1, 2, 3]，reg_lambda分别取[0.05, 0.1, 1, 2, 3]。

reg_alpha的最佳取值为3，reg_lambda的最佳取值为0.05。
7）learning_rate的调整

learning_rate的最佳取值为0.1，与初始化值相同。
8）参数调整汇总

n_estimators：330
max_depth：3
min_child_weight：6
subsample：0.6
colsample_bytree：0.9
reg_alpha：3
reg_lambda：0.5
learning_rate：0.1

将参数输入到模型中进行检验。
4.2.4.xgboost的使用
将参数更新后运行，得到结果如下

准确率为94.15%，比调参前提高了一个百分点。

5.数据可视化

通过xgboost包下的plot_importance()函数来对特征的重要性进行图像化地输出。

特征的重要度从高到低排行分别为
影响大1-6：duration, cons.price.idx, month, cons.conf.idx, job, education
影响中等7-11：age, campaign, emp.var.rate, poutcome, nr.employed
影响小12-17：contact, marital, previous, loan, default, euribor3m
未出现：pdays，推测可能是因为样本分布过于不均衡（pdays!=999的几乎没有）所以特征不具有代表性。

6.数据洞察

通过数据可视化，可以看出，duration正是对结果影响最大的特征，与数据集给的信息相吻合。
除此以外，cons.price.idx, month, cons.conf.idx, job, education等特征对客户是否会购买相关银行存款产品的影响也十分大，推出客户的经济状况与当前社会的经济状况（cons.price.idx, month, cons.conf.idx等）与是否会购买银行的相关存款产品存在较大的关联性，同时，我们猜测，受教育的程度越高，对于理财的重视程度也就越高。

通过这些得到的结论，银行可以对其智能销售体系进行建设，如在经济比较景气的时间段内，主要向受过高等教育且工作稳定的客户进行产品的智能推送。

7.参考文献

[1].Henrique Yamahata.Bank Marketing + Classification + ROC,F1,RECALL.https://www.kaggle.com/henriqueyamahata/bank-marketing/kernels
[2].Burak Batıbay.Great Guide of Starters : LightGBM.https://www.kaggle.com/batibayburak/great-guide-of-starters-lightgbm
[3].XGboost数据比赛实战之调参篇(完整流程).https://blog.csdn.net/sinat_35512245/article/details/79700029
[4].XGBoost.维基百科.https://zh.wikipedia.org/wiki/XGBoost

你可能感兴趣的:(数据科学,机器学习,python,数据分析)

python模拟行星运动_动态模拟运行太阳系的行星运转
在地理学科中，都要学习认识太阳系的知识，对于天体的运动，没有动态演示的话，学生们只能凭空想象，无法观看到九大行星之间到底是如何运转的。几何画板作为人教版指定教育软件，被老师们广泛用于教学中，不仅仅可以用来演示几何图形，还可以应用在地理学科中演示天体运动情况，下面就给大家介绍利用几何画板制作的动态模拟运行太阳系的九大行星课件。几何画板动态模拟运行太阳系的九大行星课件样图：几何画板课件模板——动态模拟
如何用 Python 实现模拟木星的运行轨道、自转、公转 wh3933 python 开发语言
用Python来模拟木星的轨道运行、自转和公转是一个非常有趣且富有挑战性的项目。这需要结合天文学知识和编程技巧。我们将使用VPython这个库来实现这个模拟。VPython非常适合创建简单的3D物理场景和动画，它的语法直观，能够让我们快速地将物理概念转化为可视化的三维模型。在开始之前，请确保您已经安装了VPython。如果尚未安装，可以通过pip进行安装：pipinstallvpython模拟思路
python输出小郭爱吃糖 python 开发语言
Python基础1.1基本的输出函数内置的函数print语法：print(输出内容)print()函数完整的语法格式print(value,……,sep="",end="\n",file=None)示例：a=50b=100print(90)print(a)print(a*b)print('HelloWorld')print("HelloWorld")print("""HelloWorld""")1
Python 中 Pendulum 库的详细使用：更精确的日期时间处理数据知道 python3案例和总结 python 开发语言 Pendulum库
文章目录一、Pendulum概述1.1Pendulum介绍1.2安装Pendulum1.3注意事项二、基本使用2.1创建Pendulum对象2.2格式化输出2.3时间运算三、高级使用3.1时区处理3.2时间间隔3.3日期比较四、实际应用案例4.1日志时间处理4.2会议时间提醒4.3工作日计算4.4Pendulum与datetime互操作一、Pendulum概述1.1Pendulum介绍Pendul
python库 arrow 库的各种案例的使用详解（更人性化的日期时间处理）数据知道 python3案例和总结 python 开发语言时间处理
文章目录一、arrow概述1.1arrow介绍1.2安装arrow1.3注意事项二、基本使用2.1创建Arrow对象2.2格式化输出2.3时间运算三、高级功能3.1时区处理3.2时间范围3.3时间间隔四、实际应用案例4.1日志时间处理4.2会议时间提醒4.3国际化时间显示5.Arrow与datetime互操作一、arrow概述1.1arrow介绍Arrow是一个Python库，提供了比标准库dat
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
python 魔法方法常用_Python魔法方法指南 weixin_39603505 python 魔法方法常用
有很多人说学习Python基础之后不知道干什么，不管你是从w3c还是从廖雪峰的教程学习的，这些教程都有一个特点：只能引你快速入门，但是有关于Python的很多基础内容这些教程中都没介绍，而这些你没学习的内容会让你在后期做项目的时候非常困惑。就比如下面这篇我要给大家推荐的文章所涉及的内容，不妨你用一天时间耐心看完，把代码都敲上一遍。--11：33更新--很多人想要我的一份学习笔记，所以在魔法指南之前
Python 基础入门第十三讲魔法方法补充、单例模式、reflect反射（getattr、hasattr、__import__()）
第十三讲一、特殊成员和魔法方法在之前的课程中已经学习过如__init__、__str__、__dir__等魔法方法，现补充一些常用的魔法方法：1.__doc__魔法方法该魔法方法的作用为打印类的说明文档，举个例子：print(str().__doc__)###输出结果为：str(object='')->strstr(bytes_or_buffer[,encoding[,errors]])->str
python魔法方法长文详解千翻娃儿 python原生基础 python
python魔法方法详解1.什么是魔法方法魔法方式（Magicmethods）是python的内置函数，一般以双下划线开头和结尾，比如__add__,__new__等。每个魔法方法都有对应的一个内置函数或者运算符。当我们个对象使用这些方法时，相当于对这个对象的这类方法进行重写（如运算符重载）。魔法方法的存在是对类或函数进行了提炼，供python解释器直接调用。当使用len(obj)时，实际上调用的
推客系统全栈开发指南：从架构设计到商业化落地 ywyy6798 系统小程序分销系统短剧系统海外短剧系统推客系统推客小程序
一、推客系统概述推客系统（TuiKeSystem）是一种结合社交网络与内容分发的创新型平台，旨在通过用户间的相互推荐机制实现内容的高效传播。这类系统通常包含用户关系管理、内容发布、智能推荐、数据分析等核心模块，广泛应用于电商导购、知识分享、新闻资讯等领域。推客系统的核心价值在于：利用社交关系链实现内容病毒式传播通过激励机制提升用户参与度基于用户行为数据优化推荐算法构建内容生产者与消费者的良性互动生
微信聊天记录监听与转发工具明天过后0122 高效办公微信
以下是基于您需求撰写的《微信聊天记录监听与转发工具需求分析开发文档》：微信聊天记录监听与转发工具需求分析开发文档一、项目概述1.1目标开发基于wxauto的自动化工具，实现：实时监听指定微信聊天窗口（群组/个人）捕获并处理新消息按指定策略转发至目标用户"元宝"确保操作间隔符合10秒限制1.2技术栈核心框架：Python3.8+微信自动化：wxauto_custom(基于wxauto的定制版本)并发
《支持向量机（SVM）在医疗领域的变革性应用》 CodeJourney. 支持向量机算法机器学习
在医疗科技日新月异的今天，先进的数据分析与机器学习技术正逐渐成为提升诊疗水平、助力医学研究的关键力量。支持向量机（SVM），凭借其独特的优势，在医疗这片复杂且对精准度要求极高的领域崭露头角，带来诸多令人瞩目的应用成果。一、疾病诊断：癌症早期筛查的“火眼金睛”癌症，作为全球健康的“头号杀手”，早期诊断对提升患者生存率意义非凡。在乳腺癌筛查领域，SVM发挥着重要作用。医疗科研人员收集大量乳腺组织的影像
产品经理-埋点分析文档（DRD） - AxureMost AxureMost NPDP 产品经理开源知识库产品经理
埋点分析文档（DRD）-AxureMost数据埋点文档是产品、数据分析师和开发人员之间沟通的桥梁，用于明确需要收集哪些用户行为数据，以及如何收集这些数据。它详细记录了数据埋点的需求、规范和实施细节，确保数据收集的准确性和一致性。以下是数据埋点文档的定义、内容、作用以及规范的详细说明：定义数据埋点文档是一种技术文档，它详细描述了在产品中需要埋点的位置、事件类型、数据字段、统计逻辑等信息。它是产品需求
机器学习20-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习20-线性网络思考针对线性网络的基础问题，使用基础示例进行解释1-核心知识点1-线性模型家族的线性回归和逻辑回归分别是什么，线性模型家族还有没有其他的模型线性模型家族是一系列基于线性假设的统计模型，它们假设因变量和自变量之间存在线性关系。线性模型家族中的两个最常见模型是线性回归和逻辑回归。线性回归（LinearRegression）:线性回归是一种用于预测连续因变量的模型。它假设因变量yy
机器学习18-强化学习RLHF 坐吃山猪机器学习机器学习人工智能
机器学习18-强化学习RLHF1-什么是RLHFRLHF（ReinforcementLearningfromHumanFeedback）即基于人类反馈的强化学习算法，以下是详细介绍：基本原理RLHF是一种结合了强化学习和人类反馈的机器学习方法。传统的强化学习通常依赖于预定义的奖励函数来指导智能体的学习，而RLHF则通过引入人类的反馈来替代或补充传统的奖励函数。在训练过程中，人类会对智能体的行为或输
机器学习19-Transformer和AlexNet思考坐吃山猪机器学习机器学习 transformer 人工智能
Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？AlexNet的主要核心思路是什么，为什么表现那么好？现在有什么比AlexNet更优秀的算法2-思路整理1-Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？Word2Vec的作用Word2
机器学习21-线性网络思考坐吃山猪机器学习机器学习人工智能线性网络
机器学习21-线性网络思考针对线性网络的发展问题，进行补充学习1-核心知识点1-传统机器学习针对线性分类算法求解的方式有哪些？请详细列举不同的算法对应的损失函数和计算思路在传统机器学习中，线性分类算法是一种非常重要的方法，用于将数据划分为不同的类别。以下是几种常见的线性分类算法，包括它们的损失函数和计算思路：1.感知机（Perceptron）损失函数感知机的损失函数是基于误分类点的，其目标是最小化
Python built-in types - Numeric Types LorgSher Python笔录 python
Python内建类型之数值类型-整数、浮点数和复数ManualTherearethreedistinctnumerictypes:integers,floatingpointnumbers,andcomplexnumbers.Inaddition,Booleansareasubtypeofintegers.Integershaveunlimitedprecision.Floatingpointnu
深入理解 Python 中的异步操作：async 和 await | python小知识
一、深入理解Python中的异步操作：async和await引言在现代编程中，异步操作是一个非常重要的概念，尤其是在处理I/O密集型任务时。使用异步操作可以显著提高程序的性能和响应速度。Python提供了async和await关键字，使得编写异步代码变得更加直观和简洁。在这篇文章中，我们将深入探讨Python的异步操作，并通过实际代码示例来说明其使用方法。目录什么是异步操作？Python中的异步编
python :built-in functions angry_grina python
今天研究下python的内建函数：Built-inFunctionsabs()divmod()input()open()staticmethod()all()enumerate()int()ord()str()any()eval()isinstance()pow()sum()basestring()execfile()issubclass()print()super()bin()file()ite
Python标准库The Python Standard Library GarfieldEr007 Python Python 标准库 Standard Library
WhileThePythonLanguageReferencedescribestheexactsyntaxandsemanticsofthePythonlanguage,thislibraryreferencemanualdescribesthestandardlibrarythatisdistributedwithPython.Italsodescribessomeoftheoptionalc
Python operator - Standard operators as functions Yongqiang Cheng Python 3 -Python 2 -Cython Python operator operators functions
Pythonoperator-Standardoperatorsasfunctions1.MappingOperatorstoFunctions2.In-placeOperatorsReferenceshttps://docs.python.org/3/library/operator.htmlTheoperatormoduleexportsasetofefficientfunctionscorr
使用 Python 在 Word 文档中插入数学公式 - 详解 nuclear2011 Python Word python 插入数学公式到Word文档添加数学表达式到Word文档给Word文档添加数学公式 MathML数学公式 LaTeX数学公式
目录为什么在Word文档中插入数学公式？环境准备如何使用Python在Word文档中插入数学公式方法一：使用EQ域插入数学公式方法二：通过LaTeX和MathML插入复杂数学公式总结在金融、工程、教育和科研等专业领域的文档中常常需要包含复杂且精确的数学公式。将数学公式直接嵌入文档中，不仅能够提升文档的专业水准，还能实现公式的自动更新和动态计算，从而有效提升工作效率和内容的准确性。本文将介绍如何使用
【雕爷学编程】MicroPython手册之 ESP32-CAM 机器人目标跟踪驴友花雕机器人目标跟踪人工智能嵌入式硬件 python MicroPython ESP32-CAM
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
【雕爷学编程】MicroPython手册之 ESP32-S3 USB摄像头驴友花雕嵌入式硬件单片机 python MicroPython ESP32-S3 USB摄像头
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
【雕爷学编程】MicroPython手册之 ESP32-CAM 图像识别驴友花雕 1024程序员节单片机嵌入式硬件 MicroPython python ESP32-CAM 图像识别
MicroPython是为了在嵌入式系统中运行Python3编程语言而设计的轻量级版本解释器。与常规Python相比，MicroPython解释器体积小(仅100KB左右)，通过编译成二进制Executable文件运行，执行效率较高。它使用了轻量级的垃圾回收机制并移除了大部分Python标准库，以适应资源限制的微控制器。MicroPython主要特点包括:1、语法和功能与标准Python兼容,易学
线性回归 python代码黄涵奕 python 线性回归 numpy 机器学习开发语言
下面是一个线性回归模型的Python代码示例：importnumpyasnpfromsklearn.linear_modelimportLinearRegression#训练数据x=np.array([[1],[2],[3],[4],[5]])y=np.array([5,7,9,11,13])#建立模型reg=LinearRegression().fit(x,y)#预测reg.predict(np
多元线性回归 python_Python中的多元线性回归
多元线性回归pythonLinearregressionisastandardstatisticaldataanalysistechnique.Weuselinearregressiontodeterminethedirectrelationshipbetweenadependentvariableandoneormoreindependentvariables.Thedependentvaria
【数据分析】Python实现线性回归和多元线性回归（全代码）干了这一碗BUG 线性回归回归算法
老规矩，涉及到的数学原理，想深入了解的可以自行查阅相关资料，这里直接上干货用Python实现。目录逻辑回归中涉及的术语线性回归Python实现多元线性回归Python实现逻辑回归中涉及的术语以下是逻辑回归中一些常见的术语：自变量：应用于因变量预测的输入特征或预测因子。因变量：逻辑回归模型中的目标变量，即我们试图预测的变量。逻辑函数：用于表示自变量和因变量之间关系的公式。逻辑函数将输入变量转换为0到
python实现多元线性回归算法 (附完整源码) 源代码大师 python算法完整教程算法 python 线性回归
python实现多元线性回归算法1.使用正规方程实现多元线性回归代码说明运行结果示例2.使用梯度下降法实现多元线性回归代码说明运行结果示例进一步优化与注意事项下面是使用Python从头实现多元线性回归算法的完整源码。这个实现利用了numpy进行矩阵运算，并展示了如何训练模型、进行预测以及评估模型性能。为了更全面，代码中还包含了一个使用梯度下降法（GradientDescent）优化参数的实现。多元
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla