Thomas_Cai

kaggle比赛记录——ieee_fraud_detection问题

文章目录

题目
简单尝试版

0. 所需python包
1. 数据

1.1 导入数据并显示
1.2 分析数据

2. 岭回归

2.1 学习曲线
2.2 岭回归模型
2.3 数据预处理：样本不平衡
2.4 数据预处理：把类别太多的特征用factories处理

3. LightBGM模型

3.1 超参数调参顺序及范围（Classifier）

3.1.1 max_depth = np.arange(3, 10, 2)和num_leaves = np.arange(50, 170, 30)
3.1.2 'min_child_samples':[18, 19, 20, 21, 22],'min_child_weight':[0.001, 0.002, 0.003]
3.1.3 subsample = np.arange(0.5, 1, 0.1), subsample_freq = np.arange(1, 6, 1)
3.1.4 reg_alpha = [0, 0.001, 0.01, 0.03, 0.08, 0.3, 0.5] reg_lambda = [0, 0.001, 0.01, 0.03, 0.08, 0.3, 0.5]
3.1.5 learning_rate = [0.005, 0.01, 0.1, 0.3] n_estimators = [1000, 1200, 1500, 2000, 2500]

3.2 岭回归和lgbm融合结果
3.3 使用所有数据lgbm结果
3.4 数据预处理：缺失值处理
3.5 数据预处理2：缺失值处理（用算法填补）

4. 聚类分析

4.1 考虑特征addr1、addr2、dist1、dist2
4.2 考虑特征addr1、addr2

5. 逻辑回归

5.1 数据预处理：标准化处理
5.2 逻辑回归

6 全部数据（题目给的两个文件的数据）
7 提交

进阶探索版

1 特征选择
2 利用全部数据
3 利用全部(两个文件)数据(最终的即包括测试阶段不可见数据)

题目

题目链接：https://www.kaggle.com/c/ieee-fraud-detection/data
数据集：

train_transaction.csv

train_identity.csv

test_transaction.csv

test_identity.csv

简单尝试版

0. 所需python包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBClassifier
from xgboost import XGBRegressor
import sklearn.metrics as metrics
from sklearn.model_selection import train_test_split, GridSearchCV, learning_curve
import lightgbm as lgbm

1. 数据

1.1 导入数据并显示

def input_dataset(train_data_path):
    print('====================数据：导入及显示数据====================')
    train_transaction = pd.read_csv(train_data_path, index_col=0)
    # train_identity = pd.read_csv('dataset/train_identity.csv', index_col=0)
    pd.set_option('display.max_columns', None)  # 显示最大列
    pd.set_option('display.max_rows', None)  # 显示最大行
    pd.set_option('expand_frame_repr', False)  #  每一行不分行显示
    train_transaction_fraud = train_transaction[train_transaction['isFraud'] == 1]
    print(train_transaction.head(10))
    print(train_transaction_fraud.head(10))
    print('总样本与欺诈样本数: ', len(train_transaction), ' ', len(train_transaction_fraud))
    return train_transaction

1.2 分析数据

def anaysis_data(train_transaction):
    print('====================分析：ProductCD与是否欺诈的关系====================')
    print(train_transaction.groupby(['ProductCD', 'isFraud'])['isFraud'].count())
    print(train_transaction[['ProductCD', 'isFraud']].groupby(['ProductCD']).mean())
    train_transaction[['ProductCD', 'isFraud']].groupby(['ProductCD']).mean().plot.bar()

    print('====================分析：card4:支付方式与是否欺诈的关系====================')
    print(train_transaction.groupby(['card4', 'isFraud'])['isFraud'].count())
    print(train_transaction[['card4', 'isFraud']].groupby(['card4']).mean())
    train_transaction[['card4', 'isFraud']].groupby(['card4']).mean().plot.bar()

    print('====================分析：card6:卡的类别与是否欺诈的关系====================')
    print(train_transaction.groupby(['card6', 'isFraud'])['isFraud'].count())
    print(train_transaction[['card6', 'isFraud']].groupby(['card6']).mean())
    train_transaction[['card6', 'isFraud']].groupby(['card6']).mean().plot.bar()

    print('====================分析：P_emaildomain:支付邮箱与是否欺诈的关系====================')
    print(train_transaction.groupby(['P_emaildomain', 'isFraud'])['isFraud'].count())
    print(train_transaction[['P_emaildomain', 'isFraud']].groupby(['P_emaildomain']).mean())
    train_transaction[['P_emaildomain', 'isFraud']].groupby(['P_emaildomain']).mean().plot.bar()

    print('====================分析：R_emaildomain:支付邮箱与是否欺诈的关系====================')
    print(train_transaction.groupby(['R_emaildomain', 'isFraud'])['isFraud'].count())
    print(train_transaction[['R_emaildomain', 'isFraud']].groupby(['R_emaildomain']).mean())
    train_transaction[['R_emaildomain', 'isFraud']].groupby(['R_emaildomain']).mean().plot.bar()
    plt.show()

可以看到，总有一项会较大的影响是否欺诈。

2. 岭回归

尝试用岭回归处理分类问题，注意网格搜索超参数时在评分标准上改变。
但是是简单版本，对于个别变量做个尝试。

2.1 学习曲线

# 学习曲线
def plot_learning_curve(estimator, title, X, y, ylim=None, cv=None, n_jobs=1, train_sizes=np.linspace(.1, 1.0, 5), verbose=0):
        """
        Generate a simple plot of the test and training learning curve.

        Parameters
        -------------
        estimator:object type that implents the "fit" and "predict" methods
        An object of that type which is cloned for each validation.

        title:string
        Title for the chart.

        X:array-like,shape(n_samples,n_features)
        Training vector,where n_samples is the number of samples and n_features is
        the number of features.

        y:array-like,shape(n_samples) or (n_samples,n_features),optional
        Target relative to X for classification or regression;
        None for unsupervised learning.

        ylim:tuple,shape(ymin,ymax),optional
        Defines minimum and maximum yvalues plotted.

        cv:integer,cross-validation generator,optional
        If an integer is passed,it is the number of folds(defaults to 3).
        Specific cross-validation objects can be passed,see
        sklearn.cross_validation module for the list of possible objects

        n_jobs:integer,optional
        Number of jobs to run in parallel(default 1).
        """
        plt.figure()
        plt.title(title)
        if ylim is not None:
            plt.ylim(*ylim)
        plt.xlabel("Training examples")
        plt.ylabel("Score")
        train_sizes, train_scores, test_scores = learning_curve(estimator, X, y, cv=cv,
                                                                n_jobs=n_jobs, train_sizes=train_sizes)
        train_scores_mean = np.mean(train_scores, axis=1)
        train_scores_std = np.std(train_scores, axis=1)
        test_scores_mean = np.mean(test_scores, axis=1)
        test_scores_std = np.std(test_scores, axis=1)
        plt.grid()

        plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                         train_scores_mean + train_scores_std, alpha=0.1, color='r')
        plt.fill_between(train_sizes, test_scores_mean - test_scores_std,
                         test_scores_mean + test_scores_std, alpha=0.1, color='g')
        plt.plot(train_sizes, train_scores_mean, 'o-', color="r", label="Training score")
        plt.plot(train_sizes, test_scores_mean, 'o-', color="g", label="Cross-validation score")

        plt.legend(loc="best")
        plt.show()
        return plt

2.2 岭回归模型

def deal_dataset(train_transaction):
    print('====================处理：对训练数据和测试数据one-hot编码====================')
    train_transaction_y = train_transaction.pop('isFraud')
    predictors = ['ProductCD', 'card4', 'card6', 'P_emaildomain', 'R_emaildomain']
    train_transaction = train_transaction[predictors]
    print(train_transaction.head(50))
    # colsMean = train_transaction.median()
    # train_transaction.fillna(colsMean)
    # print(train_transaction.isnull().sum().sum())
    train_transaction_dummies = pd.get_dummies(train_transaction)
    X_train, X_test, y_train, y_test = train_test_split(train_transaction_dummies, train_transaction_y, test_size=0.3)
    print('====================搭建模型：岭回归====================')
    # 网格搜索最佳超参数
    ridge = Ridge()
    alphas = np.array([1.5, 1.7, 1.9, 2, 2.1, 2.3])
    parameters = [{'alpha': alphas}]
    grid_search = GridSearchCV(estimator=ridge, param_grid=parameters, scoring='roc_auc', cv=10, verbose=10)
    result = grid_search.fit(X_train, y_train)
    best = grid_search.best_score_
    best_parameter = grid_search.best_params_
    print('Ridge result: ', result)
    print('best_score: ', best)
    print('best_parameter: ', best_parameter)
    best_alpha = best_parameter['alpha']  # 获取best参数
    ridge = Ridge(alpha=best_alpha)  # 设置岭回归参数
    ridge.fit(X_train, y_train)
    y_pre_ridge = ridge.predict(X_test)  # 岭回归预测结果
    fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pre_ridge, pos_label=1)
    auc_ridge = metrics.auc(fpr, tpr)
    print('岭回归的auc分数为：', auc_ridge)
    print(X_train.shape[0])
    plot_learning_curve(ridge, 'ridge_curve', X_train, y_train, cv=10, verbose=10)

最后结果：

Ridge result:  GridSearchCV(cv=10, error_score='raise',
       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'alpha': array([1.5, 1.7, 1.9, 2. , 2.1, 2.3])}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=10)
best_score:  0.7433455792394993
best_parameter:  {'alpha': 1.5}
岭回归的auc分数为： 0.7399430645824021

学习曲线：

结论：从学习曲线可以看出，最后的得分是很低的，当然暴露的问题也有很多：

数据集正负样本不平均肯定是个很大的问题（isFraud|0：569877， 1：20663），准备先采取随机采样0类与1类大致相同的样本，然后继续。最后可用bagging的思想进行集成学习；
其次的问题肯定在数据集上，邮箱的种类太多不宜用dummies可以用factories去数字化字符串值，对于如此多的特征，特征选择也是很重要的。可以尝试各种特征选择的方法；
在特征选择之前，可以尝试地再分析特征与目标变量的关系，特征之间相关性的分析，特征变量的正规化；
最后用模型，调参数，得到最后结果。

2.3 数据预处理：样本不平衡

在上述的基础上，随机取与负样本同样数量的正样本（诚信样本），进行同样的实验，实验结果如下。

Ridge result:  GridSearchCV(cv=10, error_score='raise',
       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'alpha': array([1.5, 1.7, 1.9, 2. , 2.1, 2.3])}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=10)
best_score:  0.7495973469607634
best_parameter:  {'alpha': 1.5}
岭回归的auc分数为： 0.7406929216448217

小结：可以看出，对样本采样处理样本不平衡问题对结果有不错的提升，但可以说是才到达可以训练效果的地步。

2.4 数据预处理：把类别太多的特征用factories处理

在上述的基础上，对于R_emaildomain和P_emaildomain特征，由于他们类别太多，这里用pd.factories处理成索引表示特征，而不会像get_dummies一样把该列铺开。

Ridge result:  GridSearchCV(cv=10, error_score='raise',
       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'alpha': array([1.5, 1.7, 1.9, 2. , 2.1, 2.3])}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=10)
best_score:  0.7285821039391717
best_parameter:  {'alpha': 1.7}
岭回归的auc分数为： 0.7303458823259997

小结：但从实验结果来看，效果并没有get_dummies好…

3. LightBGM模型

3.1 超参数调参顺序及范围（Classifier）

参考：
https://blog.csdn.net/weixin_41370083/article/details/79276887
https://www.cnblogs.com/bjwu/p/9307344.html

（1）n_estimators和learning_rate：

params = {
    'boosting_type': 'gbdt', 
    'objective': 'regression', 

    'learning_rate': 0.1, 
    'num_leaves': 50, 
    'max_depth': 6,

    'subsample': 0.8, 
    'colsample_bytree': 0.8, 
    }

‘n_estimators’:[100,200,500,1000,1500]

（2）max_depth和num_leaves ：
max_depth = np.arange(3, 10, 2)
num_leaves = np.arange(50, 170, 30)
（3）min_child_samples和 min_child_weight：
‘min_child_samples’:[18, 19, 20, 21, 22],
‘min_child_weight’:[0.001, 0.002, 0.003]
（4）subsample 和 subsample_freq：
subsample = np.arange(0.5, 1, 0.1)
subsample_freq = np.arange(1, 6, 1)
（6）正则化参数调优：
‘reg_alpha’: [0, 0.001, 0.01, 0.03, 0.08, 0.3, 0.5],
‘reg_lambda’: [0, 0.001, 0.01, 0.03, 0.08, 0.3, 0.5]
（7）进一步降低学习速率增加更多的树：
‘learning_rate’:[0.005, 0.01,0.1,0.3]
‘learning_rate’: 0.1 不变
‘n_estimators’:[1000,1200,1500,2000,2500]
‘n_estimators’: 2000 较好

3.1.1 max_depth = np.arange(3, 10, 2)和num_leaves = np.arange(50, 170, 30)

result:  GridSearchCV(cv=5, error_score='raise',
       estimator=LGBMClassifier(boosting_type='gbdt', class_weight=None, colsample_bytree=1.0,
        importance_type='split', learning_rate=0.1, max_depth=-1,
        min_child_samples=20, min_child_weight=0.001, min_split_gain=0.0,
        n_estimators=100, n_jobs=-1, num_leaves=31, objective=None,
        random_state=None, reg_alpha=0.0, reg_lambda=0.0, silent=True,
        subsample=1.0, subsample_for_bin=200000, subsample_freq=0),
       fit_params=None, iid=True, n_jobs=4,
       param_grid=[{'max_depth': array([3, 5, 7, 9]), 'num_leaves': array([ 50,  80, 110, 140])}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=1)
best_score:  0.7601702110841377
best_parameter:  {'max_depth': 9, 'num_leaves': 80}
lgb的auc分数为： 0.7619433417100694

微调：

max_depth = np.array([7, 8, 9])
num_leaves = np.array([68,74,80,86,92])

best_score:  0.7601048100561123
best_parameter:  {'max_depth': 8, 'num_leaves': 74}
lgb的auc分数为： 0.7600162799802694

3.1.2 ‘min_child_samples’:[18, 19, 20, 21, 22],‘min_child_weight’:[0.001, 0.002, 0.003]

best_score:  0.7644900411718537
best_parameter:  {'min_child_samples': 19, 'min_child_weight': 0.001}
lgb的auc分数为： 0.7540527797250189

3.1.3 subsample = np.arange(0.5, 1, 0.1), subsample_freq = np.arange(1, 6, 1)

best_score:  0.7623175995286935
best_parameter:  {'subsample': 0.8999999999999999, 'subsample_freq': 1}
lgb的auc分数为： 0.7581324437105174

3.1.4 reg_alpha = [0, 0.001, 0.01, 0.03, 0.08, 0.3, 0.5] reg_lambda = [0, 0.001, 0.01, 0.03, 0.08, 0.3, 0.5]

best_score:  0.7583165909174154
best_parameter:  {'reg_alpha': 0.08, 'reg_lambda': 0.03}
lgb的auc分数为： 0.7641478728781967

3.1.5 learning_rate = [0.005, 0.01, 0.1, 0.3] n_estimators = [1000, 1200, 1500, 2000, 2500]

这也是这一系列调参的最后一步，换句话说，此也为最终的调参结果。

best_score:  0.7600250133938856
best_parameter:  {'learning_rate': 0.1, 'n_estimators': 1000}
lgb的auc分数为： 0.7695625808160469

3.2 岭回归和lgbm融合结果

y_hat = (y_pre_ridge + y_pre_lgb)/2
fpr, tpr, thresholds = metrics.roc_curve(y_test, y_hat, pos_label=1)
auc = metrics.auc(fpr, tpr)
print('岭回归和lgb的auc分数为：', auc)
岭回归和lgb的auc分数为： 0.754521684209069

从融合的结果可以看出，岭回归和lgbm融合后结果并不理想，原因也很好想，岭回归拉低了分数，从单岭回归就可知岭回归效果不好。因此以下尝试用逻辑回归。

3.3 使用所有数据lgbm结果

2.2 岭回归模型中的代码片段中，选取了部分特征，用于岭回归，因为岭回归不能处理缺失字段，但lgbm可以，所以这里屏蔽掉选取部分特征的代码。

def deal_dataset(train_transaction):
    print('====================处理：对训练数据和测试数据one-hot编码====================')
    train_transaction_y = train_transaction.pop('isFraud')
    # predictors = ['ProductCD', 'card4', 'card6', 'P_emaildomain', 'R_emaildomain']
    # train_transaction = train_transaction[predictors]
    print(train_transaction.head(50))

lgb部分代码：

print('================搭建模型：lgbm==================')
    parameter_init_lgb = {'max_depth': 8, 'num_leaves': 74, 'min_child_samples': 19, 'min_child_weight': 0.001,
                          'subsample': 0.9, 'subsample_freq': 1, 'reg_alpha': 0.08, 'reg_lambda': 0.03,
                          'learning_rate': 0.1, 'n_estimators': 1000}
    lgb = lgbm.LGBMClassifier(**parameter_init_lgb)
    lgb.fit(X_train, y_train)
    y_pre_lgb = lgb.predict(X_test)
    fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pre_lgb, pos_label=1)
    auc = metrics.auc(fpr, tpr)
    print('lgb的auc分数为：', auc)

结果：

lgb的auc分数为： 0.8962334630751195

非常吃惊，用所有特征居然有这么大的提升，还想到其实还有一个文件的特征没用，随后可以考虑用，在此之前，我这里先处理下缺失数据。

3.4 数据预处理：缺失值处理

数值特征用中位数填补，非数值特征用众数填补。

train_transaction_object = train_transaction.columns[train_transaction.dtypes == 'object']
train_transaction_math = train_transaction.columns[train_transaction.dtypes != 'object']
train_transaction.fillna(train_transaction[train_transaction_math].median(), inplace=True)
train_transaction.fillna(train_transaction[train_transaction_object].mode().iloc[0], inplace=True)

结果：
best_parameter: {‘alpha’: 2.3}
岭回归的auc分数为： 0.8530467234218518
lgb的auc分数为： 0.8905115734749858
岭回归和lgb的auc分数为： 0.9258773953110936

3.5 数据预处理2：缺失值处理（用算法填补）

用随机森林预测值填补

def fillna_value_way3_rf(train_transaction, fillna_df, feature_name):
    card2_df_dummies = pd.get_dummies(fillna_df)
    card2_df_notnull = card2_df_dummies.loc[(train_transaction[feature_name].notnull())]
    card2_df_isnull = card2_df_dummies.loc[(train_transaction[feature_name].isnull())]
    X = card2_df_notnull.values[:, 1:]
    Y = card2_df_notnull.values[:, 0]
    # use RandomForestRegression to train data
    RFR = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
    RFR.fit(X, Y)
    predictcard2 = RFR.predict(card2_df_isnull.values[:, 1:])
    train_transaction.loc[train_transaction[feature_name].isnull(), [feature_name]] = predictcard2

card2_df = train_transaction[['card2', 'TransactionDT', 'TransactionAmt', 'ProductCD', 'card1', 'card4', 'card6', 'P_emaildomain', 'R_emaildomain']]
card3_df = train_transaction[['card3', 'TransactionDT', 'TransactionAmt', 'ProductCD', 'card1', 'card4', 'card6', 'P_emaildomain', 'R_emaildomain']]
card5_df = train_transaction[['card5', 'TransactionDT', 'TransactionAmt', 'ProductCD', 'card1', 'card4', 'card6', 'P_emaildomain', 'R_emaildomain']]
fillna_value_way3_rf(train_transaction, card2_df, 'card2')
fillna_value_way3_rf(train_transaction, card3_df, 'card3')
fillna_value_way3_rf(train_transaction, card5_df, 'card5')

结果：
best_parameter: {‘alpha’: 2.3}
岭回归的auc分数为： 0.8569801503386929
lgb的auc分数为： 0.8889994095511866
岭回归和lgb的auc分数为： 0.9225397465163611

用岭回归预测值填补

ridge = Ridge(alpha=2.3)  # 设置岭回归参数
ridge.fit(X, Y)
predictcard2 = ridge.predict(card2_df_isnull.values[:, 1:])

结果：
岭回归的auc分数为： 0.8500008952044523
lgb的auc分数为： 0.8925319806585874
岭回归和lgb的auc分数为： 0.9205296560416307

小结： 这样看来，用预测值去填充不会比中位数填充有较大的提升，甚至还比不过后者的auc分数。

4. 聚类分析

4.1 考虑特征addr1、addr2、dist1、dist2

对于这四个特征，分别可理解为交易的ip地址，交易所到账户的ip地址，分析发现，特征dist1和dist2缺失值较多，多到不存在这两个特征同时有值的样本…

这里先把显示表信息用一个函数写起来：show_basis_info.py

import pandas as pd
def show_basis_info(train_transaction, n):
    pd.set_option('display.max_columns', None)  # 显示最大列
    pd.set_option('display.max_rows', None)  # 显示最大行
    pd.set_option('expand_frame_repr', False)  # 每一行不分行显示
    print(train_transaction.head(n))
    print(train_transaction.info(verbose=True, null_counts=True))

然后查询dist1和dist2均不为空的字表：

import pandas as pd
from show_basis_info import show_basis_info
train_data_path = 'dataset/train_transaction.csv'
train_transaction = pd.read_csv(train_data_path, index_col=0)
train_transaction_dist1 = train_transaction.loc[train_transaction['dist1'].notnull()]
train_transaction_dist2 = train_transaction_dist1.loc[train_transaction['dist2'].notnull()]
show_basis_info(train_transaction_dist2, 5)

结果：

4.2 考虑特征addr1、addr2

绘制的所有样本数（addr1、addr2均有值）：524834
其中欺诈样本数：511912
其中非欺诈样本数：12922
代码如下：（中间注释部分是将欺诈样本和非欺诈样本分别先存入表中，这是由于机器内存不足。。。尴尬，本来可以直接处理的。）

train_transaction_not_path = 'dataset/train_transaction_not.csv'
train_transaction_is_path = 'dataset/train_transaction_is.csv'
train_transaction_not = pd.read_csv(train_transaction_not_path, index_col=0)
train_transaction_is = pd.read_csv(train_transaction_is_path, index_col=0)
# train_transaction_not = train_transaction.loc[train_transaction['isFraud'] == 0]
# train_transaction_is = train_transaction.loc[train_transaction['isFraud'] == 1]
# train_transaction_not.to_csv('dataset/train_transaction_not.csv')
# train_transaction_is.to_csv('dataset/train_transaction_is.csv')
# train_transaction_address = train_transaction[['addr1', 'addr2', 'dist1', 'dist2']]
# show_basis_info(train_transaction_not, 5)
# train_transaction_address.fillna(0, inplace=True)
img1 = train_transaction_not.plot.scatter(x='addr1', y='addr2', color='r', label='notFraud')
train_transaction_is.plot.scatter(x='addr1', y='addr2', color='b', label='isFraud', ax=img1)  # , ax=img1
plt.xlabel('location_x')
plt.ylabel('location_y')
plt.title('train_transaction addr location analysis')
plt.show()

图中看出，蓝色的欺诈位置还是很有规律的，大多数集中在一条线上，与非欺诈样本鱼目混杂，这里想到一种利用这个结果的方法（以下Fx、Fy对应addr1和addr2）：

分别计算出欺诈样本的位置，Fx和Fy；
计算Fx和Fy的所有样本数，并得到欺诈样本分别在Fx和Fy的比例：Px和Py；
对于最后测试样本的Fx和Fy位置的最后预测结果分别加上Px和Py，增强在这两个位置为欺诈样本的可信度；

5. 逻辑回归

此连接第3部分，用逻辑回归再进行一次实验。

5.1 数据预处理：标准化处理

由于岭回归和lgbm不需要标准化处理，因此在这里进行处理。
详细证明： https://blog.csdn.net/shwan_ma/article/details/80154888

但，标准化处理有助于迭代过程中，目标函数的收敛，以下结果岭回归和lgbm仍然用了标准化处理，从结果也可以得出上述的结论。

print('====================数据预处理：标准化处理所有x====================')
    num_columns = train_transaction_dummie.columns[train_transaction_dummie.dtypes != object]
    sc = StandardScaler()
    sc.fit(train_transaction_dummie.loc[:, num_columns])
    train_transaction_dummie.loc[:, num_columns] = sc.transform(train_transaction_dummie.loc[:, num_columns])
    show_basis_info(train_transaction_dummie, 5)
    X_train, X_test, y_train, y_test = train_test_split(train_transaction_dummie, train_transaction_y, test_size=0.3)

5.2 逻辑回归

print('================搭建模型：逻辑回归==================')
    lr = LogisticRegression(C=1.0, tol=0.01)
    lr.fit(X_train, y_train)
    y_pre_lr = lr.predict(X_test)
    fpr, tpr, thresholds = metrics.roc_curve(y_test, y_pre_lr, pos_label=1)
    auc = metrics.auc(fpr, tpr)
    print('lr的auc分数为：', auc)

结果：
岭回归的auc分数为： 0.8538645117826613
lgb的auc分数为： 0.8928569086487236
岭回归和lgb的auc分数为： 0.9224198403468866
lr的auc分数为： 0.7817860900601115

6 全部数据（题目给的两个文件的数据）

# 导入另一个数据集
train_identity = pd.read_csv('dataset/train_identity.csv', index_col=0)
train_transaction = pd.concat((train_transaction, train_identity), axis=1)

Ridge result:  GridSearchCV(cv=10, error_score='raise-deprecating',
       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid=[{'alpha': array([1.5, 1.7, 1.9, 2. , 2.1, 2.3])}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='roc_auc', verbose=10)
best_score:  0.8611331225822505
best_parameter:  {'alpha': 1.5}
岭回归的auc分数为： 0.8658265220675434
================搭建模型：lgbm==================
lgb的auc分数为： 0.8976235417666026
岭回归和lgb的auc分数为： 0.9279946771566198
================搭建模型：逻辑回归==================
lr的auc分数为： 0.7894110269427566

7 提交

到这里，我想用刚刚这个所有数据的结果提交，结果跑测试程序的时候提示内存错误，尴尬。因此，这里还是仅用一个文件来做分类，最后的结果并不是很理想，结果如下：

最高的排名：

这边带raw字样的是用lgbm原始数据结果得到的，最后的排名着实悲伤，不过也可以理解，毕竟没做什么数据预处理，数据都没用全，本来还以为得到0.90+湛湛自喜，以为走了捷径，没成想科学没有捷径- - ok，继续该进。

如今可以想到的改进方法：

特征选择
利用全部数据（两个文件）
利用部分特征（如聚类结果）

进阶探索版

1 特征选择

1.首先尝试lgbm内的特征选择（用L2正则化，用错了…下面还会有L1范式）

reg_alpha : float, optional (default=0.) L1 regularization term on weights.
reg_lambda : float, optional (default=0.) L2 regularization term on weights.

置’reg_alpha’: 0，搜索到’reg_lambda’: 0.03
再搜索：
earning_rate = [0.005, 0.01, 0.1, 0.3] # 0.1
n_estimators = [1000, 1200, 1500, 2000, 2500] # 1000

best_score:  0.9522322981775311
best_parameter:  {'learning_rate': 0.1, 'n_estimators': 2000}
lgb的auc分数为： 0.9507343936470288

2.仍然是lgbm内的特征选择（L1正则化来进行特征选择）

置’reg_lambda’: 0，搜索到’reg_alpha’: 0.5

best_score:  0.9266414127250973
best_parameter:  {'reg_alpha': 0.5}
lgb的auc分数为： 0.9305030668236514

再搜索：
earning_rate = [0.005, 0.01, 0.1, 0.3] # 0.1
n_estimators = [1000, 1200, 1500, 2000, 2500] # 1000

best_score:  0.9496253003031797
best_parameter:  {'learning_rate': 0.1, 'n_estimators': 1000}
lgb的auc分数为： 0.9524031447523469

3.L1正则化后用lgb_raw data测试一遍

best_parameter:  {'alpha': 1.5}
岭回归的auc分数为： 0.852853132309268
lgb的auc分数为： 0.9576021072551657
岭回归和lgb的auc分数为： 0.9570399019029211

4.以上的调参结果，分别用来进行提交测试，得分结果如下：其中，lgb都用raw_data=True，且用的是一个文件的数据，且进行正样本的采样。（换句话说，特征不全，样本不全…）

2 利用全部数据

这里仍然用1中的特征选择最佳表现的组合L1正则化+两个模型融合

这里的全部数据仍然是第一个文件

但是对于负样本（诚信）进行多次采样（26次 - 相差倍数），对最后的分类结果取均值。

测试代码片

y_hat_res, y_ridge_res, y_lgb_res = 0, 0, 0
    for i in range(1, 27):
        print('==========第', i, '/27'+'轮ing=========')
        train_transaction_deal = balance_p_n_samples(train_transaction)  # 处理样本不平衡的问题
        train_transaction_y = train_transaction_deal.pop('isFraud')
        whole_data = pd.concat((train_transaction_deal, test_transaction), axis=0)
        whole_data = preprocess(whole_data, 'regress')
        y_pre_ridge, y_pre_lgb, y_hat = deal_dataset2(whole_data, train_transaction_deal, train_transaction_y, test_transaction)
        y_hat_res = (y_hat_res + y_hat) / i
        y_ridge_res = (y_ridge_res + y_pre_ridge) / i
        y_lgb_res = (y_lgb_res + y_pre_lgb) / i

    # 保存最后数据
    submission_df = pd.DataFrame(data={'TransactionID': test_transaction.index, 'isFraud': y_hat_res})
    submission_df.to_csv('classify_result/ieee-cis_prediction_lgb_ridge_1_2_0.5_0_0.1_1000_regress_fillna_noNorm_26.csv',
                         index=False)

    submission_df = pd.DataFrame(data={'TransactionID': test_transaction.index, 'isFraud': y_ridge_res})
    submission_df.to_csv('classify_result/ieee-cis_prediction_ridge_1_2_0.5_0_0.1_1000_regress_fillna_noNorm_26.csv',
                         index=False)

    submission_df = pd.DataFrame(data={'TransactionID': test_transaction.index, 'isFraud': y_lgb_res})
    submission_df.to_csv('classify_result/ieee-cis_prediction_lgb_1_2_0.5_0_0.1_1000_regress_fillna_noNorm_26.csv',
                         index=False)

提交结果：

3 利用全部(两个文件)数据(最终的即包括测试阶段不可见数据)

以上就是初次参加kaggle的思考以及实现流程，最后成绩也是非常的糟，4429/6381。不过这次我前后用的时间不长是事实，而且更多的还是去摸索数据分析的流程，看了其他的赛后总结，我发觉我真是缺乏很多的思考，具体表现如下：

对于原始的数据，我缺乏对于数据本身的分析；
仍然是数据分析方面，并没有实际上应用特征选择。

参考：
[1] https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12282042.0.0.1dce20429Jt3oQ&postId=6772
[2] https://www.zybuluo.com/jk88876594/note/802632

你可能感兴趣的:(机器学习（数据分析）)

基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
Python爬虫实战：用Tushare和Baostock爬取股票历史数据及K线图与技术指标计算
在金融数据分析和量化交易中，股票历史数据的获取是进行技术分析、回测和策略研究的第一步。传统上，投资者需要依赖付费数据服务，然而如今，借助Python强大的爬虫工具和开源数据接口，我们能够轻松地爬取免费的历史股票数据，并结合K线图与技术指标来进行深入分析。Tushare和Baostock是两个非常流行的开源金融数据接口。Tushare提供了丰富的国内外金融数据，特别是A股市场的历史数据和实时数据，而
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
Python爬虫实战：爬取知乎问答与用户信息 Python爬虫项目 python 爬虫 php 数据分析开发语言开源
简介随着网络信息量的爆炸，如何有效获取有价值的内容，成为了数据分析、机器学习等领域的基础之一。爬虫作为数据采集的基本工具之一，常常被用来获取互联网上的公开数据。在这篇博客中，我们将结合最新的Python爬虫技术，详细讲解如何爬取知乎问答与用户信息。本文将会介绍：Python爬虫的基础知识知乎问答网页结构分析使用Python进行知乎数据爬取爬取知乎问答内容与用户信息如何处理和存储爬取的数据使用最新的
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
为什么90%企业的AI数据分析都失败了？奥威BI给出破局方案 qq_43696218 人工智能数据分析数据挖掘
一、引言：AI数据分析在数字化转型中的核心地位在当今企业全面数字化转型的背景下，‌AI数据分析已成为解锁业务增长潜力的关键钥匙。然而，市场上众多AI数据分析产品常陷入“伪需求场景”，看似前沿却难以真正落地。本文将深入探讨奥威BI如何通过其AI数据分析能力，突破伪需求，实现数据价值的最大化。二、AI数据分析：伪需求场景的挑战伪需求场景的定义与表现AI数据分析领域的伪需求场景，指的是那些表面创新实则难
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
AI助力基因数据分析：用Python玩转生命密码的秘密 Echo_Wish 前沿技术人工智能人工智能数据分析 python
AI助力基因数据分析：用Python玩转生命密码的秘密说到基因数据，听起来是不是感觉有点高大上？其实，基因数据分析正变得越来越“接地气”，而AI正是这条路上的神奇钥匙。今天，咱们就用Python聊聊如何利用AI技术做基因数据分析与建模，帮你破解生命的密码，找到疾病预测、个性化医疗的新路子。一、基因数据为何如此特别？基因组测序技术让我们能够获取人体细胞内数以百万计的DNA序列变异信息。但数据量巨大、
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
python接收_MT5 与 PYTHON 的集成：接收和发送数据 James Swineson python接收
为什么要把MQL5与Python集成？全方位的数据处理需要大量工具，并且经常超出单一应用程序的功能沙箱。专用编程语言正在用于处理和分析数据，统计和机器学习。Python是数据处理的主要编程语言之一。一个非常有效的解决方案是利用语言的力量并包含函数库来开发交易系统。在两个或更多个程序之间实现交互存在众多不同的解决方案。套接字是最快速、最灵活的解决方案之一。网络套接字是计算机网络上进程间通信的端点。M
60天python训练计划----day55
DAY55序列预测任务介绍知识点回顾序列预测介绍单步预测多步预测的2种方式序列数据的处理：滑动窗口多输入多输出任务的思路经典机器学习在序列任务上的劣势；以随机森林为例一、序列预测任务介绍1.1序列预测是什么？我们之前接触到的结构化数据，它本身不具备顺序，我们认为每个样本之间独立无关，样本之间即使调换顺序，仍然不影响模型的训练。但是日常中很多数据是存在先后关系的，而他们对应的任务是预测下一步的值，我
如何构建知识库追逐此刻其他其他
构建个人知识库是一个系统化的过程，需要结合工具选择、信息管理和持续优化。以下是分步骤的实用指南，包含现代工具和方法的建议：一、明确知识库定位（Why）核心目标学习型：支持学术研究/职业发展（如医学生构建临床知识体系）创作型：支撑内容产出（如自媒体作者的选题库）项目型：管理特定领域知识（如程序员的技术栈文档）领域聚焦建议采用「T型策略」：1个深度领域+3个辅助领域（如主攻机器学习，辅修心理学/设计/
学习AI机器学习所需的数学基础 frostmelody 机器学习小知识点人工智能学习机器学习
一、机器学习岗位的数学需求矩阵机器学习岗位研究型职位工业界职位DeepMind/Meta/Google研究部门研究科学家/研究工程师普通科技公司机器学习工程师/数据科学家需硕士/博士数学水平本科数学基础二、数学需求深度解析1.研究型职位（需深度数学）学历要求：数学/物理/计算机/统计/工程本科基础硕士/博士优先（Kaggle调查显示博士占比高）薪资关联：学历与收入呈正相关2.工业界职位（基础数学）
数据与ChatBI
ChatBI的核心是让用户用自然语言（如“帮我看看这周的销售额走势”）直接获取数据分析结果，无需懂SQL或技术细节。整个过程就像AI“听懂”你的话、理解需求、生成查询、验证执行、并可视化展示结果。首先，ChatBI的系统架构图展示了整个流程的关键步骤。它从用户输入开始，经过多个AI模块处理，最终输出交互式报表。现在来一步步解析ChatBI的工作流程。1.语音/文字输入——解放双手的起点这是什么？一
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默