叫啥名字好呢？

GBDT+LR记录- 9.7代码训练GBDT与LR混合模型

GBDT+LR记录

9.7代码训练GBDT与LR混合模型

在上一节课的train.py中，新建一个函数train_tree_and_lr_model

def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    # sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))

添加get_gbdt_and_lr_feature
返回值为稀疏矩阵。
原因：深度是6，叶的节点2的6次方=64，10棵树们就是2的6次方*10=640个特征，实际深度更深，棵树更多，显然特征是非常非常长的，但是每一棵树所对应的特征编码只有一个位置是1，其余位置是0，所以用稀疏矩阵来存储更接近于实战时的存储。

首先计算一下叶的节点和非叶节点

1）总节点——深度为2的数，总节点为7，分别是根节点1+再两个2+再两个4=7
即（2的（深度+1）次方-1）
2）叶的节点——2的深度次方
3）非叶的节点——总节点-叶的节点
4）总维度——叶的节点的数目*棵树
5）样本数——total_row_num来储存
录入稀疏矩阵中

get_gbdt_and_lr_feature代码如下

def get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth):
    """
    提取特征的代码
    :param tree_leaf: predict of tree model
    :param tree_num: total_num
    :param tree_depth:
    :return: 返回稀疏矩阵: 因为树的深度越深，叶子节点就越多，再加上树很多。那叶子节点就更稀疏
    """
    total_node_num  = 2**(tree_depth +1) -1
    leaf_num = 2**tree_depth
    not_leaf_num = total_node_num - leaf_num

    total_col_num = leaf_num * tree_num  # 总叶子节点数,总维度
    total_row_num = len(tree_leaf)  # 多少样本
    col=[]
    row= []
    data  = []

把前面train_tree_and_lr_model注释掉sys.exit()用的#去掉需要这行sys.exit()，并在sys.exit()上边加一行print(tree_leaf[0])
此时train_tree_and_lr_model代码如下

def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    print(tree_leaf[0])
    sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))

main函数加点东西

if __name__ == "__main__":
    train_tree_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/test.model")
    # 由于我们这里还没有实例化，所以先随便写两个文件
    train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "test","test1")

此时train.py为如下

# -*- coding: utf-8 -*-

"""
==================================================
   File Name：     train

   Description :  Practical Lessons from Predicting Clicks on Ads at Facebook (2014)论文阅读
==================================================
"""


import xgboost as xgb
#import utils
import numpy as np  # np读入文件
from sklearn.linear_model import  LogisticRegressionCV as LRCV
from scipy.sparse import coo_matrix
import sys
#sys.path.append("../util")
sys.path.append("../..")
import p_recommendation_myself.gbdt_lr.util.get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.utils import get_feature_num as GF


# zin 01
def get_train_data(train_file, feature_num_file):
    """获得训练数据  label和特征"""
    total_feature_num = GF.get_feature_num(feature_num_file)
    train_label = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=-1)  # label最后1列，label
    feature_list = range(0, total_feature_num)
    train_feature = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=feature_list)
    return train_feature, train_label

def train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate):
    """

    :param train_mat: 训练数据和label
    :param tree_depth: 树的深度
    :param tree_num:树的数量
    :param learning_rate: 学习率
    :return:Booster
    """
    para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
    bst = xgb.train(params=para_dict, dtrain=train_mat, num_boost_round=tree_num)  #para_dict为几个参数组成的字典
    # 交叉验证
    #print(xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"}))
    return bst

#9-6
def choose_parameter():
    """生成参数
    zin：list是元组，分别是树深度，树数目，步长；
    这3个参数列表中的数目也可以增加，当然耗时也就会增加了
    比如tree_depth_list = [4,5,6]可以为tree_depth_list = [4,5,6,7,8,9...]
    """
    result_list = []  # 定义输出列表
    tree_depth_list = [4,5,6]  # [4,5,6]
    tree_num_list = [10,50,100]  # [10,50,100]
    learning_rate_list = [0.3,0.5,0.7]  # [0.3,,]
    for ele_tree_depth in tree_depth_list:
        for ele_tree_num in tree_num_list:
            for ele_learning_rate in learning_rate_list:
                result_list.append((ele_tree_depth, ele_tree_num, ele_learning_rate))  # 将结果以元组形式装载，注意顺序：深度，数目，步长

    return result_list  # 将最终结果返回


# 9-6
def grid_search(train_mat):
    """网格搜索参数"""
    para_list = choose_parameter()  # 定义一个构建参数的函数
    for ele in para_list:
        (tree_depth, tree_num, learning_rate) = ele  # 元组包括这3个参数
        para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
        res = xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"})
        # 上一次课是10棵树，有10行，所以我们应该选最后一行结果，行号为树的总的数目，列为test-auc-mean，用values[0]把值获取出来
        auc_score = res.loc[tree_num - 1, ["test-auc-mean"]].values[0]  # 获取最后一棵树的得分就行了。
        # 输出一下每一组参数和auc得分，把对应值tree_depth, tree_num, learning_rate, auc_score填进去，太长了，换下行
        print("tree depth: %s , tree_num: %s , learning_rate: %s , auc: %f" % (
            tree_depth, tree_num, learning_rate, auc_score))


# zin 9-5 T2-1-1 三个参数（筛选好的特征及样本文件，记录特征维度的文件，模型的存储文件）
def train_tree_model(train_file, feature_num_file, tree_model_file):
    """
        训练树模型
    """
    train_feature, train_label = get_train_data(train_file, feature_num_file)
    train_mat = xgb.DMatrix(train_feature, train_label)  # xgboost 需要的结构需要此类包装，训练的数据以及label
    #grid_search(train_mat)  # 参数选择，选择一次，就行，后面就无需继续使用了。，9.6刚开始未注释这行,运行后得到了最优参数后，便可以不再参数选择了，所以之后注释掉了这行
    #sys.exit()
    tree_num = 10
    tree_depth = 6
    learning_rate = 0.3  # 步长fm=fm-1+step_size*Tm
    bst = train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate)  # 3个参数，训练的数据以及label，深度，数量，步长
    #
    bst.save_model(tree_model_file)  # 将模型实例化输出，之后也就不需要再进行交叉验证参数选择了

#9-7
def get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth):
    """
    提取特征的代码
    :param tree_leaf: predict of tree model
    :param tree_num: total_num
    :param tree_depth:
    :return: 返回稀疏矩阵: 因为树的深度越深，叶子节点就越多，再加上树很多。那叶子节点就更稀疏
    """
    total_node_num  = 2**(tree_depth +1) -1
    leaf_num = 2**tree_depth
    not_leaf_num = total_node_num - leaf_num

    total_col_num = leaf_num * tree_num  # 总叶子节点数,总维度
    total_row_num = len(tree_leaf)  # 多少样本
    col=[]
    row= []
    data  = []

    # base_row_index = 0
    # for one_result in tree_leaf:
    #     base_col_index = 0
    #     for fix_index in one_result:
    #         leaf_index = fix_index - not_leaf_num
    #         leaf_index = leaf_index if leaf_index >=0 else 0
    #         col.append(base_col_index +leaf_index)
    #         row.append(base_row_index)
    #         data.append(1)
    #         base_col_index += leaf_num  # zin-在基础列索引之上加上叶子数目
    #     base_row_index +=1
    # total_feature_list = coo_matrix((data,(row,col)),shape=(total_row_num,total_col_num))  # 转化为稀疏矩阵形式
    #
    # return total_feature_list

#9-7
def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    print(tree_leaf[0])
    sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))


#我改成如下，后来没试
# #train_tree_model("gbdt_lr/data/train_file", "gbdt_lr/data/feature_num_file", "")
if __name__ == "__main__":
    train_tree_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/test.model")
    # 由于我们这里还没有实例化，所以先随便写两个文件
    train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "test","test1")

运行train.py,我的结果如下

D:\develop\Anaconda3\python.exe "D:/develop/PyCharm 2018.3.5_workspace/p_recommendation_myself/gbdt_lr/train.py"
[81 84 84 84 85 77 68 91 97 61]

Process finished with exit code 0

视频课的代码如下

我们看到结果10个元素，代表10棵树每一棵树最终样本输出结果是落在了哪一个节点上
深度为6时，一共有64个叶的节点，63个非叶的节点，我们发现真正的树被训练完全出来的棵树不是很多，所以我们应该不采用6棵树做混合模型，
第2个原因是，如果我们采用6棵树，我们要求每一棵树最终造出的向量是64位，10棵树640位，而我们这里样本30000多条，不符合实战中——至少应该保持特征与样本，1：100的比例这个要求，
所以混合模型我们最终选择4棵树，但是实战中由于样本和特征增多，我们可以相应的对参数进行调整
接下来我们输出一下，最大的索引

train_tree_and_lr_model函数的sys.exit()上边再加一行print(np.max(tree_leaf))
train_tree_and_lr_model函数此时如下

def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    print(tree_leaf[0])
    print(np.max(tree_leaf))
    sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))

train.py此时如下

# -*- coding: utf-8 -*-

"""
==================================================
   File Name：     train

   Description :  Practical Lessons from Predicting Clicks on Ads at Facebook (2014)论文阅读
==================================================
"""


import xgboost as xgb
#import utils
import numpy as np  # np读入文件
from sklearn.linear_model import  LogisticRegressionCV as LRCV
from scipy.sparse import coo_matrix
import sys
#sys.path.append("../util")
sys.path.append("../..")
import p_recommendation_myself.gbdt_lr.util.get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.utils import get_feature_num as GF


# zin 01
def get_train_data(train_file, feature_num_file):
    """获得训练数据  label和特征"""
    total_feature_num = GF.get_feature_num(feature_num_file)
    train_label = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=-1)  # label最后1列，label
    feature_list = range(0, total_feature_num)
    train_feature = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=feature_list)
    return train_feature, train_label

def train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate):
    """

    :param train_mat: 训练数据和label
    :param tree_depth: 树的深度
    :param tree_num:树的数量
    :param learning_rate: 学习率
    :return:Booster
    """
    para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
    bst = xgb.train(params=para_dict, dtrain=train_mat, num_boost_round=tree_num)  #para_dict为几个参数组成的字典
    # 交叉验证
    #print(xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"}))
    return bst

#9-6
def choose_parameter():
    """生成参数
    zin：list是元组，分别是树深度，树数目，步长；
    这3个参数列表中的数目也可以增加，当然耗时也就会增加了
    比如tree_depth_list = [4,5,6]可以为tree_depth_list = [4,5,6,7,8,9...]
    """
    result_list = []  # 定义输出列表
    tree_depth_list = [4,5,6]  # [4,5,6]
    tree_num_list = [10,50,100]  # [10,50,100]
    learning_rate_list = [0.3,0.5,0.7]  # [0.3,,]
    for ele_tree_depth in tree_depth_list:
        for ele_tree_num in tree_num_list:
            for ele_learning_rate in learning_rate_list:
                result_list.append((ele_tree_depth, ele_tree_num, ele_learning_rate))  # 将结果以元组形式装载，注意顺序：深度，数目，步长

    return result_list  # 将最终结果返回


# 9-6
def grid_search(train_mat):
    """网格搜索参数"""
    para_list = choose_parameter()  # 定义一个构建参数的函数
    for ele in para_list:
        (tree_depth, tree_num, learning_rate) = ele  # 元组包括这3个参数
        para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
        res = xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"})
        # 上一次课是10棵树，有10行，所以我们应该选最后一行结果，行号为树的总的数目，列为test-auc-mean，用values[0]把值获取出来
        auc_score = res.loc[tree_num - 1, ["test-auc-mean"]].values[0]  # 获取最后一棵树的得分就行了。
        # 输出一下每一组参数和auc得分，把对应值tree_depth, tree_num, learning_rate, auc_score填进去，太长了，换下行
        print("tree depth: %s , tree_num: %s , learning_rate: %s , auc: %f" % (
            tree_depth, tree_num, learning_rate, auc_score))


# zin 9-5 T2-1-1 三个参数（筛选好的特征及样本文件，记录特征维度的文件，模型的存储文件）
def train_tree_model(train_file, feature_num_file, tree_model_file):
    """
        训练树模型
    """
    train_feature, train_label = get_train_data(train_file, feature_num_file)
    train_mat = xgb.DMatrix(train_feature, train_label)  # xgboost 需要的结构需要此类包装，训练的数据以及label
    #grid_search(train_mat)  # 参数选择，选择一次，就行，后面就无需继续使用了。，9.6刚开始未注释这行,运行后得到了最优参数后，便可以不再参数选择了，所以之后注释掉了这行
    #sys.exit()
    tree_num = 10
    tree_depth = 6
    learning_rate = 0.3  # 步长fm=fm-1+step_size*Tm
    bst = train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate)  # 3个参数，训练的数据以及label，深度，数量，步长
    #
    bst.save_model(tree_model_file)  # 将模型实例化输出，之后也就不需要再进行交叉验证参数选择了

#9-7
def get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth):
    """
    提取特征的代码
    :param tree_leaf: predict of tree model
    :param tree_num: total_num
    :param tree_depth:
    :return: 返回稀疏矩阵: 因为树的深度越深，叶子节点就越多，再加上树很多。那叶子节点就更稀疏
    """
    total_node_num  = 2**(tree_depth +1) -1
    leaf_num = 2**tree_depth
    not_leaf_num = total_node_num - leaf_num

    total_col_num = leaf_num * tree_num  # 总叶子节点数,总维度
    total_row_num = len(tree_leaf)  # 多少样本
    col=[]
    row= []
    data  = []

    # base_row_index = 0
    # for one_result in tree_leaf:
    #     base_col_index = 0
    #     for fix_index in one_result:
    #         leaf_index = fix_index - not_leaf_num
    #         leaf_index = leaf_index if leaf_index >=0 else 0
    #         col.append(base_col_index +leaf_index)
    #         row.append(base_row_index)
    #         data.append(1)
    #         base_col_index += leaf_num  # zin-在基础列索引之上加上叶子数目
    #     base_row_index +=1
    # total_feature_list = coo_matrix((data,(row,col)),shape=(total_row_num,total_col_num))  # 转化为稀疏矩阵形式
    #
    # return total_feature_list

#9-7
def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    print(tree_leaf[0])
    print(np.max(tree_leaf))
    sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))


#我改成如下，后来没试
# #train_tree_model("gbdt_lr/data/train_file", "gbdt_lr/data/feature_num_file", "")
if __name__ == "__main__":
    train_tree_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/test.model")
    # 由于我们这里还没有实例化，所以先随便写两个文件
    train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "test","test1")

运行一下train.py
我的运行结果如下

D:\develop\Anaconda3\python.exe "D:/develop/PyCharm 2018.3.5_workspace/p_recommendation_myself/gbdt_lr/train.py"
[81 84 84 84 85 77 68 91 97 61]
122

Process finished with exit code 0

视频课运行结果如下

视频讲解为：深度为4，非叶的节点为15，看到输出的一般都落在了第16个节点之后；最大索引是30，又因为一共有31个节点，输出结果的第2行是30，就是说明这里的节点是从0开始计数的，所以输出的第一行的15就是第16个节点，也就是叶的节点的第1个节点

接下来完善get_gbdt_and_lr_feature

        # 刚才输出的[15 18 15 15 23 27 13 17 28 21]
        # 第1行的第1个数表示，预测的结果占据的是0-15位，第2棵树表示占据的是16-31位，以此类推
        col.append(base_col_index +leaf_index)  # 稀疏矩阵开始填数字，所以把基础序列base_col_index加上

完善好的get_gbdt_and_lr_feature此时如下

def get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth):
    """
    提取特征的代码
    :param tree_leaf: predict of tree model
    :param tree_num: total_num
    :param tree_depth:
    :return: 返回稀疏矩阵: 因为树的深度越深，叶子节点就越多，再加上树很多。那叶子节点就更稀疏
    """
    total_node_num  = 2**(tree_depth +1) -1
    leaf_num = 2**tree_depth
    not_leaf_num = total_node_num - leaf_num

    total_col_num = leaf_num * tree_num  # 总叶子节点数,总维度
    total_row_num = len(tree_leaf)  # 多少样本
    col=[]
    row= []
    data  = []

    base_row_index = 0  # 总的行号
    for one_result in tree_leaf:  # 每个结点对应特征的列的序号
        base_col_index = 0
        for fix_index in one_result:  # fix_index为获取的每一个数字
            leaf_index = fix_index - not_leaf_num  #最终转化为叶子结点，视频里leaf用的yezi
            leaf_index = leaf_index if leaf_index >=0 else 0  # 为防止有一些树学习的不完全我们这里判断一下，叶子树不应该小于0
            # 刚才输出的[15 18 15 15 23 27 13 17 28 21]
            # 第1行的第1个数表示，预测的结果占据的是0-15位，第2棵树表示占据的是16-31位，以此类推
            col.append(base_col_index +leaf_index)  # 稀疏矩阵开始填数字，把基础序列base_col_index加上
            row.append(base_row_index)  #同样，有行索引
            data.append(1)  #数据在该位置是1
            base_col_index += leaf_num  # zin-对于第2棵树预测结果，我们在基础列索引之上加上叶子数目
        base_row_index +=1  #同样，每一个样本都需要更新一下行索引
    total_feature_list = coo_matrix((data,(row,col)),shape=(total_row_num,total_col_num))  # 最终结果转化为稀疏矩阵形式

    return total_feature_list

把上一版的train_tree_and_lr_model中的

    print(tree_leaf[0])
    print(np.max(tree_leaf))
    sys.exit()

删掉
此时train_tree_and_lr_model为如下

def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    print(tree_leaf[0])
    print(np.max(tree_leaf))
    sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))

此时train.py如下

# -*- coding: utf-8 -*-

"""
==================================================
   File Name：     train

   Description :  Practical Lessons from Predicting Clicks on Ads at Facebook (2014)论文阅读
==================================================
"""


import xgboost as xgb
#import utils
import numpy as np  # np读入文件
from sklearn.linear_model import  LogisticRegressionCV as LRCV
from scipy.sparse import coo_matrix
import sys
#sys.path.append("../util")
sys.path.append("../..")
import p_recommendation_myself.gbdt_lr.util.get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.utils import get_feature_num as GF


# zin 01
def get_train_data(train_file, feature_num_file):
    """获得训练数据  label和特征"""
    total_feature_num = GF.get_feature_num(feature_num_file)
    train_label = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=-1)  # label最后1列，label
    feature_list = range(0, total_feature_num)
    train_feature = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=feature_list)
    return train_feature, train_label

def train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate):
    """

    :param train_mat: 训练数据和label
    :param tree_depth: 树的深度
    :param tree_num:树的数量
    :param learning_rate: 学习率
    :return:Booster
    """
    para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
    bst = xgb.train(params=para_dict, dtrain=train_mat, num_boost_round=tree_num)  #para_dict为几个参数组成的字典
    # 交叉验证
    #print(xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"}))
    return bst

#9-6
def choose_parameter():
    """生成参数
    zin：list是元组，分别是树深度，树数目，步长；
    这3个参数列表中的数目也可以增加，当然耗时也就会增加了
    比如tree_depth_list = [4,5,6]可以为tree_depth_list = [4,5,6,7,8,9...]
    """
    result_list = []  # 定义输出列表
    tree_depth_list = [4,5,6]  # [4,5,6]
    tree_num_list = [10,50,100]  # [10,50,100]
    learning_rate_list = [0.3,0.5,0.7]  # [0.3,,]
    for ele_tree_depth in tree_depth_list:
        for ele_tree_num in tree_num_list:
            for ele_learning_rate in learning_rate_list:
                result_list.append((ele_tree_depth, ele_tree_num, ele_learning_rate))  # 将结果以元组形式装载，注意顺序：深度，数目，步长

    return result_list  # 将最终结果返回


# 9-6
def grid_search(train_mat):
    """网格搜索参数"""
    para_list = choose_parameter()  # 定义一个构建参数的函数
    for ele in para_list:
        (tree_depth, tree_num, learning_rate) = ele  # 元组包括这3个参数
        para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
        res = xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"})
        # 上一次课是10棵树，有10行，所以我们应该选最后一行结果，行号为树的总的数目，列为test-auc-mean，用values[0]把值获取出来
        auc_score = res.loc[tree_num - 1, ["test-auc-mean"]].values[0]  # 获取最后一棵树的得分就行了。
        # 输出一下每一组参数和auc得分，把对应值tree_depth, tree_num, learning_rate, auc_score填进去，太长了，换下行
        print("tree depth: %s , tree_num: %s , learning_rate: %s , auc: %f" % (
            tree_depth, tree_num, learning_rate, auc_score))


# zin 9-5 T2-1-1 三个参数（筛选好的特征及样本文件，记录特征维度的文件，模型的存储文件）
def train_tree_model(train_file, feature_num_file, tree_model_file):
    """
        训练树模型
    """
    train_feature, train_label = get_train_data(train_file, feature_num_file)
    train_mat = xgb.DMatrix(train_feature, train_label)  # xgboost 需要的结构需要此类包装，训练的数据以及label
    #grid_search(train_mat)  # 参数选择，选择一次，就行，后面就无需继续使用了。，9.6刚开始未注释这行,运行后得到了最优参数后，便可以不再参数选择了，所以之后注释掉了这行
    #sys.exit()
    tree_num = 10
    tree_depth = 6
    learning_rate = 0.3  # 步长fm=fm-1+step_size*Tm
    bst = train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate)  # 3个参数，训练的数据以及label，深度，数量，步长
    #
    bst.save_model(tree_model_file)  # 将模型实例化输出，之后也就不需要再进行交叉验证参数选择了

#9-7
def get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth):
    """
    提取特征的代码
    :param tree_leaf: predict of tree model
    :param tree_num: total_num
    :param tree_depth:
    :return: 返回稀疏矩阵: 因为树的深度越深，叶子节点就越多，再加上树很多。那叶子节点就更稀疏
    """
    total_node_num  = 2**(tree_depth +1) -1
    leaf_num = 2**tree_depth
    not_leaf_num = total_node_num - leaf_num

    total_col_num = leaf_num * tree_num  # 总叶子节点数,总维度
    total_row_num = len(tree_leaf)  # 多少样本
    col=[]
    row= []
    data  = []

    base_row_index = 0  # 总的行号
    for one_result in tree_leaf:  # 每个结点对应特征的列的序号
        base_col_index = 0
        for fix_index in one_result:  # fix_index为获取的每一个数字
            leaf_index = fix_index - not_leaf_num  #最终转化为叶子结点，视频里leaf用的yezi
            leaf_index = leaf_index if leaf_index >=0 else 0  # 为防止有一些树学习的不完全我们这里判断一下，叶子树不应该小于0
            # 刚才输出的[15 18 15 15 23 27 13 17 28 21]
            # 第1行的第1个数表示，预测的结果占据的是0-15位，第2棵树表示占据的是16-31位，以此类推
            col.append(base_col_index +leaf_index)  # 稀疏矩阵开始填数字，基础序列base_col_index加上
            row.append(base_row_index)  #同样，有行索引
            data.append(1)  #数据在该位置是1
            base_col_index += leaf_num  # zin-对于第2棵树预测结果，我们在基础列索引之上加上叶子数目
        base_row_index +=1  #同样，每一个样本都需要更新一下行索引
    total_feature_list = coo_matrix((data,(row,col)),shape=(total_row_num,total_col_num))  # 最终结果转化为稀疏矩阵形式

    return total_feature_list

#9-7
def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    print(tree_leaf[0])
    print(np.max(tree_leaf))
    sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))


#我改成如下，后来没试
# #train_tree_model("gbdt_lr/data/train_file", "gbdt_lr/data/feature_num_file", "")
if __name__ == "__main__":
    train_tree_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/test.model")
    # 由于我们这里还没有实例化，所以先随便写两个文件
    train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "test","test1")

我咋没运行出来呢？？咋还是下边这个东东？？

D:\develop\Anaconda3\python.exe "D:/develop/PyCharm 2018.3.5_workspace/p_recommendation_myself/gbdt_lr/train.py"
[81 84 84 84 85 77 68 91 97 61]
122

Process finished with exit code 0

噢，我发现视频中把train_tree_and_lr_model函数中如下部分注销掉了，

    # print(tree_leaf[0])
    # print(np.max(tree_leaf))
    # sys.exit()

此时train.py为如下

# -*- coding: utf-8 -*-

"""
==================================================
   File Name：     train

   Description :  Practical Lessons from Predicting Clicks on Ads at Facebook (2014)论文阅读
==================================================
"""


import xgboost as xgb
#import utils
import numpy as np  # np读入文件
from sklearn.linear_model import  LogisticRegressionCV as LRCV
from scipy.sparse import coo_matrix
import sys
#sys.path.append("../util")
sys.path.append("../..")
import p_recommendation_myself.gbdt_lr.util.get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.utils import get_feature_num as GF


# zin 01
def get_train_data(train_file, feature_num_file):
    """获得训练数据  label和特征"""
    total_feature_num = GF.get_feature_num(feature_num_file)
    train_label = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=-1)  # label最后1列，label
    feature_list = range(0, total_feature_num)
    train_feature = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=feature_list)
    return train_feature, train_label

def train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate):
    """

    :param train_mat: 训练数据和label
    :param tree_depth: 树的深度
    :param tree_num:树的数量
    :param learning_rate: 学习率
    :return:Booster
    """
    para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
    bst = xgb.train(params=para_dict, dtrain=train_mat, num_boost_round=tree_num)  #para_dict为几个参数组成的字典
    # 交叉验证
    #print(xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"}))
    return bst

#9-6
def choose_parameter():
    """生成参数
    zin：list是元组，分别是树深度，树数目，步长；
    这3个参数列表中的数目也可以增加，当然耗时也就会增加了
    比如tree_depth_list = [4,5,6]可以为tree_depth_list = [4,5,6,7,8,9...]
    """
    result_list = []  # 定义输出列表
    tree_depth_list = [4,5,6]  # [4,5,6]
    tree_num_list = [10,50,100]  # [10,50,100]
    learning_rate_list = [0.3,0.5,0.7]  # [0.3,,]
    for ele_tree_depth in tree_depth_list:
        for ele_tree_num in tree_num_list:
            for ele_learning_rate in learning_rate_list:
                result_list.append((ele_tree_depth, ele_tree_num, ele_learning_rate))  # 将结果以元组形式装载，注意顺序：深度，数目，步长

    return result_list  # 将最终结果返回


# 9-6
def grid_search(train_mat):
    """网格搜索参数"""
    para_list = choose_parameter()  # 定义一个构建参数的函数
    for ele in para_list:
        (tree_depth, tree_num, learning_rate) = ele  # 元组包括这3个参数
        para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
        res = xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"})
        # 上一次课是10棵树，有10行，所以我们应该选最后一行结果，行号为树的总的数目，列为test-auc-mean，用values[0]把值获取出来
        auc_score = res.loc[tree_num - 1, ["test-auc-mean"]].values[0]  # 获取最后一棵树的得分就行了。
        # 输出一下每一组参数和auc得分，把对应值tree_depth, tree_num, learning_rate, auc_score填进去，太长了，换下行
        print("tree depth: %s , tree_num: %s , learning_rate: %s , auc: %f" % (
            tree_depth, tree_num, learning_rate, auc_score))


# zin 9-5 T2-1-1 三个参数（筛选好的特征及样本文件，记录特征维度的文件，模型的存储文件）
def train_tree_model(train_file, feature_num_file, tree_model_file):
    """
        训练树模型
    """
    train_feature, train_label = get_train_data(train_file, feature_num_file)
    train_mat = xgb.DMatrix(train_feature, train_label)  # xgboost 需要的结构需要此类包装，训练的数据以及label
    #grid_search(train_mat)  # 参数选择，选择一次，就行，后面就无需继续使用了。，9.6刚开始未注释这行,运行后得到了最优参数后，便可以不再参数选择了，所以之后注释掉了这行
    #sys.exit()
    tree_num = 10
    tree_depth = 6
    learning_rate = 0.3  # 步长fm=fm-1+step_size*Tm
    bst = train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate)  # 3个参数，训练的数据以及label，深度，数量，步长
    #
    bst.save_model(tree_model_file)  # 将模型实例化输出，之后也就不需要再进行交叉验证参数选择了

#9-7
def get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth):
    """
    提取特征的代码
    :param tree_leaf: predict of tree model
    :param tree_num: total_num
    :param tree_depth:
    :return: 返回稀疏矩阵: 因为树的深度越深，叶子节点就越多，再加上树很多。那叶子节点就更稀疏
    """
    total_node_num  = 2**(tree_depth +1) -1
    leaf_num = 2**tree_depth
    not_leaf_num = total_node_num - leaf_num

    total_col_num = leaf_num * tree_num  # 总叶子节点数,总维度
    total_row_num = len(tree_leaf)  # 多少样本
    col=[]
    row= []
    data  = []

    base_row_index = 0  # 总的行号
    for one_result in tree_leaf:  # 每个结点对应特征的列的序号
        base_col_index = 0
        for fix_index in one_result:  # fix_index为获取的每一个数字
            leaf_index = fix_index - not_leaf_num  #最终转化为叶子结点，视频里leaf用的yezi
            leaf_index = leaf_index if leaf_index >=0 else 0  # 为防止有一些树学习的不完全我们这里判断一下，叶子树不应该小于0
            # 刚才输出的[15 18 15 15 23 27 13 17 28 21]
            # 第1行的第1个数表示，预测的结果占据的是0-15位，第2棵树表示占据的是16-31位，以此类推
            col.append(base_col_index +leaf_index)  # 稀疏矩阵开始填数字，基础序列base_col_index加上
            row.append(base_row_index)  #同样，有行索引
            data.append(1)  #数据在该位置是1
            base_col_index += leaf_num  # zin-对于第2棵树预测结果，我们在基础列索引之上加上叶子数目
        base_row_index +=1  #同样，每一个样本都需要更新一下行索引
    total_feature_list = coo_matrix((data,(row,col)),shape=(total_row_num,total_col_num))  # 最终结果转化为稀疏矩阵形式

    return total_feature_list

#9-7
def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    # print(tree_leaf[0])
    # print(np.max(tree_leaf))
    # sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))


#我改成如下，后来没试
# #train_tree_model("gbdt_lr/data/train_file", "gbdt_lr/data/feature_num_file", "")
if __name__ == "__main__":
    train_tree_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/test.model")
    # 由于我们这里还没有实例化，所以先随便写两个文件
    train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "test","test1")

运行一下，这回出来结果了，运行结果如下（和视频课不一样）

D:\develop\Anaconda3\python.exe "D:/develop/PyCharm 2018.3.5_workspace/p_recommendation_myself/gbdt_lr/train.py"
diff 0.8426498972714616 : 
Accuracy:0.8426498972714616 (+- 0.01 ) 
diff 0.8991034606259747 : 
AUC:0.8991034606259747 (+- 0.01 )

Process finished with exit code 0

视频课运行结果如下图

由视频课结果可见，GBDT+LR混合训练后auc为0.916058如上图，与之前的最优的0.917806相比还是差一点。那么为什么要混合呢？
为的是更好的泛化模型在测试集的表现，我们故意把深度降低了，如果把深度调高会怎么样深度调成6后，如下图，已经高于0.917806

为了模型在测试数据集上的表现，还是将深度改为4，我们将LR模型也实例化一下，这里还采用之前的代码，在train_tree_and_lr_model最下边加上如下

    fw=open(mix_lr_model_file,"w+")
    coef = lr_cf.coef_[0]
    fw.write(",".join([str(ele) for ele in coef]))

次时train_tree_and_lr_model如下

def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    # print(tree_leaf[0])
    # print(np.max(tree_leaf))
    # sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))
    fw=open(mix_lr_model_file,"w+")
    coef = lr_cf.coef_[0]
    fw.write(",".join([str(ele) for ele in coef]))

main函数改成如下

    train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/xgb_mix_model","data/xgb_lr_coef_mix_model")

此时train.py如下，

# -*- coding: utf-8 -*-

"""
==================================================
   File Name：     train

   Description :  Practical Lessons from Predicting Clicks on Ads at Facebook (2014)论文阅读
==================================================
"""


import xgboost as xgb
#import utils
import numpy as np  # np读入文件
from sklearn.linear_model import  LogisticRegressionCV as LRCV
from scipy.sparse import coo_matrix
import sys
#sys.path.append("../util")
sys.path.append("../..")
import p_recommendation_myself.gbdt_lr.util.get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.get_feature_num import get_feature_num as GF
#from p_recommendation_myself.gbdt_lr.util.utils import get_feature_num as GF


# zin 01
def get_train_data(train_file, feature_num_file):
    """获得训练数据  label和特征"""
    total_feature_num = GF.get_feature_num(feature_num_file)
    train_label = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=-1)  # label最后1列，label
    feature_list = range(0, total_feature_num)
    train_feature = np.genfromtxt(train_file, dtype=np.int32, delimiter=",", usecols=feature_list)
    return train_feature, train_label

def train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate):
    """

    :param train_mat: 训练数据和label
    :param tree_depth: 树的深度
    :param tree_num:树的数量
    :param learning_rate: 学习率
    :return:Booster
    """
    para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
    bst = xgb.train(params=para_dict, dtrain=train_mat, num_boost_round=tree_num)  #para_dict为几个参数组成的字典
    # 交叉验证
    #print(xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"}))
    return bst

#9-6
def choose_parameter():
    """生成参数
    zin：list是元组，分别是树深度，树数目，步长；
    这3个参数列表中的数目也可以增加，当然耗时也就会增加了
    比如tree_depth_list = [4,5,6]可以为tree_depth_list = [4,5,6,7,8,9...]
    """
    result_list = []  # 定义输出列表
    tree_depth_list = [4,5,6]  # [4,5,6]
    tree_num_list = [10,50,100]  # [10,50,100]
    learning_rate_list = [0.3,0.5,0.7]  # [0.3,,]
    for ele_tree_depth in tree_depth_list:
        for ele_tree_num in tree_num_list:
            for ele_learning_rate in learning_rate_list:
                result_list.append((ele_tree_depth, ele_tree_num, ele_learning_rate))  # 将结果以元组形式装载，注意顺序：深度，数目，步长

    return result_list  # 将最终结果返回


# 9-6
def grid_search(train_mat):
    """网格搜索参数"""
    para_list = choose_parameter()  # 定义一个构建参数的函数
    for ele in para_list:
        (tree_depth, tree_num, learning_rate) = ele  # 元组包括这3个参数
        para_dict = {"max_depth": tree_depth, "eta": learning_rate, "objective": "reg:linear", "silent": 1}
        res = xgb.cv(params=para_dict, dtrain=train_mat, num_boost_round=tree_num, nfold=5, metrics={"auc"})
        # 上一次课是10棵树，有10行，所以我们应该选最后一行结果，行号为树的总的数目，列为test-auc-mean，用values[0]把值获取出来
        auc_score = res.loc[tree_num - 1, ["test-auc-mean"]].values[0]  # 获取最后一棵树的得分就行了。
        # 输出一下每一组参数和auc得分，把对应值tree_depth, tree_num, learning_rate, auc_score填进去，太长了，换下行
        print("tree depth: %s , tree_num: %s , learning_rate: %s , auc: %f" % (
            tree_depth, tree_num, learning_rate, auc_score))


# zin 9-5 T2-1-1 三个参数（筛选好的特征及样本文件，记录特征维度的文件，模型的存储文件）
def train_tree_model(train_file, feature_num_file, tree_model_file):
    """
        训练树模型
    """
    train_feature, train_label = get_train_data(train_file, feature_num_file)
    train_mat = xgb.DMatrix(train_feature, train_label)  # xgboost 需要的结构需要此类包装，训练的数据以及label
    #grid_search(train_mat)  # 参数选择，选择一次，就行，后面就无需继续使用了。，9.6刚开始未注释这行,运行后得到了最优参数后，便可以不再参数选择了，所以之后注释掉了这行
    #sys.exit()
    tree_num = 10
    tree_depth = 6
    learning_rate = 0.3  # 步长fm=fm-1+step_size*Tm
    bst = train_tree_model_core(train_mat, tree_depth, tree_num, learning_rate)  # 3个参数，训练的数据以及label，深度，数量，步长
    #
    bst.save_model(tree_model_file)  # 将模型实例化输出，之后也就不需要再进行交叉验证参数选择了

#9-7
def get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth):
    """
    提取特征的代码
    :param tree_leaf: predict of tree model
    :param tree_num: total_num
    :param tree_depth:
    :return: 返回稀疏矩阵: 因为树的深度越深，叶子节点就越多，再加上树很多。那叶子节点就更稀疏
    """
    total_node_num  = 2**(tree_depth +1) -1
    leaf_num = 2**tree_depth
    not_leaf_num = total_node_num - leaf_num

    total_col_num = leaf_num * tree_num  # 总叶子节点数,总维度
    total_row_num = len(tree_leaf)  # 多少样本
    col=[]
    row= []
    data  = []

    base_row_index = 0  # 总的行号
    for one_result in tree_leaf:  # 每个结点对应特征的列的序号
        base_col_index = 0
        for fix_index in one_result:  # fix_index为获取的每一个数字
            leaf_index = fix_index - not_leaf_num  #最终转化为叶子结点，视频里leaf用的yezi
            leaf_index = leaf_index if leaf_index >=0 else 0  # 为防止有一些树学习的不完全我们这里判断一下，叶子树不应该小于0
            # 刚才输出的[15 18 15 15 23 27 13 17 28 21]
            # 第1行的第1个数表示，预测的结果占据的是0-15位，第2棵树表示占据的是16-31位，以此类推
            col.append(base_col_index +leaf_index)  # 稀疏矩阵开始填数字，基础序列base_col_index加上
            row.append(base_row_index)  #同样，有行索引
            data.append(1)  #数据在该位置是1
            base_col_index += leaf_num  # zin-对于第2棵树预测结果，我们在基础列索引之上加上叶子数目
        base_row_index +=1  #同样，每一个样本都需要更新一下行索引
    total_feature_list = coo_matrix((data,(row,col)),shape=(total_row_num,total_col_num))  # 最终结果转化为稀疏矩阵形式

    return total_feature_list

#9-7
def train_tree_and_lr_model(train_file, feature_num_file, mix_tree_model_file, mix_lr_model_file):
    """
    gbdt+lr  混合模型  ，分开 训练 顺序训练（耗时较长）
    :param train_file: 训练数据
    :param feature_num_file:  特征维度文件
    :param mix_tree_model_file:  混合模型树模型部分的文件
    :param mix_lr_model_file:   混合模型逻辑回归部分的文件
    :return:  None
    """

    train_feature, train_label = get_train_data(train_file, feature_num_file)  # 传入 训练数据 和 特征维度文件
    train_mat = xgb.DMatrix(train_feature, train_label)  # 将数据结构转化成gbdt所需要的数据结构，因为我们用的xgboost，所以与之前树模型一样
    tree_num, tree_depth, learning_rate = 10,6, 0.3  # 上一节已经选出了最优的参数
    # (tree_depth, tree_num, learning_rate) = get_mix_model_tree_info()
    # 这里树的深度由 6 改为4，原因：如下：  深度为6：总共：127个节点，64个叶子节点，63个非叶子节点
    # 1.训练出的label,没有落在叶子节点上（或者落在叶子节点上比较少）
    # 2. 特征与样本量的比值：1:100。 因为： 10颗数，深度为6，则叶子节点有 有640个维度，而样本有3万条，不满足
    #训练树模型的代码，因为混合模型是分开训练，所以把树模型存储一下save_model
    bst = train_tree_model_core(train_mat,tree_depth,tree_num,learning_rate)  #此处调用一下训练树的主体函数，分别传入所需参数
    bst.save_model(mix_tree_model_file)
    #  理论部分已经讲过，lr模型所需特征是通过树模型通过编码得到的，所以只需叶的结点编成离散化特征，先预测一下样本
    tree_leaf = bst.predict(train_mat,pred_leaf=True) #预测最终结果落在哪一个叶子节点上
    # print(tree_leaf) #[81 84 84 84 85 77 68 91 97 61] 代表10颗数，81代表最终1 落到那一颗叶子节点上
    # print(np.max(tree_leaf))
    # print(tree_leaf[0])
    # print(np.max(tree_leaf))
    # sys.exit()
    #  将上边落在哪一个叶子节点上的结果进行加工，最终获取训练lr所需要的特征，定义get_gbdt_and_lr_featrue专门完成特征转化
    # 定义get_gbdt_and_lr_featrue专门完成特征转化，因为我们最终看落哪个叶的结点，所以这里的总的结点需要把它转换一下
    total_feature_list = get_gbdt_and_lr_feature(tree_leaf,tree_num,tree_depth)

    #    逻辑回归（前面课程详细讲过，所以这里就直接复制一下）
    # zin模型训练中要注意的参数
    # 1.正则化参数，这里支持多种参数进行选择，分别选一下，Cs=[1,10,100]，这里边填入数的倒数便是正则化参数即1，0.1，0.01
    # 2，penalty="l2"，正则化选用l2（L2），之前讲过l1正则化倾向于将特征对应的参数学为0，而这里一共就100多列特征，我们倾向于将这些特征的参数选小而不是学为0
    # 3.参数迭代停止的条件tol=0.0001，选为万分之1
    # 4.最大迭代次数选择500次
    # 5.cv=5，指定几轴交叉验证，意思是将训练数据分为5份，每一次拿出20%作为测试，80%作为训练，一共进行5次
    # 最优化方法的选择：坐标轴下降法、牛顿法、梯度下降法(随机梯度下降)：为了适应大数据训练，采用了随机梯度下降，我在每带选择一部分，近似整个代的记录，减少计算量提高计算速度
    # 我们这里选了penalty="l2"，所以只能选牛顿法/梯度下降法(随机梯度下降)，这里默认选择牛顿法，因为我们样本不是特别多，我们希望所有样本都参与到训练中
    lr_cf = LRCV(Cs=[1],penalty="l2",tol=0.0001,max_iter=500,cv=5).fit(train_feature,train_label)
    #需要观察一下训练的结果//视频下边一行为scores = lr_cf.scores_.values()[0],改为源代码中如下两行
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    # 得到的scores是个5行3列的数组，所以我们看下每个正则化参数对应的5轴交叉验证之后平均的准确率是多少
    print("diff %s : " % (",".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("Accuracy:%s (+- %0.2f ) "%(scores.mean(),scores.std()*2))
    #print("Accuracy:%s " % (scores.mean()))  #视频中不是mean(),mean后边没有(),后来又加上了()
    # 模型的auc   Cs=[1,10,100]     #输出一下AUC,在lr_cf里加上scoring='roc_auc'
    lr_cf = LRCV(Cs=[1], penalty="l2", tol=0.00001, max_iter=1000, cv=5, scoring='roc_auc').fit(train_feature,train_label)
    scores = lr_cf.scores_.values()
    scores = list(scores)[0]  # 提取values值
    #print(scores)
    print("diff %s : " % ("  ".join([str(ele) for ele in scores.mean(axis=0)])))  # 按照列求均值
    print("AUC:%s (+- %0.2f )" % (scores.mean(),scores.std()*2))
    fw=open(mix_lr_model_file,"w+")
    coef = lr_cf.coef_[0]
    fw.write(",".join([str(ele) for ele in coef]))

#我改成如下，后来没试
# #train_tree_model("gbdt_lr/data/train_file", "gbdt_lr/data/feature_num_file", "")
if __name__ == "__main__":
    train_tree_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/test.model")
    # 由于我们这里还没有实例化，所以先随便写两个文件
    # 视频课里如下
    # train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/xgb_mix_model","data/xgb_lr_coef_mix_model")
    train_tree_and_lr_model("data/gbdt_train_file", "data/gbdt_feature_num", "data/xgb_mix_model","data/xgb_lr_coef_mix_model")

运行一下，就实例化输出了

你可能感兴趣的:(GBDT+LR记录- 9.7代码训练GBDT与LR混合模型)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {