飞行模式yu

《机器学习算法竞赛实战》整理 | 八、实战案例：Elo Merchant Category Recommendation

详情请参见原书

《机器学习算法竞赛实战（图灵出品）》(王贺，刘鹏，钱乾)【摘要书评试读】- 京东图书

前言

比赛链接：

https://www.kaggle.com/competitions/elo-merchant-category-recommendation/overview

8.1 赛题理解

8.1.1 赛题背景

        想象一下，当你在一个不熟悉的地方饿着肚子想要找好吃的东西时，你是不是会得到基于你的个人喜好而被专属推荐的餐馆，且该推荐还附带着你的信用卡提供商为你提供的附近餐馆的折扣信息。
        目前，巴西最大的支付品牌之一Elo已经与商家建立了合作关系，以便向顾客提供促销或折扣活动。但这些促销活动对顾客和商家都有益吗？顾客喜欢他们的活动体验吗？商家能够看到重复交易吗？要回答这些问题，个性化是关键。
        Elo 建立了机器学习模型，以了解顾客生命周期中从食品到购物等最重要方面的偏好。但到目前为止，那些学习模型都不是专门为个人或个人资料量身定做的，这也就是这场竞赛举办的原因。
        在这场竞赛中，需要参赛者开发算法，通过发现顾客忠诚度的信号，识别并为个人提供最相关的机会。你的意见将改善顾客的生活，帮助Elo减少不必要的活动，为顾客创造精准正确的体验。

8.1.2 赛题数据

为了保证隐私与信息安全，本次竞赛的所有数据都是模拟与虚构数据或经过脱敏的数据，并非真实的顾客数据。具体包含下列数据文件。

train.csv：训练集
test.csv：测试集
sample_submission.csv：正确与规范的提交文件示例，含有需要参赛者预测的所有card_id
historical transactions.csv：信用卡（card_id）在给定商家的历史交易记录，对于每张信用卡，最多包含其三个月的交易记录
merchants.csv：数据集中所有商家（商家id）的附加信息
new_merchant transactions.csv：每张信用卡在新商家的购物数据，最多包含两个月的数据
Data_Dictionary.xlsx：数据字典的说明文件，提供了上述各表的字段含义，包括对train、historical_transactions、new_merchant_period 和 merchant的相应说明（~~这个new_merchant_period又是什么东西，且继续往下读。）~~

8.1.3 赛题任务

通过顾客的历史交易记录以及顾客和商家的信息数据进行模型训练，最终预测测试集里面所有信用卡的忠诚度分数

8.1.4 评价指标

$\mathrm{RMSE}=\sqrt{\frac{1}{n} \sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}$

其中 $\hat{y_{i}} \$ 为是参赛者对每个信用卡预测的忠诚度分数，而 $y_{i}$ 是对应信用卡的真实忠诚度分数。

8.1.5 赛题FAQ

Q：竞赛提供了这么多数据文件，至少需要哪些才能完成建模？
A：至少需要train.csv 和test.csv，这两个文件包含所有将会被用来进行训练与测试的信用卡card_id。另外 historical_transactions.csv 和 new_merchant_transactions.csv 包含每张信用卡的交易记录。

Q：参赛者如何能够将其余的数据利用上呢？
A：train.csv 和 test.csv 包含所有信用卡的 card_id 和信用卡本身的信息（比如卡激活的第一个月是何时等）。此外 train.csv 还包含部分顾客的目标值，即提供了这部分顾客确定的忠诚度分值。historical_transactions.csv 和 new_merchant_transactions.csv 设计为与 train.csv，test.csv 和merchants.csv 结合在一起，因为如上所述，这两个文件包含每张信用卡的交易记录所以将交易记录与商家结合在一起可以提供额外的商家级别等信息

8.2 数据探索

点击赛题主页中的data可以直接查看数据信息

8.2.1 字段类别含义

在进行数据探索前，参赛者首先应该明确对各数据文件的介绍以及文件中字段的含义，以便理解赛题和拾建分析逻辑。参考赛题主办方提供的字段信息表Data_Dictionary.xlsx可知，五个数据文件中的子段及含义如下。

train.csv 与 test.csv 中的字段及含义

字段	含义	举例
card_id	独一无二的信用卡标识，即信用卡id	C_ID_92a2005557
first_active_month	首次使用信用卡购物的月份（注册时间），格式为YYYY-MM	2017-04
feature_1/2/3	匿名的信用卡离散特征1/2/3	3
target	Loyalty numerical score calculated 2 months after historical and evaluation period. 忠诚度分数目标列	0.392913

查看上述字段的含义可知，三个feature都是匿名的信用卡离散字段，还有一个首次购物的月份，而target是在历史和评估时期后的两个月进行量化计算得到的忠诚度分数。需要注意的是，这里的 evaluation period 应该是指 new_merchant_transactions.csv 中的信息，同时也是对应Data_Dictionary.xlsx 里面的 new_merchant_period 字段。同时校验一下数据的正确性就发现训练集与测试集的 card_id 均为唯一值，且训练集与测试集中的card_id不重复。

historical_transactions.csv 和 new_merchant_transaction.csv 中的字段及含义

字段	含义	举例	说明
authorized_flag			2
card_id	独一无二的信用卡标识，即信用卡id	C_ID_415bb3a509	3
month_lag	距离参考日期的月份	[-12，-1]、[0，2]	2
purchase_date	购物日期（时间）	2018-03-11 14：57：36
category_3	匿名类别特征3	A/B/C/D/E	2
installments	购买商品的数量	1	1
category_1	匿名类别特征1	Y/N
merchant_category_id	商品种类id（经过了匿名处理）	307	2
subsector_id	商品种类群id（经过了匿名处理）	19
merchant_id	商品 id（经过了匿名处理）	M_ID_bec793002c	3
purchase_amount	标准化的购物金额	-0.557574	1
city_id	城市id（经过了匿名处理）	300
state_id	州id（经过了匿名处理）	9
category_2	匿名类别特征2	1

merchants.csv 中的字段与含义

黄色背景：重复特征；加粗：离散型；加粗斜体：离散型非数值型；橙色字体：连续型

合并文件

8.2.2 字段取值情况

查看每个字段的含义及取值情况：离散与否、取值类型、大小关系（独立还是有顺序含义）

缺失值，字段的取值范围和分布：

离散：数量分布；

连续：异常值、离群点。可采用pandas.series的describe方法；若采用value_counts方法，可以发现极端值-33.2，占比约1%

以上可以通过kaggle直接查看（较为粗略）

8.2.3 数据分布差异

数据集划分依据：训练集、测试集、验证集的数据分布要相似，尤其是特征和标签的联合分布要一致。

下面对train.csv和test.csv中的first_active_month、feature_1、feature_2、feature_3几个字段进行单变量分布对比展示。

kaggle网站可以直接展示数据分布情况。

绝对数量分布

结论：训练集与测试集在所有单变量上的绝对数量分布形状极其相似，需要进一步查看相对占比分布

相对占比分布

结论：训练集与测试集在所有单变量上的相对占比分布形状基本一致，猜想训练集与测试集的生成方式一样，继续验证联合分布以加强猜想的事实依据

TODO：这里画图分析有一不严谨之处，即训练集与测试集的单变量取值范围可能不完全一样，由此两根线画在同一张图上有可能会出错，如发生偏移等，请参赛者自行验证二者的横坐标是否完全一样？如果不一样，运行这段代码会发生什么？在下面的联合分布验证中，我们将会填补这一遗漏之处

多变量联合分布

可以使用散点图。但是散点图适用于连续特征。因此可以将两个单变量拼接，再用上述方法。查看结果发现依然保持一致。（参见eda.ipynb）

8.2.4 表格关联分析

train.csv和test.csv帮助参赛者明确了训练集和测试集以及建模目标；
historical_transactions.csv 和 new_transactions.csv具有相同的字段，只是二者时间上有所区别，给参赛者提供了丰富的顾客交易信息；
merchants.csv则描述了商家的经营状况。

8.2.5 数据预处理

这里只给出详细步骤，具体代码请见本书附带资源中的eda.ipynb。

train.csv 和 test.csv

这两个表格只有test.csv中的first_active_month字段有一个缺失值，总体来说只有一个缺失值的影响不大，且这个字段是字符型，因此需要对其进行编码处理，考虑到其实质上具有先后顺序关系，采用字典排序进行编码即可。

merchants.csv

处理步骤如下：
（1）根据业务含义划分离散字段category_cols与连续字段numeric_cols；
（2）对字符型的离散字段进行字典排序编码；
（3）为了更方便统计，对缺失值进行处理，对离散字段统一用-1进行填充；
（4）探查离散字段发现有正无穷值，这是特征提取以及模型不能接受的，因此需要对无穷值进行处理，此处采用最大值进行替换；
（5）对离散字段的缺失值进行处理的方式有很多种，这里先使用平均值进行填充，后续有需要再进行优化处理；

（6）去除与交易记录表格重复的列以及对merchant_id的重复记录。

new_merchant_transactions.csv 和 historical_transactions.csv

处理步骤如下：
（1）为了统一处理，首先将这两张表格拼接起来，后续可以通过month_lag>=0这个条件进行区分
（2）划分离散字段、连续字段以及时间字段：

（3）可仿照merchants.csv的处理方式对字符型离散字段进行字典排序编码以及对缺失值进行填充
（4）对时间段进行处理，简单起见，提取月份、星期几（工作日与周末）以及时间段（上午、下午、晚上、凌晨）信息
（5）对新生成的购买月份离散字段进行字典排序编码；
（6）处理完商家信息和交易记录的表格后，为了方便特征的统一计算将这几个表格合并，然后重新划分相应的字段种类。

8.3 特征工程

本赛题的重点便是挖掘用户的各种交易行为与目标列的关系，进而达到良好的模型学习效果，使模型能够准确预测测试集用户的忠诚度分数。因此这是一个关注信用卡用户局部消费偏好画像的题目，通过找到相似的训练集用户来类推测试集用户的忠诚度分数，进而对高价值人群进行区分，给商家与信用卡银行提供决策支持，同时也能够提升消费者的购物体验，因此特征工程可集中于用户的交易行为画像，即用户在各个维度上购物行为的量化，比如最近一个月的消费金额与购买数量等。

在评估用户价值的画像领域，有个经典的RFM理论，即Recent，Frequency（频次）和Money（金钱）。结合前面的数据探索，能够明确这一理论的可行性。这里将用购买数量模拟Frequency，把消费金额作为Money。本赛题不仅在建模目标上具有广泛性，其数据结构也具有典型的特点，即主要利用用户的行为记录表格（historical_transactions.csv，merchants.csv.以及new_merchant transactions.csv）进行信息挖掘。

接下来将分别介绍特征提取的两种办法，一种是借助python的原生字典结构进行通用特征的提取，另一种则借助pandas这一强大的数据处理工具的统计函数进行业务特征的提取。

8.3.1 通用特征

字典的键值结构很好地提供了便于使用的映射关系，这里的特征提取可以把用户作为第一层键值，把特征字段作为第二层键值，统计完成后再将字典转换成pandas.DataFrame格式；简单来说，就是想知道用户在每个类别字段的每个取值下的购买数量与消费金额。

首先，创建一个字典以存储生成的统计特征，并给每个card_id赋值：

features = {}
card_all = train['card_id'].append(test['card_id']).values.tolist()
for card in card_all:
    features[card] = {}

其次，记录好每个字段的索引以便按行处理的时候直接获取目标值：

columns = transaction.columns.tolist()
idx = columns.index('card_id')
category_cols_index = [columns.index(col) for col in category_cols]
numeric_cols_index = [columns.index(col) for col in numeric_cols]

然后，按行进行相应字段的特征提取和更新：

# 记录运行时间
s = time.time()
num = 0
for i in range(transaction.shape[0]):
    va = transaction.loc[i].values
    card = va[idx]
    for cate_ind in category_cols_index:
        for num_ind in numeric_cols_index:
            col_name = '&'.join([columns[cate_ind], va[cate_ind], columns[num_ind]])
            features[card][col_name] = features[card].get(col_name, 0) + va[num_ind]
    num += 1
    if num%1000000==0:
        print(time.time()-s, "s")
del transaction
gc.collect()

最后，将字典转换成特征DateFrame表格结构，并且重置表格的列名。

# 字典转dataframe
df = pd.DataFrame(features).T.reset_index()
del features
cols = df.columns.tolist()
df.columns = ['card_id'] + cols[1:]

在表格生成后就可以拼接训练集和测试集，进行后续的模型训练。为区别于后续特征，将该特征集命名为dixt。（具体参见dict.ipynb）

# 生成训练集与测试集
train = pd.merge(train, df, how='left', on='card_id')
test =  pd.merge(test, df, how='left', on='card_id')
del df
train.to_csv("preprocess/train_dict.csv", index=False)
test.to_csv("preprocess/test_dict.csv", index=False)

8.3.2 通用特征

基于字典结构的通用特征提取，其优势在于可以按行读取及处理，无论速度还是内存都有一定的保障，还可以面面俱到地量化到每个子类下的用户行为。但其缺点也比较明显，即需要固定的数据结构，同时会产生较高维度的结果。另一种方案是使用pandas工具的groupby方法
进行统计，这种方式简单很多，但对内存性能要求较高，因为需要加载全部数据。需要注意的是，这里为了符合pandas的统计需要，不再对缺失值以及离散型字段进行转化。

同时增加两个特征，这两个特征与用户两次购买行为之间的时间间隔有关，分别从日和月方面进行刻画，代码如下；

transaction['purchase_day_diff'] = transaction.groupby("card_id")['purchase_day'].diff()
transaction['purchase_month_diff'] = transaction.groupby("card_id")['purchase_month'].diff()

首先，根据字段的种类设置相应想获取的统计量，并给定相应的字段列表，为后续的计算做准备，这种方式逻辑清晰，特征构造更加全面：

aggs = {}
for col in numeric_cols:
    aggs[col] = ['nunique', 'mean', 'min', 'max','var','skew', 'sum']
for col in categorical_cols:
    aggs[col] = ['nunique']    
aggs['card_id'] = ['size', 'count']
cols = ['card_id']
for key in aggs.keys():
    cols.extend([key+'_'+stat for stat in aggs[key]])

然后，针对new_merchant_transactions.csv，historical_transactions.csv 以及全时间段分别进行计算和统计，获取多角度下的统计特征：

df = transaction[transaction['month_lag']<0].groupby('card_id').agg(aggs).reset_index()
df.columns = cols[:1] + [co+'_hist' for co in cols[1:]]

df2 = transaction[transaction['month_lag']>=0].groupby('card_id').agg(aggs).reset_index()
df2.columns = cols[:1] + [co+'_new' for co in cols[1:]]
df = pd.merge(df, df2, how='left',on='card_id')

df2 = transaction.groupby('card_id').agg(aggs).reset_index()
df2.columns = cols
df = pd.merge(df, df2, how='left',on='card_id')

可以看出，利用groupby方法统计出的特征数量会少很多，集中为用户各种行为的统计量，为区别于后续特征，将此处特征集命名为groupby。

8.3.3 文本特征

除去上述常规的特征之外，本赛题还可以对一类特征进行提取，就是基于CountVector和NLP 领域的TF-IDF向量特征，不同于前面的dict和groupby，这里只针对部分离散字段进行词频统计。CountVector与dict部分的特征比较像，而TF-IDF则是对多变量联合分布的补充。

首先将相应字段处理成标准的输入格式，然后调用sklearn中的相关方法进行计算，需要注意这部分特征采用的是scipy的sparse稀疏矩阵结构，因此在处理上与dict和 groupby有所不同。

8.3.4 特征选择

常见的特征选择方法主要分两种，一种是过滤式选择，另一种是特征重要性选择。前者利用一些统计学上的相关性系数进行过滤，后者通过模型评估过程中的特征重要性进行选择。一般来讲，特征选择的功能主要出于提升模型训练速度与精度两个方面的考虑，在8.4节将会针对不同的特征选择方法进行模型训练，并对比最终的线下，线上结果。

8.4 模型训练

在准备好基础特征后，参赛者就可以开始尝试模型训练与预测的全流程，为尽可能多地给参赛者介绍一些处理技巧，本节将会介绍三种模型（随机森林、LightGBM和XGBoost）的全流程，同时组合不同的特征选择与参数调优方法。

8.4.1 随机森林

首先是sklearm库里的随机森林模型，本模型的全流程分为四个模块：读取数据、特征选取、参数调优以及训练预测。模型的要素组成为8.3.4节中的dict和groupby两部分，特征选取方面采用基于皮尔逊相关系数计算的Filter方法取前300个特征，参数调优方面使用skleam库的网格搜索（GridSearch）。

首先，读取已经提前构造好的指定特征集和测试集并且进行数据集的拼接，具体代码如下：

def read_data(debug=True):
    """
    读取数据
    :param debug:是否调试版，可以极大节省debug时间
    :return:训练集，测试集
    """

    print("read_data...")
    NROWS = 10000 if debug else None
    train_dict = pd.read_csv("preprocess/train_dict.csv", nrows=NROWS)
    test_dict = pd.read_csv("preprocess/test_dict.csv", nrows=NROWS)
    train_groupby = pd.read_csv("preprocess/train_groupby.csv", nrows=NROWS)
    test_groupby = pd.read_csv("preprocess/test_groupby.csv", nrows=NROWS)

    # 去除重复列
    for co in train_dict.columns:
        if co in train_groupby.columns and co!='card_id':
            del train_groupby[co]
    for co in test_dict.columns:
        if co in test_groupby.columns and co!='card_id':
            del test_groupby[co]

    # 拼接特征
    train = pd.merge(train_dict, train_groupby, how='left', on='card_id').fillna(0)
    test = pd.merge(test_dict, test_groupby, how='left', on='card_id').fillna(0)
    print("done")
    return train, test

然后采用基于皮尔逊相关系数计算的Filter方法取前300个特征进行选取，这里的300是随意取的一个数字，参赛者可以多试几个数字以选出效果最佳的，具体代码如下：


def feature_select_pearson(train, test):
    """
    利用pearson系数进行相关性特征选择
    :param train:训练集
    :param test:测试集
    :return:经过特征选择后的训练集与测试集
    """
    print('feature_select...')
    features = train.columns.tolist()
    features.remove("card_id")
    features.remove("target")
    featureSelect = features[:]

    # 去掉缺失值比例超过0.99的
    for fea in features:
        if train[fea].isnull().sum() / train.shape[0] >= 0.99:
            featureSelect.remove(fea)

    # 进行pearson相关性计算
    corr = []
    for fea in featureSelect:
        corr.append(abs(train[[fea, 'target']].fillna(0).corr().values[0][1]))

    # 取top300的特征进行建模，具体数量可选
    se = pd.Series(corr, index=featureSelect).sort_values(ascending=False)
    feature_select = ['card_id'] + se[:300].index.tolist()
    print('done')
    return train[feature_select + ['target']], test[feature_select]

接着就是基于网格搜索的参数调优。网格搜索实际上是不同参数、不同取值的排列集合，有可能需要根据调优结果多次手动选代参数空间，当然每次选代都是在上一次最佳参数的基础上增加未搜索过的参数区域，具体代码如下：

def param_grid_search(train):
    """
    网格搜索参数寻优
    :param train:训练集
    :return:最优的分类器模型
    """
    print('param_grid_search')
    features = train.columns.tolist()
    features.remove("card_id")
    features.remove("target")
    parameter_space = {
        "n_estimators": [80],
        "min_samples_leaf": [30],
        "min_samples_split": [2],
        "max_depth": [9],
        "max_features": ["auto", 80]
    }

    print("Tuning hyper-parameters for mse")
    clf = RandomForestRegressor(
        criterion="mse",
        min_weight_fraction_leaf=0.,
        max_leaf_nodes=None,
        min_impurity_decrease=0.,
        min_impurity_split=None,
        bootstrap=True,
        oob_score=False,
        n_jobs=4,
        random_state=2020,
        verbose=0,
        warm_start=False)
    grid = GridSearchCV(clf, parameter_space, cv=2, scoring="neg_mean_squared_error")
    grid.fit(train[features].values, train['target'].values)

    print("best_params_:")
    print(grid.best_params_)
    means = grid.cv_results_["mean_test_score"]
    stds = grid.cv_results_["std_test_score"]
    for mean, std, params in zip(means, stds, grid.cv_results_["params"]):
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))
    return grid.best_estimator_

最后根据参数调优的最佳结果进行模型训练与预测，这里选择五折交叉验证，注意保存训练集的交叉预测结果以及测试集的预测结果，便于8.5节使用。

def train_predict(train, test, best_clf):
    """
    进行训练和预测输出结果
    :param train:训练集
    :param test:测试集
    :param best_clf:最优的分类器模型
    :return:
    """
    print('train_predict...')
    features = train.columns.tolist()
    features.remove("card_id")
    features.remove("target")

    prediction_test = 0
    cv_score = []
    prediction_train = pd.Series()
    kf = KFold(n_splits=5, random_state=2020, shuffle=True)
    for train_part_index, eval_index in kf.split(train[features], train['target']):
        best_clf.fit(train[features].loc[train_part_index].values, train['target'].loc[train_part_index].values)
        prediction_test += best_clf.predict(test[features].values)
        eval_pre = best_clf.predict(train[features].loc[eval_index].values)
        score = np.sqrt(mean_squared_error(train['target'].loc[eval_index].values, eval_pre))
        cv_score.append(score)
        print(score)
        prediction_train = prediction_train.append(pd.Series(best_clf.predict(train[features].loc[eval_index]),
                                                             index=eval_index))
    print(cv_score, sum(cv_score) / 5)
    pd.Series(prediction_train.sort_index().values).to_csv("preprocess/train_randomforest.csv", index=False)
    pd.Series(prediction_test / 5).to_csv("preprocess/test_randomforest.csv", index=False)
    test['target'] = prediction_test / 5
    test[['card_id', 'target']].to_csv("result/submission_randomforest.csv", index=False)
    return

这里最后一步采用的是五折交叉验证，一方面可以避免模型对训练集的过拟合，另一方面可使模型对测试集的预测结果更具健壮性，还有一个顺带的好处是可生成用于Stacking融合的特征，即训练集的交叉预测结果和测试集的模型预测结果，将这两者保留下来为后续模型融合做准备，总共需要保存三个文件：train_randomforest.csv，test_randomforest.csv和 submission randomforest.csv.
预测结果出来以后，提交测试，得到具体分数，交叉验证分数为3.68710936，其中提交得分为Public Score（公开榜，俗称A榜）是3.75283（2867/4127），Private Score（隐藏榜，俗称B榜）是3.65493（2814/4127）.

if __name__ == "__main__":

    # 获取训练集与测试集
    train, test = read_data(debug=False)

    # 获取特征选择结果
    train, test = feature_select_pearson(train, test)

    # 获取最优分类器模型
    best_clf = param_grid_search(train)

    # 获取结果
    train_predict(train, test, best_clf)
# [3.6952175995861753, 3.653405245049519, 3.711542672510601, 3.78859477721067, 3.586786511640954] 3.687109361199584

8.4.2 LightGBM

特征组合：Dict+GroupBy+nlp
特征选择方式：Wrapper
参数寻优办法：hyperopt
模型：lightgbm

特征选取

重要性前300

参数调优

Hyperopt是一个 sklearn的Python库，它在搜索空间上进行串行和并行优化，搜索空间可以是实值、离散值和条件维度，提供了传递参数空间和评估函数的接口，目前支持的优化算法有随机搜索（random search）、模拟退火（simulated annealing）和TPE（Tree of Parzen Estimators）算法。相较于网格搜索，hyperopt往往能够在相对较短的时间内获取更优的参数结果。具体代码如下：

对于结果的输出，网格搜索输出含最佳参数的结果，hyperopt输出最佳参数字典

8.4.3 XGBoost

特征组合：Dict+GroupBy+nlp
特征选择方式：chi2
参数寻优办法：beyesian
模型：xgboost

读取数据时，需要把之前的特征集与nlp特征合并成sparse稀疏矩阵；参数调优阶段，最大化评估分数，即均方误差最小

8.5 模型融合

8.5.1 加权融合

将模型的结果按照分数和排名分配权重

随机森林 0.2
lightgbm 0.3
XGBoost 0.5

8.5.2 Stacking融合

使用最好的xgboost模型产生的stacking特征（训练集和测试集的预测结果）

8.6 高效提分

8.6.1 特征优化

（1）基础统计特征

以card_id为key进行聚合（groupby）统计

（2）全局card_id特征

分别对new_transactions.csv，historical_transactions.csv（authorized_flag=1）和historical transactions.csv（authorized_flag=0）的数据集提取此部分特征。

主要包含与用户行为时间相关的统计，比如

（3）最近一次交易与首次交易的时间差、信用卡激活日与首次交易的时间差；

以card_id 为key聚合统计 authorized_flag 和month_diff 的统计量（mean/sum）；
以card_id为key聚合统计 state_i，city_id，installments，merchant_id，merchant_category_id等的nunique，并构造card_id频次与上述得到的nunique的比值特征，以此反映用户card_id的行为纯度（分散范围）；
以card_id为key聚合统计 purchase_amount相关变量的统计量（mean/sum/std/median）；
除此之外还构造了一些Pivot相关的特征

（4）最近两月的card_id

最近两月的card_id仅对historical_transactions.csv的数据集提取此部分特征。此部分与全局card_id特征有很多类似特征，主要差别在于时间范围不同，此处更加注重用户近期的行为变化情况。

（5）二阶特征

仅对historical_transactions.csv的数据集提取此部分特征，前提是要先构建一阶特征（nunique、count、sum等），具体提取结构如下；

for col_level1,col_level2 in tqdm_notebook(level12_nunique):  
    
    level1  = df.groupby(['card_id',col_level1])[col_level2].nunique().to_frame(col_level2 + '_nunique')
    level1.reset_index(inplace =True)  
        
    level2 = level1.groupby('card_id')[col_level2 + '_nunique'].agg(['mean', 'max', 'std'])
    level2 = pd.DataFrame(level2)
    level2.columns = [col_level1 + '_' + col_level2 + '_nunique_' + col for col in level2.columns.values]
    level2.reset_index(inplace = True)
    
    cardid_features = cardid_features.merge(level2, on='card_id', how='left')

补充特征

8.6.2 融合技巧

单模结果
加权融合
stacking融合
Trick融合

8.7 赛题总结

你可能感兴趣的:(AI书籍阅读笔记,机器学习算法竞赛,机器学习,人工智能)

CentOS7 /sysroot挂载失败 Reak.C linux 运维服务器
K8S重启完后进不了系统，提示/sysroot挂载失败测试了使用"镜像救援模式"和"进入紧急模式"两种方法我的情况是“进入紧急模式”方法有效在系统启动界面按“e”，进入编辑找到"linux16"开头的行，在该行末尾加入rd.break，按Ctrl+X启动系统#xfs文件系统使用xfs_repair修复xfs文件系统。对于其他文件系统执行fsck.xxx（xxx根据实际情况ext3、ext4）命令，
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
框架技术SpringBoot ---SpringBoot集成Mybatis 码农C风 JAVAweb java spring java-ee 数据库
SpringBoot框架内容管理ORM操作MySQLSpringBoot集成Mybaits步骤第一种方式：@Mapper注解第二种方式：@MapperScandao和xml文件分开---yml中配置事务txSpringBoot使用事务业务方法加入@Transactional；同时主启动类加上@TransactionManagerSpringBoot框架整合持久层框架，Mybatis前面已经分享了S
gym 安装 ZPC8210 AI 强化学习算法 python 开发语言
安装OpenAIGym的详细指南，涵盖不同版本和扩展组件的安装方法：1.基础安装（核心功能）使用pip安装：bashpipinstallgym使用conda安装：bashcondainstall-cconda-forgegym2.完整安装（包含所有官方环境）bashpipinstallgym[all]注意：这会安装所有依赖，包括MuJoCo等专有环境（需要额外许可证）3.版本选择安装经典版本（0.
【docker】AnythingLLM的docker-compose及一些启动踩坑 BigBigHang docker AI docker 容器 ai
摘要：使用docker-compose配置和启动AnythingLLM服务。配置包括指定镜像、设置容器名称、端口映射、数据卷挂载等。通过docker-compose启动AnythingLLM可以进行以下配置：services:anythingllm:image:docker.io/mintplexlabs/anythingllm:latestcontainer_name:anythingllmpo
劝你别瞎自学！2025AI大模型路线图，手把手教你！大模型新人必看，少走三年弯路就靠这篇！ AGI大模型老王人工智能程序员 chatgpt AI产品经理大模型 AI 大模型学习
这两年，大模型从实验室里的高冷研究，走到每个程序员、学生、转行者的聊天框和职业规划表里。几乎每天都有人来问我："师兄，我是做后端的，能不能转大模型？""我在看一些课程，不知道该学哪些才有用？""我试着搭了个模型，发现全是坑，是不是我不适合？"今天这篇文章，我不打算讲那些泛泛而谈的大模型原理，我就站在一个“老转行人+老程序员+老训练营主理人”的角度，跟你聊聊：大模型怎么转？适合哪些人？哪些方向对新手
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
英特尔CEO坦承AI领域落后Nvidia，边缘计算成复苏关键 weishi122 人工智能边缘计算 AI技术芯片 graphql 金融科技
据报道，英特尔CEO已向全球员工发表讲话Lip-BuTan似乎提出了坦率的观察和清晰目标所有这些表明英特尔将聚焦于精简业务，并进军AI领域——尽管不是直接追赶Nvidia，而是通过所谓边缘AI英特尔（相对）新任CEO显然承认了公司面临的严峻挑战，但Lip-BuTan似乎制定了复苏计划——而且听起来相当务实。《俄勒冈人报》报道了一段Tan的问答环节录音（由Tom’sHardware发现），该录音据称
解决Flutter运行android提示Deprecated imperative apply of Flutter‘s Gradle plugins 旺仔大牛 gradle flutter android gralde buildscript dependencies prepositories
文章目录出现场景解决方案编辑android/settings.gradle编辑android/build.gradle重新定义库变量编辑android/app/build.gradle删除fluttetRoot和plugin字段添加plugins块修改dependencies出现场景ado@adodeMacBook-Airapp_demo%flutterrun--profileLaunchingl
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
flutter app内跳转到其他安卓 app的方法 Wuxiaoming135 flutter android 前端
flutter内的关键代码导包：url_launcher:^6.3.1跳转逻辑：onPressed:()async{awaitlaunchUrl(Uri.parse('demoname://'));},安卓内的关键代码安卓中仅仅添加如上代码便可以实现让外部app跳转，但是并不会新开一个应用，点击跳转按钮会发现仍旧处在原来的app中，如下：默认情况下，scheme跳转会复用已有的任务栈（Task），
帮助孩子养成良好得生活习惯（二）阿南_666
图片发自App其三，引导孩子养成良好的阅读习惯最初，可以和孩子建立良好的亲子阅读关系，每天和孩子一起读一些简单的儿童读物，内容丰富一些，慢慢加入一些对所读书籍的简单讨论，在讨论的过程中，帮助孩子消化所读的书籍，加深对所读书籍的认识，这个过程还可以帮助孩子养成思考的习惯。在孩子的阅读有了一定积累之后，就可以引导孩子独立阅读，鼓励孩子独立的去拥有更广阔的阅读空间。其四、引导孩子养成运动的习惯身体成长是
Spring AI-15.Spring AI API 程序员勇哥人工智能(AI)Java全套教程 Spring AI 人工智能 spring java Spring AI
SpringAI-15.SpringAIAPISpringAIAPI涵盖了广泛的功能。每个主要功能都在其专门的部分中详细介绍。以下是可用的关键功能概述：简介SpringAIAPI提供跨AI供应商的可移植模型API，适用于聊天、文本转图像、音频转录、文本转语音和嵌入模型。支持同步和流式API选项，同时也支持访问特定于模型的功能。AI模型API支持的模型类型：聊天模型（ChatModel）：处理对话交
跨境卖家被告TRO侵权怎么办，知识产权侵权的解决方案大胖不太胖零售经验分享人工智能
自2014年以来，到2023年5月为止，跨境卖家被权利人委托律所起诉的TRO案件数量呈指数增长，已经形成了一条庞大的产业链。对于卖家来说，跨境TRO是什么，后果有哪些，如何解决，成为卖家必须了解的TRO知识。一、TRO是什么1.基础概念1.1概述TRO全名TemporaryRestrainingOrder，又称临时禁令。TRO是一项紧急禁令，在紧急情况下，在法庭，为了保护原告（权利人）的知识产权，
TCP四次挥手及其相关问题今天也是敲代码的一天哦网络 tcp/ip 网络四次挥手
文章目录TCP四次挥手为什么不能把服务器发送的ACK和FIN合并起来，变成三次挥手（大多数情况下）如果第二次挥手时服务器的ACK报文没有送达客户端，会怎样？客户端等待2*MSL的意义是什么为什么是2*MSL什么情况下四次挥手可以变为三次什么是捎带应答机制TCP四次挥手第一次挥手：客户端发送一个FIN为1，序列号随机生成的报文给服务器（假设序列号为M），进入FIN_WAIT_1状态；第二次挥手：服务
MySQL-SQL优化Explain命令以及参数详解只吹45°风 MySQL mysql sql 优化 explain
前言在MySQL优化的众多手段中，EXPLAIN命令扮演着至关重要的角色。它是数据库管理员和开发者手中的利器，用于分析SQL查询的执行计划。通过执行EXPLAIN，MySQL会提供一份详细的查询执行计划报告，这份报告揭示了查询将如何执行，包括数据访问路径、表的连接顺序、使用的索引、预期扫描的行数等关键信息。这些信息对于识别和解决性能瓶颈至关重要。基于EXPLAIN提供的洞察，我们可以采取措施，如优
mysql sql explain_SQL中EXPLAIN命令详解---(转)
在日常工作中，我们会有时会开慢查询去记录一些执行时间比较久的SQL语句，找出这些SQL语句并不意味着完事了，些时我们常常用到explain这个命令来查看一个这些SQL语句的执行计划，查看该SQL语句有没有使用上了索引，有没有做全表扫描，这都可以通过explain命令来查看。所以我们深入了解MySQL的基于开销的优化器，还可以获得很多可能被优化器考虑到的访问策略的细节，以及当运行SQL语句时哪种策略
「感恩日语」2021-303篇，吸渣体质能学多少学多少
学习感悟，避免成为“吸渣”体质很重要，“环境”能改变人，学会甄别那些“书籍”、那些“文章”（论文）对自己成长有利，而非“奶头乐”系统算法之类推送的让自己无法自拔的内容，个人每天、每周、每月、每年、一生总时间是有限的，缩小到每天，计算一下每天浪费有多少，真正发挥价值时间效力有多少，简单做个记录，会发现很可怕。同时找到了为什么每天进步一点点的重要性，只跟昨天的自己，前天的自己比较一下，很重要，多做对自
001双双-文案课第七次作业双双执行力财富流教练
作业要求：竞品分析做一个手机的竞品分析至于选择哪两款产品出于什么目的进行分析，需要按照韩老白老师今天讲的四个步骤来对比机型：iPhoneXvs坚果R1iPhoneXvs坚果R1参考资料：iPhoneX参数：http://product.pconline.com.cn/mobile/apple/1048848_detail.html坚果R1参数：http://product.pconline.com
TCP 四次挥手过程详解真IT布道者计算机网络面试宝典 tcp/ip 网络网络协议
TCP四次挥手过程详解一、四次挥手概述TCP四次挥手是TCP协议中连接终止的标准过程，用于全双工通信的可靠关闭。其核心设计目标是：确保双方数据完全传输完毕，且不会产生半连接状态二、详细过程分析1.第一次挥手（FIN）发起方：主动关闭的一端（通常为Client）报文内容：发送FIN=1，seq=u（u为最后字节序号+1）状态变化：主动方：ESTABLISHED→FIN_WAIT_1被动方：保持EST
企业级AI搜索引擎从零到一开发实战：全链路技术解析与代码实现
简介从零开始构建一个企业级AI搜索引擎，是掌握现代搜索技术栈的重要实践。本文将深入剖析基于大语言模型、知识图谱和分布式架构的智能搜索引擎开发全流程，从数据抓取、索引构建到查询处理模块，提供完整的代码实现和架构设计。通过整合多平台数据并应用优化策略，构建一个具备高并发处理能力、精准语义理解及高效搜索排序的智能搜索引擎系统。一、架构设计：智能搜索引擎的核心组件智能搜索引擎架构由三个核心模块组成：数据抓
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
OpenSearch SQL 查询完整指南
OpenSearchSQL查询完整指南目录基础查询字符串查询数值查询日期时间查询数组和嵌套查询聚合查询地理空间查询全文搜索复杂查询性能优化基础查询基本SELECT--查询所有字段SELECT*FROMindex_name;--查询特定字段SELECTname,age,emailFROMusers;--使用别名SELECTnameASuser_name,ageASuser_ageFROMusers;
AirPlay认证是什么？AirPlay认证流程有哪些（ai） Microtest_CS AirPlay认证
在当今日益数字化的世界中，无线连接技术已成为我们日常生活中不可或缺的一部分。其中，AirPlay作为苹果公司推出的一种无线媒体播放技术，为用户提供了将音频、视频和照片等内容从iOS设备、Mac电脑等发送到AppleTV、HomePod或其他兼容设备的便捷方式。然而，为了确保用户能够获得最佳体验，苹果公司对于支持AirPlay的设备或软件有着严格的认证流程，这就是所谓的AirPlay认证。一、Air
airplay认证流程有哪些？ Microtest_CS AirPlay认证
**AirPlay认证流程解析**在当前的数字时代，无线传输技术已成为连接设备、分享内容的标配。AirPlay，作为苹果公司开发的一种专有无线通信技术，允许用户将音频、视频和屏幕镜像从iOS设备、macOS计算机无线传输到支持的接收设备，如扬声器、电视和投影仪等。为了保障用户的使用体验和内容的传输质量，苹果公司设立了AirPlay认证流程，确保接入AirPlay技术的设备符合其标准和要求。**一、
AirPlay认证是什么？AirPlay认证流程有哪些？ Microtest_CS cocoa macos objective-c
AirPlay认证是苹果公司为其无线音频和视频流传输技术所设立的一种认证机制。它确保了使用AirPlay技术的设备能够无缝、高质量地传输音频和视频内容，为用户带来流畅且稳定的多媒体体验。在本文中，我们将详细探讨AirPlay认证是什么，以及AirPlay认证流程包括哪些步骤。一、AirPlay认证概述AirPlay是苹果公司推出的一种无线媒体传输技术，它允许用户将iOS设备、Mac电脑或iTune
从功能到落地：AI Agent 平台选型的 6 大维度全解析
一、背景：AIAgent爆发式普及，企业如何科学选型？近两年，随着大语言模型（LLM）技术的快速迭代，“AIAgent”正在从实验室走向企业实际生产线。从内容生成、客户服务，到销售助手、流程调度，越来越多企业开始探索将Agent作为“智能化助手”纳入业务流程。然而市场上平台众多、能力差异巨大，企业常常面临如下难题：不知道该选国内还是国外平台？哪个平台支持私有化部署？是否能接入已有CRM/CDP系统
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本