WenwuTao

Kaggle | Santander Product Recommendation比赛总结

Santander Product Recommendation应该是我参加kaggle的第一场比赛，虽然这场比赛最终只取得了103/1704（TOP 6%）的成绩，不过这场比赛让我熟悉了kaggle这个平台，结交了一些志同道合的kaggler。在持续的两个月的过程中，我进行了很多的尝试，学到了很多，下面对这场比赛进行个小结。

题目：根据西班牙Santander银行前17个月的商品购买记录以及用户属性去预测2016年6月每个用户最可能购买的商品（给出预测的7个商品，按可能性大小排列，评测指标用MAP@7）。

降低电脑使用内存：这题的数据量很大，在两个月的比赛过程中，本博主的电脑死机不下50次。本博主参加kaggle这题后，买了根8g的内存条把自己的电脑内存扩充到14g，可是还是经常会死机（程序写的太复杂或者应用软件开的过多）。处理数据如果读入一行处理一行，内存的占用率不会太大，可是这样对数据进行分组聚合和一些统计的处理会显得很麻烦。所以由于本博主处理能力有限，每次都是将整个表读入内存再进行处理，虽然很占内存，可是预处理提取特征这些操作会相对容易实现。这里用pandas的read_csv把2g的数据读到内存会占用10g的内存，因此我们读数据时可以通过改变数据读入的类型（将float64设置成int8读入）或者只读入需要的列，来减少内存的使用。另外，在编程过程中应及时删除一些不用的表来释放内存。

缺失值处理：这里只想说我在比赛过程中遇到的一个坑，csv中缺失的数据（为空）在采用不同的读入方式会呈现不同的结果。采用csv.DictReader( )会将csv中的缺失值读为' ',而用pd.read_csv( )会将缺失值读为nan。剩下的在缺失值的处理中要注意的就是数据类型的转换。

模型：这题发布的第一个月，各位kaggler尝试了各种方法模型，效果都不是很好。后来在BreakfastPirate发布了一条论坛介绍了自己的思路后（由于6月是商品销售分布和其它月差别很大，因此使用xgboost多分类用训练集里的6月去预测测试集6月，这样也大大减小了训练集），比赛排行榜上各种上升，各位kaggler都在此思路上进行特征工程来提高自己的分数。可能是本博主水平略差，我将自己能想到的特征都尝试了一遍可是分数依然提高不多，在比赛最后7天，我没有任何突破，名次掉了30多，哎，真的不会啊，每次加完特征都没提升，有时还会下降，我特么都开始怀疑人生了。此外，这题ensemble没什么用。

特征工程：lag-5特征，renta等属性分组购买率，各种sum，一些商品组合的求和及编码。

线下验证：本博主参加了两次kaggle了，每次比赛结束由Public LeaderBoard转到Private LeaderBoard时，名次都会相对下降一些，一方面可能是因为模型的鲁棒性不是很好，还有一点原因可能是因为过多依赖线上结果。因此，我们比赛时应多参考线下结果，不能一味的依赖于线上结果，这样可能会过拟合Public LeaderBoard。

其它比赛思路：Breakfast Pirate

我的比赛核心代码如下：

'''
   author:TaoZI
   date:2016/12/22
'''
import datetime
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn.cross_validation import KFold

pd.options.mode.chained_assignment = None

mapping_dict = {
'sexo'          : {'nan':0,'H':0, 'V':1},
'ind_actividad_cliente' : {'nan':0, '0.0':0, '0':0,'1.0':1, '1':1},
'segmento'      : {'nan':0, '01 - TOP':0, '03 - UNIVERSITARIO':1, '02 - PARTICULARES':2},
'ind_nuevo'     : {'nan':0, '1.0':0, '1':0,  '0.0':1, '0':1 },
'tiprel_1mes'   : {'nan':0, 'P':0, 'R':0, 'N':0, 'I':1, 'A':2},
'indext'        : {'nan':0, 'S':0, 'N':1}
}

target_raw_cols = ['ind_ahor_fin_ult1', 'ind_aval_fin_ult1', 'ind_cco_fin_ult1',  'ind_cder_fin_ult1',
                   'ind_cno_fin_ult1',  'ind_ctju_fin_ult1', 'ind_ctma_fin_ult1', 'ind_ctop_fin_ult1',
                   'ind_ctpp_fin_ult1', 'ind_deco_fin_ult1', 'ind_deme_fin_ult1', 'ind_dela_fin_ult1',
                   'ind_ecue_fin_ult1', 'ind_fond_fin_ult1', 'ind_hip_fin_ult1',  'ind_plan_fin_ult1',
                   'ind_pres_fin_ult1', 'ind_reca_fin_ult1', 'ind_tjcr_fin_ult1', 'ind_valo_fin_ult1',
                   'ind_viv_fin_ult1',  'ind_nomina_ult1',   'ind_nom_pens_ult1', 'ind_recibo_ult1']

target_cols = target_raw_cols[2:]

con_cols = ['ncodpers', 'fecha_dato', 'age', 'antiguedad','renta']
cat_cols = mapping_dict.keys()
user_cols = con_cols + cat_cols + target_raw_cols
NUM_CLASS = 22

def getAge(str_age):
    age = str_age.strip()
    if age == 'NA' or age == 'nan':
        age1 = 2
    elif float(age) < 20:
        age1 = 0
    elif float(age) < 30:
        age1 = 1
    elif float(age) < 40:
        age1 = 2
    elif float(age) < 50:
        age1 = 3
    elif float(age) < 60:
        age1 = 4
    else:
        age1 =  5
    return age1

def getCustSeniority(str_seniority):
    cust_seniority = str_seniority.strip()
    if cust_seniority == 'NA' or cust_seniority == 'nan':
        seniority = 4
    elif float(cust_seniority) < 50:
        seniority = 0
    elif float(cust_seniority) < 75:
        seniority = 1
    elif float(cust_seniority) < 100:
        seniority = 2
    elif float(cust_seniority) < 125:
        seniority = 3
    elif float(cust_seniority) < 150:
        seniority = 4
    elif float(cust_seniority) < 175:
        seniority = 5
    elif float(cust_seniority) < 200:
        seniority = 6
    elif float(cust_seniority) < 225:
        seniority = 7
    else:
        seniority = 8
    return seniority

def getRent(str_rent):
    rent = str_rent.strip()
    if rent == 'NA' or rent == 'nan':
        rent1 = 4
    elif float(rent) < 45542.97:
        rent1 = 1
    elif float(rent) < 57629.67:
        rent1 = 2
    elif float(rent) < 68211.78:
        rent1 = 3
    elif float(rent) < 78852.39:
        rent1 = 4
    elif float(rent) < 90461.97:
        rent1 = 5
    elif float(rent) < 103855.23:
        rent1 = 6
    elif float(rent) < 120063.00:
        rent1 = 7
    elif float(rent) < 141347.49:
        rent1 = 8
    elif float(rent) < 173418.12:
        rent1 = 9
    elif float(rent) < 234687.12:
        rent1 = 10
    else:
        rent1 = 11
    return rent1

def add_com_features(lag_feats):

    lag_feats['prod_sum'] = lag_feats.apply(lambda x: np.sum(x[-120:]), axis = 1)

    for i, pre in enumerate(['1_', '2_', '3_', '4_', '5_']):
        pre_cols = [pre + col for col in target_raw_cols]
        lag_feats['sum_24_' + str(i + 1)] = lag_feats.loc[:, pre_cols].sum(axis = 1)
    sum_24_list = ['sum_24_' + str(i + 1) for i in range(5)]
    lag_feats['sum_24_max'] = lag_feats[sum_24_list].max(axis = 1)
    lag_feats['sum_24_min'] = lag_feats[sum_24_list].min(axis = 1)
    lag_feats['sum_24_mean'] = lag_feats[sum_24_list].mean(axis = 1)

    for i, col in enumerate(target_raw_cols):
        index_list = [pre + col for pre in ['1_', '2_', '3_', '4_', '5_']]
        lag_feats['prod_sum_' + str(i)] = lag_feats.loc[:, index_list].sum(axis = 1)

    pro_sum_list = ['prod_sum_' + str(i) for i in range(24)]
    for gp_col in ['renta', 'sexo']:
        group_feats = lag_feats[pro_sum_list].groupby(lag_feats[gp_col]).agg(lambda x: round(x.sum() / x.count(), 2))
        group_feats.columns = [gp_col + str(i) for i in range(24)]
        lag_feats = pd.merge(lag_feats, group_feats, left_on = gp_col, right_index = True, how = 'left')

    com_col = [[0, 2], [7, 8, 9], [9, 10, 11], [19, 20, 21]]
    for x in range(4):
        import_col = [target_cols[i] for i in com_col[x]]
        for i in range(1, 6):
            pre_import_col = [str(i) + '_' + col for col in import_col]
            lag_feats[str(i) + '_' + str(x + 1) + '_s_sum_import'] = lag_feats[pre_import_col].sum(axis = 1)
    return lag_feats

def process_train_data(in_file_name, date_list):

    this_month = in_file_name[in_file_name['fecha_dato'].isin([date_list[0]])]
    for col in cat_cols:
        this_month[col] = this_month[col].apply(lambda x:mapping_dict[col][str(x)])
    for col in  target_raw_cols:
        this_month[col].fillna(0, inplace=True)
    this_month['age'] = this_month['age'].apply(lambda x: getAge(x))
    this_month['antiguedad'] = this_month['antiguedad'].apply(lambda x: getCustSeniority(x))
    this_month['renta'] = this_month['renta'].apply(lambda x: getRent(str(x)))

    hist_data = in_file_name.loc[:,['ncodpers','fecha_dato'] + target_raw_cols]
    del in_file_name
    pre_month = hist_data[hist_data['fecha_dato'].isin([date_list[1]])]
    pre_month_ncodpers = pre_month[['ncodpers']]
    pre_month_target = pre_month[target_raw_cols]
    pre_month_target = pre_month_target.add_prefix('1_')
    pre_month = pd.concat([pre_month_ncodpers, pre_month_target], axis=1)
    this_month = pd.merge(this_month, pre_month, on=['ncodpers'], how='left')
    this_month.fillna(0, inplace=True)
    for col in target_cols:
        this_month[col] = np.where(this_month[col]-this_month['1_'+col] > 0,(this_month[col]-this_month['1_'+col]), 0 )

    this_month_target = this_month[target_cols]
    this_month = this_month.drop(target_raw_cols, axis=1)

    x_vars_list = []
    y_vars_list = []

    for i in range(2, len(date_list)):
        tmp = hist_data[hist_data['fecha_dato'].isin([date_list[i]])].loc[:,['ncodpers'] + target_raw_cols]
        tmp = tmp.add_prefix(str(i) + "_")
        tmp.rename(columns={str(i) + '_ncodpers': 'ncodpers'}, inplace=True)
        this_month = pd.merge(this_month, tmp, on=['ncodpers'], how='left')
    this_month.fillna(0, inplace=True)
    del hist_data

    this_month = add_com_features(this_month)
    this_month.fillna(0, inplace=True)

    this_month = pd.concat([this_month,this_month_target],axis=1)
    for idx,row in this_month.iterrows():
        for i in range(0,22):
            if row[(-22+i)]>0:
                x_vars_list.append(row[:-22])
                y_vars_list.append(i)

    return np.array(x_vars_list), np.array(y_vars_list)

def process_test_data(test_file, hist_file, date_list):
    for col in cat_cols:
        test_file[col] = test_file[col].apply(lambda x: mapping_dict[col][str(x)])
    test_file['age'] = test_file['age'].apply(lambda x: getAge(x))
    test_file['antiguedad'] = test_file['antiguedad'].apply(lambda x: getCustSeniority(x))
    test_file['renta'] = test_file['renta'].apply(lambda x: getRent(x))

    for i in range(0, len(date_list)):
        tmp = hist_file[hist_file['fecha_dato'].isin([date_list[i]])].loc[:,['ncodpers'] + target_raw_cols]
        tmp = tmp.add_prefix(str(i + 1) + "_")
        tmp.rename(columns={str(i + 1) + '_ncodpers': 'ncodpers'}, inplace=True)
        test_file = pd.merge(test_file, tmp, on=['ncodpers'], how='left')
    test_file.fillna(0, inplace=True)

    del hist_file

    test_file = add_com_features(test_file)
    test_file.fillna(0, inplace=True)
    return test_file.values

def runXGB_CV(train_X,train_y, test_X, index, seed_val):

    train_index, test_index = index
    X_train = train_X[train_index]
    y_train = train_y[train_index]

    xgtrain = xgb.DMatrix(X_train, label=y_train)
    xgtest  = xgb.DMatrix(test_X)

    param = {
        'objective' : 'multi:softprob',
        'eval_metric' : "mlogloss",
        'num_class' : NUM_CLASS,
        'silent' : 1,
        'min_child_weight' : 2,
        'eta': 0.05,
        'max_depth': 6,
        'subsample' : 0.9,
        'colsample_bytree' : 0.8,
        'seed' : seed_val
    }
    num_rounds = 100
    model  = xgb.train(param, xgtrain, num_rounds)
    pred   = model.predict(xgtest)
    return pred


def runXGB(train_X, train_y, test_X,seed_val=123):
    param = {
        'objective' : 'multi:softprob',
        'eval_metric' : "mlogloss",
        'num_class' : NUM_CLASS,
        'silent' : 1,
        'min_child_weight' : 2,
        'eta': 0.05,
        'max_depth': 6,
        'subsample' : 0.9,
        'colsample_bytree' : 0.8,
        'seed' : seed_val
    }
    num_rounds = 100
    xgtrain = xgb.DMatrix(train_X, label = train_y)
    xgtest  = xgb.DMatrix(test_X)

    model  = xgb.train(param, xgtrain, num_rounds)
    preds  = model.predict(xgtest)
    return preds


if __name__ == "__main__":

    cv_sel = 1
    start_time = datetime.datetime.now()
    data_path = '../input/'

    print "feature extract..."
    train_file = pd.read_csv(data_path + 'train_ver3.csv',
                             dtype = {'age': 'str', 'antiguedad': 'str', 'renta': 'str'},
                             usecols = user_cols)
    print datetime.datetime.now() - start_time

    train_X, train_y = process_train_data(train_file, ['2015-06-28', '2015-05-28', '2015-04-28',
                                                       '2015-03-28', '2015-02-28', '2015-01-28'])
    train_X = train_X[:, 2:]
    print datetime.datetime.now() - start_time

    data_date = ['2016-05-28', '2016-04-28', '2016-03-28', '2016-02-28', '2016-01-28']
    train_file = train_file[train_file['fecha_dato'].isin(data_date)].loc[:,
                 ['ncodpers', 'fecha_dato'] + target_raw_cols]

    test_file = pd.read_csv(data_path + 'test_ver3.csv',
                            dtype = {'age': 'str', 'antiguedad': 'str', 'renta': 'str'},
                            usecols = con_cols + cat_cols)

    test_X = process_test_data(test_file, train_file, data_date)
    print datetime.datetime.now() - start_time

    del train_file, test_file
    test_X = test_X[:, 2:]
    print train_X.shape, train_y.shape, test_X.shape
    print datetime.datetime.now() - start_time

    seed_val = 123
    if cv_sel == 1:
        print "running model with cv..."
        nfolds = 5
        kf = KFold(train_X.shape[0], n_folds = nfolds, shuffle = True, random_state = seed_val)
        preds = [0] * NUM_CLASS
        for i, index in enumerate(kf):
            preds += runXGB_CV(train_X, train_y, test_X, index, seed_val)
            print 'fold %d' % (i + 1)
        preds = preds / nfolds

    else:
        print "running model with feature..."
        preds = runXGB(train_X, train_y, test_X,seed_val)

    del train_X, test_X, train_y

    print "Getting the top products.."
    target_cols = np.array(target_cols)
    preds = np.argsort(preds, axis = 1)
    preds = np.fliplr(preds)[:, :7]
    test_id = np.array(pd.read_csv( data_path + 'test_ver2.csv', usecols = ['ncodpers'])['ncodpers'])
    final_preds = [" ".join(list(target_cols[pred])) for pred in preds]
    out_df = pd.DataFrame({'ncodpers': test_id, 'added_products': final_preds})
    out_df.to_csv('../submit/sub_xgb.csv', index = False)

GitHub : https://github.com/wenwu313/Kaggle-Solution

四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛？ Better Bench 数学建模入门到精通数学建模大数据数据挖掘竞赛时间 2024年
2024年每个月有哪些竞赛？2024年32个数学建模和数据挖掘竞赛重磅来袭！！！2024年数学建模和数学挖掘竞赛时间目录汇总一月（1）2024年第二届“华数杯”国际大学生数学建模竞赛报名时间：即日起至2024年1月16日比赛时间：2024年1月17日（周三）06:00至1月21日（周日）09:00费用：200元报名地址：https://www.saikr.com/vse/mcmicm/2024不能
GBDT、XGBoost、LightGBM的区别与联系徐卜灵
GBDT(GradientBoostingDecisionTree)是机器学习中一个经典的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT也是各种数据挖掘竞赛的致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。XGBoost（eXtremeGradientBoosting）华盛顿大学的陈天奇博士开发，它是Gra
【经验分享】我的数据挖掘竞赛之路及秋招总结文文学霸算法编程语言机器学习人工智能 java
作者|宇智波子光（cqlll.github.io）学校|东南大学研究|数据科学出品|AI蜗牛车写在前面大家好，我是一名机器学习爱好者。即便是这样简单的开头，不知为何，我仍有一种心潮澎湃的感觉（哈哈哈，感觉还是高中时候的作文范）。简单介绍一下我的背景，本科211现985某振动中心研究生，秋招上岸华为算法岗，相比而言，其实现在自己还是很菜，但我很清楚自己loss的优化方向在哪里，在此和大家作些分享，希
【数据挖掘竞赛】——科大讯飞：锂离子电池生产参数调控及生产温度预测挑战赛 Lingxw_w 数据挖掘从入门到实战数据挖掘人工智能机器学习
‍♂️个人主页：@Lingxw_w的个人主页✍作者简介：计算机科学与技术研究生在读希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+【科大讯飞】报名链接：https://challenge.xfyun.cn?invitaCode=GQTcFX目录一、赛事背景
【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛 bj_zhb 数据挖掘竞赛数据挖掘分类 python
【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛文章目录【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛Task1两个赛题数据可视化任务2苹果病害数据加载与数据增强任务三果病害模型训练与预测任务4：苹果病害模型优化与多折训练Task1两个赛题数据可视化在这个任务中，参赛选手需要对两个赛题的数据进行可视化。对于苹果病害数据，选手可以展示苹果叶片的病害图像以及它们所属的标签。对于建筑物检测数据
时间序列规则法快速入门 dropout
前言大家好~我是drop-out(GitHub)。今年我参加了IJCAI-17数据挖掘竞赛和KDDCUP2017，分别获得了第三名和第九名。两个比赛都是时间序列数据。我对时间序列接触的比较多，所以这里写一篇文章，以IJCAI-17口碑客流量预测大赛为背景，介绍一下时间序列规则法，让大家快速入门。IJCAI-17给的是蚂蚁金服的支付数据，具体来说，给的是店铺（实体店）过去每天的客流量，预测店铺未来1
Kaggle神器LightGBM最全解读（附代码说明）！ Sim1480 算法决策树大数据 python 机器学习
AI派干货来源：Microstrong，编辑：AI有道本文主要内容概览：1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武
LightGBM（lgb）介绍浩波的笔记
1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而L
python 数据分析排名_【Kaggle入门级竞赛top5%排名经验分享】— 分析篇 weixin_39886251 python 数据分析排名
作者：xiaoyu微信公众号：Python数据科学Kaggle作为公认的数据挖掘竞赛平台，有很多公开的优秀项目，而其中作为初学者入门的一个好的项目就是：泰坦尼克号生还者预测。可能这个项目好多朋友也听说过，可能很多朋友也做过。但是项目完成后，是否有很好的反思总结呢？很多朋友只是潦草的敷衍过去了，知道大概的套路了就没再去看。其实，一个再简单的项目，如果把它做好也能有巨大的收获。博主开始做的时候，也是经
视频教程- 数据挖掘竞赛-优胜解决方案实战-机器学习 weixin_32826779
数据挖掘竞赛-优胜解决方案实战计算机博士，专注于机器学习与计算机视觉领域，深度学习领域一线实战讲师。在图像识别领域有着丰富经验，实现过包括人脸识别，物体识别，关键点检测等多种应用的新算法。参与多个国家级计算机视觉项目，多年数据领域培训经验，丰富的教学讲解经验，出品多套机器学习与深度学习系列课程，课程生动形象，风格通俗易懂。唐宇迪¥298.00立即订阅扫码下载「CSDN程序员学院APP」，1000+
LightGBM介绍 big_matster 科大讯飞赛场决策树算法
LightGBM介绍GBDT是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好，不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被应用于多分类、点击率预测、搜索排序等任务。在各种数据挖掘竞赛中也是致命的武器，据统计Kaggle比赛上有一般的冠军方案都是基于GBDT，而LightGBM（LightGradientBoostingMach
"阿里巴巴"杯北邮数据挖掘竞赛（一） zhihua_bupt Machine Learning Python 机器学习实战笔记
"阿里巴巴"杯北邮数据挖掘竞赛一、赛题介绍在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户近200天在天猫的行为日志，建立用户的品牌偏好，并对用户的性别和年龄进行分类。根据性别和年龄将用户分为了12类，建议参赛者考虑类别不平衡问题（偏斜不严重）。比赛共约700MB的数据量，按6:2:2的比例分配与训练集、测试集1、测试集2。二
LightGBM（lgb）详解越前浩波机器/深度学习决策树机器学习
1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而L
spark机器学习笔记：（七）用Spark Python构建聚类模型风雪夜归子 spark机器学习笔记
声明：版权所有，转载请联系作者并注明出处http://blog.csdn.net/u013719780?viewmode=contents博主简介：风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台，对数据、MachineLea
spark机器学习笔记：（四）用Spark Python构建分类模型（上）风雪夜归子 spark机器学习笔记
声明：版权所有，转载请联系作者并注明出处http://blog.csdn.net/u013719780?viewmode=contents博主简介：风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台，对数据、MachineLea
吃瓜教程 [西瓜书]任务打卡 Task1: 第一章苏忘川机器学习数据挖掘
吃瓜教程[西瓜书]任务打卡Task1:第一章我是通过大数据挖掘竞赛入门机器学习,在此前并没有系统地学过基础理论,做的工作比较多的是通过复现大佬在kaggle,天池上的教程,调包实现编程的求解.因此,我这次通过参与DataWhale组织的七月组队学习计划,系统性地学习一遍关于统计学习,机器学习算法相关的基础理论,在此做关于我学习打卡的笔记,希望为自己打下一个良好的基础.第一章:绪论前沿及绪论部分大多
【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测 —Xi— 数据挖掘汽车 python 人工智能
目录一、导入数据二、数据查看可视化缺失值占比绘制所有变量的柱形图，查看数据查看各特征与目标变量price的相关性三、数据处理处理异常值查看seller,offerType的取值查看特征notRepairedDamage异常值截断填充缺失值删除取值无变化的特征查看目标变量price对price做对数log变换四、特征构造构造新特征：计算某品牌的销售统计量构造新特征：使用时间对连续型特征数据进行分桶对
数据挖掘竞赛——糖尿病遗传风险检测挑战赛进阶卡卡南安机器学习 Pytorch 数据挖掘机器学习 python
本次比赛是一个数据挖掘赛，需要选手通过训练集数据构建模型，然后对验证集数据进行预测，预测结果进行提交。本题的任务是构建一种模型，该模型能够根据患者的测试数据来预测这个患者是否患有糖尿病。这种类型的任务是典型的二分类问题（患有糖尿病/不患有糖尿病），模型的预测输出为0或1（患有糖尿病：1，未患有糖尿病：0）赛事链接：https://challenge.xfyun.cn/topic/info?type
2022年（2023届）西电计算机保研经历分享（清深、自所、计算所、浙科南、北航、哈工等） Polaris_T 西电计科经验分享计算机保研西安电子科技大学
个人背景学校及专业：西安电子科技大学计算机科学与技术（大数据方向）成绩排名：3/141（夏令营），3/142（预推免）四六级：CET4621，CET6609个人荣誉：国家奖学金x2、优秀共青团员竞赛：数模美赛M、数模国赛省二、数模校赛一等奖、数竞三等x2、英语竞赛二等x2、英语阅读校特、英语写作校二项目：Kaggle某数据挖掘竞赛前0.7%、Kaggle某分类竞赛前3%、lowlevel视觉任务若
2021年度总结—四非计算机保研经历（参营：清华网研院、中科大先研院、华师大数据科学院、厦大计算机系、上科大信息学院） wujiekd 保研四非计算机
本人背景本科：❌❌大学(非985、非211、非双一流，四非）专业：计算机科学与技术Rank：专业1/245，学院1/593，保研率~2%英语：四六级通过，六级飘过（听说硬伤）科研：AI安全、数据挖掘竞赛：阿里、腾讯、CVPR、Geekpwn相关竞赛Top奖项，数学建模、ACM也有一些省奖论文：一篇SCI一区二作职务：阿里AI安全学生专家小组成员，学校计算机学院创新班AI竞赛组指导入营：清华网研院、
2022年竞赛打榜，神经网络还是干不过树模型？？夕小瑶神经网络数据挖掘决策树大数据算法
文|QvQ随着深度神经网络的不断发展，DNN在图像、文本和语音等类型的数据上都有了广泛的应用，然而对于同样非常常见的一种数据——表格数据，DNN却似乎并没有取得像它在其他领域那么大的成功。从Kaggle平台上对数据挖掘竞赛Top团队使用的工具统计上也能看出，XGBoost和LightGBM这类提升（Boosting）树模型依旧占据主要地位。这种来自GBM类模型的压制力在表格数据上尤为明显，即便算上
百度获得2022 KDD Cup主办权，赛题直指“双碳”目标人工智能
KDDCup：数据挖掘领域的“世界杯”KDDCup（国际知识发现和数据挖掘竞赛）比赛由ACM协会的SIGKDD分会举办，从1997年开始，每年举办一次，被称为数据挖掘领域的世界杯，是该领域水平最高、最有影响力的顶级赛事。1997年以来，KDDCup一直紧密结合工业界前沿与热点问题，同时面向企业界和学术界，云集了世界数据挖掘界的顶尖专家、学者、工程师和学生参加，为数据挖掘从业者们提供了一个实力展示与
机器学习之LightGBM 专注于计算机视觉的AndyJiang 机器学习机器学习决策树
本文参考以下链接，如有侵权，联系删除参考文献LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有
2021 年五一数学建模比赛 B 题（第四问至第六问） zhuo木鸟数据挖掘竞赛新星计划 2021 五一数学建模比赛 B题
文章目录第四问第一理解第二理解第五问第六问PageRank算法应用PageRankJ和N设置消防站后逐年建立消防站（失败的尝试）改进方案代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。如果本篇博文对您有所帮助，请不要吝啬您的点赞赛题官网：http://51mcm.cumt.edu.cn/返回目录第一题到第三题链接第四问题目是找出不同区域，相关性最高的
2021 年五一数学建模比赛 B 题（第一问至第三问） zhuo木鸟数据挖掘竞赛五一数学建模比赛 2021 B题第一问第三问
文章目录思路第一问第二问一元回归一元多次模型sin函数累加傅里叶函数高斯函数模型评价时序模型标准化滑动窗口法机器学习算法搭建预测模型（参数筛选+模型效果）随机森林预测次数第三问思路①——单元时序预测数据预处理模型搭建（参数筛选+模型效果）参数筛选模型效果思路②——多元时序预测LSTMs模型LSTMs效果图尾声代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛
2021 年“认证杯”网络挑战赛 B 题（第二阶段） zhuo木鸟数据挖掘竞赛 2021 认证杯 B 题第二阶段网络挑战赛
文章目录思路第一阶段第二阶段结果参数网格结果输出毕宿星流位置和速度分布毕星团位置和速度分布代码本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。本人不会回访，不互关，不互吹，以及谢绝诸如此类事赛题官网：http://www.tzmcm.cn/思路第一阶段第一阶段的解题过程详见：https://blog.csdn.net/weixin_42141390/artic
2021 年“认证杯”网络挑战赛 B 题（第一阶段） zhuo木鸟数据挖掘竞赛数据挖掘 2021 认证杯 B 题网络挑战赛
文章目录思路数据预处理数据分析机器学习模型→缺失数据机器学习方法填充数据集标准化筛选模型参数筛选机器学习模型模型训练和评价神经网络模型→缺失值DBSCAN聚类得出星群聚类参数筛选——1聚类参数筛选——2结果与H-R图毕星团HIP：绘制H-R图代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。最后，本人不会回访，不互关，不互吹，以及谢绝诸如此类事赛题官网
使用hyperopt对Lightgbm调参----自动调参虹猫_少侠
微软的lightgbm已经成为了数据挖掘竞赛的必用工具，运行速度快，准确率高等等各种优点。调参也是竞赛中不可缺少的一步，常规的调参方法有网格搜索，贝叶斯调参等，或者就是部分大佬的手动直接调参，这种级别需要大量的经验累积，23333。今天介绍一个调参包----hyperopt，可以对lgb进行自动调参，本次先介绍使用hyperopt对lightgbm进行自动调参，下次再更交叉验证~关于Hyperop
文本情感分类python_文本情感分类（一）：传统模型 Sahadhammika 文本情感分类python
前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届“泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

Kaggle | Santander Product Recommendation比赛总结

你可能感兴趣的:(数据挖掘竞赛)