WenwuTao

Kaggle | Allstate Claims Severity比赛总结

Kaggle | Allstate Claims Severity是我参加Kaggle | Santander Product Recommendation顺带参加的一场比赛，比赛整个就花了两星期时间，

取得的成绩比预期好些（73rd/3055 Top 3%），下面总结一下这场比赛。

题目要求：

要求基于给出的数据预测保险赔偿。给出的训练数据是116列（cat1-cat116）的离散数据和14列（con1-con14）的连续数据。

1.数据预处理：

这题数据给的较规范，没有缺失值，所以没有进行预处理

2.算法模型：

xgboost：对目标变量取log(x+200)(原因不是很清楚，可能是为了使目标变量分布更对称，易于训练)

NN：4层神经网络（keras搭建）

3.特征工程：

xgboost：相关性高的离散特征组合编码

连续特征偏度较大的进行Box-Cox变换，标准化，取均值，极差，求和等

进行xgboost特征重要性选择

NN：连续特征标准化

离散特征进行one hot coding，并压缩

4.参数调节：xgboost的损失函数设置，超参数挖掘和NN参数设置

5.Ensemble：

本博主只对xgboost结果和NN结果进行加权平均，ensemble应该是这题的关键，排行榜上比较靠前的队伍应该都在ensemble下足了功夫，进行了stacking，本博主也吸取教训了。

6.其它解题思路（第一名）

第1名解题思路第2名解题思路第3名解题思路第4名解题思路

我的主要代码如下：

xgboost模型

import pandas as pd
import numpy as np
import xgboost as xgb
import datetime
import itertools
from scipy.stats import boxcox
from sklearn.preprocessing import StandardScaler
from sklearn.cross_validation import KFold
from sklearn.metrics import mean_absolute_error
from sklearn import preprocessing

pd.options.mode.chained_assignment = None

multi_corr = [79,80,81,87,89,90,101,103,111]
two_corr = [2,3,9,10,11,12,13,23,36,57,72]
multi_cat_diff = [90,92,96,99,101,102,103,106,109,110,113,114,116]
skewed_num = [1,4,5,6,7,8,9,10,11,12,13]
cat2corr = [(29,30),(40,41),(43,45),(55,56),(8,65),(8,66),(104,106)]
two_avg1 = [1,2,3,4,5,6,7,9,10,11,12,13,14,16,23,24,25,26,27,28,36,38,40,44,50,53,57,72,73,76,79,80,81,82,87,89,90,103,111]

def logregobj(preds, dtrain):
    labels = dtrain.get_label()
    con = 2
    x = preds - labels
    grad = con * x / (np.abs(x) + con)
    hess = con ** 2 / (np.abs(x) + con) ** 2
    return grad, hess

def evalerror(preds, dtrain):
    labels = dtrain.get_label()
    return 'mae', mean_absolute_error(np.exp(preds), np.exp(labels))

def encode(charcode):
    r = 0
    ln = len(str(charcode))
    for i in range(ln):
        r += (ord(str(charcode)[i]) - ord('A'))
    return r + 1

def prepro(train,test,cont_feature):
    joined = pd.concat((train, test)).reset_index(drop=True)
    skewed_feats = ['cont' + str(i) for i in skewed_num]
    for feats in skewed_feats:
        joined[feats] = joined[feats] + 1
        joined[feats], lam = boxcox(joined[feats])

    multi_diff_feats = ['cat' + str(i) for i in multi_cat_diff]
    for column in multi_diff_feats:
        set_train = set(train[column].unique())
        set_test = set(test[column].unique())
        remove_train = set_train - set_test
        remove_test = set_test - set_train
        remove = remove_train.union(remove_test)
        def filter_cat(x):
            if x in remove:
                return np.nan
            return x
        joined[column] = joined[column].apply(lambda x: filter_cat(x), 1)

    ss = StandardScaler()
    joined[cont_feature] = ss.fit_transform(joined[cont_feature].values)
    del train,test
    return joined


def feature_extract(joined,cont_feature):
    features = pd.DataFrame()
    features['id'] = joined['id']
    features['loss'] = np.log(joined['loss'] + 200)

    cat_sel = [n for n in joined.columns if n.startswith('cat')]
    for column in cat_sel:
        features[column] = pd.factorize(joined[column].values , sort=True)[0] + 1

    for column in cont_feature:
        features[column] = joined[column]

    features['cont_avg'] = joined[cont_feature].mean(axis = 1)
    features['cont_min'] = joined[cont_feature].min(axis = 1)
    features['cont_max'] = joined[cont_feature].max(axis = 1)

    for i in [20,40,73]:
        cat_feats = ['cat' + str(i) for i in range(1,i)]
        idx = 'cat_' + 'sum_' + str(i)
        features[idx + '_A'] = joined[cat_feats].apply(lambda x: sum(x == 'A'), axis = 1)
        features[idx + '_B'] = joined[cat_feats].apply(lambda x: sum(x == 'B'), axis = 1)

    cat2_feats = [('cat' + str(i), 'cat' + str(j)) for (i, j) in cat2corr]
    for feat1,feat2 in cat2_feats:
        feat_comb = feat1 + '_' + feat2
        features[feat_comb] = joined[feat1] + joined[feat2]
        features[feat_comb] = features[feat_comb].apply(encode)

    cat2avg_feats = [ 'cat' + str(i) for i in two_avg1]
    for feat1,feat2 in itertools.combinations(cat2avg_feats,2):
        feat_comb = feat1 + '_' + feat2
        features[feat_comb] = joined[feat1] + joined[feat2]
        features[feat_comb] = features[feat_comb].apply(encode)

    train = features[features['loss'].notnull()]
    test = features[features['loss'].isnull()]
    del features, joined
    return train, test


def ceate_feature_map(features):
    outfile = open('xgb.fmap', 'w')
    i = 0
    for feat in features:
        outfile.write('{0}\t{1}\tq\n'.format(i, feat))
        i = i + 1
    outfile.close()

def feature_select(train,test):
    import operator
    params = {
        'min_child_weight': 100,
        'eta': 0.02,
        'colsample_bytree': 0.7,
        'max_depth': 12,
        'subsample': 0.7,
        'alpha': 1,
        'gamma': 1,
        'silent': 1,
        'objective': 'reg:linear',
        'verbose_eval': True,
        'seed': 12
    }
    rounds = 300
    y = train['loss']
    X = train.drop(['loss', 'id'], 1)

    xgtrain = xgb.DMatrix(X, label=y)
    bst = xgb.train(params, xgtrain, num_boost_round=rounds)

    feats = [x for x in train.columns if x not in ['id', 'loss']]
    print len(feats)
    outfile = open('xgb.fmap', 'w')
    i = 0
    for feat in feats:
        outfile.write('{0}\t{1}\tq\n'.format(i, feat))
        i = i + 1
    outfile.close()

    importance = bst.get_fscore(fmap='xgb.fmap')
    importance = sorted(importance.items(), key=operator.itemgetter(1), reverse = True)
    feats = [ a for (a,b) in importance]
    feats = feats[:450]
    print len(feats)
    df = pd.DataFrame(importance, columns=['feature', 'fscore'])
    df['fscore'] = df['fscore'] / df['fscore'].sum()
    df.to_csv("../input/feat_sel/feat_importance.csv", index = False)

    train1 = train[['id', 'loss'] + feats]
    test1 =  test[['id'] + feats]
    return train1, test1

def runXGB(train,test,index,RANDOM_STATE):
    train_index, test_index = index
    y = train['loss']
    X = train.drop(['loss', 'id'], 1)
    X_test = test.drop(['id'], 1)
    del train,test
    X_train, X_val = X.iloc[train_index], X.iloc[test_index]
    y_train, y_val = y.iloc[train_index], y.iloc[test_index]

    xgtrain = xgb.DMatrix(X_train, label=y_train)
    xgval = xgb.DMatrix(X_val, label=y_val)
    xgtest = xgb.DMatrix(X_test)
    X_val = xgb.DMatrix(X_val)

    params = {
        'min_child_weight': 10,
        'eta': 0.01,
        'colsample_bytree': 0.7,
        'max_depth': 12,
        'subsample': 0.7,
        'alpha': 1,
        'gamma': 1,
        'silent': 1,
        'verbose_eval': True,
        'seed': RANDOM_STATE
    }
    rounds = 3000

    watchlist = [(xgtrain, 'train'), (xgval, 'eval')]
    model = xgb.train(params, xgtrain, rounds, watchlist, obj=logregobj, feval=evalerror,early_stopping_rounds=100)

    cv_score = mean_absolute_error(np.exp(model.predict(X_val)) - 200, np.exp(y_val) - 200)
    predict = np.exp(model.predict(xgtest)) - 200
    print "iteration = %d"%(model.best_iteration)
    return predict, cv_score


if __name__ == '__main__':

    Generate_or_read = 0 # 0 generate
    feat_sel = 1         # 1 select
    start_time = datetime.datetime.now()
    if Generate_or_read == 0:
        print "generate features..."
        train = pd.read_csv('../input/train.csv')
        test = pd.read_csv('../input/test.csv')
        test['loss'] = np.nan
        cont_feature = [n for n in train.columns if n.startswith('cont')]
        joined = prepro(train,test,cont_feature)
        train,test = feature_extract(joined, cont_feature)
        print train.shape, test.shape
        print datetime.datetime.now() - start_time
        if feat_sel == 1:
            print "feature select..."
            train,test = feature_select(train,test)
        train.to_csv("../input/feature/train.csv",index = False)
        test.to_csv("../input/feature/test.csv", index=False)
        print train.shape, test.shape
        print datetime.datetime.now() - start_time

    else:
        print "read features..."
        train = pd.read_csv("../input/feature/train.csv")
        test = pd.read_csv("../input/feature/test.csv")
        print train.shape, test.shape

    print "run model..."
    nfolds = 10
    RANDOM_STATE = 113
    ids = test['id']
    predicts = np.zeros(ids.shape)
    kf = KFold(train.shape[0], n_folds = nfolds, shuffle = True, random_state = RANDOM_STATE)
    for i, index in enumerate(kf):
        print('Fold %d' % (i + 1))
        predict, cv_score = runXGB(train, test, index, RANDOM_STATE)
        print cv_score
        predicts += predict

    print datetime.datetime.now() - start_time
    predicts = predicts / nfolds
    submission = pd.DataFrame()
    submission['id'] = ids
    submission['loss'] = predicts
    submission.to_csv('../submit/submit_xgb.csv', index=False)

NN_keras模型

import numpy as np
import pandas as pd
import subprocess
from scipy.sparse import csr_matrix, hstack
from sklearn.metrics import mean_absolute_error
from sklearn.preprocessing import StandardScaler
from sklearn.cross_validation import KFold
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.layers.normalization import BatchNormalization
from keras.layers.advanced_activations import PReLU

np.random.seed(123)

def batch_generator(X, y, batch_size, shuffle):
    number_of_batches = np.ceil(X.shape[0] / batch_size)
    counter = 0
    sample_index = np.arange(X.shape[0])
    if shuffle:
        np.random.shuffle(sample_index)
    while True:
        batch_index = sample_index[batch_size * counter:batch_size * (counter + 1)]
        X_batch = X[batch_index, :].toarray()
        y_batch = y[batch_index]
        counter += 1
        yield X_batch, y_batch
        if (counter == number_of_batches):
            if shuffle:
                np.random.shuffle(sample_index)
            counter = 0

def batch_generatorp(X, batch_size, shuffle):
    number_of_batches = X.shape[0] / np.ceil(X.shape[0] / batch_size)
    counter = 0
    sample_index = np.arange(X.shape[0])
    while True:
        batch_index = sample_index[batch_size * counter:batch_size * (counter + 1)]
        X_batch = X[batch_index, :].toarray()
        counter += 1
        yield X_batch
        if (counter == number_of_batches):
            counter = 0

## read data
train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')

index = list(train.index)
train = train.iloc[index]
'train = train.iloc[np.random.permutation(len(train))]'

## set test loss to NaN
test['loss'] = np.nan

## response and IDs
y = np.log(train['loss'].values + 200)
id_train = train['id'].values
id_test = test['id'].values

## stack train test
ntrain = train.shape[0]
tr_te = pd.concat((train, test), axis=0)

## Preprocessing and transforming to sparse data
sparse_data = []

f_cat = [f for f in tr_te.columns if 'cat' in f]
for f in f_cat:
    dummy = pd.get_dummies(tr_te[f].astype('category'))
    tmp = csr_matrix(dummy)
    sparse_data.append(tmp)

f_num = [f for f in tr_te.columns if 'cont' in f]
scaler = StandardScaler()
tmp = csr_matrix(scaler.fit_transform(tr_te[f_num]))
sparse_data.append(tmp)

del (tr_te, train, test)

## sparse train and test data
xtr_te = hstack(sparse_data, format='csr')
xtrain = xtr_te[:ntrain, :]
xtest = xtr_te[ntrain:, :]

print('Dim train', xtrain.shape)
print('Dim test', xtest.shape)

del (xtr_te, sparse_data, tmp)

## neural net
def nn_model():
    model = Sequential()

    model.add(Dense(400, input_dim=xtrain.shape[1], init='he_normal'))
    model.add(PReLU())
    model.add(BatchNormalization())
    model.add(Dropout(0.4))

    model.add(Dense(200, init='he_normal'))
    model.add(PReLU())
    model.add(BatchNormalization())
    model.add(Dropout(0.2))

    model.add(Dense(50, init='he_normal'))
    model.add(PReLU())
    model.add(BatchNormalization())
    model.add(Dropout(0.2))

    model.add(Dense(1, init='he_normal'))
    model.compile(loss='mae', optimizer='adadelta')
    return (model)

## cv-folds
nfolds = 5
folds = KFold(len(y), n_folds=nfolds, shuffle=True, random_state=111)

## train models
i = 0
nbags = 10
nepochs = 55
pred_oob = np.zeros(xtrain.shape[0])
pred_test = np.zeros(xtest.shape[0])

for (inTr, inTe) in folds:
    xtr = xtrain[inTr]
    ytr = y[inTr]
    xte = xtrain[inTe]
    yte = y[inTe]
    pred = np.zeros(xte.shape[0])
    for j in range(nbags):
        model = nn_model()
        fit = model.fit_generator(generator=batch_generator(xtr, ytr, 128, True),
                                  nb_epoch=nepochs,
                                  samples_per_epoch=xtr.shape[0],
                                  validation_data=(xte.todense(), yte),
                                  verbose=0)
        temp = np.exp(
            model.predict_generator(generator=batch_generatorp(xte, 800, False), val_samples=xte.shape[0])[:, 0]) - 200
        pred += temp
        print(
        "Fold val bagging score after", j + 1, "rounds is: ", mean_absolute_error(np.exp(yte) - 200, pred / (j + 1)))
        pred_test += np.exp(
            model.predict_generator(generator=batch_generatorp(xtest, 800, False), val_samples=xtest.shape[0])[:,
            0]) - 200
    pred /= nbags
    pred_oob[inTe] = pred
    score = mean_absolute_error(np.exp(yte) - 200, pred)
    i += 1
    print('Fold ', i, '- MAE:', score)

print('Total - MAE:', mean_absolute_error(np.exp(y) - 200, pred_oob))

## train predictions
df = pd.DataFrame({'id': id_train, 'loss': pred_oob})
df.to_csv('preds_oob.csv', index=False)

## test predictions
pred_test /= (nfolds * nbags)
df = pd.DataFrame({'id': id_test, 'loss': pred_test})
df.to_csv('submission_keras_shift_perm.csv', index=False)

GitHub：https://github.com/wenwu313/Kaggle-Solution

【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛？ Better Bench 数学建模入门到精通数学建模大数据数据挖掘竞赛时间 2024年
2024年每个月有哪些竞赛？2024年32个数学建模和数据挖掘竞赛重磅来袭！！！2024年数学建模和数学挖掘竞赛时间目录汇总一月（1）2024年第二届“华数杯”国际大学生数学建模竞赛报名时间：即日起至2024年1月16日比赛时间：2024年1月17日（周三）06:00至1月21日（周日）09:00费用：200元报名地址：https://www.saikr.com/vse/mcmicm/2024不能
GBDT、XGBoost、LightGBM的区别与联系徐卜灵
GBDT(GradientBoostingDecisionTree)是机器学习中一个经典的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT也是各种数据挖掘竞赛的致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。XGBoost（eXtremeGradientBoosting）华盛顿大学的陈天奇博士开发，它是Gra
【经验分享】我的数据挖掘竞赛之路及秋招总结文文学霸算法编程语言机器学习人工智能 java
作者|宇智波子光（cqlll.github.io）学校|东南大学研究|数据科学出品|AI蜗牛车写在前面大家好，我是一名机器学习爱好者。即便是这样简单的开头，不知为何，我仍有一种心潮澎湃的感觉（哈哈哈，感觉还是高中时候的作文范）。简单介绍一下我的背景，本科211现985某振动中心研究生，秋招上岸华为算法岗，相比而言，其实现在自己还是很菜，但我很清楚自己loss的优化方向在哪里，在此和大家作些分享，希
【数据挖掘竞赛】——科大讯飞：锂离子电池生产参数调控及生产温度预测挑战赛 Lingxw_w 数据挖掘从入门到实战数据挖掘人工智能机器学习
‍♂️个人主页：@Lingxw_w的个人主页✍作者简介：计算机科学与技术研究生在读希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+【科大讯飞】报名链接：https://challenge.xfyun.cn?invitaCode=GQTcFX目录一、赛事背景
【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛 bj_zhb 数据挖掘竞赛数据挖掘分类 python
【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛文章目录【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛Task1两个赛题数据可视化任务2苹果病害数据加载与数据增强任务三果病害模型训练与预测任务4：苹果病害模型优化与多折训练Task1两个赛题数据可视化在这个任务中，参赛选手需要对两个赛题的数据进行可视化。对于苹果病害数据，选手可以展示苹果叶片的病害图像以及它们所属的标签。对于建筑物检测数据
时间序列规则法快速入门 dropout
前言大家好~我是drop-out(GitHub)。今年我参加了IJCAI-17数据挖掘竞赛和KDDCUP2017，分别获得了第三名和第九名。两个比赛都是时间序列数据。我对时间序列接触的比较多，所以这里写一篇文章，以IJCAI-17口碑客流量预测大赛为背景，介绍一下时间序列规则法，让大家快速入门。IJCAI-17给的是蚂蚁金服的支付数据，具体来说，给的是店铺（实体店）过去每天的客流量，预测店铺未来1
Kaggle神器LightGBM最全解读（附代码说明）！ Sim1480 算法决策树大数据 python 机器学习
AI派干货来源：Microstrong，编辑：AI有道本文主要内容概览：1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武
LightGBM（lgb）介绍浩波的笔记
1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而L
python 数据分析排名_【Kaggle入门级竞赛top5%排名经验分享】— 分析篇 weixin_39886251 python 数据分析排名
作者：xiaoyu微信公众号：Python数据科学Kaggle作为公认的数据挖掘竞赛平台，有很多公开的优秀项目，而其中作为初学者入门的一个好的项目就是：泰坦尼克号生还者预测。可能这个项目好多朋友也听说过，可能很多朋友也做过。但是项目完成后，是否有很好的反思总结呢？很多朋友只是潦草的敷衍过去了，知道大概的套路了就没再去看。其实，一个再简单的项目，如果把它做好也能有巨大的收获。博主开始做的时候，也是经
视频教程- 数据挖掘竞赛-优胜解决方案实战-机器学习 weixin_32826779
数据挖掘竞赛-优胜解决方案实战计算机博士，专注于机器学习与计算机视觉领域，深度学习领域一线实战讲师。在图像识别领域有着丰富经验，实现过包括人脸识别，物体识别，关键点检测等多种应用的新算法。参与多个国家级计算机视觉项目，多年数据领域培训经验，丰富的教学讲解经验，出品多套机器学习与深度学习系列课程，课程生动形象，风格通俗易懂。唐宇迪¥298.00立即订阅扫码下载「CSDN程序员学院APP」，1000+
LightGBM介绍 big_matster 科大讯飞赛场决策树算法
LightGBM介绍GBDT是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好，不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被应用于多分类、点击率预测、搜索排序等任务。在各种数据挖掘竞赛中也是致命的武器，据统计Kaggle比赛上有一般的冠军方案都是基于GBDT，而LightGBM（LightGradientBoostingMach
"阿里巴巴"杯北邮数据挖掘竞赛（一） zhihua_bupt Machine Learning Python 机器学习实战笔记
"阿里巴巴"杯北邮数据挖掘竞赛一、赛题介绍在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户近200天在天猫的行为日志，建立用户的品牌偏好，并对用户的性别和年龄进行分类。根据性别和年龄将用户分为了12类，建议参赛者考虑类别不平衡问题（偏斜不严重）。比赛共约700MB的数据量，按6:2:2的比例分配与训练集、测试集1、测试集2。二
LightGBM（lgb）详解越前浩波机器/深度学习决策树机器学习
1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而L
spark机器学习笔记：（七）用Spark Python构建聚类模型风雪夜归子 spark机器学习笔记
声明：版权所有，转载请联系作者并注明出处http://blog.csdn.net/u013719780?viewmode=contents博主简介：风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台，对数据、MachineLea
spark机器学习笔记：（四）用Spark Python构建分类模型（上）风雪夜归子 spark机器学习笔记
声明：版权所有，转载请联系作者并注明出处http://blog.csdn.net/u013719780?viewmode=contents博主简介：风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台，对数据、MachineLea
吃瓜教程 [西瓜书]任务打卡 Task1: 第一章苏忘川机器学习数据挖掘
吃瓜教程[西瓜书]任务打卡Task1:第一章我是通过大数据挖掘竞赛入门机器学习,在此前并没有系统地学过基础理论,做的工作比较多的是通过复现大佬在kaggle,天池上的教程,调包实现编程的求解.因此,我这次通过参与DataWhale组织的七月组队学习计划,系统性地学习一遍关于统计学习,机器学习算法相关的基础理论,在此做关于我学习打卡的笔记,希望为自己打下一个良好的基础.第一章:绪论前沿及绪论部分大多
【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测 —Xi— 数据挖掘汽车 python 人工智能
目录一、导入数据二、数据查看可视化缺失值占比绘制所有变量的柱形图，查看数据查看各特征与目标变量price的相关性三、数据处理处理异常值查看seller,offerType的取值查看特征notRepairedDamage异常值截断填充缺失值删除取值无变化的特征查看目标变量price对price做对数log变换四、特征构造构造新特征：计算某品牌的销售统计量构造新特征：使用时间对连续型特征数据进行分桶对
数据挖掘竞赛——糖尿病遗传风险检测挑战赛进阶卡卡南安机器学习 Pytorch 数据挖掘机器学习 python
本次比赛是一个数据挖掘赛，需要选手通过训练集数据构建模型，然后对验证集数据进行预测，预测结果进行提交。本题的任务是构建一种模型，该模型能够根据患者的测试数据来预测这个患者是否患有糖尿病。这种类型的任务是典型的二分类问题（患有糖尿病/不患有糖尿病），模型的预测输出为0或1（患有糖尿病：1，未患有糖尿病：0）赛事链接：https://challenge.xfyun.cn/topic/info?type
2022年（2023届）西电计算机保研经历分享（清深、自所、计算所、浙科南、北航、哈工等） Polaris_T 西电计科经验分享计算机保研西安电子科技大学
个人背景学校及专业：西安电子科技大学计算机科学与技术（大数据方向）成绩排名：3/141（夏令营），3/142（预推免）四六级：CET4621，CET6609个人荣誉：国家奖学金x2、优秀共青团员竞赛：数模美赛M、数模国赛省二、数模校赛一等奖、数竞三等x2、英语竞赛二等x2、英语阅读校特、英语写作校二项目：Kaggle某数据挖掘竞赛前0.7%、Kaggle某分类竞赛前3%、lowlevel视觉任务若
2021年度总结—四非计算机保研经历（参营：清华网研院、中科大先研院、华师大数据科学院、厦大计算机系、上科大信息学院） wujiekd 保研四非计算机
本人背景本科：❌❌大学(非985、非211、非双一流，四非）专业：计算机科学与技术Rank：专业1/245，学院1/593，保研率~2%英语：四六级通过，六级飘过（听说硬伤）科研：AI安全、数据挖掘竞赛：阿里、腾讯、CVPR、Geekpwn相关竞赛Top奖项，数学建模、ACM也有一些省奖论文：一篇SCI一区二作职务：阿里AI安全学生专家小组成员，学校计算机学院创新班AI竞赛组指导入营：清华网研院、
2022年竞赛打榜，神经网络还是干不过树模型？？夕小瑶神经网络数据挖掘决策树大数据算法
文|QvQ随着深度神经网络的不断发展，DNN在图像、文本和语音等类型的数据上都有了广泛的应用，然而对于同样非常常见的一种数据——表格数据，DNN却似乎并没有取得像它在其他领域那么大的成功。从Kaggle平台上对数据挖掘竞赛Top团队使用的工具统计上也能看出，XGBoost和LightGBM这类提升（Boosting）树模型依旧占据主要地位。这种来自GBM类模型的压制力在表格数据上尤为明显，即便算上
百度获得2022 KDD Cup主办权，赛题直指“双碳”目标人工智能
KDDCup：数据挖掘领域的“世界杯”KDDCup（国际知识发现和数据挖掘竞赛）比赛由ACM协会的SIGKDD分会举办，从1997年开始，每年举办一次，被称为数据挖掘领域的世界杯，是该领域水平最高、最有影响力的顶级赛事。1997年以来，KDDCup一直紧密结合工业界前沿与热点问题，同时面向企业界和学术界，云集了世界数据挖掘界的顶尖专家、学者、工程师和学生参加，为数据挖掘从业者们提供了一个实力展示与
机器学习之LightGBM 专注于计算机视觉的AndyJiang 机器学习机器学习决策树
本文参考以下链接，如有侵权，联系删除参考文献LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有
2021 年五一数学建模比赛 B 题（第四问至第六问） zhuo木鸟数据挖掘竞赛新星计划 2021 五一数学建模比赛 B题
文章目录第四问第一理解第二理解第五问第六问PageRank算法应用PageRankJ和N设置消防站后逐年建立消防站（失败的尝试）改进方案代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。如果本篇博文对您有所帮助，请不要吝啬您的点赞赛题官网：http://51mcm.cumt.edu.cn/返回目录第一题到第三题链接第四问题目是找出不同区域，相关性最高的
2021 年五一数学建模比赛 B 题（第一问至第三问） zhuo木鸟数据挖掘竞赛五一数学建模比赛 2021 B题第一问第三问
文章目录思路第一问第二问一元回归一元多次模型sin函数累加傅里叶函数高斯函数模型评价时序模型标准化滑动窗口法机器学习算法搭建预测模型（参数筛选+模型效果）随机森林预测次数第三问思路①——单元时序预测数据预处理模型搭建（参数筛选+模型效果）参数筛选模型效果思路②——多元时序预测LSTMs模型LSTMs效果图尾声代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛
2021 年“认证杯”网络挑战赛 B 题（第二阶段） zhuo木鸟数据挖掘竞赛 2021 认证杯 B 题第二阶段网络挑战赛
文章目录思路第一阶段第二阶段结果参数网格结果输出毕宿星流位置和速度分布毕星团位置和速度分布代码本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。本人不会回访，不互关，不互吹，以及谢绝诸如此类事赛题官网：http://www.tzmcm.cn/思路第一阶段第一阶段的解题过程详见：https://blog.csdn.net/weixin_42141390/artic
2021 年“认证杯”网络挑战赛 B 题（第一阶段） zhuo木鸟数据挖掘竞赛数据挖掘 2021 认证杯 B 题网络挑战赛
文章目录思路数据预处理数据分析机器学习模型→缺失数据机器学习方法填充数据集标准化筛选模型参数筛选机器学习模型模型训练和评价神经网络模型→缺失值DBSCAN聚类得出星群聚类参数筛选——1聚类参数筛选——2结果与H-R图毕星团HIP：绘制H-R图代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。最后，本人不会回访，不互关，不互吹，以及谢绝诸如此类事赛题官网
使用hyperopt对Lightgbm调参----自动调参虹猫_少侠
微软的lightgbm已经成为了数据挖掘竞赛的必用工具，运行速度快，准确率高等等各种优点。调参也是竞赛中不可缺少的一步，常规的调参方法有网格搜索，贝叶斯调参等，或者就是部分大佬的手动直接调参，这种级别需要大量的经验累积，23333。今天介绍一个调参包----hyperopt，可以对lgb进行自动调参，本次先介绍使用hyperopt对lightgbm进行自动调参，下次再更交叉验证~关于Hyperop
文本情感分类python_文本情感分类（一）：传统模型 Sahadhammika 文本情感分类python
前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届“泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类
数据挖掘竞赛-北京PM2.5浓度回归分析训练赛周先森爱吃素 Python 机器学习
北京PM2.5浓度回归分析训练赛简介DC上的一个回归题，比较简单。时间原因没有细看，提交到70多名就结束了。使用stacking方法结合多个回归模型。过程数据获取官方给定。数据探索训练集有35746条记录，13个字段，有表头，其中pm2.5为目标。叙述数据预处理主要对date属性进行预处理，因为其字符串属性无法参与建模。利用time模块解析日期并生成新特征为年、月、日、周。还可以进行一些特征组合，
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

Kaggle | Allstate Claims Severity比赛总结

你可能感兴趣的:(数据挖掘竞赛)