立刻有

『天池竞赛』O2O优惠券使用预测思路总结

赛题地址：https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100065.200879.2.6r6s4g&raceId=231587

第一赛季数据

数据与评价方式
解决方案
数据划分
特征工程
算法及模型融合
- 模型融合
- 应用
线下评估
回顾

正式开始做是从十月底开始的，我之前参加了新手赛，而这一次正式赛可以说是真正认真做的一次，中间和队友一起学习了很多，也有小小的收获，不管这次成绩如何，以后还有机会。

数据与评价方式

赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为，预测用户在2016年7月领取优惠券后15天以内的使用情况。使用优惠券核销预测的平均AUC（ROC曲线下面积）作为评价标准。即对每个优惠券coupon_id单独计算核销预测的AUC值，再对所有优惠券的AUC值求平均作为最终的评价标准。
当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。因为在实际的数据集中经常会出现类不平衡，所以次点也是AUC指标的优势。

解决方案

提供数据的区间是2016-01-01~2016-06-30，预测七月份用户领券使用情况，即用或者不用，转化为二分类问题，然后通过分类算法预测结果。首先就是特征工程，其中涉及对数据集合的划分，包括提取特征的区间和训练数据区间。接着就是从特征区间中提取特征，包括用户特征、商户特征、优惠券特征、用户商户组合特征、用户优惠券组合特征。后期在测试区间提取了当天的前后7/3/1天的领券信息（这里面后七天的特征其实是不能应用于工业应用的，因为实际预测中你无法知道后7/3/1天的领券信息），提升较大。最后使用GBDT、RandomForest、LR进行基于rank的分类模型融合

数据划分

最初没有使用数据划分，导致特征中产生数据泄露，以至于在训练数据上效果很好，线下测试也还不错，在线上表现确差强人意，后来划分了之后有明显提升。

集合	预测区间	特征区间
预测集	领券:20160701~20160731	领券&消费:20160101~20160630
训练集	领券:20160515~20160615 消费:20160515~20160630	领券:20160101~20160501 消费:20160101~20160515

可以划分多个训练集。

特征工程

主要有五大特征类：用户特征、商户特征、优惠券特征、用户商户组合特征、用户优惠券组合特征，赛题包括online和offline的数据，由于里面只有部分用户重合，商户优惠券等并未有重合，个人臆测线上应该是淘宝天猫的购买消费数据，有一定关联，但关系微弱，因此只向其中提取了用户特征。而offline数据集就提取了所有五个特征类。一下是各部分特征：

用户特征：u
- 线下领取优惠券但没有使用的次数 u1
- 线下普通消费次数 u2
- 线下使用优惠券消费的次数 u3
- 线下平均正常消费间隔 u4
- 线下平均优惠券消费间隔 u5
- u3/u1 使用优惠券次数与没使用优惠券次数比值 u6
- u3/(u2+u3) 表示用户使用优惠券消费占比 u7
- u4/15 代表15除以用户普通消费间隔，可以看成用户15天内平均会普通消费几次，值越小代表用户在15天内普通消费概率越大 u8
- u5/15 代表15除以用户优惠券消费间隔，可以看成用户15天内平均会普通消费几次，值越大代表用户在15天内普通消费概率越大 u9
- 领取优惠券到使用优惠券的平均间隔时间 u10
- u10/15 表示在15天内使用掉优惠券的值大小，值越小越有可能，值为0表示可能性最大 u11
- 领取优惠券到使用优惠券间隔小于15天的次数 u12
- u12/u3 表示用户15天使用掉优惠券的次数除以使用优惠券的次数，表示在15天使用掉优惠券的可能，值越大越好。 u13
- u12/u1 F014 表示用户15天使用掉优惠券的次数除以领取优惠券未消费的次数，表示在15天使用掉优惠券的可能，值越大越好。 u14
- u1+u3 领取优惠券的总次数 u15
- u12/u15 F016 表示用户15天使用掉优惠券的次数除以领取优惠券的总次数，表示在15天使用掉优惠券的可能，值越大越好。 u16
- u1+u2 一共消费多少次 u17
- 最近一次消费到当前领券的时间间隔 u18
- 最近一次优惠券消费到当前领券的时间间隔 u19
- 用户当天领取的优惠券数目 u20
- 用户前第i天领取的优惠券数目 u20si
- 用户后第i天领取的优惠券数目 u20ai
- 用户前7天领取的优惠券数目 u21
- 用户前3天领取的优惠券数目 u22
- u22/u21 u23
- u20/u22 u24
- 用户后7天领取的优惠券数目 u25
- 用户后3天领取的优惠券数目 u26
- u26/u25 u27
- u20/u26 u28
- 用户训练、预测时间领取的优惠券数目 u29
- 用户当天领取的不同优惠券数目 u30
- 用户前第i天领取的不同优惠券数目 u30si
- 用户后第i天领取的不同优惠券数目 u30ai
- 用户训练、预测时间领取的不同优惠券数目 u31
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 用户7/4/2天领取的优惠券数目 u32_i
- 用户7/4/2天所领取的优惠券优惠率r1/r2/r3/r4排名 u_ri_ranki
- 用户7/4/2天所领取的优惠券优惠率r1/r2/r3/r4排名 u_ri_dense _ranki
- u32_4/u32_7 u33
- u32_2/u32_4 u34
- u32_2/u32_7 u35
- u20/u32_2 u36
- 线上领取优惠券未使用的次数 action=2 uo1
- 线上特价消费次数 action=1 and cid=0 and drate=”fixed” uo2
- 线上使用优惠券消费的次数 uo3
- 线上普通消费次数 action=1 and cid=0 and drate=”null” uo4
- 线上领取优惠券的次数 uo1+uo3 uo5
- uo3/uo5 线上使用优惠券次数除以线上领取优惠券次数，正比 uo6
- uo3/uo4 线上使用优惠券次数除以线上普通消费次数，正比 uo7
- uo2/uo4线上特价消费次数除以线上普通消费次数 uo8
- 加入训练预测时间前一个月的窗口特征
- 线下领取优惠券但没有使用的次数 uw1
- 线下普通消费次数 uw2
- 线下使用优惠券消费的次数 uw3
- 线下平均正常消费间隔 uw4
- 线下平均优惠券消费间隔 uw5
- uw3/uw1 使用优惠券次数与没使用优惠券次数比值 uw6
- uw3/(uw2+uw3) 表示用户使用优惠券消费占比 uw7
- uw4/15 代表15除以用户普通消费间隔，可以看成用户15天内平均会普通消费几次，值越小代表用户在15天内普通消费概率越大 uw8
- uw5/15 代表15除以用户优惠券消费间隔，可以看成用户15天内平均会普通消费几次，值越大代表用户在15天内普通消费概率越大 uw9
- 领取优惠券到使用优惠券的平均间隔时间 uw10
- uw10/15 表示在15天内使用掉优惠券的值大小，值越小越有可能，值为0表示可能性最大 uw11
- 领取优惠券到使用优惠券间隔小于15天的次数 uw12
- uw12/uw3 表示用户15天使用掉优惠券的次数除以使用优惠券的次数，表示在15天使用掉优惠券的可能，值越大越好。 uw13
- uw12/uw1 F014 表示用户15天使用掉优惠券的次数除以领取优惠券未消费的次数，表示在15天使用掉优惠券的可能，值越大越好。 uw14
- uw1+uw3 领取优惠券的总次数 uw15
- uw12/uw15 F016 表示用户15天使用掉优惠券的次数除以领取优惠券的总次数，表示在15天使用掉优惠券的可能，值越大越好。 uw16
- F01+F02 一共消费多少次 uw17

商户特征：m
- 商户一共的消费笔数：m0
- 商户优惠券消费笔数：m1
- 商户正常的消费笔数：m2
- 没有被使用的优惠券: m3
- 商户发放优惠券数目：m3+m1 m4
- 商户优惠券使用率：m1/m4 m5
- 商户在训练、预测时间发行的优惠券数目 m6
- 商户当天发行的优惠券数目 m7
- 商户在训练、预测时间有多少人在此店领券 m8
- 商户在当天有多少人在此店领券 m9
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此商店优惠券发放数目 m10_i
- m9 / m10_7 m11
- m9 / m10_4 m12
- m9 / m10_2 m13
- m10_2 / m10_4 m14

优惠券特征:c
- 折扣类的优惠券折扣率 r1
- 满减类优惠券满减金额 r2
- 满减类优惠券减的金额 r3
- 满减类优惠券优惠率 (r2-r3)/r2 r4
- c1+c2 此优惠券一共发行多少张 c0
- 此优惠券一共被使用多少张 c1
- 没有使用的数目 c2
- c1/c0 优惠券使用率 c3
- 优惠力度 c5
- 优惠力度在当天所领取优惠券里面排名 c5_rank
- 优惠力度在当天所领取优惠券里面排名 c5_denserank
- 优惠力度在当天同一店家所领取优惠券里面排名 c5_rankm
- ~~优惠力度在当天所领取优惠券里面百分比排名 c5_rankp~~
- ~~优惠力度在当天同一店家所领取优惠券里面百分比排名 c5_rankmp~~
- 此优惠券在训练、预测时间发行了多少张 c6
- 此优惠券在当天发行了多少张 c7
- ~~领券当天周几 c8~~
- ~~领券当天是否周末 c9~~ c8,c9去掉效果更好了。。。。
- 此优惠券在当天被多少人领过 c10
- 此优惠券在训练、预测时间被多少个人领过 c11
- 此优惠券最后一次领券时间到此领券时间的间隔 c12
- 此优惠券最后一次消费时间到此领券时间的间隔 c13
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此优惠券发放数目 c14_i
- c10 / c14_7 AS c15
- c10 / c14_4 AS c16
- c14_2 / c14_4 AS c17
- c10 / c14_2 AS

用户和商户组合特征:um
- 用户在商店总共消费过几次 um0
- 用户在商店使用优惠券几次 um1
- 用户在商店领取优惠券未消费次数 um2
- 用户在商店普通消费次数 um3
- um1/(um1+um2) 用户在此商户优惠券使用率 um4
- um0/(u2+u3) 值大表示用户比较常去的商户 um5
- um1/u3 值大表示用户比较喜欢在那个商户使用优惠券 um6
- 用户在训练、预测时间在此商店领取的优惠券数目 um7
- 用户当天在此商店领取的优惠券数目 um8
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此用户在此商店领取的优惠券发放数目 um9_i
- um8 / um9_7 um10
- um8 / um9_4 um11
- um8 / um9_2 um12
- um9_2 / um9_4 um13

用户和优惠券组合特征:uc
- 用户领取的优惠券数目 uc0
- 用户领取未消费的优惠券数目 uc1
- 用户消费了此优惠券的数目 uc2
- uc02/uc0 uc3
- 用户在此期间领取了多少张此优惠券 uc4 partiton by uid, cid
- 用户在当天领取了多少张此优惠券 uc5
- 领取优惠券时间-最后一次使用优惠券时间 uc6
- uc6/ u5 uc7 正比
- 用户前第i天领取的此优惠券数目 uc5si
- 用户后第i天领取的此优惠券数目 uc5ai
- 用户前7天领取的此优惠券数目 uc8
- 用户前3天领取的此优惠券数目 uc9
- uc9/uc8 uc10(若u21为0，则为1)
- uc4/uc9 uc11
- 用户后7天领取的此优惠券数目 uc12
- 用户后3天领取的此优惠券数目 uc13
- uc13/uc12 uc14
- uc4/uc13 uc15
- 按照7/4/2分解训练、预测时间，提取此段窗口时间的特征
- 7/4/2天此用户在此商店领取的优惠券发放数目 uc16_i
- 用户前后2/4/7领取的优惠券优惠率排名 uc17_i

算法及模型融合

最初使用RF、GBDT两种模型，GBDT效果优于RF，后期使用了多个GBDT和XGBoost，分别使用不同的参数、不同的正负样本比例以rank的方式进行多模型的融合，效果有微小提升，但是由于计算量的限制没有进一步展开。

模型融合

由于评估指标是计算每个coupon_id核销预测的AUC值，然后所有优惠券的AUC值平均作为最终的评估指标，而rank融合方式对AUC之类的评估指标特别有效，所以采用此方法，公式为：

∑i=1nWeightiRanki

其中 n 表示模型的个数， Weighti 表示该模型权重，所有权重相同表示平均融合。 Ranki 表示样本在第i个模型中的升序排名。它可以较快的利用排名融合多个模型之间的差异，而不需要加权融合概率。

应用

基于参数，样本(采样率)，特征获得多个模型，得到每个模型的概率值输出，然后以coupon_id分组，把概率转换为降序排名，这样就获得了每个模型的 Ranki ，然后这里我们使用的是平均融合， Weighti=1/n ，这样就获得了最终的一个值作为输出。

线下评估

虽然这次比赛每天有四次评测机会，但是构建线下评估在早期成绩比较差的时候用处很大，早期添加特征之后线下评估基本和线上的趋势保持一致（例如在添加了Label区间的领券特征之后，线下提升十多个百分点，线上也是一致），对于新特征衡量还是有参照性的。后期差距在0.1%级别的时候，就没有参照性了。

线下评估在训练集中采样1/3 or 1/4 or 1/5做线下评估集合，剩下的做为训练集训练模型，并将评估集合中全0或者全1的优惠券ID去掉，然后使用训练的模型对评估集合预测，将预测结果和实际标签作异或取反（相同为1，不同为0），然后算出每个优惠券ID的AUC，最后将每个ID的优惠券AUC取均值就得到最终的AUC。

回顾

这一次比赛学习了很多，包括分布式平台ODPS和机器学习平台实现数据清洗，特征提取，特征选择，分类建模、调参及模型融合等，学习摸索了一套方法，使自己建立了信心，明白还有很多需要学习的地方，之前一直对于算法都是当做一个黑匣子，只会熟悉输入输出直接调用，要深入了解算法，才能突破目前的瓶颈有所提高。
同时我觉得大家一起探讨交流也很重要，一个人做着做着就容易走偏，纯属个人看法。

CSDN博客链接：http://blog.csdn.net/shine19930820/article/details/53995369

授人以鱼不如授人以渔：

参考第一名队伍：【诗人都藏在水底】：GitHub地址
python sklearn数据预处理：http://blog.csdn.net/shine19930820/article/details/50915361
利用GBDT构造新的特征-Python实现：http://blog.csdn.net/shine19930820/article/details/71713680
GBDT原理：http://blog.csdn.net/shine19930820/article/details/65633436
xgboost原理：http://blog.csdn.net/shine19930820/article/details/69500242
机器学习知识图谱：http://lib.csdn.net/base/machinelearning/structure

四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
【BetterBench】2024年都有哪些数学建模竞赛和大数据竞赛？ Better Bench 数学建模入门到精通数学建模大数据数据挖掘竞赛时间 2024年
2024年每个月有哪些竞赛？2024年32个数学建模和数据挖掘竞赛重磅来袭！！！2024年数学建模和数学挖掘竞赛时间目录汇总一月（1）2024年第二届“华数杯”国际大学生数学建模竞赛报名时间：即日起至2024年1月16日比赛时间：2024年1月17日（周三）06:00至1月21日（周日）09:00费用：200元报名地址：https://www.saikr.com/vse/mcmicm/2024不能
GBDT、XGBoost、LightGBM的区别与联系徐卜灵
GBDT(GradientBoostingDecisionTree)是机器学习中一个经典的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT也是各种数据挖掘竞赛的致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。XGBoost（eXtremeGradientBoosting）华盛顿大学的陈天奇博士开发，它是Gra
【经验分享】我的数据挖掘竞赛之路及秋招总结文文学霸算法编程语言机器学习人工智能 java
作者|宇智波子光（cqlll.github.io）学校|东南大学研究|数据科学出品|AI蜗牛车写在前面大家好，我是一名机器学习爱好者。即便是这样简单的开头，不知为何，我仍有一种心潮澎湃的感觉（哈哈哈，感觉还是高中时候的作文范）。简单介绍一下我的背景，本科211现985某振动中心研究生，秋招上岸华为算法岗，相比而言，其实现在自己还是很菜，但我很清楚自己loss的优化方向在哪里，在此和大家作些分享，希
【数据挖掘竞赛】——科大讯飞：锂离子电池生产参数调控及生产温度预测挑战赛 Lingxw_w 数据挖掘从入门到实战数据挖掘人工智能机器学习
‍♂️个人主页：@Lingxw_w的个人主页✍作者简介：计算机科学与技术研究生在读希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+【科大讯飞】报名链接：https://challenge.xfyun.cn?invitaCode=GQTcFX目录一、赛事背景
【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛 bj_zhb 数据挖掘竞赛数据挖掘分类 python
【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛文章目录【打卡】苹果叶片病害分类和建筑物变化检测数据挖掘竞赛Task1两个赛题数据可视化任务2苹果病害数据加载与数据增强任务三果病害模型训练与预测任务4：苹果病害模型优化与多折训练Task1两个赛题数据可视化在这个任务中，参赛选手需要对两个赛题的数据进行可视化。对于苹果病害数据，选手可以展示苹果叶片的病害图像以及它们所属的标签。对于建筑物检测数据
时间序列规则法快速入门 dropout
前言大家好~我是drop-out(GitHub)。今年我参加了IJCAI-17数据挖掘竞赛和KDDCUP2017，分别获得了第三名和第九名。两个比赛都是时间序列数据。我对时间序列接触的比较多，所以这里写一篇文章，以IJCAI-17口碑客流量预测大赛为背景，介绍一下时间序列规则法，让大家快速入门。IJCAI-17给的是蚂蚁金服的支付数据，具体来说，给的是店铺（实体店）过去每天的客流量，预测店铺未来1
Kaggle神器LightGBM最全解读（附代码说明）！ Sim1480 算法决策树大数据 python 机器学习
AI派干货来源：Microstrong，编辑：AI有道本文主要内容概览：1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武
LightGBM（lgb）介绍浩波的笔记
1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而L
python 数据分析排名_【Kaggle入门级竞赛top5%排名经验分享】— 分析篇 weixin_39886251 python 数据分析排名
作者：xiaoyu微信公众号：Python数据科学Kaggle作为公认的数据挖掘竞赛平台，有很多公开的优秀项目，而其中作为初学者入门的一个好的项目就是：泰坦尼克号生还者预测。可能这个项目好多朋友也听说过，可能很多朋友也做过。但是项目完成后，是否有很好的反思总结呢？很多朋友只是潦草的敷衍过去了，知道大概的套路了就没再去看。其实，一个再简单的项目，如果把它做好也能有巨大的收获。博主开始做的时候，也是经
视频教程- 数据挖掘竞赛-优胜解决方案实战-机器学习 weixin_32826779
数据挖掘竞赛-优胜解决方案实战计算机博士，专注于机器学习与计算机视觉领域，深度学习领域一线实战讲师。在图像识别领域有着丰富经验，实现过包括人脸识别，物体识别，关键点检测等多种应用的新算法。参与多个国家级计算机视觉项目，多年数据领域培训经验，丰富的教学讲解经验，出品多套机器学习与深度学习系列课程，课程生动形象，风格通俗易懂。唐宇迪¥298.00立即订阅扫码下载「CSDN程序员学院APP」，1000+
LightGBM介绍 big_matster 科大讯飞赛场决策树算法
LightGBM介绍GBDT是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好，不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被应用于多分类、点击率预测、搜索排序等任务。在各种数据挖掘竞赛中也是致命的武器，据统计Kaggle比赛上有一般的冠军方案都是基于GBDT，而LightGBM（LightGradientBoostingMach
"阿里巴巴"杯北邮数据挖掘竞赛（一） zhihua_bupt Machine Learning Python 机器学习实战笔记
"阿里巴巴"杯北邮数据挖掘竞赛一、赛题介绍在天猫，每天都会有数千万的用户通过品牌发现自己喜欢的商品，品牌是联接消费者与商品最重要的纽带。本届赛题的任务就是根据用户近200天在天猫的行为日志，建立用户的品牌偏好，并对用户的性别和年龄进行分类。根据性别和年龄将用户分为了12类，建议参赛者考虑类别不平衡问题（偏斜不严重）。比赛共约700MB的数据量，按6:2:2的比例分配与训练集、测试集1、测试集2。二
LightGBM（lgb）详解越前浩波机器/深度学习决策树机器学习
1.LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。而L
spark机器学习笔记：（七）用Spark Python构建聚类模型风雪夜归子 spark机器学习笔记
声明：版权所有，转载请联系作者并注明出处http://blog.csdn.net/u013719780?viewmode=contents博主简介：风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台，对数据、MachineLea
spark机器学习笔记：（四）用Spark Python构建分类模型（上）风雪夜归子 spark机器学习笔记
声明：版权所有，转载请联系作者并注明出处http://blog.csdn.net/u013719780?viewmode=contents博主简介：风雪夜归子（英文名：Allen），机器学习算法攻城狮，喜爱钻研MeachineLearning的黑科技，对DeepLearning和ArtificialIntelligence充满兴趣，经常关注Kaggle数据挖掘竞赛平台，对数据、MachineLea
吃瓜教程 [西瓜书]任务打卡 Task1: 第一章苏忘川机器学习数据挖掘
吃瓜教程[西瓜书]任务打卡Task1:第一章我是通过大数据挖掘竞赛入门机器学习,在此前并没有系统地学过基础理论,做的工作比较多的是通过复现大佬在kaggle,天池上的教程,调包实现编程的求解.因此,我这次通过参与DataWhale组织的七月组队学习计划,系统性地学习一遍关于统计学习,机器学习算法相关的基础理论,在此做关于我学习打卡的笔记,希望为自己打下一个良好的基础.第一章:绪论前沿及绪论部分大多
【数据挖掘竞赛】零基础入门数据挖掘-二手汽车价格预测 —Xi— 数据挖掘汽车 python 人工智能
目录一、导入数据二、数据查看可视化缺失值占比绘制所有变量的柱形图，查看数据查看各特征与目标变量price的相关性三、数据处理处理异常值查看seller,offerType的取值查看特征notRepairedDamage异常值截断填充缺失值删除取值无变化的特征查看目标变量price对price做对数log变换四、特征构造构造新特征：计算某品牌的销售统计量构造新特征：使用时间对连续型特征数据进行分桶对
数据挖掘竞赛——糖尿病遗传风险检测挑战赛进阶卡卡南安机器学习 Pytorch 数据挖掘机器学习 python
本次比赛是一个数据挖掘赛，需要选手通过训练集数据构建模型，然后对验证集数据进行预测，预测结果进行提交。本题的任务是构建一种模型，该模型能够根据患者的测试数据来预测这个患者是否患有糖尿病。这种类型的任务是典型的二分类问题（患有糖尿病/不患有糖尿病），模型的预测输出为0或1（患有糖尿病：1，未患有糖尿病：0）赛事链接：https://challenge.xfyun.cn/topic/info?type
2022年（2023届）西电计算机保研经历分享（清深、自所、计算所、浙科南、北航、哈工等） Polaris_T 西电计科经验分享计算机保研西安电子科技大学
个人背景学校及专业：西安电子科技大学计算机科学与技术（大数据方向）成绩排名：3/141（夏令营），3/142（预推免）四六级：CET4621，CET6609个人荣誉：国家奖学金x2、优秀共青团员竞赛：数模美赛M、数模国赛省二、数模校赛一等奖、数竞三等x2、英语竞赛二等x2、英语阅读校特、英语写作校二项目：Kaggle某数据挖掘竞赛前0.7%、Kaggle某分类竞赛前3%、lowlevel视觉任务若
2021年度总结—四非计算机保研经历（参营：清华网研院、中科大先研院、华师大数据科学院、厦大计算机系、上科大信息学院） wujiekd 保研四非计算机
本人背景本科：❌❌大学(非985、非211、非双一流，四非）专业：计算机科学与技术Rank：专业1/245，学院1/593，保研率~2%英语：四六级通过，六级飘过（听说硬伤）科研：AI安全、数据挖掘竞赛：阿里、腾讯、CVPR、Geekpwn相关竞赛Top奖项，数学建模、ACM也有一些省奖论文：一篇SCI一区二作职务：阿里AI安全学生专家小组成员，学校计算机学院创新班AI竞赛组指导入营：清华网研院、
2022年竞赛打榜，神经网络还是干不过树模型？？夕小瑶神经网络数据挖掘决策树大数据算法
文|QvQ随着深度神经网络的不断发展，DNN在图像、文本和语音等类型的数据上都有了广泛的应用，然而对于同样非常常见的一种数据——表格数据，DNN却似乎并没有取得像它在其他领域那么大的成功。从Kaggle平台上对数据挖掘竞赛Top团队使用的工具统计上也能看出，XGBoost和LightGBM这类提升（Boosting）树模型依旧占据主要地位。这种来自GBM类模型的压制力在表格数据上尤为明显，即便算上
百度获得2022 KDD Cup主办权，赛题直指“双碳”目标人工智能
KDDCup：数据挖掘领域的“世界杯”KDDCup（国际知识发现和数据挖掘竞赛）比赛由ACM协会的SIGKDD分会举办，从1997年开始，每年举办一次，被称为数据挖掘领域的世界杯，是该领域水平最高、最有影响力的顶级赛事。1997年以来，KDDCup一直紧密结合工业界前沿与热点问题，同时面向企业界和学术界，云集了世界数据挖掘界的顶尖专家、学者、工程师和学生参加，为数据挖掘从业者们提供了一个实力展示与
机器学习之LightGBM 专注于计算机视觉的AndyJiang 机器学习机器学习决策树
本文参考以下链接，如有侵权，联系删除参考文献LightGBM简介GBDT(GradientBoostingDecisionTree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛，通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有
2021 年五一数学建模比赛 B 题（第四问至第六问） zhuo木鸟数据挖掘竞赛新星计划 2021 五一数学建模比赛 B题
文章目录第四问第一理解第二理解第五问第六问PageRank算法应用PageRankJ和N设置消防站后逐年建立消防站（失败的尝试）改进方案代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。如果本篇博文对您有所帮助，请不要吝啬您的点赞赛题官网：http://51mcm.cumt.edu.cn/返回目录第一题到第三题链接第四问题目是找出不同区域，相关性最高的
2021 年五一数学建模比赛 B 题（第一问至第三问） zhuo木鸟数据挖掘竞赛五一数学建模比赛 2021 B题第一问第三问
文章目录思路第一问第二问一元回归一元多次模型sin函数累加傅里叶函数高斯函数模型评价时序模型标准化滑动窗口法机器学习算法搭建预测模型（参数筛选+模型效果）随机森林预测次数第三问思路①——单元时序预测数据预处理模型搭建（参数筛选+模型效果）参数筛选模型效果思路②——多元时序预测LSTMs模型LSTMs效果图尾声代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛
2021 年“认证杯”网络挑战赛 B 题（第二阶段） zhuo木鸟数据挖掘竞赛 2021 认证杯 B 题第二阶段网络挑战赛
文章目录思路第一阶段第二阶段结果参数网格结果输出毕宿星流位置和速度分布毕星团位置和速度分布代码本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。本人不会回访，不互关，不互吹，以及谢绝诸如此类事赛题官网：http://www.tzmcm.cn/思路第一阶段第一阶段的解题过程详见：https://blog.csdn.net/weixin_42141390/artic
2021 年“认证杯”网络挑战赛 B 题（第一阶段） zhuo木鸟数据挖掘竞赛数据挖掘 2021 认证杯 B 题网络挑战赛
文章目录思路数据预处理数据分析机器学习模型→缺失数据机器学习方法填充数据集标准化筛选模型参数筛选机器学习模型模型训练和评价神经网络模型→缺失值DBSCAN聚类得出星群聚类参数筛选——1聚类参数筛选——2结果与H-R图毕星团HIP：绘制H-R图代码与提问本人专挑数据挖掘、机器学习和NLP类型的题目做，有兴趣也可以逛逛我的数据挖掘竞赛专栏。最后，本人不会回访，不互关，不互吹，以及谢绝诸如此类事赛题官网
使用hyperopt对Lightgbm调参----自动调参虹猫_少侠
微软的lightgbm已经成为了数据挖掘竞赛的必用工具，运行速度快，准确率高等等各种优点。调参也是竞赛中不可缺少的一步，常规的调参方法有网格搜索，贝叶斯调参等，或者就是部分大佬的手动直接调参，这种级别需要大量的经验累积，23333。今天介绍一个调参包----hyperopt，可以对lgb进行自动调参，本次先介绍使用hyperopt对lightgbm进行自动调参，下次再更交叉验证~关于Hyperop
文本情感分类python_文本情感分类（一）：传统模型 Sahadhammika 文本情感分类python
前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届“泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

『 天池竞赛』O2O优惠券使用预测思路总结