数据竞赛系列

1.方法论

1.1 EDA

  1. 传统问题低维度特征可视化与强特征构造:https://www.kesci.com/apps/home/project/59f687e1c5f3f511952baca0
  2. 时间序列问题EDA的分析角度,时序必备背景知识(2.1和2.2是翻译的经典时序书籍Forecasting Principles and Practice的前两章节,很多比赛的时序特征工程以及模型的选择都会参考该书,此处仅仅翻译了前两章节最基础的背景知识,个人认为也是做时间序列分析必须知道的一些背景知识以及技术,案例可以参考盐城汽车销量预测)

    2.1 时间序列预测必备背景知识(Part1):https://www.kesci.com/apps/home/project/5ae07320c177864364dbffa0 

    2.2 时间序列预测必备背景知识(Part2): https://www.kesci.com/apps/home/project/5ae0740bc177864364dc005b

1.2 算法原理

1.2.1 数据预处理 & 特征工程

  1. Autoencoder:https://www.kesci.com/apps/home/project/5a3902de0e1fc52691fdd5cb
  2. PCA&FLD的实践手册:https://www.kesci.com/apps/home/project/5ae05ccfc177864364dbf1f2

1.2.2 模型

  1. XGBoost:https://www.kesci.com/apps/home/project/5a05851660680b295c1ee415

1.2.3 模型集成

  1. 竞赛集成方法必备技能:https://www.kesci.com/apps/home/project/59a9307bc8d2787da4ddcf94

2.案例

以平时的比赛为例,介绍上述方法论的实践运用

2.1 简单的数据分析案例(EDA)

比赛的数据分析

  1. 天池工业AI大赛,初赛A榜top10的EDA:https://www.kesci.com/apps/home/project/5a37c6c10ecda5727fe3ac54
  2. 印象盐城·数创未来大数据竞赛 - 盐城汽车销量预测:https://www.kesci.com/apps/home/project/5a7bb00a5345a74929833545
  3. 2018 ijcai 广告预估比赛总结(感谢来自川越爱情的分享):https://www.kesci.com/apps/home/project/5afb055a7f710c050c7a28ad
  4. 快手用户兴趣建模大赛:https://www.kesci.com/apps/home/project/5b27b37af110337467aeb904

趣味的数据分析

  1. 从数据分析角度看伦纳德和詹姆斯的差距到底在哪?:https://www.kesci.com/apps/home/workspace/project?from=list-side

2.2 比赛例子案例

完整的比赛案例

  1. 泰坦尼克比赛入门:https://www.kesci.com/apps/home/project/5af18c294b7639369e6c289c
  2. 蚂蚁比赛多分类方案(Top 100 Baseline):https://www.kesci.com/apps/home/project/5a17d444d0178b641c340c14
  3. 前海征信“好信杯”大数据算法大赛——入门篇(Top 15 Baseline):https://www.kesci.com/apps/home/project/59ca5ff521100106623f3db3
  4. 天池工业AI大赛-智能制造质量预测(top25的Baseline):

    4.1 天池工业AI大赛-智能制造质量预测(Baseline Part1):https://www.kesci.com/apps/home/project/5a6ed4808d5dc42e46266643 

    4.2 天池工业AI大赛-智能制造质量预测(Baseline Part2):https://www.kesci.com/apps/home/project/5a6ed4438d5dc42e462665fd

  5. 2017“达观杯”个性化推荐算法挑战赛(Top5 Baseline): https://www.kesci.com/apps/home/project/5abb42b4f5628022ef83ca1a

  6. 天池天文比赛(初赛A榜Top5 Baseline):https://www.kesci.com/apps/home/project/5ac6e7c88bda591534b28e9d

    6.1 天池天文比赛(复赛第一 &决赛第二的方案):https://www.kesci.com/apps/home/project/5ad6be737238515d80b5dd60 

    6.2 天池天文比赛答辩PPT:https://www.kesci.com/apps/home/project/5aeef2070739c42faa216468

  7. 天池印象盐城·数创未来大数据竞赛 - 盐城汽车销量预测竞赛(亚军思路总结):https://www.kesci.com/apps/home/project/5ad7f8027238515d80b67c63
  8. 银联“信贷用户逾期预测”算法大赛总结(目前已进入决赛,具体排名未知,至少top15+):https://www.kesci.com/apps/home/project/5ae969440739c42faa1eab95
  9. DC用户贷款风险预测(top1答辩PPT):https://www.kesci.com/apps/home/project/5b1e0bfab1cd050aefd2876f

3.机器学习基础学习路线

  1. https://github.com/JustFollowUs/Machine-Learning

你可能感兴趣的:(python)