【啃书】【阿里云天池大赛赛题解析】目录

算法与业务结合的开发步骤:业务理解->数据探索->特征工程->模型训练->模型验证->特征优化->模型融和。其中蕴含着模型的重构与参数的优化。

实际业务场景应用机器学习,有不同的步骤,但分类不同。最初认为机器学习只有如下步骤:

【啃书】【阿里云天池大赛赛题解析】目录_第1张图片

但经过阅读和认知的提升发现,建模过程实际上是个不断迭代的过程,归纳总结如下:

【啃书】【阿里云天池大赛赛题解析】目录_第2张图片

  • 业务理解:顾名思义,将业务场景转为抽象的表达,即目标是什么、数据在哪里、对结果如何评估 ;
  • 数据探索:数据清洗、发掘潜在的结构、提取变量,为特征工程做准备;
  • 特征工程:该步骤很关键,包括特征选择、特征构造;
  • 单模型训练:调包or自行编写算法(频率派算法、贝叶斯派算法)解决问题;
  • 模型验证:交叉检验;
  • 特征优化:构造(合成、创造)新的特征;
  • 模型融和:多模型(bagging、boosting、stacking)效果更佳。

需要补充的是,单模型训练完毕后仍需要特征优化;模型融和后仍旧需要进行模型验证。

参考文献:

[1]天池平台. 阿里云天池大赛赛题解析[M]. 电子工业出版社, 2020.

你可能感兴趣的:(阿里云,机器学习)