机器学习比赛项目通用流程


建模比赛通用流程:快速建模,迭代优化

1. 数据探索:可视化...

2. 数据预处理

  • 有时数据会分散在几个不同的文件中,需要 Join 起来
  • 处理 Missing Data
  • 处理 Outlier
  • 必要时转换某些 Categorical Variable 的表示方式(1-hot encodding)

3. 特征工程

  • 特征选择
  • 特征编码/转化

4. 模型选择

  • 模型训练
  • 交叉验证

5. 误差分析

6. Ensemble

tensorflow机器学习通用流程

  1. 导入数据集
  2. 数据清洗转换(归一化)
  3. 数据集划分:训练集、测试集和验证集
  4. 设置机器学习参数(超参数)
  5. 初始化变量和占位符(placeholder)
  6. 定义模型结构
  7. 声明损失函数
  8. 初始化模型和训练模型
  9. 评估机器学习模型
  10. 调优超参数
  11. 发布/预测结构

如何查看内存占用情况?

今天用tensorflow跑LSTM模型时遇到InternalError,原因是内存(显存?)耗尽。那么如何查看内存占用情况呢?
windows系统在cmd输入:

cd C:\Program Files\NVIDIA Corporation\NVSMI    # 进入目录
nvidia-smi    # 查看nvidia 内存、显存使用情况

如输入nvidia-smi无反应,则先把C:\Program Files\NVIDIA Corporation\NVSMI添加到系统变量Path中,再重试。


参考资料: 如何在 Kaggle 首战中进入前 10%

你可能感兴趣的:(机器学习比赛项目通用流程)