机器学习项目开发过程/步骤(基于scikit-learn)

机器学习项目开发步骤

  • 1. 获取数据集
  • 2. 读入数据集、探查数据
  • 3. 数据预处理
  • 4. 特征工程
  • 5. 划分数据集
  • 6. 模型|算法选择
  • 7. 创建算法模型实例对象(给出一些超参数)
  • 8. 训练模型
  • 9. 模型评估
  • 10. 模型的序列化(保存模型)
  • 11. 使用模型进行预测


1. 获取数据集

sklearn.dataset、下载现有、爬取网络资源、自行生成


2. 读入数据集、探查数据

numpy + pandas : 读写、行列操作、获取统计信息


3. 数据预处理

主要用到 sklearn.preprcessing

详见sklearn中文社区 sklearn.preprcessing


4. 特征工程

主要用到 sklearn.feature_selection

详见sklearn中文社区 sklearn.feature_selection


5. 划分数据集

主要用到sklearn.model_selection.train_test_split

详见sklearn中文社区 sklearn.model_selection


6. 模型|算法选择

其中,knn - 算法评价的基准,如果一个算法还不如knn,那么肯定不能选他。


7. 创建算法模型实例对象(给出一些超参数)


8. 训练模型

分类/回归 = (训练集(训练特征集 + 训练标签集))
聚类 = (训练集(训练特征集))


9. 模型评估

sklearn.metrics

详见sklearn中文社区 sklearn.metrics


10. 模型的序列化(保存模型)

推荐用joblib库


11. 使用模型进行预测

你可能感兴趣的:(机器学习,scikit-learn,python)