人工智能复习1

机器学习项目流程

1 定义问题

1.1 数据获取

1.2 业务需求分析

1 业务场景分析,了解业务背景知识
2 讲业务场景转化成相关问题
3 选择合适的算法
4 测试算法可靠性

1.3 设定问题

确定应用场景,到底是那种机器学习类型,监督,无监督,或者混合起来解决
确定学习类型,在线还是批量,是不是以数据流的形式 持续学习

1.4 确定评估指标

RMSE 均方根误差
MAE 平均绝对误差

1.5 验证问题准确性

测试预测是否准确

2 数据获取研究处理

2.1 感性查看数据

DataFrame head() info() describe() hist()等方法

2.2 分割测试集

随机sklearn.model_selection.train_test_split
分层 某一特征下的子群体差异较大
sklearn.model_selection.StratifiedShuffleSplit

2.3 研究数据

寻找特征之间的关系

  • 皮尔逊相关系数
  • scatter_matrix
  • 组合成新属性

2.4 处理数据

1 处理缺失值,去除不可靠特征
2 文本图像转化为数值类型
3 特征缩放,归一化,标准化

3 模型

选择3-5个模型
1 训练集上评估性能
2 基于验证集评估性能,交叉验证
3 微调模型
网格搜索,随机搜索
4 集成模型
5 测试集评估

4 形成解决方案

你可能感兴趣的:(人工智能复习1)