机器学习项目清单

开头注明:内容大部分来自机器学习实战:基于Scikit-Learn和TensorFlow

一、架构问题,关注蓝图

1.定义当前目标
2.思考解决方案
3.是否可以重用他人的经验与工具
4.尽可能获取帮助

二、获取数据

1.列出数据及其体量
2.查找并记录获取数据的途径
3.检查需要的空间
4.检查法律义务,必要时获取授权
5.获取访问权限
6.创建工作空间
7.获取数据
8.将数据转化为可操作的格式(不改变数据本身)
9.确保删除或保护敏感信息(如,匿名)
10.检查数据的类型和大小

三、研究数据以获得灵感

1.创建副本用于研究
2.时刻记录
3.研究每个属性及其特征(名称、类型、缺失、噪声)
4.对于监督任务,确认目标属性
5.可视化数据
6.研究属性之间的相关性
7.确定可能有用的额外数据

四、准备数据

1.数据清理(修复或删除异常值、填充缺失值)
2.特征选择
3.处理特征(如离散连续特征、分解特征、添加期望的特征转换)

五、研究各种不同的模型,并列出最好的模型

1.使用标准参数,从不同类别快速训练不成熟的模型
2.测试比较性能(Nfold)
3.分析每个算法最重要的变量
4.分析模型的错误类型
5.快速进行特征选择和处理
6.对上述五步多次迭代后选择三到五个最有希望的模型

六、微调模型,并将其组合为更好的解决方案

1.这一步尽可能多使用数据,尽可能自动化
2.使用交叉验证微调超参数(网格搜索)
3.尝试组合方法
4.在测试集上测试性能

七、提出解决方案

1.展示工作、突出蓝图
2.介绍有趣的地方
3.介绍模型假设和系统的局限性

八、启动、监视、维护系统

1.准备好生产环境的解决方案
2.编写监控代码,定期检查性能,出问题及时解决
3.定期对新数据重新建模

你可能感兴趣的:(机器学习)