机器学习数据科学家的工作

打造一款机器学习产品是多方面的复杂任务。下面是机器学习专家在工作中需要做的事:

理解语境

  • 找准能从机器学习中受益的区域

  • 与其他相关人员讨论机器学习能做什么、不能做什么

  • 让每个人都了解商业策略、风险和目标

  • 明确目前公司有什么类型的数据

  • 对任务制定合适的框架

  • 了解操作限制

  • 提前确定可能的道德风险,例如你的成果有可能被滥用、或被用于宣传

  • 确定潜在的偏见和潜在的负面反馈

数据

  • 制作能收集更多不同数据的计划

  • 将不同来源的数据汇总

  • 处理缺失的或被污染的数据

  • 数据可视化

  • 建立合适的训练集、验证集和测试集

建模

  • 选择使用哪个模型

  • 将资源模型纳入约束条件(即最终模型需要在顶尖设备商运行,内存少、延长时间长等等)

  • 选择超参数(包括架构、损失函数、优化器)

  • 训练模型,并进行debug。其中包括调参、查看损失函数、训练错误、验证错误是否有改变、监测模型数据、确定错误来源、改变数据清洗和处理的方式、改变数据增强方式、添加更多数据、尝试不同模型、是否过度拟合。

模型生成

  • 创建一个API或网页app

  • 将模型输出成想要的格式

  • 计划模型多久需要重新训练一次并更新数据

监测

  • 追踪模型性能

  • 监测输入数据,确定数据是否会随时间使得模型失效

  • 与其他人员交流结果

  • 制定计划,如何监测和应对意外结果

你可能感兴趣的:(机器学习数据科学家的工作)