机器学习项目清单(1)

机器学习项目清单1

机器学习项目清单最重要得是其中得思想,在工作中得应用虽然也很值得推广,但其思想更值得重视。

不过在《机器学习实战》Aurelien Geron 的书中,并没有讨论真实工作场景中管理在其中的作用。其原因大多是巨头互联网公司在机器学习项目组中,其管理者也都是技术人员,所以更多的精力会集中在机器学习本身的理论与实践结合后的指标提升中或者项目本身对业务的推动效用中,其创造性或者容错性更强。但一些互联网结合业务中的公司,因为更加重视业务性,所以在这方面的管理者容易是业务管理者,那这个问题将在业务与技术中间左右游移,对于机器项目组的技术人员来说,往往不能发挥全部的创造性来推动业务的发展。

当然,这个问题并不是今天机器学习项目清单讨论的重点,只是这个问题的重要性同机器学习项目本身同等重要,值得提出来。那就是管理如何同机器学习项目结合或者解耦,其一步步推进的方案是什么?在整个发展中的过程关键点是什么?该怎么开始这个解耦的工作?汇报工作怎么组织?机器学习项目中人员的组成是什么样得?表现型的机器学习人员是必备的吗?管理者一定要懂技术,还是技术并非是这件事的关键点?问题先提出来,之后可以讨论。

回到机器学习项目清单中,在机器学习的完整项目中,每一个步骤都值得深入探究,并且补充;与此同时结合业务需要补充的步骤又有哪些,一个完整的机器学习项目并不是整体方案,那么跳出机器学习的整体方案讨论应该在哪个步骤。

现先将Aurelien Geron 列出的机器学习项目清单做简单的罗列,然后进行提问与讨论。

  1. 架构问题,蓝图规划
  2. 讨论现有解决方案
  3. 获取数据
  4. 数据探查与分析
  5. 特征工程
  6. 模型探讨、验证
  7. 模型与业务结合,建立指标监控
  8. 启动项目

(Aurelien Geron书中的项目清单如下

  1. 架构问题,关注蓝图
  2. 获取数据
  3. 研究数据以获取灵感
  4. 准备数据以更好地将底层模型暴露给机器学习算法
  5. 研究各种不同的模型,并列出最好的模型
  6. 微调模型,并将其组合成更好的解决方案
  7. 提出解决方案
  8. 启动、监视、维护系统



现在先将机器学习项目清单单个拆开进行提问,在提问后,相应的项目甘特图也会随着清单被罗列出来,现在先进行提问。
以Aurelien Geron的项目清单为准

架构问题,关注蓝图
(这个问题值得问上50个问题)

  1. 要解决什么问题?解决的业务问题需要较为明确,用商业话语可以描述清楚,可以去定以下定义的方式来定义一个问题。
  2. 要解决的问题要精确点,不能将多个问题混为一谈,这样在模型底层的数据维度中的选择,就会以人思维识别的方式先将无关的维度过滤(这个问题保留)。
  3. 问一个问题:此问题是行业一直就存在的问题还是行业的新问题?
  4. 如果是行业的旧问题,那行业的通用解决方案是什么样子的?一般水平是什么样的?这套运营方案需要的人员数量,构成是什么样子的?
  5. 如果是行业的旧问题,那么这个公司遇到这个问题是新问题么?公司有相关的有经验的人么?部门也是较为完善的吗?方案是整体方案么?效果水平是什么水平?在行业水平中处于上游还是中游还是下游?
  6. 如果是行业旧问题,公司原始部门也是较为完善的,水平也较为超前,那为什么使用机器学习处理这个项目呢?达到的目的是为了将来处理更加海量的数据么?还是想要节省成本呢?还是希望使用新型的技术来解决旧问题来进行行业探索呢?
  7. 从问题6中进行继续询问,这个项目能够影响的收益是可测算的么?当收益是巨大的当然值得继续进行探索,但是当收益并不是巨大的,那么是出于什么样的目的后续也愿意继续支撑这样的机器学习项目呢?
  8. 成本收益这两个指标的测算方式怎么测算传统的部门的方案,怎么测算新型的机器学习方案呢?可见推动一个机器学习项目也是一个强化学习的过程,这个惩罚与收益函数先行,这样对于部门的推动是一个学习过程。
  9. 继续回到问题架构上:架构问题中,这个商业话术描述的问题如果是行业旧问题但是是公司新问题,公司是否有相关人材可以引进较为先进的整体方案呢?这个整体方案下是达到整个行业的较为先进的水平就说明达标了,那这个方案较机器学习项目更加有效或者敏捷么?
  10. 如果是行业新问题,那么这个问题社会上有没有较为先进的解决方案,采取这样的解决方案的阻碍点是什么?这样的解决方案可复制性强么?
  11. 如果是更加新潮的问题,那么从数学上抽象,这个问题是属于什么问题呢?在数学理论中的解决办法是什么?结合业务,结合实际背景的推广难度是怎样的?
  12. 本着问题永远不是新出来的本质,之前公司采取的策略是什么?如果对这样的问题采取的方案是回避,那么新环境下的策略为什么不能继续接受呢?
  13. 当架构问题已经确认是机器学习项目以后,那接下来的问题架构与蓝图规划的性质就会产生变化,我们从问题中表现出来。
  14. 一个完整的机器学习项目在构建成功的过程中是要经历一系列的数据与信息的流转的,那么在公司中,这些数据的流转是怎样的?蓝图规划中,要对现有的数据进行摸底,这个摸底重点还不在数据本身上,而在对数据的处理的公司配置的人员上,部门上。
  15. 在数据的前期流转中,也就是对整体方案的除数据部分的方案使用要有基本的认识。
  16. 除去整体方案的前期部署,还有后期中方案怎么使用,比如业务相关的运营人员怎么使用方案,相应的系统配置是快捷并且准确的吗?配置完成之后,运营人员是有学习成本么?这个是需要配备培训师的么?是业务变得庞大了,导致相应的系统与运营系统变得庞大。还是有可能是系统与运营人员越来越庞大,就认为业务也变得庞大,臃肿?这个问题要想清楚。
  17. 在理论的部分讨论过后,一个机器学习项目还是要回到工作的本源中来,就机器学习项目本身,其在机器学习中的地标是什么?是监督学习,半监督学习还无监督学习,当然还有强化学习(目前自己没有掌握,但是未来一年当中总是要开始研究的)?目前的数据体量是适合批量学习还是已经达到增量学习的数据体量了?目前的业务模式适合的基于实例的学习还是基于模型的学习。
  18. 这部门理论知识,自己已经了解哪些,整个机器学习项目小组中完整的是否能覆盖这部分完整的知识,不能覆盖的知识,学习成本有多高,是否需要专门研究?
  19. 已经有过应用实际经验的是哪些?易推广的模型中成熟的经验又有哪些?常说知己知彼,现在知己放的倒是在后面了。
  20. 对于可能的方案推广,从开始规划到提出解决方案要多久?从提供解决方案到上线项目要多久?是可预估的吗?可预估后,是适配业务的吗?比如针对这个项目的业务旺季是夏季,但是项目完整部署后已经不是夏季,那么这个项目在实施时间的规划上是怎样的?
  21. 项目的优先级该怎么确定?标准?
  22. 再次回到机器学习项目本身,机器学习项目本身的策略函数是什么?效能函数还是惩罚函数?函数策略中选择的数据空间距离使用哪种?
  23. 曼哈顿距离适应于什么场景,在机器学习项目中适合什么模型?优点和缺点是什么?特点是什么?欧式距离?其他范数呢?(自己对其他范数的理论知识也忘得差不多了)补充这些知识要多久,暂时的模型复杂度需要到这个程度么?
  24. 模型中的正则化参数在暂时的业务需求中是需要了解到什么程度?在调参这件事上,也就是算法本身上理论知识要到什么程度呢?
  25. 在这个问题上,会纠缠很久很久,但这不是一时之功,所以此时必须使用计算机或者工程思维,那就是先解决问题。
  26. 跳出理论问题后:机器学习项目的监测指标是什么?这样的监测指标是否与先开始的架构问题中的业务指标能够相配合,不冲突。
  27. 监测指标的建立有传统模型的指标,还有上线后的一些监测指标,包括对数据的异常监测指标,对模型运行或者腐化的指标,对模型在业务上一致性的指标的建立。
  28. 业务指标要求的最低是多少?这个倒是一个确定而又重要的需要定下的指标。但是不需要在开始的时候就确定。
  29. 数据库怎么建立,其实建立还是中后期的事情,设计要比建立先,然后两个要相互补充。
  30. 列假设,列假设同提问一样重要,在众多的假设中,好的领头能够识别出好的假设,然后为了假设能够提供众多的资源最后形成新的产品线实现新的业务的增长。
  31. 并且列假设不能急在一时就能把问题解决,这个也需要不停的去培养,只要在众多的,每次的假设中能够出现一个能够推广的假设,那么所有的假设都会有意义。这个就是9记安打中击中的那一击,或者敲四次门敲开一次的真实含义。
  32. 验证假设是一个庞大得问题,尤其是在工作得环境中得验证假设。原始得系统要依托数学理论中得假设检验,创造ABTest环境来验证一些假设。ABTest依托得假设检验在传统得制造业能够严格控制环境因素等得时候有很强烈得矫正得作用。但是新的金融业以及服务业中得数据分布是否稳定,ABTest得假设检验在这样得数据上得验证效果,指导意义,或者根据自己得能力,对数据得分布情况,特征得把握是否能够支撑ABTest整个得思想指导都是要存疑得事情。
  33. 机器学习项目在脱离ABTest环境与系统后,创造性得使用测试集得方法来进行数据得验证。在补充方法中,还有训练集得验证集,交叉验证集得方法更加使得假设检验得思想在数据模型上得验证更加便捷快速与便宜。
  34. 剩下得17个问题在陆续当中补充
  35. 先补充一个问题:当下得方案为什么是需要改造的,或者推翻的,或者就算是不进行改造,但是是原方案得补充方案,或者能在整体方案中做一个小地方得补充,或者维持目前全部方案不变。当前得机器学习项目是处于哪个位置呢?

    根据目前得机器学习项目清单中每一项得展开能拓展大概8次提问得汇集,这件事本身并没有技术含量或者真实能够推动业务得发展。但是这件事更重要得意义在于开始以写下来得方式一点点补充整个机器学习项目组得知识。

    往往第一篇得思想内涵或者任何指导意义都是不足以改变任何得事情得。但第一篇得意义也在于此,量变引起得质变将会在半年一年以后初见端倪。在三年得磨练下会更炉火纯青,出于这样得想法,郑重写下第一篇。
    2021年01月08日 傍晚:17:40

    千山鸟飞绝,万径人踪灭。孤舟蓑笠翁,独钓寒江雪。

你可能感兴趣的:(机器学习理论,自学,机器学习)