AutoML与机器学习领域的理解

作者:一人


Featuretools如你所言能够自动完成特征工程,它属于AutoML范畴,接下来我还是主要谈AutoML1吧。由于机器学习应用高门槛和应用范围的广阔,所以很多组织于2017和2018年开始自动化的机器学习尝试,想降低机器学习应用的门槛,让非专业人员也能够应用。机器学习的工作流通常为数据清洗、特征工程、模型选择、模型训练、模型评估,针对机器学习的自动化尝试,也在这几个步骤展开。

由于数据清洗和数据强关联,在这一部分只能根据具体应用和情景进行处理,无法抽象出来使用通用方法解决;针对特征工程部分,据我查阅所看,自动化工具很少,Featuretools算是一个吧;但是针对后面模型选择与模型训练、模型评估的自动化工具就比较多了,例如Google的automl,Microsoft的NNI2以及autosklearn3等。

当前自动化的工具主要根据机器学习算法分为两个类别4

自动传统机器学习方法与自动神经网络方法。自动传统机器学习方法最为典型的应用就是auto-sklearn,面向的算法主要是LR,SVM,GBDT等。而针对自动化神经网络的工具当前处于研究的前沿,具有代表性的工具除过上面google和Microsoft之外还有auto-Keras,百度的AutoDL等,由于神经网络能够自动化完成特征工程,因此所有的工具都主要集中在网络架构和参数搜索上了。

automl从2017年开始引起关注,2018号称automl的元年,由此也能看出来其离实际应用还有比较长的距离。虽然如此说,但是针对传统机器学习的自动化工具现在还是值得尝试。

传统机器学习方法已经发展很多年了,针对这部分自动化工具也诞生有些年头了,auto-sklearn已4年。但是很不幸,据使用过的人说,效果还是比较有限,不如人工做出来的效果好,如果对于效果要求不很高,不妨试试,毕竟构建快成本低。自动神经网络就不用在说了。从目前发展状况来看,短期内这个领域应该不会有什么大的突破,但是长期看自动化机器学习还是很有前途的。

如果要想进一步了解AutoML的内容,可以查看zhihu中automl话题下的讨论,https://www.zhihu.com/topic/20173754/hot


机器学习技术落地难,急需懂算法的产品人员。

算法工程师从业人员已经饱和。学习资料易得,学习门槛降低。还记得在2016年底时我们俩谈过:由于现在的各种教程漫天飞,这个领域必将涌入大量的从业人员。

从近两年发展来看现状确实如此,去年校招的很多报道说:算法岗收到的简历与职位的比例远远大于100:1,各大公司现如今对于算法工程师的门槛要求也是水涨船高,高的我看见都发怵。机器学习在产品上的应用远没有想象的那样迅速铺展开来,新进入人员没有新坑能占。当前机器学习应用比较广的领域:

  • 图像的监控与文字识别,
  • NLP的智能助手与智能客服;
  • 推荐、搜索、广告系统等。

这些都是发展很多年的领域并不新,所以也就没有新的岗位创造出来,进一步加深了行业人员的饱和。因此,当前行业并不缺懂算法的工程师,或者说并不缺初中级算法工程师。

急需能够让算法落地的产品人员。不用质疑机器学习的应用范围是很广的,但是应用的落地速度并不如预期,这在一定程度上反应出来:算法人员不懂产品,产品人员不懂算法。这种隔阂才是算法不能迅速落地的关键因素。

所以,如果在这个方向的从业人员应该多多将精力放在如何填补这鸿沟上,要么产品人员多学学算法,要么算法人员多多了解产品知识

个人观点:能够掌握主流的算法原理,有两三个算法实际项目,能够掌握产品方面的技能,这种人才才是当前的香饽饽。


  1. 机器之心,AutoML、AutoKeras…这四个「Auto」的自动机器学习方法你分得清吗?https://zhuanlan.zhihu.com/p/49494212 ↩︎

  2. Microsoft, NNI, https://github.com/Microsoft/nni ↩︎

  3. Machine Learning Professorship Freiburg, Auto-sklearn, https://automl.github.io/auto-sklearn/stable/# ↩︎

  4. 第四范式,AutoML在推荐系统中的应用,https://zhuanlan.zhihu.com/p/52907645 ↩︎

你可能感兴趣的:(机器学习,AutoML)