翻译:piggycat
原文:https://medium.com/@tomaszdudek/but-what-is-this-machine-learning-engineer-actually-doing-18464d5c699
机器学习,人工智能正在许诺世界一个“智能”的未来。
这个IT领域逐步成为市场之星,随之而来是对人工智能应用开发人才的需求。
相比软件工程师,数据科学家通常来自非常多样化的背景,他们不一定是很好的程序员,实际上,他们也许从来没想过要成为很好的程序员 - 对数据科学家来说,编程只是解决疑难问题的手段,仅此而已,对程序员来说编程却是一种艺术。
当然,数据科学家们的想法非常有价值,并且要成为成功的数据科学家,在技术上的要求非常广泛,可以说是过于广泛。不能指望一个机算机视觉(Computer Vision) 和规范性分析 (Prescriptive Analysis) 的专家,同时也能一行行编写代码,运用函数式或者反应式编程,或者两种都用上,把数据模型实现成产品,并且放在一个高度分布式的云环境中。
软件工程师们则对机器学习持保守的态度。他们从数据科学家手中接过的所谓的模型要么过于简短,用漏洞百出的不熟悉的语言编写的角本,充斥着不知所云的函数。设计模式呢?简洁和重复性好的代码呢?运行日志和产品监控,都在哪呢?
随着这样的冲突升级,需求也应运而生。如果能将数据科学家们的代码有效化和层次化,解释给程序员其中的架构原理,能避免将大量的开发时间用在理解一些他们毫无兴趣的概念上。
机器学习工程师就是这样的一群人。
在所有的机器学习材料中,生产环境很少被提及,这个概念基本上不存在。从csv导入数据,在Jupyter中创建模型,呈现ROC曲线,就是成功运行!
且慢!
在现实中,大部分的产品代码和机器学习并无关联,实际上在整个代码中,和机器学习相关的部分非常少!前训练(pretrain)的黑匣子只是提供一个小小的JSON,那是由几千行的代码产生的预测结果。为了让这个结果有实际的用处,需要搭建一个整体的系统来运行!你需要获取和转换数据,自动化运行,并将其可视化结果呈现给终端用户。不管问题的大小,一个机器学习的外围工作量都非常大,即使你用上Apache Airflow, Nifi.
需要有人去把“数据科学”和“软件”粘合在一起,将训练好的数据模型放于高质量的生产环境中,设置好重新计算的自动运行程序,将模型呈现给真实用户,并监控运行的效能。这些领域正是机器学习工程师发挥作用的地方。
从数据科学家那里得到的是在即定时刻利用即定数据产生数据模型的路径。除非是一次性的分析,这些模型在产品化以后会存在很长一段时间,其中的一些问题也会慢慢显现出来,比如一个新的未知值的出现导致整个模型的效能大不如从前。
此时作为机器学习工程师的你,会利用保存下来的历史运行日志和监控,来解答为什么和从什么时候开始出现这些问题。
所有其它程序能遇到的问题,机器学习程序也会同样遇到。比如数据库可能超连。在数据量极大的时候GroupBy指令可能会爆表。内存和磁盘可能会溢出。用户的指令不被某些算法接受。外围服务会有超时。类似的种种状况出现在实验环境下没有人会放在心上,但运行在生产环境中时,防止这些意外情况的发生便是你的责任了。
数据科学家同事们总是有各种各样的点子,你所做的是避免让技术成为他们的障碍。按照现在的机器学习平台的发展速度,也许不久就会遇上用现有框架中现有的API难以实现的案例。这时就需要你将现有的框架用到极致来实现它们。你会需要用到你强大的编程能力和机器学习的知识,而这也正是让你在团队中显得与从不同的地方。
即使框架提供了你所需要的一切,机器的运算能力不够仍然可能是问题。大型的神经网络需要大量的时间训练。而在大型服务器上用上GPU框架则可以成倍的节省时间。你就是那个提供云设施最佳搭配建议的人。
你有机会在各种最热门的技术中自由穿梭。Keras, pyTorch, TensorFlow, H2O, scikit-learn, Apache Spark - 都是你的选择。Apache Kafka! Pulsar! AWS! 你会是大家妒忌的那个用遍最炫酷技术的人。
然而,那些最炫酷的通常也是不常用的!
新的技术大家更多谈论的是优点,而实际上你面对的往往是很烂的文档和一些博客文。你需要了解很多软件开发和数据科学的概念。重要的是,你需要非常快的掌握新的知识。 在某些领域,学习的曲线会很长,尤其当实现一些论文上的想法时。有些论文非常的书本化,需要花很多时间去理解。然后到写程序的时候,即使程序运行无错,仍然无法确定这是正确的实现方式。如果出错,就会想也许程序有问题,也许是数据有偏离,或许整个想法就不合时宜。
能够跟上数据科学的发展已经是一个挑战,还要被扔进软件开发和云计算的深坑,头都快炸裂了!所以你必须组织好学习资源,接受广则不深的事实。
对有些人来说,能将两个如此相近又如此不同的领域联接在一起,是梦想的职业。
[参考]https://medium.com/@tomaszdudek/but-what-is-this-machine-learning-engineer-actually-doing-18464d5c699