这是傅一平的第310篇原创
正文开始
有天跟某个行业的朋友聊天,谈起团队建设,我说你们团队有不少年轻人拿了大数据专家(各类证书)的职称,很厉害,他略带讽刺的说:那个没用,只会考试和调参,不会做事。
数据挖掘很大工作不就是调参吗?为什么他提到的这些“厉害”的人物不会做事?
这个就涉及专业的评价体系问题。
世界上有一套针对专业人士的评价体系,它的发明人是苏联著名物理学家 列夫·达维多维奇·朗道。朗道(1908-1968),号称是“世界上最后一个全能的物理学家”,他不仅获得过诺贝尔物理学奖,而且还提出一种按照水平和贡献划分物理学家的方法,被称为物理学家的等级,也就是前面提到的专业人士的评价体系。
其实,咱们数据挖掘工程师也是属于专业人士范畴,那有没有适用于咱们的等级评价体系呢?
很遗憾,没有。
吴军博士在描述硅谷的工程师文化的时候将软件工程师划分为了五个等级,让我颇有感触。
今天,笔者就结合实际,谈谈数据挖掘工程师的5个划分等级,如果你属于这个专业,可以试着对照一下,稍作记录,可以时刻警醒自己如何朝更高的等级迈进。注意,这里提得不是基础算法工程师,而是偏向应用的数据挖掘工程师。
1、第5级数据挖掘工程师
这类数据挖掘工程师掌握基本的数据处理方法(比如SQL)和至少一门数据挖掘语言,熟悉基本的数据挖掘流程,在需求非常明确的情况下,比如有现成的样本和固定的特征下,能够端到端的完成一次数据挖掘过程,如果悟性好,3-6个月可以成为这个级别的数据挖掘工程师。
现在机器学习和人工智能的课程很多,所有的培训都是按部就班,它们是在既定案例情况下的1,2,3,4,5,一般培训能达到的最高等级就是第5级数据挖掘工程师,也就是入个门。
经常发现大量的应届生和社招生号称学过数据挖掘,其实连第5级数据挖掘工程师的水平也达不到。因此,笔者鼓励有志于从事数据挖掘或者转行数据挖掘的人员自己先行参加一些培训,这是你们进入企业前自己能掌控的事情。
但即使你已经达到第5级数据挖掘工程师的水平,也不要由于自己会调参就沾沾自喜,甚至在技术链上去鄙视别人,强大的人工智能Alphago固然能在既定规则和有限的范围内超越所有人,但当其面对复杂环境时,往往不堪一击。
而各个行业各个企业面对的数据挖掘问题大都是复杂问题,并不是完美样本情况下的纯粹的调参问题。
因此,第5级数据挖掘工程师在企业内往往只能做做跟班,是个纯粹执行者的角色,甚至可以没有思想,未来的人工智能大概率会替代第五级数据挖掘工程师,现在各种易用的数据挖掘引擎层出不穷,也挤压着第五级数据挖掘工程师的空间。
第5级数据挖掘工程师的核心特征就是:别人告诉你怎么干,你能按照要求干出来,这类数据挖掘工程师占比会超过70%。
2、第4级数据挖掘工程师
一名合格的数据挖掘工程师,首先应该是一个数据挖掘熟手,在工作中经历过了一定的历练,所以可以在不需要别人的指导下,就能独立完成安排的工作任务。
比如上级/需求方给他安排了一个数据挖掘需求,他能够充分的理解这个需求背景和目的,并知道找公司的哪些人提供相应的资源和支持。
比如会主动与业务人员沟通获得进一步的信息,组织相关人员进行讨论,对于涉及的相关数据做采集、处理和过滤等等,能主动的推动资源来协助自己完成这个需求,最后实现模型上线。
我们曾经给团队中合作伙伴的数据挖掘工程师进行过排名,排名靠后的,往往是那个调参能力不错、但没法端到端完成工作的人。
比如执着于用调参来解决所有的问题,而不愿意去跟业务人员沟通一下,看看是否自己的业务理解出现了偏差,一旦模型达不到预期就找各种技术理由,得有人不停的人告诉他下一步怎么走。笔者写过一篇文章《数据挖掘师,要从一个人活成一支队伍》,针对的就是第4级数据挖掘工程师说得。
第4级数据挖掘工程师的核心特征就是:别人没有告诉你怎么干,你能独立的干出来,这类数据挖掘工程师占比不会超过20%。
因此,如果一个人只是懂一点数据挖掘工程实现的手段,总是需要别人告诉他怎么做,那是上不了段位的。
3、第3级数据挖掘工程师
笔者一直认为,一个应用模型就是一个产品,不要拘泥于形式,认为做产品的就要八面玲珑,而做模型就需要对着电脑心无旁骛,其实两者是相通的。
比如对于笔者来说,团队内当前数据挖掘很大的问题就是模型缺乏运营,只管杀不管埋的现象太多,自己曾经写过一篇文章《为什么数据从业者要学点产品思维?》谈到过这个困惑。
因此,第3级数据挖掘工程师就需要有点产品头脑了,也就是说他们在做一件事之前,要知道所作出来的东西是否有用、是否便于维护,是否能持续评估及完善等等。
除了要具备产品方面的方法和思维,第3级数据挖掘工程师需要具有一定的领导才能,能领导和负责一个数据挖掘项目,能设定目标并找出实现的道路,能正确的识别问题、并找出最合适的解决方案(不仅限于技术方案),带领团队把大问题化解为小问题,最终完成项目。
也就是说,其能在整个产品的生命周期从头到尾将一个模型产品负责到底。比如我们某位成员牵头做的天盾反欺诈模型,就是要能协同公安、信安、模型、开发、运维等各方力量不断迭代才能做成。
现在我们在做的城市实验室产品,其实是一个完全由模型驱动的数据产品,OD、路网拟合、交通小区划分等等是最核心的模型,需要由模型负责人(主要职责是建模思路,设计、运营等等)牵头推进并交付给客户,拥有这类素质的人我觉得可以算作第3级数据挖掘工程师。
对于大部分数据挖掘工程师来讲,第3级数据挖掘工程师需要的素质不是一个学院能培养出来的,而是需要在企业内实际锻炼三四年甚至更长的时间,有时候即使很努力也达不到,这个涉及通识的一些能力以及运气,不是简单的专业问题。
第3级数据挖掘工程师的核心特征就是:你能带领一个团队,干一个有点影响力的模型产品出来,这类数据挖掘工程师占比不会超过10%。
4、第2级数据挖掘工程师
笔者一直觉得,数据挖掘师如果能够将自己的模型直接变现,那就是对于其能力的最大褒奖,由于模型一般必须附属于某个显性化的产品才能产生变现价值,因此要成为第2级的数据挖掘工程师是非常艰难的。
他们与第3级数据挖掘工程师的区别更多的反应在对市场的了解、对用户心理的了解以及组织能力等诸多方面,比如你能不能找到模型直接变现的商业机会?
如果非要举例,芝麻信用分的初创者也许可以算作一个,因为它成功的将一个模型打造成了人人皆知的商业服务产品,这个模型服务已经随着支付宝等产品飞入每个人的生活,更可贵的是,它是作为独立的品牌价值存在的。
第2级数据挖掘工程师的核心特征就是:能独立设计和实现模型产品,并在市场上获得成功,这类数据挖掘工程师占比不会超过1%吧。
5、第1级数据挖掘工程师
第1级数据挖掘工程师是那些可以给世界的商业模式带来惊喜的人,能设计和实现别人不能做出的模型产品,他们与第2级数据挖掘工程师的差别在于其工作的原创性以及对世界的影响力。
这里举一个例子。
2002年5月一个周五的下午,谷歌创始人佩奇在谷歌网站闲逛,输入“川崎H1B”看到的广告是“如何获取美国H-1B签证”,输入“法国洞穴壁画”看到的广告是“到XX购买法国洞穴壁画”,他对此很不满意,于是把搜索结果打印出来贴到公司休息间的白板上就回家了。
让他意想不到的是,两天后的周一,一位叫杰夫·迪安的搜索工程师发出了一份完整的问题分析及解决方案。他并不属于广告部门,但他和五位同事利用周末详细分析了这些搜索结果产生的原因并给出了以“相关性”为核心的解决方案。
这就是后来谷歌广告系统中著名的“广告质量分”(Google Adwords)的雏形,也是其历史上一次重要的进化,现在谷歌广告收入占到其收入的85%,而其关键作用的就是杰夫·迪安。
今天互联网广告领域众多交易模式和重要机制,从某种意义上说,都是谷歌第一次大规模运用和定义的,是这些模型改变了世界。
因此,你可以依据这五级工程师标准,来看看自己在哪个等级,对于接下来的努力方向会有所启示。
其实很多时候第5级别的数据挖掘工程师也很难达到,新人手把手教干不好的不在少数,这类就根本算不上是数据挖掘工程师了。
依据这个标准,笔者自己曾经达到的级别最多就是3.5级别(最高是1级),因为我做的模型并没有在企业内很好的用起来,缺乏影响力。
如果你是做数据挖掘的,也一定要对自己的所处级别有个清醒的认识,调参侠、取数侠并没有什么炫耀的资本,高级别的数据挖掘工程师,绝对不是大家印象中每天对着电脑敲代码的那个人,你得干出点有影响力的事情来。
企业也不会莫名其妙的一下子出现第3、第2、甚至第1级别的数据挖掘工程师,这个有客观规律,必须要有足够多的第4级、第5级别的工程师,才有可能孕育出更高级别的数据挖掘工程师。
遗憾的是,由于当前很多企业缺乏必要的数据创新环境,你纵有万千雄心,也很难达到更高的阶段,这也是为什么很多数据人才往大厂跑得原因。但随着企业数字化转型的加速,情况也许会有所改变。
完
作者:傅一平 (微信号:fuyipingmnb)