数据科学家被称为本世纪最性感的职业之一。AlphaGo战胜人类围棋引发的风口,又将数据科学推向了风口浪尖。
趋之若鹜的人流导向数据科学,带来的不仅仅发展的资源,同样也是泥沙俱下的数据人才。
本文阐述了作为数据科学家的四种罪与罚,为成为能解决问题的数据科学家指出了见解独到的努力方向。
『数据科学家』可能是这个世纪最性感的职业,但对公司来说,能招聘到一个合格的『数据科学家』,却是一件可遇不可求又极其痛苦的事。相对的,对于有志向在数据科学家领域做出杰出贡献的人才,能够获得心仪的数据科学岗位,同样是一件无比困难的事。
虽然机器学习本身就已经充满挑战了,但培养一个合适能够运用机器学习的人才可能比机器学习本身更加困难。想要成为能够上手为公司贡献效益的数据科学家,需要经过一系列专业知识不断增进的学习阶段。
对于公司来说,要找到一个合格合适的数据科学家,就像是大海捞针一样困难。在Gramener经历了若干年招聘数据科学家的过程,我已经发现了一些市场上应聘者缺乏的技能。而这些技能的缺失,可能会导致上百种影响面试结果的情况。我在文中主要将他们分为四大类。
四种导致面试被拒的原因
假设在成千上万的想要获得理想机器学习职位的申请者中,只有一小部分能够成功。如果能了解在哪些地方是可能会导致面试失败的,这将是非常有帮助的一件事。对于任何一个怀抱理想或者是希望寻找更合适工作的数据科学家来说,有一些明显的陷阱是需要去避免的。
改正缺点的第一步是认识缺陷
要成为一个成功的数据科学从业者,将需要精通很多专业化的技能。为了能够以一种轻快的方式来阐述数据科学家需要的一些精细的技能,我们将会以另一种需要高技能要求又非常酷的职业——狙击手,来对接下去的四个点做类比进行详细阐述。
那么,是哪四种方式将会导致在面试中失败呢?
1. 简历上到处都充斥着机器学习流行语
对任何职业来说,在简历上堆砌行业的流行语都是一件极具诱惑力的事。况且,在数据科学中,从来就不缺乏流行语。虽然这种行为将会增加在简历筛选过程中被选中的机会,但在后续过程中很快会产生副作用。
在很多的简历上声明的所谓精通各种数据分析技能,往往只意味着候选人掌握了基本excel的透视表,SQL查询语句或者是如何使用Google Analytics。除了浪费时间之外,这种低水平的求职策略,往往只会导致一次巨大的失败以及对求职者信心的巨大打击。
这样的行为对于有志向的狙击手来说,就像是穿上了士兵的服装,拿起了狙击枪,但是没有经过任何成为合格狙击手的训练就上战场。这类举动,就像一头羊披上狼皮去狩猎一样愚蠢。
2. 把建模过程简化为调包过程
很多声称自己了解模型的求职者,很难解释模型以及参数的含义。甚至比模型本身在做什么更重要的是,为什么要在解决这个问题的时候,采用这种模型。
公平的说,模型的部署和使用可以仅仅通过单行模型包的代码调用来达到目的。但是,机器学习并不是调用模型包。而是使用者应该去理解发生了什么。比如,为什么逻辑回归会比SVM在这个问题下更适合。或者,什么时候一个简单的插值算法会比类似ARIMA或者Holt-Winters这类预测算法更有效。
一个好的狙击手需要做的不仅仅是瞄准和射击。事实上,射击只不过是在狙击手学校课程的20%。一个合格的狙击手需要更精细的技能,像是耐心、纪律以及良好的观察力去判断目标距离自己的精确位置。
3. 缺乏对数据分析基本的直觉
对于机器学习的深度理解固然是对求职者很大的加分,但往往大多数人止步于此。将精力投资在实战训练以及掌握像统计和探索性数据分析这类技能往往会被忽视。
模型只不过是在整个数据分析过程中的一小部分。在任何一个成功的机器学习项目中,超过50%的时候将会花在建模之前的数据准备、清洗甚至是数据获取过程中。剩下还有25%的时间将会花在如何解释模型以及推荐使用何种模型上。
甚至当求职者在项目中达到了90%以上的精度,但当他无法解释什么是p-value,或者无法解释为什么在模型中我们需要置信度的时候,这将是更大的灾难。
坚实掌握基础技能在任何学科中都是最重要的,而一个合格的狙击手首先需要是一个好的步兵。比如说,如果一个不能在战场中修理哑火或者走火的枪的狙击手,任凭他有多高的狙击技能,又有什么用呢?
4. 无法将数据分析技能应用于解决实际的商业问题
掌握前面所有提到的技能很显然是一件难度很高的任务。但是我们仍然在整个机器学习链条中丢失了最重要的一环,也是导致大多数面试失败的原因。
对于数据科学家来说,最终的任务是要解决一个商业问题,而不仅仅是分析数据或者是建立一个好的模型。对于数据科学来说,解决商业问题是数据分析中的圣杯。甚至在把任何数据导入到工具之前,一个合格的数据分析师需要先定义清楚商业问题,然后提出一系列步骤能解决这类商业问题。
当被问到一个商业模式如何能解决他们顾客的实际问题的时候,如果一个求职者立即跳入到数据分析过程中,或者更糟的是,随意抛出几个模型名称妄图直接去预测解决问题,这种莽撞行为将会导致面试的整体失败。一个更好的分析开端是首先想清楚为什么顾客要来注册,他们希望从我们这里拿到什么价值以及这样的期望将会怎么样影响商业分析。
想象一下,如果一个掌握了以上所有狙击技能的狙击手,却无法在战场上隐藏伪装自己,或者是无法寻找到正确的目标去狙击。这样的狙击手将会是危险的人物,甚至是比任何敌方威胁都要更大的内部威胁。
总结:如何成为优秀的数据科学家
总的来说,一个期望成为数据科学家的人必须采取如下严格的训练:
- 对于任何一个商业问题,都要通过重构和定义问题,然后提出一系列的步骤来解决这个商业问题。
- 通过统计学基础的技能和探索性数据分析来对数据本身有一个基本认知,同时需要重复这样的数据分析过程直到有一个清晰认知。
- 在分析技术和机器学习中选择一种合适的工具,然后工程化实现它,并能够向商业使用者解释分析得到的结果。
- 最后,能够在准确定位自己角色和技能的基础上,将以上所有技能和成果宣扬出去,懂得表现自己。
最后,预祝各位能在通往数据科学家的道路上一步一个脚印,最终能在数据分析的山顶有自己的立足之地。
译文如上,原文地址如下:https://towardsdatascience.com/4-ways-to-fail-a-data-scientist-job-interview-d9c4c85c683