招聘数据科学家指南

本文简要概述了新兴数据科学家类型及其独特的技能组合,以及希望雇佣他们的第一批数据科学家或建立数据科学团队的人力资源专业人员和分析经理的指南。其中包括每种类型技能的概述以及可以要求评估候选人的具体问题。

数据科学是一个新兴领域,角色和资格目前尚不明确。考虑到该领域的晦涩以及寻求聘请数据科学家或数据科学家团队的公司可能缺乏分析专业知识,建立分析团队或雇用公司的第一位数据科学家的任务可能令人生畏。但是,通过简要概述数据科学家类型和评估每种类型的示例问题,招聘经理可以为招聘人员提供更具针对性的个人资料,并更好地评估候选人可能需要的技能来填补这一角色。

数据科学家通常拥有3个主要领域的技能:数学/统计/机器学习,编码/软件工程以及他们寻求就业的行业专业知识(见下图)。大多数成熟的数据科学家在这3个领域中的2个领域拥有强大的技能,产生软件/数学人员(通常在科技公司或生产角色中找到),数学/领域人员(更多的是传统统计学家或科学研究人员)或软件/ domain(不太常见,但通常涉及数据管道和商业智能角色)。在所有3个领域都具有强大技能的人都是所谓的“独角兽”,他们通常是在所有3个领域发展专业知识的职业生涯晚期或顾问。除了这些技能,
招聘数据科学家指南_第1张图片
image.png

聘请合适的候选人担任他/她将在公司内部扮演的角色可以通zhaop熟数据科学家类型中的一种来简化,随后的职位描述/面试问题可以针对该类型的角色进行定制。通过将2或3位数据科学家与免费技能配对,可以建立一个有效的数据科学团队,而无需大量预算。

招聘数据科学家指南_第2张图片
image.png

数学/软件优势(类型1)在科技公司或新算法或数据框架可以生产的位置很常见,而不考虑行业的细微差别,数据类型或行业规则(例如教育,医疗保健,金融,生物技术/制药)。这些人可能会创建一个新版本的PageRank,为公司开发一个新的应用程序,或者生成新的算法和BI结果。技能包括多种编程语言(Python,R,甚至可能是C ++或Java),大数据框架(Hadoop,Spark,NoSQL ......),算法设计和软件开发(计算机科学课程或学位,敏捷/瀑布软件生命周期)的混合,以及一些数学或机器学习的高级培训(可能是该领域的学位)。教育的角度来看,

评估类型1候选者的问题可能涉及分布式计算框架(MapReduce用于算法设计的步骤,知道哪些算法在分布式计算中运行良好),数据库设计(关系与非关系与Neo4j,实时捕获和部署)模型,自动表更新),分析管道的创建(特别是在Python中),以及机器学习知识的深度(用于创建随机森林模型的数学概念,随机森林与增强回归的数学差异和实施考虑因素,了解深度学习框架之间的差异......)。

数学/领域数据科学家(类型2)通常在教育,生物技术/基因组学,医疗保健,保险等专业领域内工作......行业受到监管,生物学,心理学,精算科学等知识可以帮助构建相关问题并为分析提供信息公司内部的做法,特别是在联邦指导方针和最佳研究实践方面。大型公司也发现了第2类数据科学家,以协助营销,销售,财务和其他与业务相关的问题。技能包括深入的数学和机器学习专业知识(通常是研究生水平的知识/教育),研究设计/研究实践(抽样实践,权力分析,因变量类型,科学出版物......),领域专业知识(该领域或行业的学位)经验),以及该行业所使用的软件的实质性知识(SAS,R,Python,Matlab ......)。这些人最有可能拥有博士学位(可能是学术界的职业转换者)或拥有大量已发表研究的数学/统计学硕士学位。

评估2型候选人的一些问题将是特定领域的(例如基因组学问题/基因组学公司的PLINK编码练习),其他问题将集中在研究设计(偏见,A / B测试或控制/实验设计,动力分析和过度动力样本的后果...),统计分析(贝叶斯概率,广义线性建模和因变量,时间序列预测)和机器学习(解释不同集合技术的数学方式,就像你对小学生一样,解释惩罚回归模型,当它们有用时,解释样本大小如何影响算法选择和性能......)。

软件/域人员(类型3)在数据科学家在专业领域内推动数据收集,数据管理和应用程序开发的位置非常有用。他们通常拥有自己的行业经验,可能拥有或可能没有与该行业相关的学位,具有丰富的编码专业知识。在商业领域,Type 3人往往具有技术背景和MBA,并且通常最终领导技术团队或管理分析部门。技能包括数据库设计/数据捕获(SQL,Hadoop,设计原则),软件开发(scrum,敏捷/瀑布生命周期),编程(SAS,Python,Java,C ++通用)和领域知识(生物技术法规,开发/文档)工业要求)。

评估类型3候选者的问题可能包括数据库设计原则(外键,可执行文件......),行业特定问题(例如,将PLINK与基因组学中的其余管道集成或与本体结构一起使用),以及MapReduce /分布式计算系统(与应用程序设计或管道瓶颈相关......)。

所有候选人都应该表现出分析数据并在没有分析背景的情况下向其他分析人员或领导者展示结果的能力和舒适度,因为这是数据科学家的基本功能,而数据科学候选人应该在软件或数学方面具有足够的知识,以便与之合作那些赞美他们特定技能的人,因为现在大多数公司都组建了一支具有不同专业知识的小型分析团队,以涵盖所有数据科学。

作为最后的思想和资源指南,我提供了一个问题库,其中包括我最喜欢的几个评估潜在数据科学家(涵盖各种数据科学家类型)的问题:

  1. 解释随机森林的数学基础并推动回归,比较和对比他们的公式以及计算实施问题。

  2. 问一些与条件概率和贝叶斯定理有关的东西。

  3. 讨论您阅读的最后一本机器学习/计算机科学论文,以及如何向您五岁的侄女解释它。

  4. 给出一个假设的数据集(与您公司以前的项目相关),并询问可能的分析方法(或者给他们提供数据和几天的分析)。

  5. 询问MapReduce或相关的计算框架(R,Python,Hadoop ......),他们可能会在这个位置使用它们。

  6. 解释一个p值。

  7. 解释多样性如何减少集合方法中的误差和偏差。

  8. 指出并解释3种不同的降维策略。

  9. 如果将在该位置使用网络分析:解释PageRank背后的数学运算以及一般情况下线性代数如何用于图形/网络问题。

  10. 您如何使用这个房间里的物品向幼儿园儿童解释(机器学习算法或软件设计)?

  11. 详细解释拓扑/几何对统计和机器学习领域的贡献。

  12. 包括批判性思维/ IQ有关的项目或两个(特别是来自这个问题银行:HTTP :// WWW 。iflscience 。的COM / 脑/ 证明- 您- 智慧- 与- 的- 世界- 最短- 智商- 测试)。

  13. 解释您对软件开发生命周期的偏好,并举例说明您从以前的职位中学到的最佳实践。

  14. 您将如何设置A / B测试?您如何控制误差?为什么测试需要一个控制组?

  15. 询问行业特定的内容(法规,数据类型,领域知识)。

你可能感兴趣的:(招聘数据科学家指南)