大数据文摘出品
编译:睡不着的Iris、Hope、笪洁琼、蒋宝尚
“数据科学家”这一职位的说法或许性感,但发展到现在,多种职能(机器学习、统计分析等)已经远不能囊括一家大规模公司在数据科学领域需要的人员及其工作内容了。
本文作者Elena Grewal是Airbnb数据团队的主管,下面她以在Airbnb的工作经验为例子,自述了为满足业务需求,公司如何将数据科学的工作重新定义为分析、推理和算法三个方向,以及这三个方向是如何发挥作用的。
数据科学家的其他名字
Airbnb一直将数据视为用户的声音。起初,我们的团队叫做“A团队”,即分析团队,因为最早我们雇了一名“分析专家”。2012年,我以“数据科学家”受聘。随后,我们聘请了一名“数据架构师”来处理数据质量问题,“数据分析专家”解决数据访问和数据工具的缺失。
此后,我们存在额外的机器学习需求,于是我们聘请了“机器学习方向数据科学家”。这些头衔都是伴随着团队需求和竞争发展更新得出。到2015年,我们成立了“数据科学”部门,但我们依旧使用“A团队”的名字,因为这个名字听着有趣,还能传达我们所珍视的这段历史。
2017年中,我成为了数据科学部门的领导者,那时我们已经有约80名数据科学家,他们分散在不同的团队中。他们中的一部分人在构建项目仪表板,一部分人在创建NLP(自然语言处理)模型,其他人在构建决策建模和设计实验。呈现一种极具多样化的景象。
快速增长的新兴学科
这种多样化并非是意料之外的。数据科学相对较新,而且发展迅速。我们从数据中就发现了这点。首先,从内部来看,应聘Airbnb数据科学职位的人数在2015到2018年里增长了4倍之多。
应聘Airbnb数据科学职位
此外,根据谷歌趋势数据显示数据科学的查询量在此期间也出现了快速增涨:
从2012年开始出现增长,在过去了6年已经翻了4倍。
不仅因为数据科学是一个新的领域,而且人们对“数据科学”的理解也各有千秋。有时候,他们认为数据科学有时仅仅是机器学习。有时候,它在技术公司被视为商业智能。数据科学还很新,它会不断演进。
认识多样化的数据科学技能
我们发现无法预期数据科学能够发挥什么样的作用。
在公司内,多样化的负面影响会导致组织陷入迷失或混乱状态,因为合作团队不知道数据科学家可以帮上什么,并且数据科学家也不明白自己的角色定位。
那些来自数据科学建模公司的人,不会想着使用数据科学去做简单的分析。那些来自数据科学分析公司的人会认为,建模是工程师的工作。
我们还面临另一种挑战:团队中做数据分析工作的人员感到自己的工作没有做机器学习工作的有价值,即便他们的工作对业务起到了关键作用。商业伙伴渴望更多具有实操性的建议帮助他们做决策,并扩展可使用的工具去理解自己的数据。
我们投资了数据教育,成立了非常有名的数据大学,但还是需要专家。我们发现一个原因是当团队成员承担了“数据科学”职责的时候,我们仍旧使用“数据分析专员”的头衔。同时,从我们如何谈论“数据科学工作”来看,这会给人一种“分析工作并非同等重要”的印象。
我和同行公司的领导者讨论过他们团队如何处理这类问题——我曾经创建了一个不同组织架构的共享电子表格。听到过有的公司是从头开始建立新的分析团队,有的团队将机器学习独立拆分,有的将工具团队并入数据科学等等。
显然,不存在一种通用方法,但关键是如何有意识、有策略地定义我们是谁,我们如何创造价值。我们深知我们的目标是“任务支持”,例如,做公司最需要的工作。因此,我们的角色不仅兼顾个体化和阐明期望,更需要与公司当前的需求相匹配。
解决方案:数据科学工作的三种风格
我们决定根据这三个方向来重新定义数据科学职位。 我们需要正确描述我们要寻找的东西,这样才能吸引来自相关领域的人才。
分析追踪(Analytics track)非常适合那些擅长提出问题的数据科学家,他们能够正确地对数据进行提取、探索,然后用仪表盘和可视化工具进行自动分析,能够通过给出合理建议来推动商业决策。
算法追踪(Algorithms track)则是为机器学习专家准备的,他们热衷于在产品设计和运营流程中加入数据思维,然后为商业行为创造价值。
推理追踪(Inference track)则是针对统计学家、经济学家和社会学家的,他们能够利用统计学知识来提高决策效率,并正确衡量我们工作造成的影响。
团队中的每位数据科学家都应至少具备以上提到的一个领域的专业知识,并根据业务需求和自身兴趣获取其他领域的技能。每个步骤都可以进一步专业化,但每个人都有“数据科学家”的头衔,下面我们给出更加清晰的描述。
让我们先来看另一门学科,比如工程学。工程学里面有一个简便的划分:“前端”和“后端”,这可以帮助我们来了解一个人的技能或专长。我知道这并不是一个完美的划分,但是它的确比单纯地描述为做“工程”要更加容易理解。在数据科学中我们还做不到这样简单的描述,但是这将是我们的发展方向。
未来展望
我们也对绩效评估标准进行了调整,来反映岗位的结构。我们有不同层次的数据科学家和经理。我们通过考察他们在业务上的影响来评价是否成功。
对于技术方面的数据科学家,我们的评价体系包括以下主要方面:
技术层面
分析-定义并监控指标,进行数据的描述性分析,并构建工具来推动决策
算法-为数据产品构建算法,并能够进行解释
推理-采用统计学知识来建立因果关系
基础-每个数据科学家都要为数据质量和代码质量负责任(对于所有方向都适用)
商业层面(对于所有方向都适用)
所有权-能够推动项目取得成功,并为其他人创造影响力
影响力-沟通清晰,有团队精神,能够建立良好关系
丰富性-通过指导、招聘、创建企业文化和其他多样性的行动来为团队建设做出贡献
我们还可以写很多的内容,但是最重要的是我们明确地改变了数据科学家的评价体系来阐明对他们的期望。
什么时候需要专业化
Airbnb企业比较大,因此需要对这些问题进行区别对待然后细分。如果是一些小公司,还在考虑是否需要组建专家团队的时候,我的建议是先面向综合性的问题。
能够在早期解决一些迫切问题是非常有帮助的,我们不应该一开始就深入到严格专业化中。随着时间的推移,后面自然会进行专业化,但是一开始还是综合性的团队比较好,除非你已经提前看到了商机。
直到2015年我们都没有进行专业化团队的建设,那时候我们部门只有30个人。
而且,随着业务需求的变化,我们还需要随时改变团队的角色,提供不同的功能。
收获利润
哪怕是在专业程度较高的今天,在不同方向上的数据科学家依然需要从事其他类型的工作,而且我们也鼓励团队成员成为全才。
总的来说,我们这样做之后能够减少混淆。我已经听到合作伙伴说“我们需要具有逻辑推理和专业算法知识的人才”。因此语言对于沟通业务需求非常有用。
这有助于我们找出差距。我最近与一位产品经理联系,她非常担心团队中没有人能够提出创新的方法来在挑战性的领域中进行试验。
我立即诊断出其中的问题:在那个特定的数据科学团队中,没有一位具有专业推理知识。这样我们就可以通过下一次招聘来精准引进,或鼓励团队成员向其他推理专家学习。
我们很高兴听到从事分析工作的团队成员不再感到疏远或低级。分析专家知道如果他们再尝试将机器学习应用于正在处理的业务问题,影响工作的因素将减小。
希望这次分享能够为你提供一些想法!
如果求职者都用模糊的“数据科学”头衔来应聘,招聘是非常困难的,因为这可能有多重含义。如果所有的公司都用相似的框架招人,那么对于整个数据科学界来说,传递价值更加便捷了。