数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。
大部分数据科学家担任公司产品开发或营销部门的职位,或是效力于首席技术官。
数据科学家的先天特性包括好奇心、创造力、客观、有条理地思考能力与对细节的专注力,她强调。
数据科学家分成两种类型。
第一种类型--他们是真正的科学家,研究创造算法和方法,发表论文,并积极参与这些规则的沟通。这些单个的人物常见于以算法和方法为核心的研究机构和学术机构(想想谷歌、亚马逊和华尔街)。
第二种类型--这个类型的人群更接近于我们今天提到的雇佣市场上的人--他们不是科学家而是数据从业者。他们都是统计学与数学建模及开发领域的专家,掌握并采用定量分析方法,设计、测试和部署模型。
目前,大数据就是类似于类似 Hadoop、NoSQL、Hive 以及 R 那样的分布式数据架构和工具的一个大熔炉。在这种高技术环境下,数据科学家充当了这些系统和业务侧领域专家之间信息传递者与中介。
数据科学家有三个主要角色:
数据架构、
机器学习以及分析。
数据科学家有三个主要角色:数据架构、机器学习以及分析。数据架构
降低复杂性的关键是限制范围。几乎所有的电商都关心用户行为的捕捉—活动、购物、离线交易以及社会化数据,几乎每一个电商也都会有产品目录和客户档案。
只要把范围限制到这一基本功能上,就可以为标准数据输入创建模板,从而大大简化数据捕捉与管道连接。在 2/8 原则下(80% 的大数据用例可利用 20% 的技术实现),我们不需要把所有不同的数据架构和工具(Hadoop、Hbase、 Hive、Pig、Cassandra 以及 Mahout)都打包进来。
机器学习
好吧,数据架构似乎可以用系统搞定,机器学习总得要人来调教吧。如果需求是高度定制化的话,也许数据科学家是必要的。这里面的很多事情都可以抽象出来,像推荐引擎和个性化系统等。比方说,数据科学家的很大一部分工作是做出“特征”模式,即把输入数据组合好,让机器有效学习。过程差不多就是数据科学家把数据摆弄好然后塞进机器,再按一下“启动”即可,数据科学家的工作只是需要帮助机器以一种有意义的方式来审视这个世界。
可是如果按照单个领域来看,特征创建也是可以模板化的。比方说,每个电子商务网站都有购买流和用户细分的概念。如果领域专家可以直接将其思路编码进系统,将领域体现到系统里面去,那么数据科学家这个翻译和中介是不是就可以省掉了?
分析
从数据当中自动分析出最有价值的东西从来都不是一件易事。但是提供针对单个领域的透视镜是有可能的—这可以让业务专家做试验,就像数据科学家那样。这似乎是一个最容易解决的问题,因为市场上早已经有了各种特定领域的分析产品。
但是这些产品对于领域专家来说约束太多,不易接近。界面友好性绝对还有改进的空间。我们还需要考虑机器如何从分析得出的结果中学习。这是关键的反馈环路,业务专家希望能修改这个环路。这又是一个提供模板化界面的机会。
正如 CMS 领域的情况一样,这些解决方案也不能包治百病。但是针对泛化的一组数据问题采用技术解决方案可以缓解数据科学家的瓶颈问题。一旦领域专家能够直接跟机器学习系统协作,我们就能够进入大数据的新时代—一个人和机器可以相互学习的新世纪。也许到了那个时候,大数据能解决的问题就能多于它制造的问题了。
预测分析是一个全新事物,就在五到七年前,还没有人在大学以外的地方做这件事。但是现在,它已经步入了主流。如果你学了数据学,并且学得很好,那么在你毕业以后,肯定会有一份工作等着你。
“数据科学家”其实是从“大数据”引发的术语混乱中形成的。数据科学的核心能力被定义为:SQL、统计、预测建模和编程、Python等,这些听起来很合理。但是很快就有更多名词添加到其中:Hadoop/MapReduce、机器学习、可视化,甚至还有传统的数学、物理、计算机科学等类似能力。