知乎Live: 如何成为数据科学家

大数据问题的本质

  1. 行为数据
    业务数据以外的数据,预先采集,再考虑如何使用。
    数据量大,是业务数据的10~100倍
    一致性要求低,丢一部分数据没什么影响
    比如:医疗行业的业务数据是病人的病例,行为数据是这个人没有生病时的饮食习惯、作息规律、健康状况

  2. 全量加工
    对于应用场景来说,如果数据特性要求大规模分布式处理才能完成,就满足全量加工。
    如果数据特性允许通过采样处理,那么不需要分布式也能完成,就不属于大数据的范畴。

  3. 自动化应用
    传统数据分析是洞察应用,是 数据-人-人工决策
    大数据分析的自动化应用,是 数据-机器-机器自动决策
    比如,广告推送系统,分析用户行为特征,构建用户画像,自动选择推送哪些种类的广告。

什么是数据科学家

能采用科学方法,调动充足计算能力,将大量人类无法直接处理的数据转化成有用的信息,以驱动自动化业务决策的科学家

  • 科学方法: 不同与以往,通过人的经验判断数据特征
  • 计算能力:对应大数据问题的全量加工特性
  • 自动化应用:对应大数据问题的自动化应用特性

数据科学家的必备技能

** 数据科学家的必备素质 **
机器学习原理和方法
领域知识的深刻认识:领域内从应用到建模的过程
分布式计算的使用能力:主要是会用
** 数据科学家的核心能力 **
统计基本准则
机器学习建模能力:面对实际场景怎样建模?可以通过参加比赛训练
最优化、Hadoop及相应编程能力,领域学习能力。

谷歌Big Data 三架马车

  • gfs
  • mapreduce
  • bigtable

数据科学家的养成途径

顶层 建立数据意识
数据优先于经验,计算优先于人工

中层
具备数据能力
熟悉一项应用,对一个应用的整个流程有一个感性的认识。
定义问题的能力最重要,将一个实际的问题定义成一个数学上可优化的函数。

底层
具备基础技能
机器学习,深度学习,并行计算,最优化,分布式计算,熟悉一种编程语言,博弈论

知乎Live: 如何成为数据科学家_第1张图片
图片发自App

数据科学家 定义在前面
数据工程师 开发新的大数据平台
数据分析师 数据洞察类应用,更多的人工决策
产品经理

你可能感兴趣的:(知乎Live: 如何成为数据科学家)