数据开发学习路线图-1

首先声明,本文非原创,而是本人基于别人的帖子,而总结出来的学习路线图,十分感谢原作者。

前言

对于进入想进入这个行业的工程师来说,他们关心的第一个问题,莫过于发展潜力和薪资了。作为一个行业小白,薪资待遇方面,我不是很清楚,但是对于数据开发这件事,我从从战略上是十分看好的,原因如下:

  1. 今后的所有的物件或者说产品都将是智能化的;智能化本质上就是基于数据的推荐,搜索或者分类问题;无论具体在哪个门类工作,都将是在数据开发的大门类中工作。
  2. 基于数据开发的复杂度,这件事儿是有天然护城河的。护城河有两个。一是,整个框架的搭建涉及到30多个工具的使用,不要害怕,这个事是朋友,他在给予你更多开发自由度的同时,也吓走了一部分的门外汉,这个圈子越小,越有可能出高薪。二是,数据处理的量级护城河,如果你能进入阿里巴巴,腾讯等数据量极大的公司,你其实是世界上接触到这个量级数据少数几百个人之一,这将是你一辈子的核心竞争力。

据大牛说,大数据领域有三个发展方向
1. 平台搭建/优化/运维/监控
2. 大数据开发/设计/架构
3. 数据分析/挖掘

第一个在我看来是个打辅助的岗位,很重要,但是不涉及业务和产品吧,除非你本书就是数据公司,提供数据给别的公司。第二个,是我非常感兴趣的数据驱动开发。第三个看起来起来像是咨询公司喜欢做的事,出报告,出PPT,但是也是辅助工作。

兵器库

数据量大,TB->PB

数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;

商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;

处理时效性高,海量数据的处理需求不再局限在离线计算当中。

开源框架的列举

文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapReduce、Spark
流式、实时计算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL数据库:HBase、Redis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop
任务调度:Oozie

几个想到的自问自答

1. 为什么有了HDFS还需要HBase?

HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoop database,即Hadoop数据库。它是一个适合于非结构化数据存储的数据库,HBase基于列的而不是基于行的模式

HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS(关系型数据库)数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。

HBase 本身其实可以完全不要考虑 HDFS 的,你完全可以只把 HBase 当作是一个分布式高并发 k-v 存储系统就好了,只不过它底层的文件系统是通过 HDFS 来支持的罢了。换做其他的分布式文件系统也是一样的,不影响 HBase 的本质。甚至如果你不考虑文件系统的分布式或稳定性等特性的话,完全可以用简单的本地文件系统,甚至内存文件系统来代替。只不过这样做的意义就另当别论了HBase 在 HDFS 之上提供了:1、高并发实时随机写,通过 LSM(内存+顺序写磁盘)的方式提供了 HDFS 所不拥有的实时随机写及修改功能2、高并发实时点读及扫描了解一下 LSM 算法,就能知道为啥在文件系统之上要有数据库了总之,在业务层面,HBase 完全可以独立于 HDFS 来理解

2. 数据开发你到底在回答什么问题?

廉价的处理大量非结构化数据需要什么? HDFS
HDFS怎么用?
- 把别处的数据搞到Hadoop上
- 把Hadoop上的数据搞到别处去
- 傻子都会用的SQL MAPREDUCE
- 一次导入,多次消费
- 越来越多的分析任务
- 实时分析任务
- 数据向外卖(赚钱咯)
- 机器学习

完结撒花~~~~~

你可能感兴趣的:(大数据,数据开发)