从 Hadoop 开始

前言

先简单介绍下,Android 9 年老手,从事于大数据行业做 SDK 数据埋点采集,涉及到 Android、iOS、Web、小程序几端。
平时耳濡目染也经常听到一些大数据后端的术语,如 Hadoop、Kafka、Hive、Flink 等,虽然经常打交道,但总是一知半解。身处于大数据浪潮背景下,学习基础的大数据知识显得越加重要。

规划

那么第一步应该怎么走?


学些的渠道和途径千变万化,比如视频学习、看书、上手真实项目等。这里我比较推荐看书和体系化的教程,不推荐视频。我选择的是 github 上推荐的学习路线。
目的是先入门,能做最基本的 demo 项目;后续如果要进一步深耕,会选择买书来看。

大数据

我们首先看下大数据数据基本处理流程:


数据流

由业务衍生出来的框架如下:

  1. 日志收集框架:Flume、Logstash、Filebeat
  2. 分布式文件存储系统:Hadoop HDFS
  3. 数据库系统:Mongodb、HBase
  4. 分布式计算框架:
  • 批处理框架:Hadoop MapReduce
  • 流处理框架:Storm
  • 混合处理框架:Spark、Flink
  1. 查询分析框架:Hive 、Spark SQL 、Flink SQL、 Pig、Phoenix
  2. 集群资源管理器:Hadoop YARN
  3. 分布式协调服务:Zookeeper
  4. 数据迁移工具:Sqoop
  5. 任务调度框架:Azkaban、Oozie
  6. 集群部署和监控:Ambari、Cloudera Manager

经上述不完全枚举,可见如果要完整学习完毕,还是需要花费大量的时间与精力。经过一些大数据行业前辈以及自己的理解,接下来我会从这几个框架入手:

  • Hadoop
  • Flink
  • HBase
  • Hive
  • Kafka

而 Hadoop 本身又是很多框架的基础,我们就从 Hadoop 开始吧。

你可能感兴趣的:(从 Hadoop 开始)