Hadoop入门简介

1.推荐书籍

基础—《hadoop权威指南》
apache hadoop官网

升级版—《hadoop技术内幕》

2.组件

核心组件:

  1. MapReduce
  2. HDFS

组件:

  1. YARN
  2. HBase
  3. Hive
  4. Pig
  5. Sqoop
  6. Zookeeper
  7. Flume
  8. Oozie

Hadoop入门简介_第1张图片

3.HDFS

  1. 一次写入,多次读取
  2. 主节点(Namenode)—大型文件分割成各个小部分(数据块),主节点知道从节点上的哪个数据块可以组成完整的文件。
  3. 主节点与从节点进行持续的交流,知道从节点的可用性。
  4. 从节点(DataNode)—提供心跳信息,无心跳的时候,卸载此从节点。

HDFS保持正确数据的措施:

  1. 事务日志
  2. 验证校验
  3. 数据块—复制到若干个从节点上
  4. 数据管道—在不同服务器上移动

4.数据块

  1. 本地:一个数据块—一个副本
  2. 第二个副本—另一个机架—防止工作崩溃
  3. 第三个副本—远程相同的机架—不同的服务器
  4. 其余的副本—随机放在远程或者本地的集群中

5.MapReduce

  1. 处理文本解析,处理web日志,读取海量原始数据资源
  2. 在无需分析的时候表现最好

6.YARN

资源协调者—资源管理者和应用管理者

7.HBase

  1. 列式数据库
  2. Hbase和RDBMS重要区别—版本追踪

8.与Hadoop交互的工具

  1. Pig Pig Latin
  2. Sqoop SQL to Hadoop
  3. Zookeeper
  4. Flume
  5. Oozie

你可能感兴趣的:(hadoop)