视频jourk--hadoop2.x介绍与安装

一、 hadoop介绍

1.hadoop的由来:(google三篇论文)

  1. (2003)GFS --> HDFS

  2. (2004)MapReduce --> MapReduce

  3. (2006)BigTable --> HBase(Hadoop DataBase)

2.hadoop的著名案例

  1.  Facebook : HiveQL进行数据分析;

  2. 淘宝搜索   :Hive自定义筛选;

  3. eBay         :数据仓库;

  4. Twitter     :Pig高级数据处理,发现可能认识的人;

  5. Amazon   :协同过滤的推荐,及淘宝推荐;

  6. Yahoo      :pig,垃圾邮件的识别过滤及用户特征建模;

  7. 天猫          :hive,推荐系统(广告联盟),少量尝试mahout。6:56

 3.hadoop的特点

  1. 扩容能力(Scalable):可靠的存储和处理PB级数据;

  2. 成本低(Economical):廉价机集群;

  3. 高效率(Efficient):并发;

  4. 可靠行(Reliable):存储多个副本;

4.hadoop核心

视频jourk--hadoop2.x介绍与安装

  1. HDFS 海量存储(通信RPC);

    1. 2.x比1.x的优化:

      1. NameNodeHA:1.x只有一个,2.x有多个;

      2. federation:

    2.  DataNode:有多个块Block,每个块有128M;

    3. NameNode的Metadata记录位置:

      1. FileName:文件名

      2. replicas:副本数

      3. block_ids:block块

      4. id2host:id和主机名关系

    4.  

  2. MapReduce 海量计算:

  3. YARN(Yet Anothor Resource Negotiator):资源调度管理系统;

    视频jourk--hadoop2.x介绍与安装

二、hadoop安装

 视频jourk--hadoop2.x介绍与安装

    1.安装环境:需要6台机器

  • 2台(机器1+机器2--JDK+Hadoop)运行NameNode(HDFS的老大):HA

    • NameNode、DFSZKFailoverController.

    • NameNode、DFSZKFailoverController.

  • 1台(机器3--JDK+Hadoop)运行ResourceManager(YARN的老大);

    • ResourceManager

  • 3台(机器4+机器5+机器6--JDK+Hadoop+Zookeeper)运行DataNode,并安装ZK(奇数个)

    • DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。

    • DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。

    • DataNode、NodeManager(YARN的小弟)、JournalNode(实时数据同步)、QuorumPeerMain(ZK的节点)。

    

  •  Zookeeper(ZK-2181)是大数据协调管理框架,可以进行master选举、负载均衡、分布式锁、配置信息维护等;

     2.集群部署:

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(视频jourk--hadoop2.x介绍与安装)