Hadoop入门

数据仓库与数据挖掘

  1. 什么是Hadoop
    1. 分布式
    2. 海量数据存储计算

作者: doug cutting

google 三篇论文 --Hadoop 思想之源

MAp-Reduce --> MR
GFS --> HDFS
BigTable --> HBase


缺点

优点
  1. hadoop组成
    1. MapReaduce(计算)
    2. Yarm(资源调度)
    3. HDFS(数据存储)
    4. Common(辅助工具)


      hadoop组成

  1. 重要目录
    (1)bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
    (2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
    (3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
    (4)sbin目录:存放启动或停止Hadoop相关服务的脚本
    (5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

一.架构详解

  1. HDFS
    1. NameNode
    2. DataNode
    3. Secondary NameNode
image.png
  1. YARN
    1.RescorceManager(RM)
    2.ApplicationMaster(AM)
    3.NodeManager(NM)
    4.Container


    image.png

3.MapReaduce

将计算过程分为两个阶段:Map和Reduce
1.Map阶段并行处理输入数据

2.Reduce阶段对Map结果进行汇总


image.png

二.Hadoop运行模式

  • 本地运行模式
  • 伪分布式运行模式
  • 完全分布式运行模式(开发)

三.推荐系统框架

image.png

公司部门

QQ图片20181225170603.png

本地运行模式

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount winput output

你可能感兴趣的:(Hadoop入门)