什么是Hadoop

  • 大数据框架按功能来划分
  • 海量数据存储:
    HDFS、Hive(本质存储数据还是HDFS)、Hbase、ES(ElasticSearch)
  • 海量数据分析
    MapReduce、Spark、SQL

  • 最原始的Hadoop框架

  • 数据存储:HDFS(Hadoop Distributed File System)
  • 数据分析:MapReduce

  • Hadoop的起源

  • Google的三篇论文
    虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的设计论文,奠定了风靡全球的大数据算法的基础!
    Google FS——HDFS
    MapReduce——MapReduce
    BigTable——HBase
    理念:将任务分解然后再多态处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。
  • Hadoop介绍
    大数据绝大数框架都属于Apache顶级项目
    Apache官网
    Hadoop官网

  • 分布式
    相对于集中式而言
    需要多台机器进行协助完成
    元数据:记录数据的数据
    架构(主从架构)

    主节点 Master 老大,管理者
    管理
    从节点 Slave 从属,奴隶,被管理者
    干活

  • Hadoop也是分布式架构

  • HDFS

-主节点:NameNode
决定着数据存储到哪个DataNode上
将存储的文件划分成block块进行存储(128MB/block)
每个block的副本是三个
-从节点:DataNode
存储数据,真正存储数据块的地方(实际存储在机器的硬盘上)

  • MapReduce

-分而治之的思想
-将海量的数据划分为多个部分,每部分睡进行单独的处理,最后将所有的结果进行合并
-map task
单独处理每一部分的数据
-reduce task
合并map task的输出

什么是Hadoop_第1张图片

  • Yarn

-分布式集群资源管理框架,管理者集群的资料(memory,cpu core)
-合理调度分配给各个程序(MapReduce)使用
-主节点:resourceManager
掌管集群中的 资源
接收客户端提交的应用
-从节点:nodeManager
管理当前节点的资源
-总结:Hadoop的安装部署
. 都属于java进程,就是启动JVM进程,运行服务。
. HDFS:存储数据,提供分析的数据
NameNode/DataNode
. Yarn:提供程序运行的资源
ResourceManager/NodeManager

你可能感兴趣的:(大数据)