Hadoop基础积累(hadoop-2.9.2)

备忘录:为查询和总结记录。
记录:NO.223
本例环境:
        操作系统:CentOS-7-x86_64-DVD-1908
        JDK版本:jdk-8u251-linux-x64
        Hadoop版本:hadoop-2.9.2
        远程连接工具:SecureCRT 8.0
官网地址:https://hadoop.apache.org/
官网文档地址:https://hadoop.apache.org/docs
官网下载地址:https://archive.apache.org/dist/hadoop/common/
1.Hadoop
        The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.
        Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2.Hadoop存在
        解决海量存储和海量数据的分析计算。
3.Google大数据3大篇论文
        GFS: The Google File System.
        MapReduce: MapReduce_Simplified Data Processing on Large Clusters.
        BigTable: Bigtable_A Distributed Storage System for Structured Data.
4.Hadoop发行版本
        Apache Hadoop:  https://hadoop.apache.org/
        Cloudera Hadoop,简称CDH:  https://www.cloudera.com/
        2018年10月,均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。
5.Hadoop1.x、Hadoop2.x、Hadoop3.x的Modules区别
        Hadoop1.x:
        Hadoop Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)。
        Hadoop2.x:
        Hadoop Common(辅助工具)、HDFS(数据存储)、YARN(资源调度)、MapReduce(计算)。
        Hadoop3.x:
        Hadoop Common(辅助工具)、HDFS(数据存储)、YARN(资源调度)、MapReduce(计算)、Hadoop Ozone(对象存储)。
        名词:
        Hadoop Common: The common utilities that support the other Hadoop modules.
        HDFS(Hadoop Distributed File System):A distributed file system that provides high-throughput access to application data.
        Hadoop YARN:A framework for job scheduling and cluster resource management.
        Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
        Hadoop Ozone: An object store for Hadoop.(Hadoop3.x)
6.HDFS基础架构
        NameNode:存储文件的元文件。
        DataNode:在本地文件系统存储文件块数据,以及数据的校验和。
        Secondary NameNode:监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。
7.YARN基础架构
        ResourceManager: 处理客户端请求、监控NodeManager、启动和监控ApplicationMaster、资源分配与调度。
        NodeManager:管理单个节点上资源、处理ResourceManager发送来的命令、处理ApplicationMaster发送来的命令。
        ApplicationMaster:负责数据切分、为应用程序申请资源并分配内部任务、任务的监控与容错。
        Container: YARN中的资源抽象 ,封装某个节点的多维资源调度。有点类似Docker容器一样。
8.MapReduce基础架构
        计算阶段:
        Map阶段:并行处理输入数据。即必须有数据输入。
        Reduce阶段:对Map阶段结果进行汇总,并输出结果。即有结果输出。
......
以上,感谢。

你可能感兴趣的:(Hadoop)