大数据分布式处理系统平台Hadoop的主要特征

Hadoop是Apache软件基金会下一个开源分布式处理系统平台,主要为用用户提供系统底层细节透明的分布式基础架构。该平台以HDFS和MapReduce为核心。HDFS是一个分布式文件系统,他具有高容错性、高伸缩性、高效性等优点让用户可以将Hadoop部署在低廉的硬件上,形成分布式系统。MapReduce是一个运算程序的编程框架能将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。分布式结构设计,下图Hadoop 系统分布式存储与并行计算结构示意图,Hadoop系统结构主要有两方面分别是系统的分布式存储和并行计算结构。

大数据分布式处理系统平台Hadoop的主要特征_第1张图片

集群的主控节点负责整个集群的管理、控制,保证其正常运行并完成节点中数据存储和计算任务。在大数据环境下,为了服务和实现本地化计算,任何一个从节点都有数据存储节点、数据计算节点的功能。以此提高系统的处理性能。为了能及时检测和发现集群中某个从节点发生故障失效,主控节点采用心跳机制设置周期巡检每一个从节点,如果节点不能及时反馈信息,系统将会判定这个节点失效。

从软件系统角度看,分布式存储、并行计算是Hadoop系统的两个部分,分布式存储中Hadoop 系统提供一个大规模可扩展的分布式数据存储功能,是在本地文件系统的每个从节点基础上,实现一个逻辑上整体化的分布式文件系统HDFS,负责控制和管理整个分布式文件系统的主控节点称为NameNode,而每个具体负责数据存储的从节点称为 DataNode。

MapReduce并行计算框架,是Hadoop为了对存储在HDFS中大规模数据进行一定的规则下的处理。该框架能有效管理和调度整个集群中的节点来完成并行化程序的执行和数据处理,并能让每个从节点尽可能对本地节点上的数据进行本地化计算,其中,负责管理和调度整个集群进行计算的主控节点称为 JobTracker,而每个负责具体的数据计算的从节点称为TaskTracker。

JobTracker可以与负责管理数据存储的主控节点NameNode 设置在物理的主控服务器上,也可以设置在其他服务器上,如果遇到规模大、负载过重的情况下最好是分开设置。但数据存储节点 DataNode 与计算节点 TaskTracker 会配对地设置在同一个物理的从节点服务器上。Hadoop 系统中的其他子系统,例如 HBase,将建立在 HDFS 分布式文件系统和 MapReduce 并行化计算框架之上。

梯度科技基于开源Hadoop自研了TDHadoop,解决开源引擎版本不兼容的问题,支持主流数据源,具有良好的可扩展性和适配性。能够对大数据生态组件进行统一管理及封装,产品本身是松耦合设计,支持集成其他业界主流组件环境,比如CDH、星环等。

你可能感兴趣的:(云原生技术,hadoop,大数据,hdfs,云计算,云原生)