大数据技术——Hadoop基础认识

大数据技术——Hadoop基础认识

前言

大数据信息技术的发展对生产生活的重要影响主要式通过对大量数据的抽象分析,挖掘其中的信息价值,指导生产或决策


一、Hadoop是什么

Hadoop可以实现大量数据的存储和计算,支持使用简单的编程模型跨计算机集群对大型数据集进行分布式存储和处理。

Hadoop组件

Mapreduce
负责数据存储和读取的hdfs和分任务处理数据
每个文件分片由单独的机器去处理,即Map方法,将各个机器计算的结果汇总并得到最终的结果,即Reduce方法。

NameNode
管理HDFS的名称空间和数据块映射信存储元数据与文件到数据块映射,将文件系统的元数据以文件形式保存在磁盘,其中包括fsimage和edits两个关键文件。

SecondNameNode
将edits的文件定期更新引入到fsimage中

DataNode
配合NameNode工作,读写存储的数据

Slave节点
实际存储数据、执行数据块的读写并汇报存储信息给NameNode

二、Hadoop安装方式

单机模式:Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。
伪分布式模式:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,读取的是 HDFS 中的文件
分布式模式:使用多个节点构成集群环境来运行Hadoop

你可能感兴趣的:(hadoop,linux,大数据)