Hadoop解决两个问题

Hadoop解决两个问题
海量数据的存储 -- HDFS

海量数据的分析 -- MapReduce

Hadoop  = The Hadoop projects

和Hadoop相关的一些项目
Common, Avro, MapReduce, HDFS, Pig, Hive, Hbase, ZooKeeper, Sqoop, Oozie

HDFS设计目标
1、Very large files

2、Streaming data access
write-once, read-many-times

3、Commodity hardware

HDFS不适合的情况
1、Low-latency data access

2、Lots of small files

3、Multiple writers, arbitrary file modifications
在Hadoop中,一个文件被划分成大小固定的多个文件块,分布的存储在集群中的节点中

HDFS架构

Block:一个文件分块,默认64M
NameNode:保存整个文件系统的目录信息,文件信息以及文件相应的分块信息。
DataNode:用于存储Blocks
HDFS的HA策略:NameNode一旦宕机,整个文件系统将无法工作。
如果NameNode中的数据丢失,整个文件系统也就丢失了。
2.x开始,HDFS支持NameNode的active-standy模式



你可能感兴趣的:(Hadoop)