2.大数据基础(下)_1.理解Hadoop生态系统.txt

1.------------------------------------
    Hadoop生态系统中的核心部分,是Hadoop分布式文件系统(HDFS)和MapReduce, 为了满足大数据解决方案的关键需要,这两个组件提供了基本的结构和服务。为了更好地对大数据进行开发与部署,Hadoop生态系统提供了一系列有用的工具和技术。


* 小结:
- 为了对大数据进行开发与部署,Hadoop就好比一个生态系统, 提供了各种工具和技术。
- Hadoop生态系统的核心组件有:Hadoop分布式文件系统(HDFS)和MapReduce.
- Hadoop生态系统包括各种工具和技术,比如YARN,HBase,Hive,Pig,Sqoop,Zppkeeper,Flume和Oozie.
- HDFS是一个分布式文件系统,可对数据进行分发和管理,并保证数据安全。
- HDFS是一个存储与管理文件的实用的强有力的集群方式。
- HDFS只允许你在文件创建时进行一次写入操作,这样就可以在做任意机器 上读取文件的任意一个拷贝,这一特性使得HDFS成为了一个存储大文件的极佳选择。
- HDFS通过元数据对所有的信息块进行追踪。
- HDFS架构使用Datanode和Namenode解决了以下问题:数据安全,复制,可靠性以及冗余。



2.------------------------------------
* Some Special Features of HDFS:
- 数据复制
- 恢复: 这使用客户端应用不必知道所有数据块的位置 
- 支持创建数据工作流(这是MapReduce的一个重要特性)
- 具有再平衡机制(可以根据每个磁盘的使用程度对Datanode进行再平衡,这个机制在集群处于活动状态时运行,在网络流量大时就会停止运行,以避免阻塞)


* 小结:
- HDFS是一个可靠 高带宽,低成本的数据存储集群,可以简化机器间相关联文件的管理
- HDFS使用一个块结构的文件系统,遵循一个主从架构。
- 一个HDFS集群包括一个主服务器Namenode和若干运行于HDFS集群中的"Datanode"
- Namenode管理文件系统的命名空间,并规范客户端向文件的连接
- Datanode通过心跳信息检测并保证与Namenode或其他Datanode的连接。
- 通过Hadoop机架感应过程,当一个机架出错时,数据也不会丢失,数据副本被均匀地存储在HDFS集群中
- HDFS将每个数据块复制到三台机器中,这样在任意一台机器出错时,数据也不会损坏。



--------------------------------------
21:39 2015/8/25

你可能感兴趣的:(大数据工程师学习笔记,大数据,hadoop,生态系统)