Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门。本次分享内容让初学者能高效、快捷掌握Hadoop必备知识,大大缩短Hadoop离线阶段学习时间,下面一起开始今天的学习!
Apache Hadoop概述
Apache Hadoop集群搭建
目录
一、文件系统、分布式文件系统
文件系统定义
传统常见的文件系统
数据、元数据
海量数据存储遇到的问题
(1)分布式存储的优点
(2)元数据记录的功能
(3)分块存储好处
(4)副本机制的作用
二、HDFS简介
HDFS简介
HDFS简介
三、HDFS起源发展、设计目标
HDFS起源发展
HDFS设计目标
四、HDFS应用场景
整体概述
( 1)主从架构
(2)分块存储
( 3)副本机制
(4)元数据管理
( 5) namespace
(6)数据块存储
所谓传统常见的文件系统更多指的的单机的文件系统,也就是底层不会横跨多台机器实现。比如windows操作系统上的文件系统、 Linux上的文件系统、 FTP文件系统等等。
这些文件系统的共同特征包括:
1. 带有抽象的目录树结构,树都是从/根目录开始往下蔓延;
2. 树中节点分为两类: 目录和文件;
3. 从根目录开始,节点路径具有唯一性。
指存储的内容本身,比如文件、视频、图片等,这些数据底层最终是存储在磁盘等存储介质上的,一般用户无需关心, 只需要基于目录树进行增删改查即可, 实际针对数据的操作由文件系统完成。
元数据(metadata)又称之为解释性数据,记录数据的数据;
文件系统元数据一般指文件大小、最后修改时间、底层存储位置、属性、所属用户、权限等信息。
传统存储硬件通用性差, 设备投资加上后期维护、 升级扩容的成本非常高。
传统存储方式意味着数据:存储是存储,计算是计算,当需要处理数据的时候把数据移动过来。
程序和数据存储是属于不同的技术厂商实现, 无法有机统一整合在一起。
单节点I/O性能瓶颈无法逾越,难以支撑海量数据的高并发高吞吐场景。
无法实现快速部署和弹性扩展, 动态扩容、缩容成本高,技术实现难度大。
单机纵向扩展: 磁盘不够加磁盘,有上限瓶颈限制
多机横向扩展:机器不够加机器,理论上无限扩展
问题:文件分布在不同机器上不利于寻找
解决:元数据记录下文件及其存储位置信息, 快速定位文件位置
问题:文件过大导致单机存不下、上传下载效率低
解决:文件分块存储在不同机器, 针对块并行操作提高效率
问题:硬件故障难以避免,数据易丢失
解决:不同机器设置备份, 冗余存储, 保障数据安全
HDFS (Hadoop Distributed File System ) , 意为: Hadoop分布式文件系统。
是Apache Hadoop核心组件之一, 作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。
主从架构
分块存储
副本机制
元数据记录
抽象统一的目录树结构(namespace)
HDFS集群是标准的master/slave主从架构集群。
一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成。
Namenode是HDFS主节点, Datanode是HDFS从节点,两种角色各司其职,共同协调完成分布式的文件存储服。
官方架构图中是一主五从模式, 其中五个从角色位于两个机架(Rack)的不同服务器上。
HDFS中的文件在物理上是分块存储(block) 的, 默认大小是128M ( 134217728), 不足128M则本身就是一块。
块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中: dfs.blocksize。
文件的所有block都会有副本。副本系数可以在文件创建的时候指定, 也可以在之后通过命令改变。
副本数由参数dfs.replication控制, 默认值是3,也就是会额外再复制2份, 连同本身总共3份副本。
在HDFS中, Namenode管理的元数据具有两种类型:
文件名称、权限,修改时间,文件大小,复制因子, 数据块大小。
记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。
HDFS支持传统的层次型文件组织结构。用户可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。
Namenode负责维护文件系统的namespace名称空间, 任何对文件系统名称空间或属性的修改都将被Namenode记录下来。
HDFS会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件, 形如: hdfs://namenode:port/dir-
a/dir-b/dir-c/file.data。
文件的各个block的具体存储管理由DataNode节点承担。
每一个block都可以在多个DataNode上存储。