01-黑马程序员大数据开发

一.  Hadoop概述

1. 什么是大数据

  • 狭义上:对海量数据进行处理的软件技术体系
  • 广义上:数字化、信息化时代的基础支撑,以数据为生活赋

2. 大数据的核心工作:

  • 存储:妥善保存海量待处理数据;Apache KUDU、云平台存储:阿里云OSS、UCloud的US3、AWS的S3、金山云的KS3等等
  • 计算:完成海量数据的价值挖掘;Apache Hadoop - MapReduce;ApacheHive是一款以SQL为要开发语言的分布式计算框架;Apache Spark;ApacheFlink
  • 传输:协助各个环节的数据传输;Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作;Apache PULSAR; Apache Flume是一款流失数据采集工具;Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输。

3.  Hadoop是Apache软件基金会下的顶级开源项目,用以提供:

  • 分布式数据存储
  • 分布式数据计算
  • 分布式资源调度

为一体的整体解决方案。是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。Hadoop是开源的技术框架,提供分布式存储、计算、资源调度的解决方案。个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

4. Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
        HDFS组件:HDFS是Hadoop内的分布式存储组件,可以构建分布式文件系统用于数据存储
        MapReduce组件:NapReduce是Hadoop内分布式计算组件,提供编程接口供用户开发分布式计算程序
        YARN组件:YARN是Hadoop内分布式资源调度组件。 可供用户整体调度大规模集群的资源使用。

二.  HDFS组件

2.1 为什么需要分布式存储

  • 数据量太大,单机存储能力有上限,需要靠数量来解决问题
  • 数量的提升带来的是网络传输、磁密读写(多倍的网络传输效率、多倍的磁盘写入效率)、CPU、内存等各方面的综合提升。分布式组合在一起可以达到1+1>2的效果

2.2 分布式的基础架构分析

1.  分布式系统常见的组织形式?大数据体系中,分布式的调度主要有2类架构模式:

  • 去中心化模式:没有明确的中心,众多服务器之间基于特定规则进行同步协调;如区块链
  • 中心化模式:以一个节点(1台服务器)作为中心,去统一调度其他的节点

2. 大数据框架,大多数的基础架构上,都是符合:中心化模式的(一主多从模式,简称主从模式(MasterAndSlaves))
即:有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。在现实生活中很常见:公司企业管理、组织管理、行政管理

3.  Hadoop是哪种模式?
        主从模式(中心化模式)的架构

2.3 HDFS的基础架构

1.  HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一

  • 全称是:Hadoop Distributed File System (Hadoop分布式文件系统)
  • 是Hadoop技术栈内提供的分布式数据存储解决方案
  • 功能:可以在多台服务器上构建存储集群,存储海量的数据

 2.   HDFS中的架构角色有哪些?

  • NameNode:主角色,管理HDFS集群和DataNode角色
  • DataNode:从角色,负责数据的存储
  • SecondaryNameNode:辅助角色,协助NameNode整理元数据

3. HDFS的基础架构

01-黑马程序员大数据开发_第1张图片
2.4 HDFS集群环境部署

2.4.1 VMware虚拟机中的部署

第二章-04-[实操]VMware虚拟机部署HDFS集群_哔哩哔哩_bilibili

01-黑马程序员大数据开发_第2张图片

1. 上传和解压到/export/server,配置软链接
01-黑马程序员大数据开发_第3张图片

hadoop安装包目录结构01-黑马程序员大数据开发_第4张图片

2.  修改4份配置文件,应用自定义设置:找到etc配置文件中的以下4个文件,对其进行修改。01-黑马程序员大数据开发_第5张图片01-黑马程序员大数据开发_第6张图片01-黑马程序员大数据开发_第7张图片01-黑马程序员大数据开发_第8张图片01-黑马程序员大数据开发_第9张图片

四个文件配置完成。继续:分发到node2、node3,并设置环境变量01-黑马程序员大数据开发_第10张图片01-黑马程序员大数据开发_第11张图片01-黑马程序员大数据开发_第12张图片01-黑马程序员大数据开发_第13张图片

4. 创建数据目录,并修改文件权限归属hadoop账户。此时三台机器就配置完成了。还剩下至关重要的一步:授权hadoop用户。也就是将\data和\export文件的root用户变成hadoop用户。01-黑马程序员大数据开发_第14张图片

前置准备工作全部完成,下一步开始去执行相关的命令并启动它。首先格式化整个文件系统
01-黑马程序员大数据开发_第15张图片

5. 启动,并查看WEB UI01-黑马程序员大数据开发_第16张图片

回收站的配置:
        vim core-site.xml
01-黑马程序员大数据开发_第17张图片

集群部署常见问题解决:

1. 千辛万苦部署好了Hadoop的HDFS集群,如果中间出现误操作导致集群出现问题了怎么办?有没有什么方便的办法保存刚刚部署好的状态?
答:在虚拟机里面部署好hadoop之后,记得打(虚拟机)快照,当出现问题之后,可以恢复到快照即可。

打快照之前要将hdfs集群关闭【在hadoop权限下操作,不能在root权限下】—— 关闭整个服务器—— 退回root账户 —— init 0 关机(node1、node2、node3都关机) —— 打快照。

  • 是否遗漏了前置准备章节的相关操作?
    包括服务器的创建、SSH免密、Hadoop用户的创建、防火墙的关闭、固定IP主机名映射、JDK部署等。
  • 是否遗漏的将文件夹(Hadoop安装文件夹、/data数据文件夹)chown授权到hadoop用户这一操作。
    从root授权到hadoop用户,将导致hadoop用户没有权限,此时集群无法启动成功。 
  • 是否遗忘了格式化hadoop这一步 (hadoop namenode -format)
  • 是否是以root用户格式化的hadoop。
    此时再以hadoop用户去启动集群时会遇到没有权限的问题。
  • 是否以root启动过hadoop,后续以hadoop用户启动出错。
    只要以root操作过一次,那么相关的一些目录权限都归root了,后续再以hadoop启动,就会没有权限。
  • 是否确认workers文件内,配置了node1、node2、node3三个节点
    如果没有配置三个节点,后续在执行start dfs.sh这个脚本文件启动脚本文件时,只有node1启动了,node2和node3没有反应。
  • 是否在/etc /profile内配置了HADOOP_ HOME环境变量,并将$HADOOP_HOME/bin和$HADOOP_HOME/sbin加入PATH变量
    如果没有配置,后续在执行start dfs.sh脚本或stop dfs.sh脚本时,会出现“命令不存在”;或者hadoop namenode -format时,也会出现hadoop命令不存在,因为hadoop命令来自bin文件夹相关脚本,start 来自sbin文件夹中的相关脚本。
  • 是否遗忘了软链接,但环境变量的配置的HADOOP_HOME却是:/export/server/hadoop
    环境配置时用的是简写hadoop,如果没有软链接,就会出现问题
  • 是否确认配置文件内容的准确(一个字符都不错),并确保三台机器的配置文件都OK。
详细细节版:第二章-06-[了解]集群部署常见问题-2_哔哩哔哩_bilibili

常见出错点:权限未正确设置、配置文件错误、未格式化。要细心,查日志看出错原因。

2.4.2 云服务器中的部署:阿里云、Ucloud两种,操作步骤一样。

第二章-07-[可选]云服务器上部署hdfs集群_哔哩哔哩_bilibili

1. 云服务器如何保存服务器状态、或者说出错了怎么快速恢复状态呢?

  • 云服务器快照服务(可能收费,不推荐)
  • 打包配置好的Hadoop安装包留存(推荐)

2.5 HDFS的Shell操作

2.5.1 HDFS相关进程的启停管理命令

1. Hadoop HDFS组件内置了HDFS集群的一键启停脚本。

  • $HADOOP_HOME/sbin/ start-dfs.sh ,一键启动HDF
  • $HADOOP_HOME/sbin/stop-dfs.sh ,一键关闭HD

2. 除了一键启停外,也可以单独控制进程的启停。

  • $HADOOP_HOME/sbin/hadoop-daemon.sh,此脚本可以单独控制所在机器(node1 or node2)的进程的启停;
  • $HADOOP_HOME/bin/hdfs,此程序也可以用以单独控制所在机器的进程的启停
hadoop -daemon.sh(start|status|stop)(namenode|secondarynamenode|datanode);
hdfs --daemon(start|status|stop)(namenode|secondarynamenode|datanode)
2.5.2 HDFS文件系统的基础操作命令

1.  HDFS作为分布式存储的文件系统,有其对数据的路径表达方式
•   HDFS同Linux系统一样,均是以/作为根目录的组织形式,例如:
        Linux:         /usr/local/hello.txt,如路径:file:///usr/local/hello.txt
        HDFS:        /usr/local/hello.txt,如路径:hdfs://node1:8020/usr/local/hello.txt
那么怎么区分命令操作的事Linux还是HDFS? 可以通过协议头file:// 或者hdfs://namenode:port(可以省略,需要提供LinuX路径的参数,会自动识别为file://,需要提供HDFS路径的也会自动识别)。

2. 关于HDFS文件系统的操作命令,Hadoop提供了2套命令体系:用法完全一致
​​​​​​​        • 老版本:hadoop fs [generic options]
        • 新版本:hdfs dfs [generic options]

# 1. 创建文件夹
# hadoop fs -mkdir [-p]  ...
# hdfs dfs -mkdir [-p]  ...
hadoop fs -mkdir -p /itcast/bigdata  #创建在hadoop文件系统里
hdfs dfs -ls /            #查看hadoop文件系统根目录下的文件:有itcast文件夹
hdfs dfs -ls /itcast      #查看hadoop文件系统根目录下的文件:有bigdata文件夹
# 2. 查看置顶目录下内容
# hdfs dfs -ls [-h] [-R]  ...  

# 3. 从本地Linux向HDFS上传文件,到HDFS指定目录下
# pdfs dfs -put [-f] [-p]  ...  
# -f:强制覆盖目标文件;-p:保留文件信息、访问和修改时间、所有权和权限; localscr:Linux本地的文件; dst:上传到HDFS的位置
vim test.txt #在Linux中新建一个文件
vim test2.txt
hadoop fs -put file:///home/hadoop/test.txt hdfs://node1:8020/  #上传到hdfs文件体统的根目录
hdfs dfs -put /home/hadoop/test2.txt /

# 4.查看HDFS文件内容
# hdfs dfs -cat  ... 
hadoop fs -cat /test.txt
# hdfs dfs -cat  | more 
# 读取大文件时,防止可以使用 管道符配合more 进行翻页查看。
hadoop fs -cat /test2.txt | more

# 5.从HDFS中向Linux中下载文件
# hdfs dfs -get [-f] [-p]  ... 
hdfs dfs -get /test.txt .  #.代表Linux的当前目录,将test文件下载到Linux当前目录
hdfs dfs -get -f /test.txt .

# 6. 拷贝HDFS文件/改名
# hdfs dfs -cp [-f]  ...  #两个路径都是HDFS文件系统中的路径
# 是被复制的路径。是目标路径
hdfs dfs -cp /test.txt /home/
hdfs dfs -cp /test.txt /home/abc.txt

# 7. 追加数据到HDFS文件中:HDFS文件系统中文件的修改仅支持 删除文件 和 追加内容 两种,不能修改其中的内容。
vim append.txt  #在Linux本地创建文件append.txt
hadoop fs -appendToFile append.txt /test.txt  #将本地的文件追加到HDFS文件系统的test文件末尾
 
# 8. HDFS数据移动操作/重命名
hadoop fs -mv /test.txt /itheima/  #将test文件移动到itheima文件夹下
hadoop fs -mv /test2.txt /itheima/abc.txt. #完成移动文件的同时对文件进行改名

# 9. HDFS数据删除操作:删除文件-rm or文件夹-rm -r
# hadoop fs -rm -r [-skipTrash] URI [URI ...]
# -skipTrash 跳过回收站,直接删除;回收站默认是关闭的,如果要开启需要在core-site.xml内配置(在那个机器里配置,那个机器即时生效,不需要重启集群)
hadoop fs -rm -r /home
hadoop fs -rm /test.txt

 命令官方指导文档
Hadoop文档

除了写命令,也可以在HDFS WEBUI网页端上进行操作(有些操作没有权限,但是可以授予权限,进行以下配置)。01-黑马程序员大数据开发_第18张图片

mkdir 创建文件夹
ls、cat 列出内容、查看内容

cp、mv、rm

复制、移动、删除
put、get 上传、下载
appendToFile 向文件追加内容

Permission denied:遇到这种体型,其实是因为在HDFS之上没有权限。在整个HDFS文件系统中,也是有文件的权限控制的,它的逻辑和Linux文件系统完全一致。既然有权限控制,那么就存在超级用户,HDFS与Linux之间的不同之处在于超级用户的不同,Linux的超级用户是root,HDFS文件系统的超级用户是(也就是课程的hadoop用户)。因此,如果在遇到这个问题,大概率是因为操作HDFS时没有以Hadoop用户执行,而是以root用户执行。

# 在HDFS中,可以使用和Linux一样的授权语句,即:chown和chmod
# 修改所属用户和组:
hadoop fs -chown [-R] root:root /xxx.txt
hdfs dfs -chown [-R] root:root /xxx.txt
hdfs dfs -chown root:supergroup /test.txt
# 修改权限
hadoop fs -chmod [-R] 777 /xxx.txt
hdfs dfs -chmod [-R] 777 /xxx.txt
hdfs dfs -chmod -R 777 /data
# -R:对子目录也会生效,将文件xxx.txt的权限改成777
# 课后练习
hadoop fs -mkdir -p /itcast/itheima
hadoop fs -put /etc/hosts /itcast/itheima/
hadoop fs -ls /itcast/itheima
hadoop fs -cat /itcast/itheima/hosts

vim append.txt  #(要追加的内容:itheima)
hadoop fs -appendToFile append.txt /itcast/itheima/hosts
hadoop fs -cat /itcast/itheima/hosts
hadoop fs -get /itcast/itheima/hosts .

hadoop fs -mkdir /itcast/bigdata
hadoop fs -cp /itcast/itheima/hosts /itcast/bigdata/
hadoop fs -ls /itcast/bigdata
hadoop fs -cat /itcast/bigdata/hosts

hadoop fs -mv /itcast/itheima/hosts /itcast/itheima/myhost
hodoop fs -ls /itcast/itheima/
hadoop fs -rm -r /itcast
2.5.3 HDFS客户端 - Jetbrians产品插件

了解在JetBrains产品中(IntelliJ IDEA、PyCharm、DataGrip)安装使用Big Data Tools插件,去对HDFS的文件系统进行相关的操作。以DataGrip为例。
设置 -> Plugins(插件) -> Marketplace(市场)-> 搜索Big Data Tools,点击Install安装即可。完整配置过程见视频:windows

第二章-11-[实操]HDFS客户端-Big Data Tools插件_哔哩哔哩_bilibili


2.5.4 HDFS客户端-NFS

目标:使用NFS网关功能将HDFS文件系统挂载到我们windows本地系统中。

将HDFS挂载到类似于C盘D盘的位置。01-黑马程序员大数据开发_第19张图片

配置NFS:
1. core-site.xml,新增配置项;hdfs-site.xml,新增配置项;
2. 开启portmap、nfs3两个进程。
01-黑马程序员大数据开发_第20张图片

01-黑马程序员大数据开发_第21张图片

课程设置的允许192.168.88.1以rw链接(这个IP是电脑虚拟网卡VMnet8的IP,连接虚拟机就走这个网卡) 

cd /export/server/hadoop/etc/hadoop/
vim core-site.xml
# 配置相应内容
vim hdfs-site.xml

配置好这些功能之后,启用NFS功能:

# 1.将配置好的core-site.xml和hdfs-site.xml分发到node2和node3
scp core-site.xml hdfs-site.xml node2:'pwd'/
scp core-site.xml hdfs-site.xml node3:'pwd'/
# 2.重启HadoopHDFS集群(先stop-dfs.sh,后start-afs.sh)
stop-dfs.sh

# 3.停止系统的NFS相关进程(hadoop没有权限,需要退回root用户)
#    a.systemctl stop nfs;systemctl disable nfs关闭系统nfs并关闭其开机自启
#    b.yum remove-y rpcbind卸载系统自带rpcbind
exit
systemctl stop nfs
systemctl disable nfs
yum remove-y rpcbind(我们需要用hdfs系统自带的portmap)
# 4.启动portmap(HDFS自带的rpcbind功能)(必须以root执行):
hdfs--daemon start portmap
# 5.启动nfs(HDFS自带的nfs功能)(必须以hadoop用户执行):
hdfs--daemon start nfs3

检查NFS是否正常:
 1. 在node-2和node-3中执行:rpcinfo -p node1,正常输出有mountd和nfs出现。
2. 执行 showmount -e node1,可以看到 /192.168.88.1

在windows挂载HDFS文件系统
第二章-12-[可选]HDFS客户端-NFS挂载到Windows本地_哔哩哔哩_bilibili

2.6 HDFS的存储原理 

2.6.1 存储原理  

目标:了解数据是如何在HDFS中进行存储的;了解数据在HDFS中是如何保证安全的
        1. 设定统一的管理单位——block块:是HDFS最小存储单位,每个256MB(可以修改)。
        2. 通过多个副本(备份)解决,每个副本都复制到其他服务器1份,安全性极大提高

总结:数据存入HDFS是分布式存储,即每一个服务器节点,负责数据的一部分;数据在HDFS上是划分为一个个Block块进行存储;在HDFS上,数据Block块都可以有多个副本,副本也会分发到其他服务器上,提高数据安全性。

2.6.2 fsck命令

目标:了解如何配置HDFS数据块的副本数量;掌握fsck命令查看文件系统状态及验证文件的副本数量
方法1:  默认是3副本数01-黑马程序员大数据开发_第22张图片

方法2:  除了配置文件外,我们还可以在上传文件的时候,临时决定被上传文件以多少个副本存储。只针对本次生效
方法3:  对于已经存在HDFS的文件,修改dis.replication屆性不会生效,如果要修政已存在文件可以通过命令

使用fsck命令去检查文件的副本数、blocks数、位置:

hadoop fs -D dfs.replication=2 -put test.txt /tmp/  #方法2
hadoop fs -setrep [-R] 2 path    #方法3
# hdfs fsck path [-files [-blocks [-locations]]]   #检查副本数
hdfs fsck /test.txt -files -blocks -locations
2.6.3 NameNode元数据

目标:掌握NameNode是如何管理Block块的
        edits文件:是一个流水账文件,记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block
        fsimage文件:將全部的edits文件,合并为最终结果,即可得到一个FSimage文件

NameNode基于edits和FSimage的配合,完成整个文件系统文件的管理(维护整个文件系统元数据)

  • edits记录每次操作
  • fsimage,记录某一个时间节点的当前文件系统全部文件的状态和信息

        1.每次对HDFS的操作,均被edits文件记录
        2.edits达到大小上线后,开启新的edits记录
        3. 定期进行edits的合并操作(元数据合并参数可以修改)
                a. 如当前没有fsimage文件,将全部edits合并为第一个fsimase
                b. 如当前己存在fsimage文件,将全部edits和己存在的fsimage进行合并,形成新的fsimage

⚠️:NameNode是写edits文件,合并操作是又SecondaryNameNode做的,合并完成再提供给NameNode文件使用。

​​​​​​​2.6.4 HDFS数据的读写流程

目标:理解客户端在HDFS上读、写数据的流程
写入流程:
01-黑马程序员大数据开发_第23张图片

1. NameNode不接收数据,不负责数据写入,只负责元数据记录和权限审批
2. 客户端直接向1台DataNode写数据。这个DataNode一般是离客户端最近(网络距离)的那个
3. 数据块副本的复制工作,由DataNode之间自行完成(构成一个PipLine,按顺序复制分发,如图1给2,2给3和4)

读取流程:
01-黑马程序员大数据开发_第24张图片​​​​​​​01-黑马程序员大数据开发_第25张图片

你可能感兴趣的:(大数据开发,大数据)