HDFS(Hadoop Distribute File System)是大数据领域一种非常可靠的存储系统,它以分布式方式存储超大数据量文件,但它并不适合存储大量的小数据量文件。同时HDFS是Hadoop和其他组件的数据存储层,运行在由价格廉价的商用机器组成的集群上的,而价格低廉的机器发生故障的几率比较高,因此HDFS在设计上采取了多种机制,在硬件故障的情况下保障数据的完整性。
总体而言,HDFS要实现以下目标:
Java
语言实现但是,HDFS也有如下局限性:
HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。
用户在使用HDFS时,仍然可以像在普通文件系统中那样,使用文件名去存储和访问文件。
实际上,在系统内部,一个文件会被切分成若干个数据块,这些数据块被分布存储到若干个数据节点上。当客户端需要访问一个文件时,首先把文件名发送给名称节点,名称节点根据文件名找到对应的数据块(一个文件可能包括多个数据块),再根据每个数据块信息找到实际存储在各个数据块的数据节点的位置,并把数据节点位置发送给客户端,最后客户端直接访问这些数据节点获取数据。在整个访问过程中,名称节点并不参与数据的传输。这种设计方式,使得各个文件的数据能够在不同的数据节点上实现并发访问,大大提高了数据访问速度。
1.启动Hadoop的HDFS相关进程
切换到root用户
sudo passwd root
su
切换到/hadoop/sbin路径下:
cd /opt/hadoop/sbin/
打开文件添加内容
输入i 回车,进入插入模式,在该文件末尾,添加内容;
按下esc键,退出编辑;
输入 :wq 回车,保存退出。
vim /opt/hadoop/sbin/start-dfs.sh
vim /opt/hadoop/sbin/stop-dfs.sh
vim /opt/hadoop/sbin/start-yarn.sh
vim /opt/hadoop/sbin/stop-yarn.sh
将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数
#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
还有,start-yarn.sh,stop-yarn.sh顶部也需添加以下:
#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
启动Hadoop的HDFS服务,使用root用户执行如下命令:
./start-dfs.sh
启动 HDFS 守护进程,出现警告信息:
WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.
解决办法:
vim /opt/hadoop/sbin/start-dfs.sh
vim /opt/hadoop/sbin/stop-dfs.sh
#把start-dfs.sh,stop-dfs.sh文件的如下代码:
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
#改为,如下代码:
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
2.查看HDFS进程
启动Java环境
source /etc/profile
输入jps
命令可以查看所有的Java
进程
jps
3.验证HDFS运行状态
在hdfs上创建一个目录,执行如下命令,验证能够创建成功:
hadoop fs -mkdir /myhadoop1
如果创建成功,执行如下命令,可查询hdfs文件系统根目录,将看到/myhadoop1
目录:
hadoop fs -ls /
4.ls
命令
列出hdfs文件系统根目录下的目录和文件,执行命令如下:
hadoop fs -ls /
列出hdfs文件系统所有的目录和文件,执行命令如下:
hadoop fs -ls -R /
1)拷贝文件
将本地文件上传到hdfs上,命令格式如下:
hadoop fs -put <local file> <hdfs file>
其中
的父目录必须存在,否则命令执行失败,例如将/opt/hadoop
的README.txt
文件上传到hdfs文件系统根目录,命令如下:
hadoop fs -put /opt/hadoop/README.txt /
2)拷贝目录
将本地文件夹上传到hdfs的文件夹中,命令格式如下:
hadoop fs -put <local dir> <hdfs dir>
其中
的父目录必须存在,否则命令执行失败。例如将/opt/hadoop/
的log
文件夹上传到hdfs文件系统根目录,命令如下:
hadoop fs -put /opt/hadoop/logs /
3)查看是否拷贝成功
查看上传文件或目录是否成功,执行如下命令:
hadoop fs -ls <hdfs file/hdfs dir>
例如,查看刚刚上传的README.txt
文件和log
目录是否在hdfs根目录下存在,命令如下:
hadoop fs -ls /
1)拷贝文件或目录
将本地文件/文件夹上传到hdfs中,但本地文件/文件夹会被删除,命令格式如下:
hadoop fs -moveFromLocal <local src> <hdfs dst>
例如,执行如下命令,上传本地文件/文件夹至hdfs中:
hadoop fs -moveFromLocal /opt/hadoop/NOTICE.txt /myhadoop1
hadoop fs -moveFromLocal /opt/hadoop/logs /myhadoop1
2)查看是否拷贝成功
查看上传文件或目录是否成功,执行如下命令:
hadoop fs -ls <hdfs file/hdfs dir>
例如,查看刚刚上传的NOTICE.txt
文件和log
目录是否在hdfs文件系统的/myhadoop1
目录下存在,命令如下:
hadoop fs -ls /myhadoop1
1)拷贝文件或目录到本地
将hdfs文件系统中的文件/文件夹下载到本地,命令格式如下:
hadoop fs -get < hdfs file or dir > < local file or dir>
例如,将hdfs文件系统中/myhadoop1
目录下的NOTICE.txt
和logs
分别下载到本地路径/opt/hadoop
目录,执行命令如下:
hadoop fs -get /myhadoop1/NOTICE.txt /opt/hadoop/
hadoop fs -get /myhadoop1/logs /opt/hadoop/
注意:
local file
不能和hdfs file
名字不能相同,否则会提示文件已存在。local
路径要使用该用户文件夹下的路径,否则会出现权限问题2)查看是否成功拷贝到本地
查看本地是否在/opt/hadoop
目录下存在已拷贝完毕的NOTICE
文件或logs
目录,执行如下命令:
cd /opt/hadoop
ls -l
1)删除一个或多个文件
在hdfs文件系统中,删除一个或多个文件,命令格式如下:
hadoop fs -rm <hdfs file> ...
例如,删除hdfs文件系统中根目录下的README.txt
文件,命令如下:
hadoop fs -rm /README.txt
2)删除一个或多个目录
在hdfs文件系统中,删除一个或多个目录,命令格式如下:
hadoop fs -rm -r <hdfs dir> ...
例如,删除hdfs文件系统中根目录下的logs
目录,命令如下:
hadoop fs -rm -r /logs
3)查看是否删除成功
查看刚刚删除的README.txt
文件和log
目录是否在hdfs根目录下存在,命令如下:
hadoop fs -ls /
如果删除成功,将不会看到/logs
和/NOTICE.txt
。
9.mkdir
命令
1)创建一个新目录
使用如下命令,在hdfs文件系统中创建一个目录,该命令只能一级一级的创建目录,如果父目录不存在,则会报错:
hadoop fs -mkdir <hdfs path>
例如,在hdfs文件系统的/myhadoop1
目录下创建test
目录,命令如下:
hadoop fs -mkdir /myhadoop1/test
2)创建一个新目录(-p
选项)
使用如下命令,在hdfs文件系统中创建一个目录,如果父目录不存在,则创建该父目录:
hadoop fs -mkdir -p <hdfs dir> ...
例如,在hdfs文件系统创建/myhadoop1/test
目录,命令如下:
hadoop fs -mkdir -p /myhadoop2/test
3)查询目录
查看刚刚创建的/myhadoop1/test
和/myhadoop2/test
目录是否存在,命令如下:
hadoop fs -ls /
hadoop fs -ls /myhadoop1
hadoop fs -ls /myhadoop2
使用如下命令,在hdfs文件系统上进行文件或目录的拷贝,如果目标文件不存在,则命令执行失败,相当于给文件重命名并保存,源文件还存在:
hadoop fs -cp <hdfs file or dir>... <hdfs dir>
按照下面的步骤,使用cp
命令,将/LICENSE.txt
拷贝到/myhadoop1
目录下:
1) 拷贝一个本地文件到HDFS的根目录下
将本地/opt/hadoop
目录下的LICENSE.txt
文件上传到hdfs文件系统的根目录下,命令如下:
hadoop fs -put /opt/hadoop/LICENSE.txt /
查看hdfs文件系统的根目录下的LICENSE.txt
是否存在,命令如下:
hadoop fs -ls /
2)将此文件拷贝到/myhadoop1
目录下
使用cp
命令,将hdfs文件系统中根目录下的LICENSE.txt
文件拷贝到/myhadoop1
目录下,命令如下:
hadoop fs -cp /LICENSE.txt /myhadoop1
3)查看/myhadoop1
目录
使用如下命令,查看hdfs文件系统的/myhadoop1
目录下是否存在LICENSE.txt
文件:
hadoop fs -ls /myhadoop1
使用如下命令,在hdfs文件系统上进行文件或目录的移动,如果目标文件不存在,则命令执行失败,相当于给文件重命名并保存,源文件不存在;源路径有多个时,目标路径必须为目录,且必须存在:
hadoop fs -mv <hdfs file or dir>... <hdfs dir>
**注意:**跨文件系统的移动(local到hdfs或者反过来)都是不允许的。
按照下面的步骤,使用mv
命令,将/myhadoop1/LICENSE.txt
移动到/myhadoop2
目录下:
1)移动一个 HDFS文件
使用mv
命令,将hdfs文件系统的/myhadoop1
目录下的LICENSE.txt
文件移动到/myhadoop2
目录下,命令如下:
hadoop fs -mv /myhadoop1/LICENSE.txt /myhadoop2
2)查询/myhadoop2
目录
使用如下命令,查看hdfs文件系统的/myhadoop2
目录下是否存在LICENSE.txt
文件:
hadoop fs -ls /myhadoop2
12.count
命令
使用如下命令,统计hdfs对应路径下的目录个数,文件个数,文件总计大小:
hadoop fs -count <hdfs path>
例如,查看/myhadoop1/logs
目录下的目录个数,文件个数,文件总计大小,命令如下:
hadoop fs -count /myhadoop1/logs
du
命令hadoop fs -du <hdsf path>
hadoop fs -du -s
hadoop fs -du -h <hdsf path>
例如,执行如下命令,可以查看hdfs文件系统/myhadoop2
目录下的每个文件夹和文件的大小、所有文件大小的总和:
hadoop fs -du /myhadoop2
hadoop fs -du -s /myhadoop2
hadoop fs -du -h /myhadoop2
hadoop fs -du -s -h /myhadoop2
执行结果说明:
使用如下命令,改变一个文件在hdfs文件系统中的副本个数,数字3表示所设置的副本个数,其中,-R
选项可以对一个目录下的所有目录和文件递归执行改变副本个数的操作:
hadoop fs -setrep -R 3 <hdfs path>
例如,对hdfs文件系统中/myhadoop1
目录下的所有目录和文件递归执行,设置为3个副本,命令如下:
hadoop fs -setrep -R 3 /myhadoop1
15. stat
命令
使用如下命令,查看对应路径的状态信息:
hdoop fs -stat [format] < hdfs path >
其中,[format]
可选参数有:
%b
:文件大小%o
:Block大小%n
:文件名%r
:副本个数%y
:最后一次修改日期和时间 例如,查看hdfs文件系统中/myhadoop2/LICENSE.txt
文件的大小,命令如下:
hadoop fs -stat %b /myhadoop2/LICENSE.txt
该命令主要用于,当管理员发现某些DataNode
保存数据过多,某些DataNode
保存数据相对较少,可以使用如下命令手动启动内部的均衡过程:
hadoop balancer
或
hdfs balancer
dfsadmin
命令 该命令主要用于管理员通过dfsadmin
管理HDFS:
1)使用-help
参数,查看相关的帮助:
hdfs dfsadmin -help
2) 使用-report
参数,查看文件系统的基本数据:
hdfs dfsadmin -report
3) 使用-safemode
参数,操作安全模式:
hdfs dfsadmin -safemode <enter | leave | get | wait>
其中:
enter
:进入安全模式leave
:离开安全模式get
:查看是否开启安全模式wait
:等待离开安全模式例如,进入安全模式,执行命令如下:
hdfs dfsadmin -safemode enter
18 cat
命令
使用cat
命令,查看hdfs文件系统中文本文件的内容,例如,查看根目录下的deom.txt
文件内容:
hadoop fs -cat /demo.txt
hadoop fs -tail -f /demo.txt
当使用hadoop fs -tail -f
命令后,终端会根据文件描述符进行追踪,当文件改名或被删除,追踪停止。终端操作如下:
Ctrl+S
暂停终端,S
表示sleep
Ctrl+Q
,Q
表示quiet
tail
命令,直接使用Ctrl+C
,也可以使用Ctrl+Z
Ctrl+C
和Ctrl+Z
都是中断命令,当他们的作用却不一样的:
Ctrl+C
比较暴力,就是发送Terminal
到当前的程序,比如正在运行一个查找功能,文件正在查找中,使用Ctrl+C
会强制结束当前这个进程Ctrl+Z
则会将当前程序挂起,暂停执行这个程序,比如mysql
终端下,需要跳出来执行其他的文件操作,又不想退出mysql
终端(因为下次还需要输入用户名密码进入,很麻烦),于是可以使用Ctrl+Z
将mysql
挂起,然后进行其他操作,输入fg
回车可以回到mysql
终端,担任也可以挂起很多进程到后台,执行fg <编号>
就能将挂起的进程返回到当前的终端。配合bg
和fg
命令能更方便的进行前后台切换appendToFile
命令将本地文件内容追加到hdfs文件系统中的文本文件里,命令格式如下:
hadoop fs -appendToFile <local file> <hdfs file>
chown
命令chown
命令,修改hdfs文件系统中文件的读、写、执行的权限,命令示例如下:hadoop fs -chown user:group /datawhale
hadoop fs -chmod 777 /datawhale
其中,参数说明如下:
chown
:定义谁拥有文件chmod
:定义可以对该文件做什么https://github.com/datawhalechina/juicy-bigdata