HDFS

1.hdfs的特征
1.1大规模数据分布存储能力
1.2高并发访问能力
1.3强大的容错能力
1.4顺序式文件访问
1.5简单的一致性模型
1.6数据块存储方式

2.hdfs的基本组成结构与访问过程

HDFS_第1张图片
450479979681767617.jpg

hdfs的基本文件访问过程:
2.1首先,用户的应用程序通过hdfs的客户端程序将文件名发送至NameNode。
2.2NameNode接收到文件名之后,在hdfs的目录中检索文件名对应的数据块,再根据数据块的信息找到保存数据块的DataNode地址,将这些地址回送到客户端。
2.3客户端接收到这些DataNode地址后,与这些DataNode并行地进行数据传输操作,同时将操作结果的相关日志(比如是否成功,修改后的数据块信息等)提交到NameNode。

数据块 命名空间 通信协议 客户端

3.hdfs可靠性设计

HDFS_第2张图片
39013873837436241.jpg

安全模式、SecondaryNameNode、心跳包和副本重新创建、数据一致性(数据校验)、租约、回滚

4.hdfs文件存储组织和读写

4.1文件数据的存储组织
1.NameNode的目录结构
2.DataNode的目录结构
3.CheckPointNode

5.数据的读写过程
1.读取

HDFS_第3张图片

2.写入

HDFS_第4张图片
273686007260174005.jpg

6.hdfs文件操作系统操作命令

hdfs文件操作命令

查看文件:hadoop dfs -put Downloads/train.csv hdfs://localhost:9000/user/hadoop
hadoop dfs -cat hdfs://localhost:9000/user/hadoop/train.csv

改变文件所属用户组:chgrp
改变文件权限:chmod
改变用户的所属用户:chown
上传到hdfs:put
下载到本地:get
统计目录下目录数、文件数、字节数:count
hadoop dfs -count hdfs://localhost:9000/user/hadoop
结果:
3 11 87933 hdfs://localhost:9000/user/hadoop

将文件拷贝到目标路径
hadoop dfs -cp hdfs://localhost:9000/user/hadoop/output hdfs://localhost:9000/user/hadoop/input

显示目录下文件及大小
hadoop dfs -du /user/hadoop/input
累加大小:hadoop dfs -du -s /user/hadoop/input
易于阅读:hadoop dfs -du -h /user/hadoop/input

清空回收站
hadoop dfs -expunge

将文件拷贝到本地
hadoop dfs -get /user/hadoop/input/output/_SUCCESS /home/hadoop

将文件夹合并到本地文件夹下
hadoop dfs -get /user/hadoop/input/output/ /home/hadoop/merge_test

返回文件状态
hadoop dfs -ls

返回递归的文件状态
hadoop dfs -lsr

创建文件夹
hadoop dfs -mkdir /user/hadoop/hdfs

上传或下载后删除源文件
moveFromLocal
moveToLocal

移动数据
mv(不可跨文件系统)

put
上传,可以从标准输入中读取,用-表示本地文件。
hadoop dfs -put - /user/hadoop/hdfs/a.txt

rm、rmr
删除文件

setrep
更改副本数

stat
返回对应路径的状态信息
hadoop dfs -stat /user/hadoop/hdfs

tail
在标准输出中显示文件末尾1KB的数据
hadoop dfs -tail /user/hadoop/input/hdfs-site.xml

test
判断文件信息
hadoop dfs -test -e[-z或-d]

text
将文本文件或某些格式的非文本文件通过文本格式输出

touchz
创建一个大小为0的文件
hadoop dfs -touch

hdfs高级功能

archive(存在问题)
hadoop archive -archiveName hdfs.har -p /user/hadoop/input /outputdir

balancer
hadoop balancer [-threshold ]

distcp2

dfsadmin

6.hdfs实例
找出目录下所有包含hadoop文字的行,输入到本地文本中。

import java.util.Scanner;
import java.io.IOException;
import java.io.File;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;

public class resultFilter {
    public static void main(String[] args) throws IOException {
        // TODO Auto-generated method stub
        Configuration conf=new Configuration();
        FileSystem hdfs=FileSystem.get(conf);
        FileSystem local=FileSystem.getLocal(conf);
        System.out.println(args.length);
        Path inputDir,localFile;
        FileStatus[] inputFiles;
        FSDataOutputStream out=null;
        FSDataInputStream in=null;
        Scanner scan;
        String str;
        byte[] buf;
        int singleFileLines;
        int numLines,numFiles,i;
        if(args.length!=4){
            System.err.println("usage resultFilter "+"");
            return;
        }
        inputDir=new Path(args[0]);
        singleFileLines=Integer.parseInt(args[3]);
        try{
            inputFiles=hdfs.listStatus(inputDir);
            numLines=0;
            numFiles=1;
            localFile=new Path(args[1]);
            if(local.exists(localFile))
                local.delete(localFile,true);
            for(i=0;i

你可能感兴趣的:(HDFS)