【大数据处理技术】实验3

一、安装Eclipse

1.下载Eclipse(我使用Xftp传输的,大家可以直接在虚拟机中下载)

下载链接:https://www.eclipse.org/downloads/package

【大数据处理技术】实验3_第1张图片

2.解压Eclipse

【大数据处理技术】实验3_第2张图片

3.桌面显示Eclipse图标

在终端输入:cd /usr/share/applications/

在终端输入:ls

查看有无:eclipse.desktop文件,若没有,在终端输入:cp xxx.desktop eclipse.desktop,有就跳过这一步;命令行必须在进入cd /usr/share/applications/后输入,xxx是文件名,任意找一个存在的文件进行复制

在终端输入:sudo gedit eclipse.desktop,打开eclipse.desktop文件

在打开的eclipse.desktop文件中,进行修改,修改后的内容如下:

[Desktop Entry]

Encoding=UTF-8

Name=Eclipse

Comment=Eclipse

Exec=/usr/local/SoftWare/Eclipse/eclipse/eclipse 

Icon=/usr/local/SoftWare/Eclipse/eclipse/icon.xpm

Terminal=false

StartupNotify=true

Type=Application

Categories=Application;Development;

原文链接:https://blog.csdn.net/weixin_44941350/article/details/122380269

4.配置Eclipse(JDK)

【大数据处理技术】实验3_第3张图片

新建JavaProject

【大数据处理技术】实验3_第4张图片

二、生成文件

1.打开HDFS 

【大数据处理技术】实验3_第5张图片

利用Shell命令与HDFS进行交互

Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。实际上有三种shell命令方式。
1. hadoop fs : 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
2. hadoop dfs : 只能适用于HDFS文件系统
3. hdfs dfs : 只能适用于HDFS文件系统

我们可以在终端输入如下命令,查看fs总共支持了哪些命令

【大数据处理技术】实验3_第6张图片

2.创建目录

3.创建文件

【大数据处理技术】实验3_第7张图片

记得在文件里写入内容(vim)

4.将文件上传到hdfs://localhost:9000/user/liuhao

【大数据处理技术】实验3_第8张图片

三、编写Java代码

(此处使用IDEA编写,因为界面好看^_^)

1.注意导入jar包!

【大数据处理技术】实验3_第9张图片

2.编写Java代码

【大数据处理技术】实验3_第10张图片

import java.io.IOException;

import java.io.PrintStream;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

/**过滤掉文件名满足特定条件的文件 */

class MyPathFilter implements PathFilter {

     String reg = null;

     MyPathFilter(String reg) {

          this.reg = reg;

     }

     public boolean accept(Path path) {

if (!(path.toString().matches(reg)))

return true;

return false;

}

}

/** 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件 */

public class MergeFile {

Path inputPath = null; //待合并的文件所在的目录的路径

Path outputPath = null; //输出文件的路径

public MergeFile(String input, String output) {

this.inputPath = new Path(input);

this.outputPath = new Path(output);

}

public void doMerge() throws IOException {

Configuration conf = new Configuration();

conf.set("fs.defaultFS","hdfs://localhost:9000");

          conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");

FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);

FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);

//下面过滤掉输入目录中后缀为.doc的文件

FileStatus[] sourceStatus = fsSource.listStatus(inputPath,

new MyPathFilter(".*\\.doc"));

FSDataOutputStream fsdos = fsDst.create(outputPath);

PrintStream ps = new PrintStream(System.out);

//下面分别读取过滤之后的每个文件的内容,并输出到同一个文件中

for (FileStatus sta : sourceStatus) {

//下面打印后缀不为.abc的文件的路径、文件大小

System.out.print("路径:" + sta.getPath() + "    文件大小:" + sta.getLen()

+ "   权限:" + sta.getPermission() + "   内容:");

FSDataInputStream fsdis = fsSource.open(sta.getPath());

byte[] data = new byte[1024];

int read = -1;

while ((read = fsdis.read(data)) > 0) {

ps.write(data, 0, read);

fsdos.write(data, 0, read);

}

fsdis.close();

}

ps.close();

fsdos.close();

}

public static void main(String[] args) throws IOException {

MergeFile merge = new MergeFile(

"hdfs://localhost:9000/user/liuhao/",

"hdfs://localhost:9000/user/liuhao/file123.txt");

merge.doMerge();

}

}

【注意:把liuhao改成自己的名字!】

3.运行结果

【大数据处理技术】实验3_第11张图片

你可能感兴趣的:(【作业分享交流】,hadoop)