编程调试环境:window eclipse
hadoop运行环境:linux(vmware)
hadoop版本:1.2.1
hadoop编程涉及两个方面,一是hdfs分布式文件存储程序、一是mapreduce分布式数据处理程序。
因为习惯在window下使用eclipse开发程序,但是hadoop的程序需要运行在hadoop环境中,所以希望能够在window下eclipse编程并能够直接在eclipse执行hadoop程序。
一、hdfs程序
步骤一、搭建hadoop开发环境,导入hadoop依赖包
hadoop加载的配置文件主要包括:core-default.xml/core-site.xml、hdfs-default.xml/hdfs-site.xml、mapred-default.xml/mapred-site.xml,其中*-site.xml文件为用户修改文件,默认情况下使用*-site.xml的配置信息覆盖default配置项,因此需要修改site文件。
步骤二、创建或修改配置文件并保存到source目录下,如src目录下
在创建hdfs程序时只需要修改core-site.xml文件即可。
fs.default.name
hdfs://8.8.8.7:9000 真正运行hadoop程序的服务器和端口。
步骤三、修改hadoop程序监听服务地址,如8.8.8.7:9000
在hadoop运行环境中做上述相同的修改,启动hadoop后可以通过netstat -an|grep 9000命令在linux查看监听。理论上监听0.0.0.0:9000应该没问题,没有测试
步骤四、编写hadoop的hdfs程序
package com.ejtoo;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URI;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hdfs.DistributedFileSystem;
import org.apache.hadoop.hdfs.protocol.DatanodeInfo;
public class Hdfstest {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
// getNodeinfo();
createFile();
// findFile();
}
public static void createFile()
{
String srcFile = "jjjj.txt";
String destFile = "test/jjj.txt";//如果没有配置上述*site.xml文件的fs.default.name则使用hdfs://8.8.8.7:9000/user/hadoop/test/jjj.txt也可以
Configuration conf = new Configuration();
try {
FileSystem fs = DistributedFileSystem.get(URI.create(destFile), conf);
//System.out.println(fs.mkdirs(new Path(destFile)));
FSDataOutputStream fos = fs.create(new Path(destFile), true);
InputStream is = new FileInputStream(srcFile);
byte[] buf = new byte[1024];
int len = 0;
while((len = is.read(buf)) != -1)
{
fos.write(buf,0,len);
}
is.close();
fos.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
public static void getNodeinfo()
{
Configuration conf = new Configuration();
try {
DistributedFileSystem fs = (DistributedFileSystem) DistributedFileSystem.get(URI.create("hdfs://127.0.0.1:9100"),conf);
DatanodeInfo[] dInfos = fs.getDataNodeStats();
for(DatanodeInfo info : dInfos)
{
System.out.println("DataNode_"+info.getHost()+"_"+info.getHostName());
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
public static void findFile()
{
Configuration conf = new Configuration();
try {
DistributedFileSystem dfs = (DistributedFileSystem)DistributedFileSystem.get(URI.create("hdfs://127.0.0.1:9100"),conf);
Path file = new Path("/mytest");
FileStatus fStatus = dfs.getFileStatus(file);
BlockLocation[] bls = dfs.getFileBlockLocations(fStatus, 0, 1024);
for(BlockLocation bl : bls)
{
System.out.println(bl.getHosts()[0]);
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}