gaowenhui2008

Hadoop-0.20.0源代码分析（03）

在Hadoop框架源代码org.apache.hadoop.fs包中，都是关于Hadoop文件系统实现的相关类，主要包括文件系统模型的建立，及其在该文件系统定义、实现基本的文件操作。例如给出文件系统抽象，对文件系统上存储的文件执行基本操作进行抽象，等等。

在该包中，类的继承关系如下所示：

[java] view plain copy

◦java.lang.Object
◦org.apache.hadoop.fs.BlockLocation (implements org.apache.hadoop.io.Writable)
◦org.apache.hadoop.conf.Configured (implements org.apache.hadoop.conf.Configurable)
◦org.apache.hadoop.fs.FileSystem (implements java.io.Closeable)
◦org.apache.hadoop.fs.FilterFileSystem
◦org.apache.hadoop.fs.ChecksumFileSystem
◦org.apache.hadoop.fs.InMemoryFileSystem
◦org.apache.hadoop.fs.LocalFileSystem
◦org.apache.hadoop.fs.HarFileSystem
◦org.apache.hadoop.fs.RawLocalFileSystem
◦org.apache.hadoop.fs.FsShell (implements org.apache.hadoop.util.Tool)
◦org.apache.hadoop.fs.Trash
◦org.apache.hadoop.fs.ContentSummary (implements org.apache.hadoop.io.Writable)
◦org.apache.hadoop.fs.FileChecksum (implements org.apache.hadoop.io.Writable)
◦org.apache.hadoop.fs.MD5MD5CRC32FileChecksum
◦org.apache.hadoop.fs.FileStatus (implements java.lang.Comparable<T>, org.apache.hadoop.io.Writable)
◦org.apache.hadoop.fs.FileSystem.Statistics
◦org.apache.hadoop.fs.FileUtil
◦org.apache.hadoop.fs.FileUtil.HardLink
◦org.apache.hadoop.fs.FsUrlStreamHandlerFactory (implements java.net.URLStreamHandlerFactory)
◦java.io.InputStream (implements java.io.Closeable)
◦java.io.FilterInputStream
◦java.io.BufferedInputStream
◦org.apache.hadoop.fs.BufferedFSInputStream (implements org.apache.hadoop.fs.PositionedReadable, org.apache.hadoop.fs.Seekable)
◦java.io.DataInputStream (implements java.io.DataInput)
◦org.apache.hadoop.fs.FSDataInputStream (implements org.apache.hadoop.fs.PositionedReadable, org.apache.hadoop.fs.Seekable)
◦org.apache.hadoop.fs.FSInputStream (implements org.apache.hadoop.fs.PositionedReadable, org.apache.hadoop.fs.Seekable)
◦org.apache.hadoop.fs.FSInputChecker
◦org.apache.hadoop.fs.LocalDirAllocator
◦java.io.OutputStream (implements java.io.Closeable, java.io.Flushable)
◦java.io.FilterOutputStream
◦java.io.DataOutputStream (implements java.io.DataOutput)
◦org.apache.hadoop.fs.FSDataOutputStream (implements org.apache.hadoop.fs.Syncable)
◦org.apache.hadoop.fs.FSOutputSummer
◦org.apache.hadoop.fs.Path (implements java.lang.Comparable<T>)
◦org.apache.hadoop.util.Shell
◦org.apache.hadoop.fs.DF
◦org.apache.hadoop.fs.DU
◦java.lang.Throwable (implements java.io.Serializable)
◦java.lang.Error
◦org.apache.hadoop.fs.FSError
◦java.lang.Exception
◦java.io.IOException
◦org.apache.hadoop.fs.ChecksumException

首先对文件系统最顶层抽象类FileSystem进行源代码的阅读分析。

FileSystem抽象类继承自org.apache.hadoop.conf.Configured配置基类，实现了java.io.Closeable接口，通过这一点，可以了解到，FileSystem抽象类作为一个文件系统的抽象定义，它是可配置的，也就是说可以通过指定的配置文件中的一些配置项来描述一个文件系统，实际上，最重要的配置类是org.apache.hadoop.conf.Configuration，org.apache.hadoop.conf.Configured中定义的方法就是对org.apache.hadoop.conf.Configuration配置类进行设置或获取，满足一个基于org.apache.hadoop.conf.Configuration配置类的其它类的需要。

FileSystem抽象类定义了文件系统所具有的基本特征和基本操作。首先从该抽象类的属性定义来看，这些属性描述了文件系统的静态特性。该类中定义了如下属性：

[java] view plain copy

private static final String FS_DEFAULT_NAME_KEY = "fs.default.name";
/** 文件系统缓存 */
private static final Cache CACHE = new Cache();
/** 该文件系统（this）在缓存中的键实例 */
private Cache.Key key;
/** 记录文件系统类的统计信息的Map */
private static final Map<Class<? extends FileSystem>, Statistics> statisticsTable = new IdentityHashMap<Class<? extends FileSystem>, Statistics>();
/**
* 该文件系统（this）的统计信息的实例
*/
protected Statistics statistics;
/**
* 当文件系统关闭或者JVM退出以后，需要将缓存中的文件清空。该Set<Path>中的内容是，对缓存中文件的Path，并且是排好序的。
*/
private Set<Path> deleteOnExit = new TreeSet<Path>();

Hadoop框架实现的文件系统，从FileSystem的Cache CACHE的含义可以看出，一个文件系统可以管理与它相关的并被缓存的多个文件系统的实例，这一组文件系统协调存储工作，并为Hadoop实现的MapReduce并行计算框架的机制提供便利的存储基础。

文件系统缓存

FileSystem抽象类定义了一个文件系统缓存Cache CACHE，用来缓存文件系统对象。也就是可能存在多个文件系统对象，从而可知，每个文件系统除了管理基于其上的内容之外，还可能要管理缓存的一组文件系统实例，这要看具体的文件系统是如何实现的。

当然，也可能是在分布式环境中，一个文件系统管理远程的和本地的文件系统实例。

为了能够快速获取到一个存在于缓存中的文件系统对象，Hadoop采用了Hash算法，将文件系统对象以键值对的方式存储到HashMap中，也就是org.apache.hadoop.fs.FileSystem.Cache缓存类定义的map属性，如下所示：

[java] view plain copy

private final Map<Key, FileSystem> map = new HashMap<Key, FileSystem>();

其中，org.apache.hadoop.fs.FileSystem.Cache.Key是org.apache.hadoop.fs.FileSystem.Cache的一个内部静态类，作为缓存Cache中Map的键，一个Key所包含的内容就是一个URI的信息及其用户名，下面是Key类的属性：

[java] view plain copy

final String scheme;
final String authority;
final String username;

缓存org.apache.hadoop.fs.FileSystem.Cache的Map的值是继承自FileSystem抽象类的子类。可以看出，可以通过一个合法的URI信息与用户名快速获取到缓存中存在的一个文件系统的对象，从而能够获取到指定文件系统中文件信息。该缓存类提供了3个基本的操作，如下所示：

[java] view plain copy

/** 根据URI与Configuration，从缓存中取出一个FileSystem实例，要求同步缓存操作。 */
synchronized FileSystem get(URI uri, Configuration conf) throws IOException;
/** 根据指定的缓存Key实例，从缓存中删除该Key对应的FileSystem实例，要求同步缓存操作。 */
synchronized void remove(Key key, FileSystem fs);
/** 迭代缓存Map，删除缓存中的缓存的全部文件系统实例，要求同步缓存操作。 */
synchronized void closeAll() throws IOException;

文件系统统计信息

上面statisticsTable是一个IdentityHashMap<Class<? extends FileSystem>, Statistics>，键是继承自FileSystem的Class，值是统计信息Statistics类。为了在一个并行计算环境中进行安全的计算，Statistics类使用了java.util.concurrent.atomic包中的原子变量属性，保证线程安全的原子读写操作的同时，提高并行性能。如下所示：

[java] view plain copy

private AtomicLong bytesRead = new AtomicLong();
private AtomicLong bytesWritten = new AtomicLong();

其中，bytesRead是从统计数据中读取指定数量的字节，加到当前读取字节数上。同理，bytesRead是基于原子写操作的。

另外一个统计数据属性protected Statistics statistics，是对当前（this）的FileSystem的统计信息实例。该属性是在该文件系统（this）的实例被构造完成之后被初始化的，通过调用initialize方法实现统计信息初始化：

[java] view plain copy

public void initialize(URI name, Configuration conf) throws IOException {
statistics = getStatistics(name.getScheme(), getClass());
}

然后又在initialize方法内部调用了getStatistics方法获取到一个初始化的Statistics实例。在该方法中，在实例化一个Statistics实例以后，需要将它加入到统计信息实例的缓存statisticsTable中，以便能够通过给定的URI快速获取到对应的文件系统的统计信息。

为了便捷操作文件系统的统计信息，Filesystem类实现了几个非常方便的方法，下面只列出方法声明：

[java] view plain copy

public static synchronized Map<String, Statistics> getStatistics();
public static synchronized List<Statistics> getAllStatistics();
public static synchronized Statistics getStatistics(String scheme, Class<? extends FileSystem> cls);
public static synchronized void clearStatistics();
public static synchronized void printStatistics() throws IOException;

这几个方法，都是从statisticsTable中获取到文件系统的统计信息。

文件缓存

属性Set<Path> deleteOnExit是一个文件缓存，它用来收集当前缓存中的文件Path。当文件系统关闭，或者JVM退出的时候，需要将缓存中的文件全部删除。删除缓存文件的方法是在processDeleteOnExit方法中，如下所示：

[java] view plain copy

/**
* 删除缓存deleteOnExit中的全部文件，需要同步deleteOnExit。
*/
protected void processDeleteOnExit() {
synchronized (deleteOnExit) {
for (Iterator<Path> iter = deleteOnExit.iterator(); iter.hasNext();) {
Path path = iter.next();
try {
delete(path, true); // 调用，删除目录，及其子目录和文件
}
catch (IOException e) {
LOG.info("Ignoring failure to deleteOnExit for path " + path);
}
iter.remove();
}
}
}

当一个FileSystem关闭以后，需要将该文件系统对应的Path加入到文件缓存deleteOnExit中，以便在文件系统关闭或JVM退出时，调用processDeleteOnExit方法删除这些文件。向文件缓存中加入一个可能在文件系统关闭或JVM退出时删除的文件，在deleteOnExit方法中实现的。

文件系统抽象

下面，从FileSystem抽象类“抽象”的切面横向了解一个FileSystem定义了哪些基于文件系统的操作，使我们能够知道如果实现一个基于文件系统，需要实现哪些基本操作。如下所示，FileSystem抽象类中定义了12个抽象方法：

[java] view plain copy

/** 获取能够唯一标识一个FileSystem的URI*/
public abstract URI getUri();
/**
* 根据给定的Path f，打开一个文件的FSDataInputStream输入流。
* @param f 待打开的文件
* @param bufferSize 缓冲区大小
*/
public abstract FSDataInputStream open(Path f, int bufferSize) throws IOException;
/**
* 为写入进程打开一个FSDataOutputStream。
* @param f 待写入的文件
* @param permission 权限
* @param overwrite 是否重写
* @param bufferSize 缓冲区大小
* @param replication 文件的块副本数量
* @param blockSize 块大小
* @param progress 用于报告Hadoop框架工作状况的进程
* @throws IOException
*/
public abstract FSDataOutputStream create(Path f,
FsPermission permission,
boolean overwrite,
int bufferSize,
short replication,
long blockSize,
Progressable progress) throws IOException;
/**
* 向一个已经存在的文件中执行追加操作
* @param f 存在的文件
* @param bufferSize 缓冲区大小
* @param progress 报告进程
* @throws IOException
*/
public abstract FSDataOutputStream append(Path f, int bufferSize, Progressable progress) throws IOException;
/**
* 重命名文件src为dst
*/
public abstract boolean rename(Path src, Path dst) throws IOException;
/**
* 删除文件
*/
public abstract boolean delete(Path f) throws IOException;
/**
* 删除文件
*/
public abstract boolean delete(Path f, boolean recursive) throws IOException;
/**
* 如果f是一个目录，列出该目录中的文件
*/
public abstract FileStatus[] listStatus(Path f) throws IOException;
/**
* 为给定的文件系统设置当前工作目录
*/
public abstract void setWorkingDirectory(Path new_dir);
/**
* 获取文件系统的当前工作目录
*/
public abstract Path getWorkingDirectory();
/**
* 创建一个目录f
*/
public abstract boolean mkdirs(Path f, FsPermission permission) throws IOException;
/**
* 获取与f对应的统计信息实例
*/
public abstract FileStatus getFileStatus(Path f) throws IOException;

上面这些抽象方法应该是一个文件系统应该具备的基本操作，可能根据不同的需要设计一个基于FileSystem抽象类的子类实现类，这个文件系统的实现中，对于某些操作的实现细节可能因为文件系统的特点而不全相同。因此，可以灵活设计你所需要的文件系统。

文件操作

在Filesystem文件系统上，与文件相关的操作很多，主要包括文件的创建、读写、重命名、拷贝、删除这几个基本操作。

文件的创建，包括目录的创建和非目录文件的创建，创建目录的方法如下：

[java] view plain copy

public boolean mkdirs(Path f) throws IOException {
return mkdirs(f, FsPermission.getDefault());
}
public abstract boolean mkdirs(Path f, FsPermission permission) throws IOException;

Filesystem抽象类没有实现如何创建目录的细节。

另外，还有一个跨文件系统执行创建目录操作的实现：

[java] view plain copy

public static boolean mkdirs(FileSystem fs, Path dir, FsPermission permission) throws IOException {
boolean result = fs.mkdirs(dir); // 基于默认权限创建一个目录，返回文件输出流对象
fs.setPermission(dir, permission); // 设置fs中创建dir目录的权限
return result;
}

通过这个方法可以看出，是在当前文件系统（this）中，在另一个文件系统fs中根据指定的权限来创建一个目录，显然这是在分布式地进行目录的远程创建操作。

对于非目录文件的创建，主要是为了读或写操作而打开一个文件，返回文件的流对象，可以进行流式读写与追加。对创建文件的操作，有10个重载的方法都是基于一个create抽象方法的：

[java] view plain copy

public abstract FSDataOutputStream create(Path f,
FsPermission permission,
boolean overwrite,
int bufferSize,
short replication,
long blockSize,
Progressable progress) throws IOException;

还有一个比较特殊的create方法，如下所示：

[java] view plain copy

public static FSDataOutputStream create(FileSystem fs,
Path file, FsPermission permission) throws IOException {
FSDataOutputStream out = fs.create(file); // 基于默认权限创建一个文件，返回文件输出流对象
fs.setPermission(file, permission); // 设置fs中创建file文件的权限
return out;
}

通过这个方法的参数可以看出，是在当前文件系统（this）中，在另一个文件系统fs中根据指定的权限来创建一个文件，显然这是在分布式地进行文件的远程创建操作。只要该文件系统的的权限满足远程文件系统fs的创建要求，并满足必要的通信条件，就可以执行分布式文件操作。

另外还有两个open方法是用来打开已经存在的文件而且返回文件流对象；一个createNewFile方法内部实现也是调用了create方法。

文件的追加操作，是通过三个重载的append方法实现的，追加写操作成功完成之后，返回org.apache.hadoop.fs.FSDataOutputStream流对象。

文件的重命名操作，是通过抽象方法rename(Path, Path)定义的。

文件的删除操作，是通过delete方法定义的。

本地文件的拷贝操作，主要是通过两组重载的方法实现的。一组是重载的copyFromLocalFile方法：拷贝源文件到目的文件，保留源文件（复制操作）；另一组是重载的moveFromLocalFile方法：拷贝源文件到目的文件，删除源文件，这是文件的移动操作（就是剪切操作）。

文件、块、副本

关于文件和块，可以通过Hadoop的架构设计中了解到一些相关信息，一些参数的含义及其设置。

关于块（Block），FileSystem中定义了如下两个方法：

[java] view plain copy

/**
* 获取文件f的块大小
*/
public long getBlockSize(Path f) throws IOException {
return getFileStatus(f).getBlockSize();
}
/**
* 获取默认块大小
*/
public long getDefaultBlockSize() {
// default to 32MB
return getConf().getLong("fs.local.block.size", 32 * 1024 * 1024);
}

为了保证Hadoop分布式文件系统的可靠性与可用性，使用了文件副本冗余存储和流水线复制技术。那么对于文件副本的设置也是有一定要求的。下面是关于副本的一些参数的操作：

[java] view plain copy

/**
* 设置文件src的replication因子为replication
*/
public boolean setReplication(Path src, short replication) hrows IOException {
return true;
}
/**
* 获取文件src的replication因子
*/
@Deprecated
public short getReplication(Path src) throws IOException {
return getFileStatus(src).getReplication();
}
/**
* 获取文件的默认副本个数，亦即replication因子
*/
public short getDefaultReplication() { return 1; }

关于文件的状态信息，可以通过一组重载的listStatus方法来获取，文件状态信息通过org.apache.hadoop.fs.FileStatus实体类来统计，该类实现了org.apache.hadoop.io.Writable接口，因此是可序列化的。它主要包含文件的下述信息：

[java] view plain copy

private Path path; // 文件路径
private long length; // 文件长度
private boolean isdir; // 是否是目录
private short block_replication; // 块副本因子
private long blocksize; // 块大小
private long modification_time; // 修改时间
private long access_time; // 访问时间
private FsPermission permission; //在指定文件系统中的操作权限
private String owner; // 文件属主
private String group; // 所属组

对于块，块是组成文件的基本单位，那么给定一个文件，它就应该具有一个块的列表，可以通过getFileBlockLocations方法获取到一个文件对应的块所在主机的列表、所在文件中的偏移位置等信息，如下：

[java] view plain copy

/**
* 返回一个BlockLocation[]，它包含了主机名列表、偏移位置、文件大小的信息
*/
public BlockLocation[] getFileBlockLocations(FileStatus file, long start, long len) throws IOException {
if (file == null) {
return null;
}
if ( (start<0) || (len < 0) ) {
throw new IllegalArgumentException("Invalid start or len parameter");
}
if (file.getLen() < start) {
return new BlockLocation[0];
}
String[] name = { "localhost:50010" };
String[] host = { "localhost" };
return new BlockLocation[] { new BlockLocation(name, host, 0, file.getLen()) };
}

其中，org.apache.hadoop.fs.BlockLocation类具有一个指定文件的块的信息，它实现了org.apache.hadoop.io.Writable接口，因此是可序列化的，它具有的信息如下所示：

[c-sharp] view plain copy

private String[] hosts; // hostnames of datanodes
private String[] names; // hostname:portNumber of datanodes
private String[] topologyPaths; // full path name in network topology
private long offset; // 块在文件中的偏移位置
private long length;

另外，Filesystem类中还定义了globStatus方法，用于根据指定的PathFilter来过滤文件系统中的文件Path，从而返回满足过滤条件的Path的文件状态信息的数组FileStatus[]。

在Linux单机上运行Hadoop-0.20.0实例千与 Open Source
其实，Hadoop-0.20.0与Hadoop-0.19.0的入门运行非常相似，基本步骤都是相同的。不同的是：Hadoop-0.19.0的配置文件hadoop-site.xml中内容，在Hadoop-0.20.0的配置中进行了拆分，分别放在三个配置文件中，如下：1、core-site.xml配置文件内容配置如下所示：fs.default.namehdfs://localhost:90002、hdf
学习Hadoop不错的系列文章 hadoop
1）Hadoop学习总结　　（1）HDFS简介　　（2）HDFS读写过程解析　　（3）Map-Reduce入门　　（4）Map-Reduce的过程解析　　（5）Hadoop的运行痕迹　　（6）Apache Hadoop 版本 2）Hadoop-0.20.0源代码分析　　（1）Hadoop-0.20.0源代码分析（01）　　地址：http://blo
MapReduce 程序模板（采用新/旧API） moonpure
最近在学习MapReduce编程，在仔细阅读了《HadoopinAction》和《Hadoop:TheDefinitiveGuide》两本书后，终于成功运行了一个自己写的MapReduce程序。MapReduce程序一般都是在一个模板上进行修改拓展的，所以我这里将MapReduce模板贴出来。还有一个关键点：MapReduce的API在hadoop-0.20.0前后，发生了如下变化
Hadoop-0.20.0源代码分析（03） gaowenhui2008 Hadoop-0.20.0
在Hadoop框架源代码org.apache.hadoop.fs包中，都是关于Hadoop文件系统实现的相关类，主要包括文件系统模型的建立，及其在该文件系统定义、实现基本的文件操作。例如给出文件系统抽象，对文件系统上存储的文件执行基本操作进行抽象，等等。在该包中，类的继承关系如下所示：[java]viewplaincopy◦java.lang.Object ◦org.apache.had
Hadoop-0.20.0源代码分析（02） gaowenhui2008 Hadoop-0.20.0
UserGroupInformation类定义了一个与文件系统相关的用户和组信息抽象的内容，Hadoop框架实现了一个基于Unix系统的用户和组信息的实现类UnixUserGroupInformation，该类继承自UserGroupInformation抽象类。从UserGroupInformation抽象类与其子类UnixUserGroupInformation的属性字段可以看出，抽象类所定义
Hadoop-0.20.0源代码分析（01） gaowenhui2008 Hadoop-0.20.0
Hadoop 框架是两个模型实现的有机整合，亦即Hadoop分布式文件系统（HDFS）与MapReduce并行编程模型，也就是说，Hadoop框架要能够提供的基本功能就是，在存储系统HDFS上进行MapReduce并行计算，所以，如果想要了解Hadoop框架的工作原理和运行机制，主要从这两个方面着手。其实，Hadoop中MapReduce并行计算应该是在HDFS实现的，因此了解计算所基于HDFS应
Hadoop-0.20.0分布式集群配置 QXK1989 java mapreduce hadoop 集群 logging authorization
Hadoop-0.20.0分布式集群配置 Hadoop集群的安装和配置，主要分为两个部分：一部分是主机环境配置，主要是指Hadoop集群所依赖的操作系统及其相关软件的安装配置，包括操作系统安装、JDK安装配置、主机规划与IP地址映射配置、无密码认证会话配置；另一部分是Hadoop基本配置，主要是指Hadoop集群的各种基本组件的配置，包括HDFS的配置、MapReduce配置。下面根据上面总结的
安装eclipse插件后，run on hadoop没有反映的解决办法 zhu_yanjie eclipse hadoop eclipse插件
安装eclipse插件后，runonhadoop没有反映的原因是：hadoop-0.20.0下自带的eclise插件已过时。解决方案:1、下载正确的插件：https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar2、重命名：将下载的插件重命名为“hadoop-
在eclipse中配置hadoop插件 zhu_yanjie eclipse mapreduce hadoop jar File
1.安装插件需要提前声明的一点的，eclipse的版本必须和hadoop的版本一致才可以顺利安装。准备程序：eclipse-3.5.2（这个版本的插件只能用这个版本的eclipse）hadoop-0.20.0-eclipse-plugin.jar（在hadoop-0.20.0/contrib/eclipse-plugin目录下）将hadoop-0.20.0-eclipse-plugin.jar复制
（三）配置hadoop-----------运行wordcount例子 zhu_yanjie hadoop 虚拟机 centos input 终端 output
本文继（一）配置hadoop-------vm虚拟机中安装CentOS5.5，并且安装和配置jdk1.6（二）配置hadoop-------安装配置hadoop并且设置ssh这两张文章之后：1、usr/java/hadoop/hadoop-0.20.0文件夹下新建一个文件夹取名为input（名字随便啦），当然，可以通过两种方式来新建，一种是直接鼠标右键新建，另一种是使用命令提示符输入cd usr/
（二）配置hadoop-------安装配置hadoop并且设置ssh zhu_yanjie java jdk hadoop 虚拟机 centos ssh
接（一）配置hadoop-------vm虚拟机中安装CentOS5.5，并且安装和配置jdk1.6上面一文介绍了安装CentOS和JDK，现在接着安装和配置hadoop并且配置ssh。step一、安装并并且配置hadoop。1、下载hadoop。连接：http://archive.apache.org/dist/hadoop/core/hadoop-0.20.0（这个地址时不时的抽风，偶尔还是可
Hadoop JMX chenjc_it hadoop jmx
1.修改配置开发JMX端口假设hadoop（hadoop-0.20.0）安装目录用$hadoop_home表示。修改$hadoop_home/conf/hadoop_env.sh配置文件，修改之处如下： # Extra Java runtime options. Empty by default. export HADOOP_OPTS="-Djava.rmi.s
Hadoop JMX chenjc_it Hadoop JMX
阅读更多1.修改配置开发JMX端口假设hadoop（hadoop-0.20.0）安装目录用$hadoop_home表示。修改$hadoop_home/conf/hadoop_env.sh配置文件，修改之处如下：#ExtraJavaruntimeoptions.Emptybydefault.exportHADOOP_OPTS="-Djava.rmi.server.hostname=10.132.30
Hadoop JMX chenjc_it hadoop jmx
1.修改配置开发JMX端口假设hadoop（hadoop-0.20.0）安装目录用$hadoop_home表示。修改$hadoop_home/conf/hadoop_env.sh配置文件，修改之处如下： # Extra Java runtime options. Empty by default. export HADOOP_OPTS="-Djava.rmi.s
学习Hadoop不错的系列文章 hadoop
1）Hadoop学习总结（1）HDFS简介（2）HDFS读写过程解析（3）Map-Reduce入门（4）Map-Reduce的过程解析（5）Hadoop的运行痕迹（6）ApacheHadoop版本 2）Hadoop-0.20.0源代码分析（1）Hadoop-0.20.0源代码分析（01）地址：http://blog.csdn.net/shirdrn/article/details/4569702（
Hadoop-0.20.0分布式集群配置 lirenjuan hadoop
Hadoop集群的安装和配置，主要分为两个部分：一部分是主机环境配置，主要是指Hadoop集群所依赖的操作系统及其相关软件的安装配置，包括操作系统安装、JDK安装配置、主机规划与IP地址映射配置、无密码认证会话配置；另一部分是Hadoop基本配置，主要是指Hadoop集群的各种基本组件的配置，包括HDFS的配置、MapReduce配置。下面根据上面总结的两个部分进
Hadoop-0.20.0源代码分析（01）http://blog.csdn.net/shirdrn/article/details/4569702 zhaogezhuoyuezhao
Hadoop 框架是两个模型实现的有机整合，亦即Hadoop分布式文件系统（HDFS）与MapReduce并行编程模型，也就是说，Hadoop框架要能够提供的基本功能就是，在存储系统HDFS上进行MapReduce并行计算，所以，如果想要了解Hadoop框架的工作原理和运行机制，主要从这两个方面着手。其实，Hadoop中MapReduce并行计算应该是在HDFS实现的，因此了解计算所基于HDFS应
Hadoop-0.20.0源代码分析(7)http://blog.csdn.net/shirdrn/article/details/4581666 zhaogezhuoyuezhao java String File Path DST 代码分析
前面分析了与操作系统有关的Shell命令，它们用于与操作系统进行命令行方式的交互。在Hadoop中，自定义了FileSystem文件系统，这是基于Unix操作系统之上的文件系统，为了方便对FileSystem的管理，通过org.apache.hadoop.fs.FsShell类定义了对HadoopFileSystem文件系统进行命令行方式管理的命令实现。先给出对Hadoop文件系统进行管理的命令实
在Linux单机上运行Hadoop-0.20.0实例 shirdrn linux exception hadoop File null 2010
其实，Hadoop-0.20.0与Hadoop-0.19.0的入门运行非常相似，基本步骤都是相同的。不同的是：Hadoop-0.19.0的配置文件hadoop-site.xml中内容，在Hadoop-0.20.0的配置中进行了拆分，分别放在三个配置文件中，如下：1、core-site.xml配置文件内容配置如下所示：fs.default.namehdfs://localhost:90002、hdf
Hadoop-0.20.0源代码分析（19） shirdrn String image File 存储 permissions 代码分析
这里，对重要的FSImage类进行阅读分析。该类的继承层次关系如下所示： ◦org.apache.hadoop.hdfs.server.common.StorageInfo◦org.apache.hadoop.hdfs.server.common.Storage◦org.apache.hadoop.hdfs.server.namenode.FSImage我们一个一个地分析：StorageInfo类
Hadoop-0.20.0源代码分析（18） shirdrn 集群 command layout null action 代码分析
这里，对Hadoop实现的与升级管理相关的实现类进行分析。通过升级管理器，可以对文件系统的状态进行定时升级更新，保证最良好的工作状态。下面从不同的侧面对与分布式升级相关的内容分类分析。升级命令与升级命令相关的实现类的继承层次关系如下所示：◦org.apache.hadoop.hdfs.server.protocol.DatanodeCommand(implementsorg.apache.hado
Hadoop-0.20.0源代码分析（17） shirdrn File 存储 Path byte permissions 代码分析
继续为分析org.apache.hadoop.hdfs.server.namenode.FSNamesystem类做准备，这里分析与FSEditLog相关的几个类，当然，FSEditLog类才是核心的。FSEditLog.EditLogFileOutputStream内部静态类该类是定义在org.apache.hadoop.hdfs.server.namenode.FSEditLog类内部的静态类
Hadoop-0.20.0源代码分析（16） shirdrn String null Path permissions 代码分析 Components
这里对与org.apache.hadoop.hdfs.server.namenode.FSDirectory类相关的类进行阅读分析。INodeDirectoryWithQuota类该类org.apache.hadoop.hdfs.server.namenode.INodeDirectoryWithQuota的继承层次关系如下所示：◦org.apache.hadoop.hdfs.server.nam
Hadoop-0.20.0源代码分析（15） shirdrn 网络 String extension rack 数据中心代码分析
我们已经分析了org.apache.hadoop.hdfs.server.namenode.Namenode类的实现，而且知道，一个Namenode提供的主要服务是基于其内部定义的org.apache.hadoop.hdfs.server.namenode.FSNamesystem属性来实现的。可见，org.apache.hadoop.hdfs.server.namenode.FSNamesyst
Hadoop-0.20.0源代码分析（14） shirdrn String 服务器 HTTP服务器 null permissions 代码分析
Hadoop集群中，不同进程之间通信需要使用合适的协议才能够进行交互，之前对Hadoop给出的协议接口做了分析。在协议接口中约定了通信双方的特定行为，那么，在实现这些通信协议的实现类中，就能看到指定进程是如何实现协议接口中约定的行为的。这里，阅读分析org.apache.hadoop.hdfs.server.namenode.Namenode实现类。首先，看一下Namenode类实现的接口，下面是
Hadoop-0.20.0源代码分析（13） shirdrn 数据结构 hadoop String 存储 interface 代码分析
通过对org.apache.hadoop.ipc包中，Hadoop实现了基于IPC模型的RPC机制，可以不需要像Java中实现的RMI机制一样，在RPC调用的C/S两端分别创建Stub和Skeleton，而是通过一组协议来进行RPC调用就可以实现通信。这主要是由于Hadoop所采用的序列化机制简化了RPC调用的复杂性。Hadoop定义了自己的通信协议，这些协议都是建立在TCP/IP协议之上的，规范
Hadoop-0.20.0源代码分析（12） shirdrn object 服务器 null Class Parameters 代码分析
在org.apache.hadoop.ipc包中，Server类是一个抽象类，抽象了IPC模型中Server端的基本行为。下面对RPC类进行阅读分析。RPC类给出了一个简单的RPC机制，它的协议是基于一个Java接口，协议界定，所有的参数和返回类型必须是下面之一：1、一个基本类型：boolean、byte、char、short、int、long、float、double，或void；2、Strin
Hadoop-0.20.0源代码分析（11） shirdrn
这里分析一下IPC模型中的Server端的实现。该Server类的实现有点复杂，而且涉及到网络中字节流缓冲区的操作问题，及其字节数据的反序列化。Server类该Server是服务端的抽象实现，定义了一个抽象的IPC服务。该IPC服务器接收Client发送的参数值，并返回响应值。同时，作为IPC模型的服务端，它要维护Client端到Server端的一组连接。首先看Server类定义的几个属性：pr
Hadoop-0.20.0源代码分析（10） shirdrn
DFSClient是分布式文件系统客户端，它能够连接到Hadoop文件系统执行指定任务，那么它要与Namenode与Datanode基于一定的协议来进行通信。这个通信过程中，涉及到不同进程之间的通信。在org.apache.hadoop.ipc包中，定义了进程间通信的Client端与Server端的抽象，也就是基于C/S模式进行通信。这里先对org.apache.hadoop.ipc包中有关类的源
Hadoop-0.20.0源代码分析（09） shirdrn hadoop server 集群任务代码分析 statistics
通过前面，对Hadoop的org.apache.hadoop.fs包中内容进行分析，已经基本了解到，一个文件系统应该具备哪些基本要素和基本操作。最显著的一个特点就是，FileSystem文件系统是基于流式数据访问的，并且，可以基于命令行的方式来对文件系统的文件进行管理与操作。而且，基于FileSystem文件系统的抽象定义，我们可以了解到，继承自该抽象的一切具体实现的文件系统，都具有统一的文件访问
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

Hadoop-0.20.0源代码分析（03）

你可能感兴趣的:(Hadoop-0.20.0)