在分布式应用程序中使用Hadoop IPC/RPC
原文地址:http://www.supermind.org/blog/520/using-hadoop-ipcrpc-for-distributed-applications
本文来自于:http://gpcuster.cnblogs.com
译文:
我们一起来了解Hadoop IPC,这是一个内进程间通信(Inter-Process Communication)的子系统。Hadoop IPC被用于在一个进程的程序与另一个进程的程序进行通信
Hadoop IPC
1.与SOAP和XML-RPC不同,Hadoop IPC使用java中的DataOutputStream与DataInputStream进行二进制的序列化。
2. 它是一个简洁的,低消耗的RPC机制。
3. 它只支持单播的操作。
为什么Hadoop的IPC实现不使用RMI或者是java.io.Serialization呢? 理由摘自what Doug has to say:
在我们开启Hadoop项目的时候,为什么不使用Serialization?因为当我们需要对对象进行精确的读和写操作时,这么做对似乎过于笨重了。
不适用RMI的理由是类似的。有效的IPC对于Hadoop来说是至关重要的。我觉得我们需要精确控制这些事情,比如连接,超时,缓存等等。而RMI就达不到这些需求。
现在,我们一起来看看Hadoop IPC的示例代码,看看他们究竟是如何工作的。
一般来说,所有的单播PRC调用都会包含一个客户端和一个服务端。
创建一个服务端,
Configuration conf = new Configuration();
Server server = RPC.getServer(this, "localhost", 16000, conf); // start a server on localhost:16000
server.start();
创建一个客户端,
Configuration conf = new Configuration();
InetSocketAddress addr = new InetSocketAddress("localhost", 16000); // the server's inetsocketaddress
ClientProtocol client = (ClientProtocol) RPC.waitForProxy(ClientProtocol.class,
ClientProtocol.versionID, addr, conf);
在这个示例中,服务端的class实现了ClientProtocol接口,ClientProtocol.java代码看上去是这个样子的:
interface ClientProtocol extends org.apache.hadoop.ipc.VersionedProtocol {
public static final long versionID = 1L;
HeartbeatResponse heartbeat();
}
ClientProtocol接口中只定义了一个方法:heartbeat() ,这个方法将返回一个HeartbeatResponse对象。远程的客户端通过周期性地调用heartbeat()方法让服务端了解客户端的情况。然后服务端返回一个HeartbeatResponse对象,是的客户端获得相应的信息。
一个HeartbeatResponse.java代码看起来是这个样子的:
public class HeartbeatResponse implements org.apache.hadoop.io.Writable {
String status;
public void write(DataOutput out) throws IOException {
UTF8.writeString(out, status);
}
public void readFields(DataInput in) throws IOException {
this.status = UTF8.readString(in);
}
}
对于Hadoop IPC的总结如下:
1. 服务端实现了ClientProtocol接口。
2. 一个或多个客户端将调用ClientProtocol接口的方法。
3. 在ClientProtocol接口的方法中所使用的所有参数或对象都需要继承于org.apache.hadoop.io。