avro是doug cutting主持的rpc项目,有点类似google的protobuf和facebook的thrift. avro用来做以后hadoop的rpc, 使hadoop的rpc模块通信速度更快,数据结构更紧凑。还有一个很令人兴奋的一点,就是支持多种语言,例如: c/c++,java,python。 这就意味着我们用c写hdfs文件,可以不用烦人的jni; 提交一个job也可以直接是python程序。
这儿有此类rpc开源项目之间的性能比较 :
avro与thrift, protobuf这种更高效的rpc方案来说,它有一个特点:就是dynamic。它可以获取数据的模式(schema), 然后再解析数据。同时,也意味着对于解析大量相同模式的数据来说,这可以节省不少传输量。
废话不多说了,首先是下载
svn co http://svn.apache.org/repos/asf/hadoop/avro/trunk avro
它需要Apache Portable Runtime的支持
# 安装apr wget http://apache.freelamp.com/apr/apr-1.3.5.tar.gz tar zxvf apr-1.3.5.tar.gz cd apr-1.3.5 ./configure make && make install # 安装apr-util wget http://apache.freelamp.com/apr/apr-util-1.3.7.tar.gz tar zxvf apr-util-1.3.7.tar.gz cd apr-util-1.3.7 ./configure make && make install
接着编译avro
ant package -Djava5.home=your_jdk1.5_home -Dforrest.home=your_forrest_home
完毕.
btw:
1. 如果没装jdk1.5和forrest,那请装上,因为编译avro文档需要它。
2.如果指示找不到apr-1-config,请使用
export APR_CONFIG=/usr/local/apr export APR_UTIL_CONFIG=$APR_CONFIG
3. 如果没有找到apr_pools.h等头文件, 使用
export CFLAGS="-I/usr/local/apr/include/apr-1"
指定后, ant clean后再编译