最近给一个项目搭建linux下的大数据处理环境,系统是CentOS 6.3。主要是配置JDK,安装Tomcat,Hadoop、HBase和Zookeeper软件,博主在Hadoop这方面也是新手,配置这个环境遇到过许多问题,查了许多资料,这里做一个总结,以便日后回顾。
首先是账户权限的修改,安装软件环境需要上传文件和一些系统文件的修改权限,所以最好设置成root权限
权限修改方法:http://www.linuxidc.com/Linux/2012-03/55629.htm
软件的安装,网上有许多这方面的文章:
安装JDK:http://www.cnblogs.com/zhoulf/archive/2013/02/04/2891608.html
安装Tomcat:http://www.cnblogs.com/zhoulf/archive/2013/02/04/2891633.html
安装Hadoop:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html,http://bjbxy.blog.51cto.com/854497/352692
安装HBase:http://blog.csdn.net/21aspnet/article/details/18776833
安装zookeeper:http://www.cnblogs.com/ilovexiao/p/3946547.html
配置Hadoop和Hbase:http://lovesoo.org/hadoop-hbase-deployment-guide.html
在安装Hadoop和Hbase之前需要选择下载相对应的正确的版本(博主选择的是hadoop1.0.0+hbase0.94.22),可以查阅官方文档选择http://abloz.com/hbase/book.html,同时许多Hbase的配置也可以在文档中看到。
在配置Hadoop和Hbase的时候很重要的一个就是主机名,也就是hostname,这个非常重要,我在原本配置好的服务器上修改了hostname,出现了一系列的问题,怎么改都有问题(心碎啊),最后发现在修改过hostname以后需要先清空tmp下面的数据,然后format Hadoop的namenode的数据,具体如:http://www.07net01.com/storage_networking/hadoopanzhuangbushuyudaowenti_guzhangpaicha_90974_1363776317.html
在配置软件环境的过程中会遇到许多问题,可以通过查看hadoop、hbase和zookeeper的日志文件来了解问题所在,然后做出修改调整,一般都能解决。
在配置好环境后,测试程序,发现数据存入服务器之后,再读取出来却是乱码,在windows下测试没问题,这就是服务器的编码有问题,可以将服务器的编码改成GB2312或者GBK,具体的修改方式如:http://blog.sina.com.cn/s/blog_697b96890101jdxj.html
如果重启服务器之前没有关闭Hadoop和hbase,则服务器重启后,hadoop会进入safe模式,需要关闭才能重新使用hbase及其命令。http://blog.chinaunix.net/uid-451-id-3189503.html?/12715.html