一、cdh是什么
CDH is Cloudera’s 100% open source Hadoop distribution, built specifically to meet enterprise demands
即一个开源的分布式存储系统
二、cdh4包含了哪些软件和功能
首先hbase,hadoop,zookeeper这些是必不可少的
其次hive,oozie,Map/Reduce也可以集成在其中
HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”
hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行
Oozie是一种框架,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上
三、cdh4的安装
cdh4安装一般来讲通俗的方法就是登录官方网站http://www.cloudera.com/blog/2012/02/introducing-cdh4/
下载所需rpm包,根据官方文档,一路yum安装,最后配置即可
这里我要介绍的是通过cloudera-manager来安装cdh4的安装过程
cloudera-manager也是apache基金会的产品,目前有免费版与商业版两种,免费版只支持50个节点,商业版不限制
当然一般情况50个节点也就够用了,这里我们用的就是cloudera-manager的免费版
官方下载地址:https://ccp.cloudera.com/display/SUPPORT/Downloads
1.安装环境
node1:192.168.1.124 centos6.2系统
node2:192.168.1.163 centos6.2系统
iptables关闭
selinux关闭
2.安装cloudera-manager
node1:
官方下载后会得到一个可执行文件cloudera-manager-installer.bin
这里需要我们事先安装X Window System包组,原因很简单,图形化安装界面
这里安装时会自动yum安装他所需要的包,大约有100多M,yum安装,自动下载的,由于是外国的源,加上公司限速,天朝的种种策略等,经常会导致卡死不动,一天也安装不完的状况
我的安装方法是直接中断图形化界面的安装,就是直接kill掉,这时候他需要导入的yum源已经导入到我们的系统里了
根据yum源里面的连接http://archive.cloudera.com/cm4/redhat/6/x86_64/cm/4.0.4/
自己手动下载,如下包
下载完成后,使用yum本地安装
yum localinstall --nogpgcheck *.rpm
yum安装完成后,重新运行cloudera-manager-installer.bin完成安装(如果安装失败,提示已安装,则进入/usr/share/cmf目录中,删除掉uninstall-cloudera-manager.sh文件即可)
附1:两台主机都要装,只是一台运行图形化界面,作为控制台,另一台不用动,这里我是使用的node1节点作为控制台
附2:两台主机jdk也要实现安装好,否则也会自动下载安装,推荐用rpm包安装的jdk
3.安装cdh4
①.cloudera-manager安装完成后,会自动启动,可以通过netstat -tnlp发现启动了7182,7180等端口
通过网页连接http://192.168.1.124:7180进入cloudera-manager的web管理入口,默认管理员用户admin,密码admin
登录之后会提示如下框,即是使用免费版还是商业版,我们选择免费使用
②.之后就是完全cloudera-manager控制台web界面的安装,很简单
首先搜索主机,将两主机ip填入,搜索到主机,然后选择安装
安装版本cdh4,等等,然后就是读条的安装页面,这里跟安装cloudera-manager一样,yum源文件出来之后,直接中断,然后回到系统kill掉yum进程,关闭页面
,通过/etc/yum.repos.d/cloudera-cdh4.repo查看所需下载软件连接http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/4/下载如下rpm包
然后跟上面一样,yum localinstall --nogpgcheck *.rpm
最后重新打开http://192.168.1.124:7180页面重新对主机进行安装
附1:cloudera-manager控制台对于已经安装过的软件包不再重新下载安装
附2:如果网速好的话,可以不用中断,直接图形化界面等待安装完成,但是如果失败了,千万不要点重试,重试会卸载已安装内容,也就是重头再来,由于外国的源,网速神马的都懂的
③.安装玩以上内容后,会有个主机检测,主机多的话会比较慢,这个看个人而定,检测完之后,可以选择服务,这里我选择的是hbase,hadoop,zookeeper,然后启动服务
服务状况实时检测
主机状况实时检测
进入主机,打开hbase shell测试
到这里cdh4框架就可以使用了
附:对于没有选择的服务,默认也是不启动的,这个不用担心,如果需要用到hive等,可自行手动执行