Cloudera Manager安装经常出现错误,而且一点小错误,常常需要整个过程重来,不熟悉其内部过程,错误常常无从下手,所有决定yum安装手工配置一个测试集群,顺便尝试下牛叉的Impala。
http://archive-primary.cloudera.com/cdh/
存放着cdh1-3的所有文件
http://archive-primary.cloudera.com/cdh4/
存放着cdh4的所有文件
http://archive-primary.cloudera.com/cdh5/
存放着cdh5的所有文件
安装可以先从上边的地址下载对应的RPM包,然后安装,也可以直接yum安装
Yum安装需要将对应的“Linux源”文件,下载到对应的本地文件系统。
例如centos6就是将cloudera-cdh5.repo文件放到/etc/yum.repos.d目录下就行了。
Yum安装Cloudera的组件都是类似的,比如安装hdfs,要先安装hdfs的base,这里边包含了hdfs的所有的文件,jar包啊,什么的;然后在安装我们需要组件,比如,想安装NameNode,就用yum安装hadoop-hdfs-namenode,安装这个文件包括两个部分,一个是在/etc/rc.d/init.d/文件夹下面安装一个hadoop-hdfs-namenode服务,另一部分是在/etc/default/目录下安装一个hadoop-hdfs-namenode文件,里边是原来hadoop-env.sh文件中关于hdfs-namenode的部分。
在了解了这个之后,就知道装什么了。
1. 在所有节点上安装hdfs base
2. Base 默认安装到/var/lib/目录下
3. 在master节点上安装hadoop-hdfs-namenode
4. 在另一台机器上安装hadoop-hdfs-secondarynamenode(或者在另一台机器上也安装hadoop-hdfs-namenode,HA用,还有HA相关的其他服务)
5. 在slaves节点上安装hadoop-hdfs-datanode
6. 安装其他需要的组件
7. 安装之后,环境变量相关的文件都在/etc/default/目录下,配置文件在/etc/hadoop/下,具体配置可以查看官网,步骤很精准
8. 在一个节点修改配置文件,然后scp分发配置文件到集群所有节点
9. 用service命令启动相关服务
1. 在所有节点安装hadoop-yarn base
2. Base安装在/var/lib/目录下
3. 找个节点安装hadoop-yarn-resourcemanager
4. 在所有datanode节点安装hadoop-yarn-nodemanager
5. 安装其他需要的组件
6. 安装之后,环境变量相关的文件都在/etc/default/目录下,配置文件在/etc/hadoop/下
7. 在一个节点修改配置文件,然后scp分发配置文件到集群所有节点
8. 用service命令启动相关服务
1. 在所有节点安装hadoop-mapreduce base
2. 找一个节点安装hadoop-mapreduce-historyserver
3. 安装其他需要的组件
4. 安装之后,环境变量相关的文件都在/etc/default/目录下,配置文件在/etc/hadoop/下
5. 在一个节点修改配置文件,然后scp分发配置文件到集群所有节点
6. 用service命令启动相关服务
1. 安装相关的服务的rpm包时,会同时建立相关的用户,比如,安装hadoop-hdfs base时,会建立hdfs用户,hdfs的相关操作,都要su到hdfs用户下,其他类似,提交job,要su到mapred用户下,yarn的命令行操作要su到yarn下,hive,impala等等都一样。
2. 日志都在/var/log/xxx/目录下,都可以在/etc/default/xxx文件中以环境变量的形式配置。
3. Cloudera是用alternatives工具来管理配置的。