CDH5.16:添加Kafka和Spark2服务

文章目录

    • 1、前言
    • 2、添加CDK4.0
      • 2.1 选择对应的版本
      • 2.2 配置Kafka Pacel下载源
      • 2.3 CDH添加Kafka
    • 3、添加CDS2.4
      • 3.1 选择对应的版本
      • 3.2 配置Spark2 Pacel下载源
      • 3.3 添加Spark2
      • 3.4 测试Spark2

1、前言

CDH5有自带kafka和spark的安装包,但是版本比较低,spark是1.6版本,如果想安装更高的版本,那么就需要自己手动从官网下载Parcel包,然后配置集成到CDH中。
下图中可以看到自带的Kafka后面又明确的说明,注意红色字体

Before adding this service, ensure that either the Kafka parcel is activated or the Kafka package is installed.
在添加这个服务前,确保kafka parcel是已经激活 or kafka package已经安装

CDH5.16:添加Kafka和Spark2服务_第1张图片

2、添加CDK4.0

2.1 选择对应的版本

打开CDH官网
https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html

拉到最下,点击DOCUMENTATION --> Apache Kafka
CDH5.16:添加Kafka和Spark2服务_第2张图片
CDH5.16:添加Kafka和Spark2服务_第3张图片
CDH5.16:添加Kafka和Spark2服务_第4张图片
下载
CDH5.16:添加Kafka和Spark2服务_第5张图片
el6,el7代表linux的版本,我的是7.2,所以下载el7的
CDH5.16:添加Kafka和Spark2服务_第6张图片

2.2 配置Kafka Pacel下载源

[root@hadoop001 ~]# cd soft/kafka_parcels/
[root@hadoop001 kafka_parcels]# yum -y install httpd
[root@hadoop001 kafka_parcels]# ll
-rw-r--r-- 1 root root 85897902 Jun 20 15:50 KAFKA-4.0.0-1.4.0.0.p0.1-el7.parcel
-rw-r--r-- 1 root root       41 Jun 20 15:50 KAFKA-4.0.0-1.4.0.0.p0.1-el7.parcel.sha1  
-rw-r--r-- 1 root root     5356 Jun 20 15:51 manifest.json

#校验下Parcel是否完整,都为c5913e4bdeda3687c5952312cab5bc3c3e286179 则OK
[root@hadoop001 kafka_parcels]# sha1sum KAFKA-4.0.0-1.4.0.0.p0.1-el7.parcel
c5913e4bdeda3687c5952312cab5bc3c3e286179  KAFKA-4.0.0-1.4.0.0.p0.1-el7.parcel
[root@hadoop001 kafka_parcels]# cat KAFKA-4.0.0-1.4.0.0.p0.1-el7.parcel.sha1
c5913e4bdeda3687c5952312cab5bc3c3e286179

#将1去掉
[root@hadoop001 kafka_parcels]# mv KAFKA-2.2.0-1.2.2.0.p0.68-el7.parcel.sha1 KAFKA-2.2.0-1.2.2.0.p0.68-el7.parcel.sha

#配置Kafka Pacel下载源
#httpd 必须是activing状态,如果不是,就start启动下
[root@hadoop001 kafka_parcels]# service httpd status
[root@hadoop001 kafka_parcels]# cd /var/www/html/
[root@hadoop001 html]# mv ~/soft/kafka_parcels ./

打开 http://hadoop001/kafka_parcels/
如下图,能看到下面三个文件表示上面的配置成功了
CDH5.16:添加Kafka和Spark2服务_第7张图片

2.3 CDH添加Kafka

添加Kafka的Parcel下载源地址
到CDH管理界面:Hosts–>Parcels–>Configuration
CDH5.16:添加Kafka和Spark2服务_第8张图片
Download–>Distribute–>Active
CDH5.16:添加Kafka和Spark2服务_第9张图片
添加服务
CDH5.16:添加Kafka和Spark2服务_第10张图片
选择kafka -->continue
CDH5.16:添加Kafka和Spark2服务_第11张图片
CDH5.16:添加Kafka和Spark2服务_第12张图片
到这里,后面下一步,基本就完成了,Kafka就已经集成到了CDH

3、添加CDS2.4

3.1 选择对应的版本

CDH5.16:添加Kafka和Spark2服务_第13张图片
CDH5.16:添加Kafka和Spark2服务_第14张图片
CDH5.16:添加Kafka和Spark2服务_第15张图片

CDH5.16:添加Kafka和Spark2服务_第16张图片

3.2 配置Spark2 Pacel下载源

[root@hadoop001 ~]# cd /root/soft/spark2_parcels
[root@hadoop001 spark2_parcels]# ll
-rw-r--r-- 1 root root      5325 Jun 20 14:27 manifest.json
-rw-r--r-- 1 root root 198924405 Jun 20 14:29 SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel
-rw-r--r-- 1 root root        41 Jun 20 14:29 SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha1
-rw-r--r-- 1 root root     19066 Jun 20 14:32 SPARK2_ON_YARN-2.4.0.cloudera2.jar

#校验下Parcel是否完整,都为0e153fe6735d640cab43e9007afe5e1ff702774a  则OK
[root@hadoop001 spark2_parcels]# sha1sum SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel
0e153fe6735d640cab43e9007afe5e1ff702774a  SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356-el7.parcel
[root@hadoop001 spark2_parcels]# cat SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el7.parcel.sha1
0e153fe6735d640cab43e9007afe5e1ff702774a

#将1去除表示告诉CM,Parcel下载成功
[root@hadoop001 spark2_parcels]# mv SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356-el7.parcel.sha1 SPARK2-2.4.0.cloudera1-1.cdh5.13.3.p0.1007356-el7.parcel.sha

# 设置Spark2的配置,opt/cloudera/csd为Administration中的setting配置
[root@hadoop001 spark2_parcels]# mkdir /opt/cloudera/csd
[root@hadoop001 spark2_parcels]# mv SPARK2_ON_YARN-2.4.0.cloudera2.jar /opt/cloudera/csd/
[root@hadoop001 spark2_parcels]# cd /opt/cloudera/csd/
[root@hadoop001 csd]# chown cloudera-scm:cloudera-scm SPARK2_ON_YARN-2.4.0.cloudera2.jar 
[root@hadoop001 csd]# chmod 644 SPARK2_ON_YARN-2.4.0.cloudera2.jar
[root@hadoop001 csd]#  mv ~/soft/spark2_parcels /var/www/html/

打开 http://hadoop001/spark2_parcels/
CDH5.16:添加Kafka和Spark2服务_第17张图片

3.3 添加Spark2

到CDH管理界面:Hosts–>Parcels–>Configuration
CDH5.16:添加Kafka和Spark2服务_第18张图片
Download–>Distribute–>Active
CDH5.16:添加Kafka和Spark2服务_第19张图片
重启集群,Cluster1 和下面的 Cloudera Manager都需要重启
CDH5.16:添加Kafka和Spark2服务_第20张图片
添加服务
CDH5.16:添加Kafka和Spark2服务_第21张图片
选择Spark2–>continue
CDH5.16:添加Kafka和Spark2服务_第22张图片
接下来下一步就行,到此就结束了,Spark2就已经集成到了CDH

其他一些调优
YARN的优化
yarn.nodemanager.resource.memory-mb
yarn.scheduler.maximum-allocation-mb
都设置为2G
CDH5.16:添加Kafka和Spark2服务_第23张图片

3.4 测试Spark2

Spark2的部署目录:/opt/cloudera/parcels/SPARK2/lib/spark2/bin/
脚本位置:/usr/bin/spark2-submit
提交Spark的任务用hdfs用户

[root@hadoop001 ~]# su - hdfs 
spark2-submit \
--master yarn \
--num-executors 1 \
--executor-cores 1 \
--executor-memory 1G \
--class org.apache.spark.examples.SparkPi \
/opt/cloudera/parcels/SPARK2/lib/spark2/examples/jars/spark-examples_2.11-2.4.0.cloudera2.jar

你可能感兴趣的:(CDH5,CDH5)