CDH集成spark2组件

文章目录

  • CDH集成spark2组件
    • 下载相关文件
    • 上传文件(主节点)
    • 重启CM和集群
    • 添加服务
    • 配置设置

CDH集成spark2组件

参考网站:https://www.jianshu.com/p/6acd6419f697

下载相关文件

Csd下载地址:http://archive.cloudera.com/spark2/csd/
Parcel下载地址:http://archive.cloudera.com/spark2/parcels/2.1.0.cloudera1/
SPARK2_ON_YARN-2.1.0.cloudera1.jar
SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel
SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904-el7.parcel.sha1
manifest.json

上传文件(主节点)

上传CSD包到机器的/opt/cloudera/csd目录。注意如果本目录下有其他的jar包,把他删掉或者移到其他目录。
修改SPARK_ON_YARN-2.1.0.cloudera1.jar的用户和组。
#chown cloudera-scm:cloudera-scm SPARK2_ON_YARN-2.1.0.cloudera1.jar
在这里插入图片描述
将parcel包上传到主节点机器的/opt/cloudera/parcel-repo目录。
注意: 如果有其他的安装包,不用删除 ,但是如果本目录下有其他的重名文件比如manifest.json文件,把它重命名备份掉。然后把那3个parcel包的文件放在这里。注意去掉结尾的1,如图。
在这里插入图片描述

重启CM和集群

停掉CM和集群,现在将他们停掉。然后运行命令
#service cloudera-scm-agent restart
#service cloudera-scm-server restart

添加服务

把CM和集群启动起来。然后点击主机->Parcel页面,看是否多了个spark2的选项。如下图,你这里此时应该是分配按钮,点击,等待操作完成后,点击激活按钮
在这里插入图片描述

配置设置

添加服务,进入CDH的spark2配置界面,在搜索框中输入SPARK_KAFKA_VERSION,出现如下图,然后选择对应版本,这里我应该选择的是0.10,然后保存配置,重启生效。如果不设置这步的话,在sparkstreaming消费kafka时可能会错。
CDH集成spark2组件_第1张图片
至此spark2集成完毕。

参考网站:
https://blog.csdn.net/u010936936/article/details/77247075
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_kafka.html#running_jobs

你可能感兴趣的:(CDH)