centos7安装hadoop2.9.1和spark without hadoop

1.首先,在虚拟机下搭建集群,三个虚拟机命名分别为node-1,node-2,node-3,要配置免密登录,还要关闭防火墙。

2.然后,开始配置hadoop环境,下载hadoop-2.9.1安装,配置环境变量(系统的/etc/profile文件下)

    先要安装jdk(我之前装的是jdk11,后来发现和hadoop不兼容,又换成了jdk1.8)

    

   

    再去hadoop安装的目录下(我的是这个/usr/local/src/hadoop-2.9.1/etc/hadoop)配置几个文件

 

1)hadoop-env.sh

    

2)core-site.xml

    centos7安装hadoop2.9.1和spark without hadoop_第1张图片

这里要注意/hadoopdata后面不要加上/tmp,我之前加了然后后面格式化的时候出错,另外hadoopdata是要在/usr/local/src/下手动建立的。

3)hdfs-site.xml

    centos7安装hadoop2.9.1和spark without hadoop_第2张图片

4)mapred-site.xml

    

5)yarn-site.xml

    centos7安装hadoop2.9.1和spark without hadoop_第3张图片

6)slaves(需要拷贝新建)

    

   配置完成之后可以通过hadoop version和hadoop以及jps查看是否成功。

3.最后安装spark-2.3.2-bin-without-hadoop.tgz,配置python和spark的环境变量。

    

    然后运行pyspark出错,就安装了slf4j-1.7.25.zip并把其中的slf4j-api移动到/usr/local/src/spark/jars中

    还要去/usr/local/src/spark/conf下的spark-env.sh文件中添加一句话:

    

    至此,一台机器上的hadoop和spark环境搭好了。但还要在另外两台机器上配置,这个可以使用

    

    从node-1上将hadoop,spark,jdk以及新建的hadoopdata文件都拷贝到node-2和node-3上,并且将环境变量/etc/profile也       拷贝过去,并source一下。这样整个集群就搭建好了。

4.最后就是启动了,先进入/usr/local/src/hadoop-2.9.1下的bin中,执行hadoop namenode-format格式化。

    用sh start-all.sh启动,用sh stop-all.sh关闭集群。

5 .最后运行示例如下:

centos7安装hadoop2.9.1和spark without hadoop_第4张图片

centos7安装hadoop2.9.1和spark without hadoop_第5张图片

这里报错是因为找不到文件路径,将其改为如下图的路径即可。

 

 

你可能感兴趣的:(centos7安装hadoop2.9.1和spark without hadoop)