虚拟机安装spark2.2+hadoop2.7.3

安装VisualBox和操作系统

  1. 官网下载VisualBox安装文件.并安装。
  2. ubuntu官网下载最新版本得ubuntu安装文件。
  3. visualBox新建64位ubuntu,并启动虚拟机。
  4. 跟着提示选择ubuntu安装文件,就可以很顺利的装好系统了。

一般个人电脑内存在8g以下,所以如果装3台虚拟机,每台最多分1.5g内存了,多了机器也跑不动,所以按照网上的很多文档,装好出现了nodemanager启动失败的问题,这边文章主要也就是想记录下这个问题的解决过程。

ubuntu基础配置

  1. ubuntu环境搭建
  2. 由于本机网络环境可能经常变,在默认网卡设置静态地址会导致无法上网,因此单机虚拟机安装的话可以使用第二网卡,比如vitrual box中可以现在全局网络中新建一个仅主机(Host-only)网络,然后第二网卡设置成这种网络,然后再改成静态地址。 然后hadoop使用静态地址,这样就不怕网络环境变化了。
# 安装完操作系统后添加新网卡,如果没有启动,就这样
sudo ifconfig {eth1}(网卡名) up
sudo dhclient

# 改为静态地址
sudo vim /etc/network/interfaces

auto enp0s8
iface enp0s8 inet static
address 192.168.56.101
netmask 255.255.255.0
gateway 192.168.56.100

#然后重新启动网络服务
sudo /etc/init.d/networking restart
  1. 修改3台虚拟机的hosts配置,先修改master机器
vim /etc/hosts

127.0.0.1   localhost
192.168.56.101  master-hadoop
192.168.56.102    slave1-hadoop
192.168.56.103    slave2-hadoop

# 然后赋值到另外两台机器
scp /etc/hosts root@slave1-hadoop:/etc/hosts
scp /etc/hosts root@slave2-hadoop:/etc/hosts

hadoop安装

  1. hadoop安装配置全流程
  2. 上面的配置少了yarn-site.xml的配置,会造成nodemanager启动失败,原因还是按默认配置虚拟机内存不够,按照这个配置yarn集群配置
  3. 检查是否正常运行
    (2)浏览器打开http://192.168.0.182:8088/
    (3)浏览器打开http://192.168.0.182:50070/
  4. 测试运行mapreduce
./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 4 1000

spark安装

  1. 直接下载官网预编译版本官网预编译版本
  2. 修改配置文件spark-env.sh
sudo echo "export SPARK_HOME=/usr/local/spark" >> /etc/profile
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh

echo "export JAVA_HOME=/usr/local/lib/java/jdk" >> spark-env.sh
echo "export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop" >> spark-env.sh
  1. 修改spark-defaults.conf中的内存设置
cd $SPARK_HOME/conf
cp spark-defaults.conf.template spark-defaults.conf
echo "spark.driver.memory 512m" >> spark-defaults.conf
echo "spark.executor.memory 512m" >> spark-defaults.conf
  1. 启动saprk
cd $SPARK_HOME/sbin
./start-all.sh
  1. 测试运行spark superPI, spark master默认端口是7077
spark-submit --driver-memory 512m --executor-memory 512m --executor-cores 1 --class org.apache.spark.examples.SparkPi --master spark://master-hadoop:7077 /usr/local/spark/examples/jars/spark-examples*.jar 10

可能遇到的坑

  1. nodemanager没有启动起来,造成运行hadoop官方例子和spark再yarn运行时都再job accept就卡住不动了。是因为虚拟机内存不够,默认yarn的nodemanager设置的8g内存才能启动,而且不能小雨1g,否则也无法启动。

你可能感兴趣的:(大数据入门)