一,安装jdk1.8.0.144
下载地址:www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html
Ubuntu配置jdk运行环境
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
$ mkdir /usr/lib/jvm #创建jvm文件夹
$ sudo tar zxvf jdk-7u80-linux-x64.tar.gz -C /usr/lib #/ 解压到/usr/lib/jvm目录下
$ cd /usr/lib/jvm #进入该目录
$ mv jdk1.7.0_80 java #重命名为java
$ sudo apt-get install vim
$ vim ~/.bashrc #给JDK配置环境变量
~/.bashrc文件末尾添加以下内容
export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
$ source ~/.bashrc #使新配置的环境变量生效
$ java -version #检测是否安装成功,查看java版本
二,配置ssh免密登录
$ sudo apt-get install openssh-server #安装SSH server
$ ssh localhost #登陆SSH,第一次登陆输入yes
$ exit #退出登录的ssh localhost
$ sudo su
$ cd ~/.ssh/ #如果没法进入该目录,执行一次ssh localhost
$ ssh-keygen -t rsa
输入完 $ ssh-keygen -t rsa 语句以后,需要连续敲击三次回车
$ cat ./id_rsa.pub >> ./authorized_keys #加入授权
$ ssh localhost #此时已不需密码即可登录localhost,并可见下图。如果失败则可以搜索SSH免密码登录来寻求答案
三,安装hadoop-2.6.5
下载地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
$ sudo tar -zxvf hadoop-2.6.5.tar.gz -C /usr/local #解压到/usr/local目录下
$ cd /usr/local
$ sudo mv hadoop-2.6.5 hadoop #重命名为hadoop
$ sudo chown -R hadoop ./hadoop #修改文件权限
~/.bashrc文件末尾添加以下内容
export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
同样,执行source ~./bashrc使设置生效,并输入“hadoop version”查看hadoop是否安装成功
往/usr/local/hadoop/etc/hadoop/中的hadoop-env.sh文件加入
export JAVA_HOME=/usr/lib/jvm/java
往/usr/local/hadoop/etc/hadoop/中的core-site.xml文件加入
hadoop.tmp.dir
file:/usr/local/hadoop/tmp
Abase for other temporary directories.
fs.defaultFS
hdfs://localhost:9000
往/usr/local/hadoop/etc/hadoop/中的hdfs-site.xml文件加入
dfs.replication
1
dfs.namenode.name.dir
file:/usr/local/hadoop/tmp/dfs/name
dfs.datanode.data.dir
file:/usr/local/hadoop/tmp/dfs/data
在Hadoop的目录下执行
$ ./bin/hdfs namenode -format
$ ./sbin/start-dfs.sh
$ jps
此时也有可能出现要求输入localhost密码的情况 ,如果此时明明输入的是正确的密码却仍无法登入,其原因是由于如果不输入用户名的时候默认的是root用户,但是安全期间ssh服务默认没有开root用户的ssh权限
输入代码:
$vim /etc/ssh/sshd_config
检查PermitRootLogin 后面是否为yes,如果不是,则将该行代码 中PermitRootLogin 后面的内容删除,改为yes,保存。之后输入下列代码重启SSH服务:
$ /etc/init.d/sshd restart
成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件
后续每次重新启动Hadoop只需以下命令即可
sudo su
ssh localhost #连接免密的root
cd /usr/local/hadoop #打开Hadoop目录
./sbin/start-dfs.sh #启动namenode和datanode进程
四,安装Scala
sudo apt-get install scala
~/.bashrc文件末尾添加以下内容,执行source ~./bashrc使设置生效
export SCALA_HOME=/usr/share/scala-2.11
五,安装Spark
下载地址:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.6.tgz
tar zxvf spark-2.3.1-bin-hadoop2.7.tgz
sudo mkdir /usr/local/spark
mv spark-2.3.1-bin-hadoop2.7/* /usr/local/spark
cd /usr/local/spark/bin
./pyspark
在>>>后输入
lines = sc.textFile("/usr/local/spark/README.md")
lines.count() #字数统计
lines.first()
如出现输出则说明Spark+Python+Hadoop大数据开发环境已经安装成功