Spark Streaming实时流处理项目4——实战环境搭建

Spark Streaming实时流处理项目1——分布式日志收集框架Flume的学习

Spark Streaming实时流处理项目2——分布式消息队列Kafka学习

Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集

Spark Streaming实时流处理项目4——实战环境搭建

Spark Streaming实时流处理项目5——Spark Streaming入门

Spark Streaming实时流处理项目6——Spark Streaming实战1

Spark Streaming实时流处理项目7——Spark Streaming实战2

Spark Streaming实时流处理项目8——Spark Streaming与Flume的整合

Spark Streaming实时流处理项目9——Spark Streaming整合Kafka实战

Spark Streaming实时流处理项目10——日志产生器开发并结合log4j完成日志的输出

Spark Streaming实时流处理项目11——综合实战

源码​​​​​​​

1、Scala安装:

  • 下载
  • 解压
  • 配置环境变量
  • 检查安装是否成功

详细安装步骤不再赘述,网上别人教程叙述的已经十分全面了。

2、Hadoop安装 参考这篇博客所介绍的详细步骤

3、Hbase安装

Hbase安装的前提是Hadoop集群和Zookeeper已经安装完毕,并能正确运行。 

第一步:下载安装包,解压到合适位置

第二步:配置相关的文件
(1)配置hbase-env.sh,该文件在/soft/hbase/conf下

#内容
export JAVA_HOME=/soft/jdk
export HBASE_CLASSPATH=/soft/hbase/conf
# 此配置信息,设置由hbase自己管理zookeeper,不需要单独的zookeeper。
export HBASE_MANAGES_ZK=false
export HBASE_HOME=/soft/hbase
export HADOOP_HOME=/soft/hadoop
#Hbase日志目录
export HBASE_LOG_DIR=/soft/hbase/logs
(2)配置hbase-site.xml,该文件位于/soft/hbase/conf

       
                hbase.rootdir
                hdfs://hadoop0:9000/hbase
       

       
                hbase.cluster.distributed
                true
       

       
                hbase.master
                hadoop0:60000
       

       
                hbase.zookeeper.quorum
                hadoop0,hadoop1,hadoop2,hadoop3
       

(2)配置 regionservers,该文件位于/soft/hbase/conf

hadoop0
hadoop1
hadoop2
hadoop3

第三步:启动Hbase

bin/start-hbase.sh

在启动HBase之前,必须先启动Hadoop,以便于HBase初始化、读取存储在hdfs上的数据
4、Spark安装

以下操作都在Master节点进行。

1)下载二进制包

2)解压并移动到相应目录

3)修改相应的配置文件。

配置环境变量,修改/etc/profie,增加如下内容:

export SPARK_HOME=/soft/spark/
export PATH=$PATH:$SPARK_HOME/bin

复制spark-env.sh.template成spark-env.sh

cp spark-env.sh.template spark-env.sh

修改$SPARK_HOME/conf/spark-env.sh,添加如下内容:
export JAVA_HOME=/soft/jdk
export SCALA_HOME=/soft/scala
export HADOOP_HOME=/soft/hadoop
export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop
export SPARK_MASTER_IP=hadoop0
export SPARK_WORKER_MEMORY=2g
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1

复制slaves.template成slaves:cp slaves.template slaves

修改$SPARK_HOME/conf/slaves,添加如下内容:
hadoop1
hadoop2
hadoop3

4)将配置好的spark文件复制到其他节点。

5)修改其他节点的配置。

6)在Master节点启动集群。/soft/spark/sbin/start-all.sh

7)查看集群是否启动成功:jps

启动命令记录,方便以后使用:

①启动zookeeper:/soft/shell/zookeeper.sh   zookeeper.sh是自己写的shell脚本,只需要在hadoop0上执行就可以在全部四个机器上都启动zookeeper,shell脚本的内容如下:

#!/bin/sh
echo "start zkServer..."
for i in 0 1 2 3
do
ssh hadoop$i "source /etc/profile;/soft/zookeeper/bin/zkServer.sh start"
done

②启动hadoop:先启动HDFS,/soft/hadoop/sbin/start-dfs.sh;再启动YARN,/soft/hadoop/sbin/start-yarn.sh

③启动Spark: /soft/spark/sbin/start-all.sh 关闭Spark: /soft/spark/sbin/stop-all.sh

④启动Kafka:自己写的shell脚本,只需要在hadoop0上执行/soft/shell/kafka.sh 就可全部启动,shell脚本内容如下:

brokers="hadoop0 hadoop1 hadoop2 hadoop3"
kafka_home="/soft/kafka"

for i in $brokers
do
    echo "Starting kafka on ${i} ... "
    ssh ${i} "source /etc/profile; nohup sh ${kafka_home}/bin/kafka-server-start.sh ${kafka_home}/config/server.properties > /dev/null 2>&1 &"
    if [[ $? -ne 0 ]]; then
        echo "Start kafka on ${i} is OK !"
    fi
done
echo kafka kafka are started !
exit 0

⑤启动Hbase:只需要在hadoop0执行 /soft/hbase/bin/start-hbase.sh

就先启动这么多吧,后面再需要其他命令再追加。

5、开发环境搭建:

IDEA + Maven

pom文件:


  2.11.8
  0.11.0.2
  2.2.0
  2.7.3
  1.2.4



  
    org.scala-lang
    scala-library
    ${scala.version}
  
  
    org.apache.kafka
    kafka_2.11
    ${kafka.version}
  
  
  
    org.apache.hadoop
    hadoop-client
    ${hadoop.version}
  
  
  
    org.apache.hbase
    hbase-client
    ${hbase.version}
  
  
  
    org.apache.hbase
    hbase-server
    ${hbase.version}
  
  
  
    org.apache.spark
    spark-streaming_2.11
    ${spark.version}
  

你可能感兴趣的:(Spark,大数据相关)