Ashely_Xie

Spark 完全分布式集群搭建过程

Spark2.1 +Hadoop2.6 搭建分布式集群

本篇博客由博主Ashely个人原创，如有转载，请注明出处：

Spark21 Hadoop26 搭建分布式集群
- 目录
- 实验环境
  - - 1 服务器上启动三台虚拟机
    - 2 软件版本
- 总体流程
  - - 1 修改主机名hosts
    - 2 安装基础环境jdk和scala
    - 3 配置ssh无密码访问
    - 4 搭建hadoop分布式集群
    - 5 搭建spark分布式集群
- 一修改主机名和hosts
  - 1 更改主机名
  - 2 修改hosts
- 二安装基础环境Java和scala
  - 1 Java环境搭建
  - 2 scala环境搭建
- 三 ssh无密码验证配置
  - 1 配置master无密码登录所有slave
  - 2 配置slave无密码登录master
- 四 Hadoop 265 完全分布式搭建
- 五 Spark 210完全分布式环境搭建

实验环境

1.1 服务器上启动三台虚拟机

ubuntu@vm06 192.168.110.106 master
ubuntu@vm05 192.168.110.105 slave1
ubuntu@vm04 192.168.110.104 slave2

1.2 软件版本：

Hadoop2.6.5 + Spark2.1.0 + Scala2.1.6

总体流程

1. 1 修改主机名（hosts）

    --> 所有节点都执行

2. 2 安装基础环境（jdk和scala）

    --> 所有节点都执行

3. 3 配置ssh无密码访问

    --> master -> slave1、slave2 ;  slave1、slave2 -> master

4. 4 搭建hadoop分布式集群

    --> master先执行，再scp到slave1、slave2; 还要改些配置

5. 5 搭建spark分布式集群

    --> master先执行，再scp到slave1、slave2; 还要改些配置

一. 修改主机名和hosts

1.1 更改主机名

ubuntu@vm06:~$ sudo vim /etc/hostname

改成master //其他两个分别改为slave1 和slave2
注意：本文的主机名全部以小写字母开头，后文在配置环境时注意不要误用大写！

1.2 修改hosts

ubuntu@vm06:~# sudo vim /etc/hosts

//将原文件（127.0.0.0 localhost）下面添加以下信息：

192.168.110.106 master
192.168.110.105 slave1
192.168.110.104 slave2

ubuntu@vm06:~# sudo source /etc/hosts

//退出后重启虚拟机

ubuntu@vm06:~# sudo reboot

//分别对集群中的所有节点进行以上相似的设置

二. 安装基础环境（Java和scala）

-对所有节点安装java和scala

2.1 Java环境搭建

1）下载jdk-1.8并解压到 /usr/local

ubuntu@master:~$ sudo wget .............
ubuntu@master:~$ sudo tar -zxvf jdk-8u152-linux-x64.tar.gz -C /usr/local/

2）添加java环境变量，在/etc/profile中添加：

ubuntu@master:~$ sudo vim /etc/profile

export JAVA_HOME=/usr/local/jdk1.8.0_152
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/rt.jar
export JAVA_HOME PATH CLASSPATH

3）保存后刷新配置

ubuntu@master:~$ source /etc/profile

2.2 scala环境搭建

1）下载scala安装包scala-2.10.6.tgz安装到 /usr/lib

ubuntu@master:~$ sudo tar -zxvf scala-2.10.6.tgz -C /usr/lib/

2）添加Scala环境变量，在/etc/profile中添加：

ubuntu@master:~# sudo vim /etc/profile

export SCALA_HOME=/usr/lib/scala-2.10.6
export PATH=$SCALA_HOME/bin:$PATH

3)保存后刷新

ubuntu@master:~# source /etc/profile

三. ssh无密码验证配置

-对所有节点安装ssh

ubuntu@master:~$ sudo apt-get install ssh

3.1 配置master无密码登录所有slave

以下是在master节点上执行以下命令：
// 1）在master节点上生成密码对

ubuntu@master:~$ ssh-keygen -t rsa -P ''

// Enter 继续
//生成的密钥对：id_rsa和id_rsa.pub存储在”/home /ubuntu/.ssh”目录下(注意可能会不同)

// 2）把id_rsa.pub追加到授权的key里面去

ubuntu@master:~$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

// 3）修改ssh配置文件”/etc/ssh/sshd_config”的下列内容

ubuntu@master:~$ sudo vim /etc/ssh/sshd_config

//将以下内容的注释去掉：

// 4) 重启ssh服务，才能使刚才设置有效

ubuntu@master:~$ service sshd restart

// 5) 验证无密码登录本机是否成功。

ubuntu@master:~$ ssh localhost

//注意：无密码登录成功后，使用Ctrl+D退出当前登录，防止嵌套登录
// 6）把公钥复制到所有的Slave机器上

ubuntu@master:~$ scp ~/.ssh/id_rsa.pub ubuntu@slave1:~/  #注意不能有空格
ubuntu@master:~$ scp ~/.ssh/id_rsa.pub ubuntu@slave2:~/  #注意直接放在主目录下

//可以到slave节点的机器中看一下 ~/.ssh/ 是否多处了一个内容id_rsa.pub

-以下是在slave1 (192.168.110.105)节点的配置操作
// 1）将Master的公钥追加到Slave1的授权文件”authorized_keys”中去。

ubuntu@slave1:~ $ cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

// 2) 修改”/etc/ssh/sshd_config”，具体步骤参考前面Master设置的第3步和第4步。

ubuntu@slave1:~/.ssh$ sudo vim /etc/ssh/sshd_config

//注释掉一些内容，重启服务
// 3）用master使用ssh无密码登录slave1

ubuntu@master:~$ ssh 192.168.110.105    或者是 ssh ubuntu@slave1

// 4）把slave节点中的”/home/ubuntu/”目录下的”id_rsa.pub”文件删除掉。

ubuntu@slave1:~/.ssh$ rm -r ~/id_rsa.pub

//重复上面的4个步骤把Slave2服务器进行相同的配置

3.2 配置slave无密码登录master

-以下是在slave1节点(192.168.110.105)的配置操作。
// 1）创建”Slave1”自己的公钥和私钥，并把自己的公钥追加到”authorized_keys”文件中，执行下面命令：

ubuntu@slave1:~/.ssh$ ssh-keygen -t rsa -P ''
ubuntu@slave1:~/.ssh$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

// 2）将slave1节点的公钥”id_rsa.pub”复制到Master节点的”/root/”目录下。

ubuntu@slave1:~/.ssh$ scp ~/.ssh/id_rsa.pub ubuntu@master:~/

以下是在master节点的配置操作
// 1）将Slave1的公钥追加到Master的授权文件”authorized_keys”中去。

ubuntu@slave1:~ $ cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

// 2）删除Slave1复制过来的”id_rsa.pub”文件。

ubuntu@slave1:~ $ rm -r ~/id_rsa.pub

// 配置完成后测试从Slave1到Master无密码登录。

ubuntu@slave1:~ $ ssh 192.168.110.106

按照上面的步骤把Slave2和Master之间建立起无密码登录。
- 这样，Master能无密码验证登录每个Slave，每个Slave也能无密码验证登录到Master。

四. Hadoop 2.6.5 完全分布式搭建

-以下是在master节点上的操作
1）下载hadoop 2.6 并解压到/opt/

ubuntu@master:~$ wget  ………………..
ubuntu@master:~$ sudo tar -zxvf hadoop-2.6.5.tar.gz -C /opt/

2)修改配置文件，添加以下内容

ubuntu@master:~$ sudo vim /etc/profile

 export HADOOP_HOME=/opt/hadoop-2.6.5/
 export PATH=$PATH:$HADOOP_HOME/bin
 export PATH=$PATH:$HADOOP_HOME/sbin
 export HADOOP_MAPRED_HOME=$HADOOP_HOME
 export HADOOP_COMMON_HOME=$HADOOP_HOME
 export HADOOP_HDFS_HOME=$HADOOP_HOME
 export YARN_HOME=$HADOOP_HOME
 export HADOOP_ROOT_LOGGER=INFO,console
 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
 export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

修改完成后执行：

 ubuntu@master:~$ source /etc/profile

3）修改hadoop的相关配置
修改JAVA_HOME 如下：

 ubuntu@master:/opt/hadoop-2.6.5$ sudo vim ./etc/hadoop/hadoop-env.sh
 export JAVA_HOME=/usr/local/jdk1.8.0_152

修改$HADOOP_HOME/etc/hadoop/slaves，将原来的localhost删除，改成如下内容：

 ubuntu@master:/opt/hadoop-2.6.5$ sudo vim ./etc/hadoop/slaves

slave1
slave2

修改$HADOOP_HOME/etc/hadoop/core-site.xml

ubuntu@master:/opt/hadoop-2.6.5$ sudo vim ./etc/hadoop/core-site.xml


      
          fs.defaultFS
          hdfs://master:9000
      
      
         io.file.buffer.size
         131072
     
     
          hadoop.tmp.dir
          /opt/hadoop-2.6.5/tmp

修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml

ubuntu@master:/opt/hadoop-2.6.5$ sudo vim ./etc/hadoop/hdfs-site.xml


    
      dfs.namenode.secondary.http-address
      master:50090
    
    
      dfs.replication
      2
    
    
      dfs.namenode.name.dir
      file:/opt/hadoop-2.6.5/hdfs/name
    
    
      dfs.datanode.data.dir
      file:/opt/hadoop-2.6.5/hdfs/data

复制template，生成xml，命令如下：

ubuntu@master:/opt/hadoop-2.6.5/etc/hadoop$ cp mapred-site.xml.template mapred-site.xml

修改$HADOOP_HOME/etc/hadoop/mapred-site.xml

ubuntu@master:/opt/hadoop-2.6.5/etc/hadoop$ sudo vim mapred-site.xml


 
    mapreduce.framework.name
    yarn
  
  
          mapreduce.jobhistory.address
          master:10020
  
  
          mapreduce.jobhistory.address
          master:19888

修改$HADOOP_HOME/etc/hadoop/yarn-site.xml

ubuntu@master:/opt/hadoop-2.6.5/etc/hadoop$ sudo vim yarn-site.xml


     
         yarn.nodemanager.aux-services
         mapreduce_shuffle
     
     
         yarn.resourcemanager.address
         master:8032
     
     
         yarn.resourcemanager.scheduler.address
         master:8030
     
     
         yarn.resourcemanager.resource-tracker.address
         master:8031
     
     
         yarn.resourcemanager.admin.address
         master:8033
     
     
         yarn.resourcemanager.webapp.address
         master:8088

4）复制master节点的hadoop文件夹到slave1和slave2上

scp -r /opt/hadoop-2.6.5 ubuntu@slave1:/opt

如果无法复制，提示permission deny之类的，就将hadoop-2.6.5先复制到slave节点的用户主目录下，slave节点再从主目录复制到自己的 /opt/

ubuntu@master:~$ sudo scp /opt/hadoop-2.6.5 ubuntu@slave1:~
ubuntu@slave1:~$ sudo mv hadoop-2.6.5 /opt

5）在Slave1和Slave2上分别修改/etc/profile，(hadoop的配置信息) 过程同master一样

ubuntu@master:~$ hadoop namenode -format

启动集群

ubuntu@master:~$ /opt/hadoop-2.6.5/sbin/start-all.sh

6）查看集群是否启动成功： jps

SecondaryNameNode是NameNode的备份，本文将其都配置master节点上。（一般是配置在不同的节点上，以助于主节点挂掉的时候对它恢复）
slave1和slave2都仅作为计算节点（DataNode）
-至此hadoop的完全分布式环境搭建成功。

五. Spark 2.1.0完全分布式环境搭建

-以下操作都是在master节点进行

1）下载二进制包spark-2.1.0-bin-hadoop2.6.tgz

ubuntu@master:~$ wget  …………

2）解压到相应目录

ubuntu@master:~$ tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz -C /opt
ubuntu@master:~$ mv /opt/spark-2.1.0-bin-hadoop2.6 /opt/spark-2.1

3）修改相应的配置文件
修改/etc/profie，增加如下内容：

ubuntu@master:/opt$ sudo vim /etc/profile

export SPARK_HOME=/opt/spark-2.1/
export PATH=$PATH:$SPARK_HOME/bin

复制spark-env.sh.template成spark-env.sh

ubuntu@master:/opt/spark-2.1/conf$ sudo cp spark-env.sh.template spark-env.sh

修改$SPARK_HOME/conf/spark-env.sh，添加如下内容.（标注需要改为自己的版本）

ubuntu@master:/opt/spark-2.1/conf$ sudo vim spark-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_152
export SCALA_HOME=/usr/lib/scala
export HADOOP_HOME=/opt/hadoop-2.6.5
export HADOOP_CONF_DIR=/opt/hadoop-2.6.5/etc/hadoop
export SPARK_MASTER_IP=192.168.110.106
export SPARK_MASTER_HOST=192.168.110.106
export SPARK_LOCAL_IP=192.168.110.106
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export SPARK_HOME=/opt/spark-2.1
export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.6.5/bin/hadoop classpath)

复制slaves.template成slaves

ubuntu@master:/opt/spark-2.1/conf$ sudo cp slaves.template slaves

修改$SPARK_HOME/conf/slaves，在原来的localhost下面改为如下内容：

ubuntu@master:/opt/spark-2.1/conf$ sudo vim slaves

master
slave1
slave2

（注意，如果不删除之前的localhost，spark搭建完成之后，会出现多个worker，如下图）

4）将配置好的spark文件复制到slave1和slave2节点

ubuntu@master:/opt$ scp -r /opt/spark-2.1 ubuntu@slave1:~   //拷贝整个目录
ubuntu@master:/opt$ scp -r /opt/spark-2.1 ubuntu@slave2:~
ubuntu@slave1:~$ sudo mv spark-2.1/ /opt
ubuntu@slave2:~$ sudo mv spark-2.1/ /opt

5）修改slave1和slave2配置。

ubuntu@slave1:~$ sudo vim /etc/profile

在slave1和slave2上分别修改/etc/profile，增加Spark的配置，过程同master一样。

export SPARK_HOME=/opt/spark-2.1/
export PATH=$PATH:$SPARK_HOME/bin

在save1和save2修改$SPARK_HOME/conf/spark-env.sh

ubuntu@master: $ sudo vim /opt/spark-2.1/conf/spark-env.sh

将export SPARK_LOCAL_IP=192.168.110.XXX改成slave1和slave2对应节点的IP
6) 在Master节点启动集群
先启动hadoop，在启动spark

ubuntu@master:/opt$ /opt/hadoop-2.6.5/sbin/start-all.sh
ubuntu@master:/opt$ /opt/spark-2.1/sbin/start-all.sh

7）查看集群是否启动成功：jps

-master节点在hadoop的基础上新增了：Master
-slave在Hadoop的基础上新增了：Worker

ubuntu@master:/opt/spark-2.1$ ./bin/spark-shell

-至此Spark的完全分布式环境搭建成功

你可能感兴趣的:(Spark)

Airflow和PySPARK实现带多组参数和标签的Amazon Redshift数据仓库批量数据导出程序 weixin_30777913 python spark 云计算
设计一个基于多个带标签SQL模板作为配置文件和多组参数的PySPARK代码程序，实现根据不同的输入参数，用Airflow进行调度，自动批量地将AmazonRedshift数据仓库的数据导出为Parquet、CSV和Excel文件到S3上，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。PySpark程序需要异常处理，输出带时间戳和每个运行批次和每个导出文件作业运行状
入门Apache Spark：基础知识和架构解析 juer_0001 java spark
介绍ApacheSparkSpark的历史和背景ApacheSpark是一种快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发，于2010年首次推出。它最初设计用于支持分布式计算框架MapReduce的交互式查询，但逐渐发展成为一种更通用的数据处理引擎，能够处理数据流、批处理和机器学习等工作负载。Spark的特点和优势Spark是一种快速、通用、可扩展的大数据处理框架，
Spark核心算子对比：`reduceByKey`与`groupByKey`源码级解析及生产调优指南数据大包哥大数据 spark 分布式
Spark核心算子对比：reduceByKey与groupByKey源码级解析及生产调优指南1.核心机制对比在Spark中，reduceByKey和groupByKey都是对键值对RDD（RDD[(K,V)]）进行聚合操作的高阶算子，但两者的底层实现和性能表现截然不同。特性reduceByKeygroupByKeyShuffle前预聚合✅启用（mapSideCombine=true）❌禁用（map
spark为什么比mapreduce快？京东云开发者 spark mapreduce 大数据
作者：京东零售吴化斌spark为什么比mapreduce快？首先澄清几个误区：1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，所以shuffle次数不能减少所以总结spark比ma
Spark 运行问题 java.lang.NoSuchMethodError 解决方案 @飞往你的山 spark scala
一般情况，出现这种问题是因为scala和spark的版本不匹配，需要重新下载两者相匹配的版本。File-ProjectStructure-Libraies-“+”-java选择spark目录下jars文件夹Maven项目，pom.xml文件中添加Spark依赖，需要联网下载，或者本地库中已经下载好依赖包2.3.3org.apache.sparkspark-core_2.11${spark.vers
如何使用Spark Streaming将数据写入HBase Java资深爱好者 spark hbase 大数据
在SparkStreaming中将数据写入HBase涉及到几个步骤。以下是一个基本的指南，帮助你理解如何使用SparkStreaming将数据写入HBase。1.环境准备HBase：确保HBase集群已经安装并运行。Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
Spark之PySpark james二次元大数据 Spark Python PySpark
PySpark是ApacheSpark的PythonAPI，它允许开发者使用Python编程语言进行大规模数据处理和分析。ApacheSpark是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布
pandas series 相加_Numpy和Pandas教程 weixin_39778393 pandas series 相加
Pandas简介-python数据分析library-基于numpy(对ndarray的操作)-有一种用python做Excel/SQL/R的感觉-为什么要学习pandas?-pandas和机器学习的关系，数据预处理，featureengineering。-pandas的DataFrame结构和大家在大数据部分见到的spark中的DataFrame非常类似。目录-numpy速成-Series-Da
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
深入探索Spark MLlib：大数据时代的机器学习利器 concisedistinct 人工智能 mllib spark-ml Spark MLlib 大数据机器学习
随着大数据技术的迅猛发展，机器学习在各行各业的应用日益广泛。ApacheSpark作为大数据处理的利器，其内置的机器学习库MLlib（MachineLearningLibrary）提供了一套高效、易用的工具，用于处理和分析海量数据。本文将深入探讨SparkMLlib，介绍其核心功能和应用场景，并通过实例展示如何在实际项目中应用这些工具。一、SparkMLlib概述1.什么是SparkMLlib？S
Spark Streaming 容错机制详解 goTsHgo spark-streaming 大数据分布式 spark-streaming 大数据分布式
SparkStreaming是Spark生态系统中用于处理实时数据流的模块。它通过微批处理（micro-batch）的方式将实时流数据进行分片处理，每个批次的计算本质上是Spark的批处理作业。为了保证数据的准确性和系统的可靠性，SparkStreaming实现了多种容错机制，包括数据恢复、任务失败重试、元数据恢复等。接下来，我们将从底层原理和源代码的角度详细解释SparkStreaming是如何
Spark提交任务 docsz spark spark 大数据
1、Spark提交任务到Yarn1.1、DwKuduAppspark-submit--classcom.io.etl.dwkudu.DwKuduApp\--files/etl/etl-dwkudu/conf/doris.property,/etl/etl-dwkudu/conf/redis.property,/etl/etl-dwkudu/conf/log4j.property\--mastery
如何使用GraphX在Spark中进行图计算 python资深爱好者 spark 大数据分布式
GraphX是ApacheSpark的一个图计算框架，它允许开发者在分布式环境中进行大规模的图数据处理和分析。以下是如何使用GraphX在Spark中进行图计算的基本步骤：1.环境准备首先，确保你已经安装了ApacheSpark，并且你的Spark版本支持GraphX。GraphX是Spark的一个组件，因此通常与Spark一起安装。2.导入GraphX库在你的Spark应用程序中，你需要导入Gr
在Spark中如何配置Executor内存以优化性能 python资深爱好者 spark java 大数据
在Spark中，配置Executor内存以优化性能是一个关键步骤。以下是一些具体的配置方法和建议：一、Executor内存配置参数在Spark中，Executor的内存配置主要通过以下几个参数进行：--executor-memory或spark.executor.memory：指定每个Executor进程的内存大小。这个参数对Spark作业运行的性能影响很大。适当增加每个Executor的内存量，
什么容错性以及Spark Streaming如何保证容错性 python资深爱好者 spark 大数据分布式
一、容错性的定义容错性是指一个系统在发生故障或崩溃时，能够继续运行并提供一定服务的能力。在网络或系统中，这通常涉及到物理组件损坏或软件失败时系统的持续运行能力。容错系统的关键特性包括负载平衡、集群、冗余、复制和故障转移等。二、SparkStreaming保证容错性的方法SparkStreaming为了保证数据的准确性和系统的可靠性，实现了多种容错机制，主要包括以下几个方面：元数据的容错性：Spar
Spark集群架构情深不仅李义山 spark spark 大数据
文章目录Spark架构Spark执行任务流程Spark运行环境SparkonYARNSparkStandaloneSpark架构Spark可以运行在YARN上也可以运行Mesos上，无论运行在哪个集群管理架构上，Spark都是以主从架构运行程序。主节点会运行Driver进程，该进程会调用Spark程序的main方法，启动SparkContext；Executor就是从节点的进程，该进程负责执行Dr
四、spark集群架构 weixin_34411563 大数据开发工具
spark集群架构官方文档：http://spark.apache.org/docs/latest/cluster-overview.html集群架构我们先看这张图这张图把spark架构拆分成了两块内容：1）spark应用程序：即左边的DriverProgram这块;2）spark集群：即右边的ClusterManager和另外两个WorkerNode;这样的结构，我们大概可以猜测一下spark是
Spark集群架构介绍 olifchou Spark spark apache spark 大数据分布式
Spark之YARN介绍一、导语二、Spark及其特性三、Spark架构总览一、导语ApacheSpark(后续简称为Spark)是一款正在点燃大数据世界的开源集群计算框架。据SparkCertifiedExperts显示，在内存中运行时，Sparks性能要比Hadoop快一百倍，在磁盘上运行，Sparks比Hadoop快达十倍。在本篇博客中，我将会为你简单介绍一下Spark的底层基础架构。二、S
Spark Standalone集群架构 htfenght spark spark
北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark
Spark----Spark 在不同集群中的架构 XiaodunLP Spark
Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、YARN-Client模式或者YARN-Cluster模式。Spark的各种运行模式虽然在启动方式、运行位置、调
spark1.x和spark2.x的区别 xuxu1116 spark spark1.x与2.x的区别
spark2.x版本相对于1.x版本，有挺多地方的修改，1Spark2ApacheSpark作为编译器:增加新的引擎Tungsten执行引擎，比Spark1快10倍2ml做了很大的改进，支持协同过滤http://spark.apache.org/docs/latest/ml-collaborative-filtering.html3spark2org.apache.spark.sql加了Spark
spark程序提交到集群上_Spark集群模式&Spark程序提交毫无特色 spark程序提交到集群上
Spark集群模式&Spark程序提交1.集群管理器Spark当前支持三种集群管理方式Standalone—Spark自带的一种集群管理方式，易于构建集群。ApacheMesos—通用的集群管理，可以在其上运行HadoopMapReduce和一些服务应用。HadoopYARN—Hadoop2中的资源管理器。Tip1:在集群不是特别大，并且没有mapReduce和Spark同时运行的需求的情况下，用
基于docker-compose安装spark 1+3及Spark On Yarn模式集群 dh12313012 docker-compose spark docker
基于docker-compose安装spark1+3及SparkOnYarn模式集群1、`docker-compose.yml`：2、`spark.env`：此处的样例是参考别人的，之后自己整合一套可以使用的1+3模式的集群。spark镜像可以自行在dockerhub选择自己想要的进行替换即可。备注：此处未开启日志功能，在WEB界面上面找不到log的，如需开启，可自行添加参数或自己进入容器手动修改
spark vi基本使用 Freedom℡ spark
打开文件与创建文件是Linux的内置命令，以命令的方式来运行。命令格式：vi/路径/文件名注意以下两种情况：1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：newfile2.如果文件已存在，此时就打开这个文件，进入命令模式。把文本内容添加到一个全新的文件的快捷方式：echo1>>1.txt三种模式vi编辑器有三种工作模式，分别为：命令模式，输入模式，底线模式。命令模式：所敲按键编辑
Spark（1） Freedom℡ spark
阶段性：一、单机时代特点：1.硬件资源有限：单机系统的计算能力、存储容量和内存空间都受限于单台计算机的硬件配置。例如早期的个人电脑，通常只有几百兆的内存和几GB的硬盘空间。2.数据处理能力有限：主要处理本地产生的小规模数据，数据量一般在MB级别到GB级别之间。如单机版的财务软件，只处理一个小型企业内部的少量财务数据。3.应用场景简单：主要用于个人办公、简单的游戏娱乐或小型企业的基本业务处理，如文字
架构师论文《论湖仓一体架构及其应用》 pccai-vip 架构软考论文
软考论文-系统架构设计师摘要作为某省级商业银行数据中台建设项目技术负责人，我在2020年主导完成了从传统数据仓库向湖仓一体架构的转型。针对日益增长的支付流水、用户行为埋点及信贷审核影像文件等多模态数据处理需求，原有系统存在存储成本激增、实时分析能力不足等问题。新平台需整合12个核心业务系统数据资源，建设支持实时反欺诈、客户画像分析的高性能数据底座。本项目采用Iceberg+Spark架构实现湖仓一
【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程） m0_74823471 面试学习路线阿里巴巴分布式数据分析 spark
文章目录【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统b站（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）?一、项目概述二、研究意义三、背景四、国内外研究现状五、开发技术介绍六、算法介绍?七、数据库设计?八、系统启动九、项目展示?十、开发笔记十一、权威教学视频链接【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统b站（完整系统源码+数据库+开发笔记+详细部署教
Spark性能调优方法总结 Cynthiaaaaalxy spark 大数据分布式
1、资源分配优化 Spark的分配资源主要就是executor、cpuperexecutor、memoryperexecutor、drivermemory等的调节，我们在生产环境中，提交spark作业时，用的spark-submitshell脚本，里面调整对应的参数：/usr/local/spark/bin/spark-submit–confspark.default.parallelism=1
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><