北夷烟雪江中雨

{{π型人才培养计划}}Apache Spark RDD

Apache Spark RDD

一、概述

Apache Spark™ is a unified analytics engine for large-scale data processing.

Spark是一个使用大数据处理的统一分析引擎（计算）

官网地址：http://spark.apache.org/

${{π型人才培养计划}}Apache Spark RDD_第1张图片$

官方介绍： Lightning-fast unified analytics engine （Spark快如闪电统一分析引擎）

快如闪电

Spark是基于内存式计算引擎。不同于Hadoop框架中MapReduce，在计算时将任务分为粗粒度MapTask和ReduceTask，Shuffle通常比较耗时，因为MapTask映射结果需要溢写到磁盘，ReduceTask需要通过网络拉取负责计算的分区数据。
Spark计算任务可以划分细粒度Stage（阶段），每一个Stage都支持分布式并行计算。不同于MapReduce
Spark在计算时，每一个阶段的计算中间结果都支持Cache（缓存），利用缓存进行结果复用和故障恢复
Spark在底层进行大量优化，包括查询优化、物理引擎、内存管理等

统一

Spark框架提供了大数据处理的所有主流方案

批处理 Batch Processing（Spark RDD 弹性分布式数据集），代替MR
流处理 Stream Processing（Spark Streaming 和 Spark Structured Streaming），代替Storm
交互式查询支持，类似于Hive（Spark SQL）,代替Hive
机器学习 Machine Learning（Spark MLLib）
图形计算 NOSQL（Spark GraphX）
其它Spark第三方生态库

分析引擎

Spark作用类似于MapReduce，是一个分布式并行计算引擎

大数据需要解决三个问题：数据采集、存储、计算（Spark解决）

特点

高性能：Spark提供了一个先进的计算模型：DAG（Dirtected Acycle Graph有向无环图，计算任务），可以将计算任务划分多个Stage，每一个Stage都支持分布式并行计算。Spark底层进行了大量优化（内存管理、网络传输、数据序列化、物理引擎、任务管理等）
易用性：Spark应用可以基于多种编程语言开发（Scala【推荐】、Java、Python、R、SQL），提供了大概80个操作方法（高阶函数）可以极大简化大数据应用的开发
通用性：Spark拥有一个强大生态库，可以解决大数据的批、流、SQL、Graph、ML、AI、BI等一系列问题
运行环境：Spark应用可以运行在多种集群中环境中，如Yarn、Mesos、K8S、Cloud，或者运行Spark自带资源管理调度系统（Standalone），local模式，常用于测试开发

二、集群环境搭建

Standalone模式

Standalone模式（又称为独立模式集群），本质是一种类似于Hadoop Yarn资源管理和调度系统，主要对分布式集群中计算资源（内存、CPU、网络、IO等一系列硬件）。Spark应用需要运行在Standalone集群中，进行并行计算

注意：搭建伪分布式集群

准备工作

CentOS7【内存：2G以上】

Hadoop版本2.9.2

Spark版本2.4.4

安装CentOS7

关闭防火墙

[root@localhost ~]# systemctl stop firewalld
[root@localhost ~]# systemctl disable firewalld
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

修改主机名

[root@localhost ~]# vi /etc/hostname
SparkOnStandalone

配置网络

[root@localhost ~]# vi /etc/sysconfig/network-scripts/ifcfg-ens33
BOOTPROTO=static
IPADDR=192.168.126.100  # 要根据VMNet8调整IP地址
NETMASK=255.255.255.0
ONBOOT=yes
[root@localhost ~]# systemctl restart network

配置主机名IP映射

[root@localhost ~]# vi /etc/hosts
192.168.126.100 SparkOnStandalone
[root@localhost ~]# ping SparkOnStandalone
PING SparkOnStandalone (192.168.126.100) 56(84) bytes of data.
64 bytes from SparkOnStandalone (192.168.126.100): icmp_seq=1 ttl=64 time=0.024 ms
64 bytes from SparkOnStandalone (192.168.126.100): icmp_seq=2 ttl=64 time=0.039 ms

关闭虚拟机配置双网卡
${{π型人才培养计划}}Apache Spark RDD_第2张图片$

安装文本编辑器vim

[root@SparkOnStandalone ~]# yum install -y vim

安装Hadoop HDFS

安装JDK

[root@SparkOnStandalone ~]# rpm -ivh jdk-8u171-linux-x64.rpm
准备中...                          ################################# [100%]
正在升级/安装...
   1:jdk1.8-2000:1.8.0_171-fcs        ################################# [100%]
Unpacking JAR files...
        tools.jar...
        plugin.jar...
        javaws.jar...
        deploy.jar...
        rt.jar...
        jsse.jar...
        charsets.jar...
        localedata.jar...

配置SSH免密登陆

[root@SparkOnStandalone ~]# ssh-keygen -t rsa
// 按四次回车 产生公私玥文件

[root@SparkOnStandalone ~]# ll -a .ssh/
总用量 8
drwx------. 2 root root   38 11月 22 11:22 .
dr-xr-x---. 3 root root  247 11月 22 11:22 ..
-rw-------. 1 root root 1679 11月 22 11:22 id_rsa
-rw-r--r--. 1 root root  404 11月 22 11:22 id_rsa.pub

// 将当前主机的公钥文件中的内容拷贝指定主机的授权列表中
[root@SparkOnStandalone ~]# ssh-copy-id SparkOnStandalone

[root@SparkOnStandalone ~]# ll -a .ssh/
总用量 16
drwx------. 2 root root   80 11月 22 11:23 .
dr-xr-x---. 3 root root  247 11月 22 11:22 ..
-rw-------. 1 root root  404 11月 22 11:23 authorized_keys
-rw-------. 1 root root 1679 11月 22 11:22 id_rsa
-rw-r--r--. 1 root root  404 11月 22 11:22 id_rsa.pub
-rw-r--r--. 1 root root  195 11月 22 11:23 known_hosts

// 测试SSH免密登陆，如无需密码登陆 SSH免密登陆配置成功  如需要密码 重试配置
[root@SparkOnStandalone ~]# ssh SparkOnStandalone
Last login: Fri Nov 22 11:17:58 2019 from 192.168.126.1

安装Hadoop

[root@SparkOnStandalone ~]# tar -zxf hadoop-2.9.2.tar.gz -C /usr
[root@SparkOnStandalone usr]# cd /usr/hadoop-2.9.2/
[root@SparkOnStandalone hadoop-2.9.2]# ll
总用量 128
drwxr-xr-x. 2 501 dialout    194 11月 13 2018 bin
drwxr-xr-x. 3 501 dialout     20 11月 13 2018 etc
drwxr-xr-x. 2 501 dialout    106 11月 13 2018 include
drwxr-xr-x. 3 501 dialout     20 11月 13 2018 lib
drwxr-xr-x. 2 501 dialout    239 11月 13 2018 libexec
-rw-r--r--. 1 501 dialout 106210 11月 13 2018 LICENSE.txt
-rw-r--r--. 1 501 dialout  15917 11月 13 2018 NOTICE.txt
-rw-r--r--. 1 501 dialout   1366 11月 13 2018 README.txt
drwxr-xr-x. 3 501 dialout   4096 11月 13 2018 sbin
drwxr-xr-x. 4 501 dialout     31 11月 13 2018 share

对HDFS进行配置

core-site.xml

[root@SparkOnStandalone hadoop-2.9.2]# vi etc/hadoop/core-site.xml
<!--nn访问入口-->
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://SparkOnStandalone:9000</value>
</property>
<!--hdfs工作基础目录-->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/hadoop-2.9.2/hadoop-${user.name}</value>
</property>

hdfs-site.xml

[root@SparkOnStandalone hadoop-2.9.2]# vi etc/hadoop/hdfs-site.xml

<property>
  <name>dfs.replicationname>
  <value>1value>
property>

<property>
  <name>dfs.namenode.secondary.http-addressname>
  <value>SparkOnStandalone:50090value>
property>

<property>
  <name>dfs.datanode.max.xcieversname>
  <value>4096value>
property>

<property>
  <name>dfs.datanode.handler.countname>
  <value>6value>
property>

slaves

[root@SparkOnStandalone hadoop-2.9.2]# vi etc/hadoop/slaves
SparkOnStandalone

配置Hadoop&JDK环境变量

[root@SparkOnStandalone ~]# vim /root/.bashrc
HADOOP_HOME=/usr/hadoop-2.9.2
JAVA_HOME=/usr/java/latest
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
CLASSPATH=.
export HADOOP_HOME
export JAVA_HOME
export PATH
export CLASSPATH
[root@SparkOnStandalone ~]# source /root/.bashrc

启动Hadoop HDFS服务

# namenode在第一次启动时需要格式化
[root@SparkOnStandalone ~]# hdfs namenode -format

# 启动HDFS服务
[root@SparkOnStandalone ~]# start-dfs.sh

[root@SparkOnStandalone ~]# jps
11554 DataNode
11750 SecondaryNameNode
11433 NameNode
11998 Jps

# 或者访问： http://192.168.126.100:50070

安装Spark

解压缩安装

[root@SparkOnStandalone ~]# tar -zxf spark-2.4.4-bin-without-hadoop.tgz -C /usr
[root@SparkOnStandalone spark-2.4.4-bin-without-hadoop]# cd /usr
[root@SparkOnStandalone usr]# mv spark-2.4.4-bin-without-hadoop/ spark-2.4.4

[root@SparkOnStandalone usr]# cd spark-2.4.4/
[root@SparkOnStandalone spark-2.4.4]# ll
总用量 100
drwxr-xr-x. 2 1000 1000  4096 8月  28 05:52 bin  # Spark操作指令
drwxr-xr-x. 2 1000 1000   230 8月  28 05:52 conf # 配置文件
drwxr-xr-x. 5 1000 1000    50 8月  28 05:52 data  # 数据
drwxr-xr-x. 4 1000 1000    29 8月  28 05:52 examples  # 示例代码
drwxr-xr-x. 2 1000 1000  8192 8月  28 05:52 jars  # 运行所需类库
drwxr-xr-x. 4 1000 1000    38 8月  28 05:52 kubernetes # spark k8s容器支持
-rw-r--r--. 1 1000 1000 21316 8月  28 05:52 LICENSE 
drwxr-xr-x. 2 1000 1000  4096 8月  28 05:52 licenses
-rw-r--r--. 1 1000 1000 42919 8月  28 05:52 NOTICE
drwxr-xr-x. 7 1000 1000   275 8月  28 05:52 python  # spark python支持
drwxr-xr-x. 3 1000 1000    17 8月  28 05:52 R       # r语言支持
-rw-r--r--. 1 1000 1000  3952 8月  28 05:52 README.md
-rw-r--r--. 1 1000 1000   142 8月  28 05:52 RELEASE
drwxr-xr-x. 2 1000 1000  4096 8月  28 05:52 sbin    # spark系统管理相关的指令
drwxr-xr-x. 2 1000 1000    42 8月  28 05:52 yarn    # spark对yarn集群集成整合目录

修改Spark配置文件

[root@SparkOnStandalone spark-2.4.4]# cd conf/
[root@SparkOnStandalone conf]# cp spark-defaults.conf.template spark-defaults.conf
[root@SparkOnStandalone conf]# cp spark-env.sh.template spark-env.sh
[root@SparkOnStandalone conf]# vim spark-env.sh
SPARK_WORKER_INSTANCES=1
SPARK_MASTER_HOST=SparkOnStandalone
SPARK_MASTER_PORT=7077
SPARK_WORKER_CORES=4
SPARK_WORKER_MEMORY=2g
LD_LIBRARY_PATH=/usr/hadoop-2.9.2/lib/native
SPARK_DIST_CLASSPATH=$(hadoop classpath)
export SPARK_MASTER_HOST
export SPARK_MASTER_PORT
export SPARK_WORKER_CORES
export SPARK_WORKER_MEMORY
export LD_LIBRARY_PATH
export SPARK_DIST_CLASSPATH
export SPARK_WORKER_INSTANCES

[root@SparkOnStandalone conf]# cp slaves.template slaves
[root@SparkOnStandalone conf]# vim slaves
SparkOnStandalone

启动Spark服务

[root@SparkOnStandalone spark-2.4.4]# sbin/start-all.sh
starting org.apache.spark.deploy.master.Master, logging to /usr/spark-2.4.4/logs/spark-root-org.apache.spark.deploy.master.Master-1-SparkOnStandalone.out
SparkOnStandalone: starting org.apache.spark.deploy.worker.Worker, logging to /usr/spark-2.4.4/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-SparkOnStandalone.out

# 验证方式一
[root@SparkOnStandalone spark-2.4.4]# jps
11554 DataNode
11750 SecondaryNameNode
19447 Jps
11433 NameNode
19179 Master  # 独立模式集群 主服务
19291 Worker  # 从服务

# 验证方式二
http://192.168.126.100:8080/

${{π型人才培养计划}}Apache Spark RDD_第3张图片$

spark-shell 指令窗口，可以运行Spark应用

重要参数：

–master ：表示spark shell连接那种类型的集群环境

–total-executor-cores num 表示计算任务的JVM进程所需要占用的核心数量
--master		MASTER_URL        spark://host:port, mesos://host:port, yarn,
                                  k8s://https://host:port, or local (Default: local[*]).
--total-executor-cores  num

[root@SparkOnStandalone spark-2.4.4]# bin/spark-shell --master spark://SparkOnStandalone:7077 --total-executor-cores 2
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://SparkOnStandalone:4040
Spark context available as 'sc' (master = spark://SparkOnStandalone:7077, app id = app-20191122120954-0000).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.4
      /_/

Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_171)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 1+1
                                 
// spark应用 统计单词出现的次数
scala> :paste
// Entering paste mode (ctrl-D to finish)

sc
   .textFile("hdfs://SparkOnStandalone:9000/text.txt")
   .flatMap(_.split(" "))
   .map((_,1))
   .groupByKey()
   .map(t => (t._1,t._2.size))
   .saveAsTextFile("hdfs://SparkOnStandalone:9000/result")

// Exiting paste mode, now interpreting.

注意：Spark Shell会自动初始化两个核心对象SparkContext和Spark Session

计算结果：

[root@SparkOnStandalone ~]# hdfs dfs -cat /result/*
(Kafka,1)
(Hello,4)
(Hadoop,3)

Yarn模式

SparkOnYarn， Yarn是 Hadoop框架提供的一个分布式资源管理和调度系统

ResourceManager

NodeManager

克隆虚拟机

对克隆机进行微调

# 修改主机名
[root@SparkOnYarn ~]# vim /etc/hostname
SparkOnYarn

# 修改ens33网卡的IP地址
[root@SparkOnYarn ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
192.168.126.101

# 修改主机名映射
192.168.126.101 SparkOnYarn

# 修改Hadoop core-site.xml\hdfs-site.xml\slaves主机名配置
[root@SparkOnYarn ~]# vim /usr/hadoop-2.9.2/etc/hadoop/core-site.xml

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://SparkOnYarn:9000</value>
</property>

[root@SparkOnYarn ~]# vim /usr/hadoop-2.9.2/etc/hadoop/hdfs-site.xml
<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>SparkOnYarn:50090</value>
</property>

[root@SparkOnYarn ~]# vim /usr/hadoop-2.9.2/etc/hadoop/slaves
SparkOnYarn

# SSH免密登陆重新配置
[root@SparkOnYarn ~]# rm -rf .ssh/
[root@SparkOnYarn ~]# ssh-keygen -t rsa
[root@SparkOnYarn ~]# ssh-copy-id SparkOnYarn

# 删除克隆机上HDFS的历史数据
[root@SparkOnYarn ~]# rm -rf /usr/hadoop-2.9.2/hadoop-root/*

# 重新格式化HDFS
[root@SparkOnYarn ~]# hdfs namenode -format

# 启动HDFS的服务
[root@SparkOnYarn ~]# start-dfs.sh

安装Yarn集群

[root@SparkOnYarn ~]# vim /usr/hadoop-2.9.2/etc/hadoop/yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-servicesname>
  <value>mapreduce_shufflevalue>
property>

<property>
  <name>yarn.resourcemanager.hostnamename>
  <value>SparkOnYarnvalue>
property>

<property>
  <name>yarn.nodemanager.pmem-check-enabledname>
  <value>falsevalue>
property>

<property>
  <name>yarn.nodemanager.vmem-check-enabledname>
  <value>falsevalue>
property>


[root@SparkOnYarn ~]# cp /usr/hadoop-2.9.2/etc/hadoop/mapred-site.xml.template /usr/hadoop-2.9.2/etc/hadoop/mapred-site.xml
[root@SparkOnYarn ~]# vim /usr/hadoop-2.9.2/etc/hadoop/mapred-site.xml


<property>
	<name>mapreduce.framework.namename>
	<value>yarnvalue>
property>

启动Yarn集群

[root@SparkOnYarn ~]# start-yarn.sh
starting yarn daemons
starting resourcemanager, logging to /usr/hadoop-2.9.2/logs/yarn-root-resourcemanager-SparkOnYarn.out
SparkOnYarn: starting nodemanager, logging to /usr/hadoop-2.9.2/logs/yarn-root-nodemanager-SparkOnYarn.out
[root@SparkOnYarn ~]# jps
8945 NodeManager
5811 DataNode
8807 ResourceManager
6008 SecondaryNameNode
5657 NameNode
9164 Jps

Spark&Yarn整合

[root@SparkOnYarn spark-2.4.4]# vim conf/spark-env.sh
HADOOP_CONF_DIR=/usr/hadoop-2.9.2/etc/hadoop
YARN_CONF_DIR=/usr/hadoop-2.9.2/etc/hadoop
SPARK_EXECUTOR_CORES=4
SPARK_EXECUTOR_MEMORY=1g
SPARK_DRIVER_MEMORY=1g
LD_LIBRARY_PATH=/usr/hadoop-2.9.2/lib/native
SPARK_DIST_CLASSPATH=$(hadoop classpath)
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs:///spark-logs"
export HADOOP_CONF_DIR
export YARN_CONF_DIR
export SPARK_EXECUTOR_CORES
export SPARK_DRIVER_MEMORY
export SPARK_EXECUTOR_MEMORY
export LD_LIBRARY_PATH
export SPARK_DIST_CLASSPATH
# 开启historyserver optional
export SPARK_HISTORY_OPTS

[root@SparkOnYarn spark-2.4.4]# vim conf/spark-defaults.conf
# 开启spark history server日志记录功能
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs:///spark-logs

[root@SparkOnYarn ~]# hdfs dfs -mkdir /spark-logs
[root@SparkOnYarn ~]# /usr/spark-2.4.4/sbin/start-history-server.sh
starting org.apache.spark.deploy.history.HistoryServer, logging to /usr/spark-2.4.4/logs/spark-root-org.apache.spark.deploy.history.HistoryServer-1-SparkOnYarn.out
[root@SparkOnYarn ~]# jps
8945 NodeManager
5811 DataNode
11811 HistoryServer
8807 ResourceManager
6008 SecondaryNameNode
11880 Jps
5657 NameNode

测试运行

SparkShell

[root@SparkOnYarn spark-2.4.4]# bin/spark-shell --help
--master  yarn
--total-executor-cores NUM  【不适用于Yarn】
--executor-cores NUM  每一个计算进程Cores数量
--num-executors NUM   计算进程数量


[root@SparkOnYarn spark-2.4.4]# bin/spark-shell --master yarn --executor-cores 2 --num-executors 2
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
19/11/22 17:11:09 WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.
Spark context Web UI available at http://SparkOnYarn:4040
Spark context available as 'sc' (master = yarn, app id = application_1574413099567_0001).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.4
      /_/

Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_171)
Type in expressions to have them evaluated.
Type :help for more information.

scala> :paste
// Entering paste mode (ctrl-D to finish)

sc
   .textFile("hdfs://SparkOnYarn:9000/text.txt")
   .flatMap(_.split(" "))
   .map((_,1))
   .groupByKey()
   .map(t => (t._1,t._2.size))
   .saveAsTextFile("hdfs://SparkOnYarn:9000/result")

// Exiting paste mode, now interpreting.

远程提交运行

修改WordCount应用代码

package com.baizhi

import org.apache.spark.{SparkConf, SparkContext}

/**
  * spark版本的单词统计
  */
object WordCountApplicationOnYarn {
  def main(args: Array[String]): Unit = {
    //1. 创建SparkContext，上下文对象提供spark应用运行环境信息
    val conf = new SparkConf()
      .setAppName("WordCount Apps")
      .setMaster("yarn") // yarn集群模式
      

    val sc = new SparkContext(conf)

    //2. 编写DAG计算任务  有向无环图（某逻辑开发 --》 多重计算 --》最终输出）
    val rdd = sc.textFile("hdfs://SparkOnYarn:9000/text.txt")

    val result = rdd
      .flatMap(line => line.split(" "))
      .map(word => (word, 1L)) // (Hello,1L)
      .groupByKey()
      .map(t2 => (t2._1, t2._2.size))

    result.saveAsTextFile("hdfs://SparkOnYarn:9000/result2")

    //3. 释放资源
    sc.stop()
  }
}

重新打包

重新发布

[root@SparkOnYarn spark-2.4.4]# bin/spark-submit --master yarn --class com.baizhi.WordCountApplicationOnYarn --executor-cores 2 --num-executors 2 /root/spark-day1-1.0-SNAPSHOT.jar

三、Spark应用开发

创建工程导入依赖

<dependencies>
    <dependency>
        <groupId>org.apache.sparkgroupId>
        
        <artifactId>spark-core_2.11artifactId>
        <version>2.4.4version>
    dependency>
dependencies>
<build>
    <plugins>
        <plugin>
            
            
            <groupId>net.alchim31.mavengroupId>
            <artifactId>scala-maven-pluginartifactId>
            <version>4.0.1version>
            <executions>
                <execution>
                    <id>scala-compile-firstid>
                    <phase>process-resourcesphase>
                    <goals>
                        <goal>add-sourcegoal>
                        <goal>compilegoal>
                    goals>
                execution>
            executions>
        plugin>
    plugins>
build>

开发WordCount应用

package com.baizhi

import org.apache.spark.{SparkConf, SparkContext}

/**
  * spark版本的单词统计
  */
object WordCountApplication {
  def main(args: Array[String]): Unit = {
    //1. 创建SparkContext，上下文对象提供spark应用运行环境信息
    val conf = new SparkConf()
      .setAppName("WordCount Apps")
      .setMaster("spark://SparkOnStandalone:7077")

    val sc = new SparkContext(conf)

    //2. 编写DAG计算任务  有向无环图（某逻辑开发 --》 多重计算 --》最终输出）
    val rdd = sc.textFile("hdfs://SparkOnStandalone:9000/text.txt")

    val result = rdd
      .flatMap(line => line.split(" "))
      .map(word => (word, 1L)) // (Hello,1L)
      .groupByKey()
      .map(t2 => (t2._1, t2._2.size))

    result.saveAsTextFile("hdfs://SparkOnStandalone:9000/result")

    //3. 释放资源
    sc.stop()
  }
}

在Windows操作系统配置主机名映射

C:\Windows\System32\drivers\etc\HOSTS

192.168.126.100	SparkOnStandalone

将Spark应用打包集群运行（远程）

//1. 通过Maven Package插件将Spark应用 打成Jar包

//2. 将Jar包上传到虚拟机中

//3. 提交任务
[root@SparkOnStandalone spark-2.4.4]# bin/spark-submit --help
--master MASTER_URL  # 使用spark集群环境
--class CLASS_NAME   # spark应用入口类的全限定名
--total-executor-cores NUM # spark应用的计算进程占用核心数量Cores


如：
[root@SparkOnStandalone spark-2.4.4]# bin/spark-submit --master spark://SparkOnStandalone:7077 --class com.baizhi.WordCountApplication --total-executor-cores 2 /root/spark-day1-1.0-SNAPSHOT.jar

在Local本地模拟运行（本地）

package com.baizhi

import org.apache.spark.{SparkConf, SparkContext}

/**
  * spark版本的单词统计
  */
object WordCountApplicationOnLocal {
  def main(args: Array[String]): Unit = {
    //1. 创建SparkContext，上下文对象提供spark应用运行环境信息
    val conf = new SparkConf()
      .setAppName("WordCount Apps")
      .setMaster("local[*]")  // local 本地模式 模拟Spark应用运行 [*] 当前计算机的所有核心  cores 6

    val sc = new SparkContext(conf)

    //2. 编写DAG计算任务  有向无环图（某逻辑开发 --》 多重计算 --》最终输出）
    val rdd = sc.textFile("hdfs://SparkOnStandalone:9000/text.txt")

    val result = rdd
      .flatMap(line => line.split(" "))
      .map(word => (word, 1L)) // (Hello,1L)
      .groupByKey()
      .map(t2 => (t2._1, t2._2.size))

    result.saveAsTextFile("hdfs://SparkOnStandalone:9000/result")

    //3. 释放资源
    sc.stop()
  }
}

org.apache.hadoop.security.AccessControlException

解决方案：

在运行Spark应用时，添加虚拟机参数-DHADOOP_USER_NAME=root

四、Spark架构篇

${{π型人才培养计划}}Apache Spark RDD_第4张图片$

MapReduceOnYarn(回顾)

${{π型人才培养计划}}Apache Spark RDD_第5张图片$

工作步骤

第一步：在ClientNode上，初始化JVM容器（RunJar），运行MapReduce应用，然后实例化Job对象
第二步：将Job对象，注册到Yarn集群的ResourceManager之上，返回一个ApplicationId
第三步：将Job对象的资源（任务的jar、配置文件、计算的数据切片信息等）提交到一个共享的文件系统（通常指的HDFS，大数据计算原则：移动计算而不移动数据）
第四步：正式的将MapReduce的Job提交到Yarn计算中运行（注意：此步骤后所有的操作都发生在Yarn集群）
第五、六步：Yarn集群的ResourceManager会在某空闲的NodeManager会加载一个JVM容器MRAppMaster（负责Job的监控和管理），并且对Job进行进一步的初始化
第七步： MRAppMaster会从共享的文件系统（HDFS）获取数据切片信息，（一个Splits —》 MapTask， ReduceTask【默认为1，或者手动设定】）
第八步：MRAppMaster会请求Yarn集群的ResourceManager分配相应单位的计算资源（JVM进程）
第九步：MRAppMaster会在ResourceManager分配的空闲的NodeManager上启动相应单位的计算进程（YarnChild）
第十、十一步：接下来YarnChild(Task JVM)会从共享的文件系统（HDFS）获取资源（任务jar包，计算数据），运行MapTask/ReduceTask
第十二步：当任务运行结束后，释放资源

分析问题

MapReduce任务分为粗粒度的MapTask和ReduceTask，并且计算针对于进程（JVM）的，并不能发挥多核CPU的优势
MapReduce慢，MapTask映射的结果需要溢写在磁盘中存储，Reduce任务计算时需要通过网络从磁盘拉取负责计算分区数据，造成的大量资源开销
MapReduce完成复杂的科学计算，可能需要将多个任务串联起来，多个任务的数据通过HDFS这样的共享文件系统进行共享（MR—> R1 —> MR2 —> R2 —>MR3 —>R3 …）, 计算延迟较高。本来就很慢，串联更慢。
MapReduce只能够进行Batch（大数据的批处理计算），不支持（Streaming，SQL【借助于Hive】、ML【借助于Mahout】等）
MapReduce计算中间结果不支持缓存（Cache）

SparkOnStandalone架构

将基于Spark开发的应用打包，提交到Standalone集群中运行

${{π型人才培养计划}}Apache Spark RDD_第6张图片$

工作步骤

第一步：在提交Spark应用时会初始化Driver（JVM进程），并且创建SparkContext
第二步：Driver会根据任务需要的资源信息，请求资源管理器（ClusterManager）分配计算计算
第三步：ClusterManager会根据将分配的计算资源反向注册给Driver
第四步：Driver端的DAGScheduler划分Stage，将一个复杂的计算任务肢解为若个小的任务，每一个Stage阶段都包含一个TaskSet
第五步：Driver端的TaskScheduler会根据阶段的划分，逐一提交Stage的TaskSet，运行在预支的计算节点。Spark计算节点在运行任务时，TaskSet中的每一个Task运行在Thread线程中，进行分布式并行计算。
第六步：当所有阶段的任务运行结束后，通过SparkContext释放占用的计算资源，通知ClusterManager回收

总结特点

Spark可以将任务进行细粒度的拆分，每一个切分后的任务子集，都支持分布式并行计算。不同于MapReduce粗粒度的阶段划分
Spark任务在运行时针对线程的，不同于MapReduce进程，能够充分发挥多核CPU计算优势
Spark的Executor中有Cache缓冲区，可以将计算产生的中间结果进行缓存，便于重复计算和故障恢复。
…

五、Spark Core之RDD

RDD（Resilent Distrutbed DataSet）：弹性分布式数据集，是Spark中最为核心的抽象，代表一个不可变，可分区，支持并行计算的数据集合。

RDD的创建

通过Scala（Seq）集合

package com.baizhi.datasource

import org.apache.spark.{SparkConf, SparkContext}

object CreateRDDWithCollection {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("rdd create").setMaster("local[3]")
    val sc = new SparkContext(conf)

    // 通过集合构建RDD
    // 分区和任务并行度关系
    /*
      p0:
        Hello Scala    (Hello,1) (Scala,1) (Hello,1) (Spark,1)
        Hello Spark
      p1:
        Hello Hello Hello
     */
    // 方式1
    // val rdd = sc.parallelize(List("Hello Scala","Hello Spark","Hello Hello Hello"),2)
    // 方式2
    val rdd = sc.makeRDD(List("Hello Scala","Hello Spark","Hello Hello Hello"),2)

    rdd
      .flatMap(_.split(" "))
      .map((_,1))
      .groupByKey()  // shuffle
      .map(t2 => (t2._1,t2._2.size))
      .foreach(println)

    sc.stop()

  }
}

通过文件系统

Local

package com.baizhi.datasource

import org.apache.spark.{SparkConf, SparkContext}

object CreateRDDWithLocalFileSystem {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("rdd create").setMaster("local[3]")
    val sc = new SparkContext(conf)

    // 通过local fs构建RDD
    // 分区和任务并行度关系

    //--------------------------------------------------------
    // 方式1
    //    返回值RDD[String: 一行记录]
    //    val rdd = sc.textFile("file:///d://README.txt")
    //
    //    rdd
    //      .flatMap(_.split(" "))
    //      .map((_,1))
    //      .groupByKey()  // shuffle
    //      .map(t2 => (t2._1,t2._2.size))
    //      .foreach(println)
    //--------------------------------------------------------


    // 方式2
    // 返回值RDD(path,完整内容)
    val rdd = sc.wholeTextFiles("file:///d://README.txt")

    // rdd.foreach(t2 => println(t2._1 +"\t" + t2._2))
    rdd
      .map(t2 => t2._2) // Tuple2 --> String
      .flatMap(wholeText => wholeText.split("\n")) // 文本 --> line
      .flatMap(line => line.split(" "))
      .map((_,1))
      .groupByKey() // shuffle
      .map(t2 => (t2._1, t2._2.size))
      .foreach(println)

    sc.stop()
  }
}

HDFS

确保HDFS集群服务正常

package com.baizhi.datasource

import org.apache.spark.{SparkConf, SparkContext}

object CreateRDDWithHDFS {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("rdd create").setMaster("local[3]")
    val sc = new SparkContext(conf)

    // 通过local fs构建RDD
    // 分区和任务并行度关系

    //--------------------------------------------------------
    // 方式1
    //    返回值RDD[String: 一行记录]
    //    val rdd = sc.textFile("hdfs://SparkOnStandalone:9000/README.md")
    //
    //    rdd
    //      .flatMap(_.split(" "))
    //      .map((_, 1))
    //      .groupByKey() // shuffle
    //      .map(t2 => (t2._1, t2._2.size))
    //      .foreach(println)
    //--------------------------------------------------------


    // 方式2
    // 返回值RDD(path,完整内容)
    val rdd = sc.wholeTextFiles("hdfs://SparkOnStandalone:9000/README.md")

    // rdd.foreach(t2 => println(t2._1 +"\t" + t2._2))
    rdd
      .map(t2 => t2._2) // Tuple2 --> String
      .flatMap(wholeText => wholeText.split("\n")) // 文本 --> line
      .flatMap(line => line.split(" "))
      .map((_, 1))
      .groupByKey() // shuffle
      .map(t2 => (t2._1, t2._2.size))
      .foreach(println)

    sc.stop()

  }
}

通过RDBMS

通过MySQL数据库表构建Spark核心抽象RDD

user表—> RDD

package com.baizhi.datasource

import java.sql.DriverManager

import com.mysql.jdbc.Driver
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.io.{IntWritable, LongWritable}
import org.apache.hadoop.mapreduce.lib.db.{DBConfiguration, DBInputFormat}
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 通过RDBMS创建RDD
  */
object CreateRDDWithRDBMS {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("rdd with rdbms")
    val sc = new SparkContext(conf)

    // 方法一
    // m1(sc)

    // 方法二
    m2(sc)

    sc.stop()
  }

  def m1(sc: SparkContext) = {
    // 创建hadoop配置对象 DBInputFormat
    val hadoopConf = new Configuration()
    // 数据库的连接参数
    hadoopConf.set(DBConfiguration.DRIVER_CLASS_PROPERTY, "com.mysql.jdbc.Driver")
    hadoopConf.set(DBConfiguration.URL_PROPERTY, "jdbc:mysql://localhost:3306/hadoop")
    hadoopConf.set(DBConfiguration.PASSWORD_PROPERTY, "1234")
    hadoopConf.set(DBConfiguration.USERNAME_PROPERTY, "root")
    hadoopConf.set(DBConfiguration.INPUT_QUERY, "select * from user ")
    hadoopConf.set(DBConfiguration.INPUT_COUNT_QUERY, "select count(*) from user")
    // 将自定义序列化对象定义配置对象中
    hadoopConf.set(DBConfiguration.INPUT_CLASS_PROPERTY, "com.baizhi.datasource.User")

    // 参数三：查询出来数据的序号 0~n  参数四：为value类型  extends DBWritable
    val rdd = sc.newAPIHadoopRDD(hadoopConf, classOf[DBInputFormat[User]], classOf[LongWritable], classOf[User])

    rdd.foreach(t2 => println(t2._1 + "\t" + t2._2.name + "\t" + t2._2.sex + "\t" + t2._2.id))
  }
    
  def m2(sc: SparkContext) = {
    val rdd = new JdbcRDD(
      sc,
      () => {
        //1. 加载驱动类
        Class.forName("com.mysql.jdbc.Driver")
        // classOf[Driver]

        //2. 创建JDBC连接对象
        val connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/hadoop", "root", "1234")
        connection
      },
      "select * from user where id >= ? and id <= ?",
      1,
      4,
      1,
      rs => (rs.getInt("id"), rs.getString("name"), rs.getString("sex"))
    )

    rdd.foreach(t3 => println(t3._1 + "\t" + t3._2 + "\t" + t3._3))
  }
}

总结：

方法一：使用的是Hadoop的InputFormat构建RDD，如果是其它的存储系统，只需要使用相应格式的InputFormat

方法二：使用Spark提供的JdbcRDD对象构建，但是有很大的局限性，必须使用范围查询，如果需要全表查询请使用方法一

通过HBase

通过HBase中的BigTable创建RDD时，准备工作：

HDFS服务正常

ZooKeeper服务正常

HBase服务正常
3505 Jps
2337 SecondaryNameNode
1814 NameNode
2759 QuorumPeerMain
3047 HMaster
1929 DataNode
3215 HRegionServer

导入HBase集成依赖

<dependency>
    <groupId>org.apache.hbasegroupId>
    <artifactId>hbase-serverartifactId>
    <version>1.4.10version>
dependency>
<dependency>
    <groupId>org.apache.hbasegroupId>
    <artifactId>hbase-clientartifactId>
    <version>1.4.10version>
dependency>
<dependency>
    <groupId>com.google.protobufgroupId>
    <artifactId>protobuf-javaartifactId>
    <version>2.5.0version>
dependency>

开发应用

package com.baizhi.datasource

import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.{HBaseConfiguration, HConstants}
import org.apache.spark.{SparkConf, SparkContext}


/**
  * 通过HBase创建RDD
  */
object CreateRDDWithHBase {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("rdd with rdbms")
    val sc = new SparkContext(conf)

    val hbaseConf = HBaseConfiguration.create()
    hbaseConf.set(HConstants.ZOOKEEPER_QUORUM, "HadoopNode00")
    hbaseConf.set(HConstants.ZOOKEEPER_CLIENT_PORT, "2181")
    hbaseConf.set(TableInputFormat.INPUT_TABLE, "baizhi:t_user")
    // 操作多个列使用空格分隔
    hbaseConf.set(TableInputFormat.SCAN_COLUMNS, "cf1:name cf1:pwd cf2:age cf2:salary")

    val rdd = sc.newAPIHadoopRDD(
      hbaseConf,
      classOf[TableInputFormat], // 基于HBase数据输入格式
      classOf[ImmutableBytesWritable],
      classOf[Result]
    )

    rdd.foreach(t2 => {
      val rowKey = t2._1
      val result = t2._2 // result代表的是hbase中的一行记录
      val name = Bytes.toString(result.getValue("cf1".getBytes(), "name".getBytes()))
      val pwd = Bytes.toString(result.getValue("cf1".getBytes(), "pwd".getBytes()))
      val age = Bytes.toString(result.getValue("cf2".getBytes(), "age".getBytes()))
      val salary = Bytes.toString(result.getValue("cf2".getBytes(), "salary".getBytes()))

      println(Bytes.toString(rowKey.get()) + "\t" + name + "\t" + pwd + "\t" + age + "\t" + salary)
    })

    sc.stop()
  }
}

远程运行依赖问题

发现问题

在集群中运行Spark应用时，发现找不到第三方的依赖，如图所示：
${{π型人才培养计划}}Apache Spark RDD_第7张图片$

解决方法

在对spark应用打包时，将第三方依赖加入到应用中【推荐】

使用Maven的打包插件，maven-assembly-plugin

<build>
        <plugins>
            <plugin>
                
                <artifactId>maven-assembly-pluginartifactId>
                <configuration>
                    <archive>
                        <manifest>
                            
                            <mainClass>com.baizhi.datasource.CreateRDDWithHBasemainClass>
                        manifest>
                        <manifestEntries>
                            <Class-Path>.Class-Path>
                        manifestEntries>
                    archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid> 
                        <phase>packagephase> 
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

${{π型人才培养计划}}Apache Spark RDD_第8张图片$

将第三方依赖，提前拷贝到Spark集群中每一个计算节点【不太常用】

# 1. 将第三方依赖的jar包上传到集群计算节点
[root@SparkOnStandalone spark-2.4.4]# mkdir 3rdLib
[root@SparkOnStandalone spark-2.4.4]# cp /root/mysql-connector-java-5.1.47.jar /usr/spark-2.4.4/3rdLib/

# 2. 通知Spark在运行任务时，使用加载第三方的Jar目录

spark.executor.extraClassPath=/usr/spark-2.4.4/3rdLib/*
spark.driver.extraClassPath=/usr/spark-2.4.4/3rdLib/*

注意：MySQL必须开启远程访问，默认只允许本机访问

六、RDD实现原理(面试重点)

Spark架构

回顾RDD概念：RDD（弹性分布式数据集），是Spark中最为核心的抽象，代表的是不可变，可分区，支持容错并行计算的分布式数据集。

创建方式：

scala的集合（Seq）
文件系统（Local和HDFS）
通过RDBMS（MySQL）
通过HBase

运行时依赖：

将第三方的依赖打包到Spark应用，完整JAR包

RDD的血统（lineage）

分析：WordCount Spark 应用

sc
	.textFile("hdfs://SparkOnStandalone:9000/text.txt")  // 通过HDFS初始化RDD
	.flatMap(_.split(" "))  // RDD1 ---> RDD2(flatMap)
	.map((_,1))             // RDD2 ---> RDD3(map)
	.groupByKey()           // RDD3 ---> RDD4(groupoByKey)
	.map(t2 =>(t2._1,t2._2.size)) // RDD4 ---> RDD5(map)

Spark应用中，进行转换操作的RDD存在血统（lineage，血缘）依赖关系。RDD的血统依赖关系分为了NarrowDependency（窄依赖）和WidthDependency（宽依赖）。Spark在根据转换算子（高阶函数）逆向推导出来所有的Stage，每一个Stage会实现本地计算，任务的并行度和Stage分区一一对应的，大数据计算的特点尽可能较少网络传输。

窄依赖 (Narrow)

父RDD的一个分区只能被一个子RDD所使用 1:1

多个父RDD的分区对应一个子RDD n:1

宽依赖(Width)

一个父RDD的分区可以被多个子RDD的所使用 1:N

${{π型人才培养计划}}Apache Spark RDD_第9张图片$

RDD原理剖析

${{π型人才培养计划}}Apache Spark RDD_第10张图片$
总结如下：

Spark RDD存在血统（lineage 父RDD—> 子RDD）关系，分为窄（Narrow）和宽（Width）依赖
Spark运行时，会找到最后的一个RDD反向推导划分Stage；如果是窄依赖，则将RDD划分同一个Stage，如果是宽依赖，则立即划分产生新的Stage
对于每一个Stage，都包含了一个TaskSet（任务集）； TaskSet中的Task的数量和分区数量一样的（1：1）；Spark在进行计算时，逐一提交Stage
Stage中的TaskSet在提交时，会以一种负载均衡方式提交给多个计算节点实现并行计算

Spark任务提交源码剖析【重点】

流程： ① 提交任务 —> ②划分阶段 —> ③ 封装TaskSet —> ④ 提交TaskSet

# 第一步： 
   SparkContext # runJob   // spark应用的运行入口
      dagScheduler.runJob 
# 第二步：
   DAGScheduler # runJob
      submitJob            // 提交任务

# 第三步：
   DAGScheduler # submitJob
	  eventProcessLoop # post(JobSubmitted)   // 将提交任务的事件 存放到事件处理器中
	
# 第四步：
   DAGSchedulerEventProcessLoop # onReceive(Event) // DAG调用器接受一个事件，并对事件进行处理
	  doOnReceive(event)
# 第五步：
    DAGSchedulerEventProcessLoop #  doOnReceive(event)
	  // scala样例类的模式匹配 匹配到第一个case语句
      case JobSubmitted => dagScheduler.handleJobSubmitted()  // 处理任务提交的事件

# 第六步：
	DAGScheduler # handleJobSubmitted

		var finalStage: ResultStage = null  //　最终（最后一个）Stage
		// 通过finalRDD（最后一个RDD）创建ResultStage
		finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite) 
		
		// 最后一行 提交最后一个阶段
		submitStage(finalStage)
# 第七步：
	DAGScheduler # submitStage(finalStage)
	if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
        val missing = getMissingParentStages(stage).sortBy(_.id)  // 获取当前stage的父Stage【重点，宽窄依赖】
        logDebug("missing: " + missing)
        if (missing.isEmpty) {  // 判断父stage是否为空，如果为空，表示到血统最顶端，则开始进行阶段提交
            logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
            submitMissingTasks(stage, jobId.get)  // 提交当前阶段的TaskSet
        } else {  // 判断父stage是否为空，如果不为空，则通过递归方式，继续寻找父Stage
            for (parent <- missing) {
                submitStage(parent) 
            }
            waitingStages += stage
        }
    }
	
	#  getMissingParentStages(stage)  // 根据依赖类型不同，划分stage
									  // 如果是 ShuffleDependency【宽依赖】 则创建ShuffleMapStage划分阶段
									  // 如果是 NarrrowDependency【窄依赖】 则将窄依赖的RDD存放到stack，等待后续访问
	for (dep <- rdd.dependencies) {
        dep match {
            case shufDep: ShuffleDependency[_, _, _] =>
            val mapStage = getOrCreateShuffleMapStage(shufDep, stage.firstJobId)
            if (!mapStage.isAvailable) {
                missing += mapStage
            }
            case narrowDep: NarrowDependency[_] =>
            waitingForVisit.push(narrowDep.rdd)
        }
    }

	
# 第八步：
	DAGScheduler # submitMissingTasks(stage, jobId.get)  // 通过DAGScheduler逐一提交划分好的阶段

	val tasks: Seq[Task[_]] = try {
      val serializedTaskMetrics = closureSerializer.serialize(stage.latestInfo.taskMetrics).array()
      stage match {
        case stage: ShuffleMapStage =>  //　根据stage类型不同，封装不同的Task实例，并且Task数量由当前stage的分区数量决定
          stage.pendingPartitions.clear()
          partitionsToCompute.map { id =>
            val locs = taskIdToLocations(id)
            val part = partitions(id)
            stage.pendingPartitions += id
            new ShuffleMapTask(stage.id, stage.latestInfo.attemptNumber,
              taskBinary, part, locs, properties, serializedTaskMetrics, Option(jobId),
              Option(sc.applicationId), sc.applicationAttemptId, stage.rdd.isBarrier())
          }

        case stage: ResultStage =>
          partitionsToCompute.map { id =>
            val p: Int = stage.partitions(id)
            val part = partitions(p)
            val locs = taskIdToLocations(id)
            new ResultTask(stage.id, stage.latestInfo.attemptNumber,
              taskBinary, part, locs, id, properties, serializedTaskMetrics,
              Option(jobId), Option(sc.applicationId), sc.applicationAttemptId,
              stage.rdd.isBarrier())
          }
      }
    } 
	
	// 首先封装了TaskSet(tasks.toArray)  将上面的Seq[Task]转为定长数组 封装到TaskSet中
	// taskScheduler.submitTasks(taskSet)
	taskScheduler.submitTasks(new TaskSet(   
        tasks.toArray, stage.id, stage.latestInfo.attemptNumber, jobId, properties))

RDD的容错机制

RDD支持高度容错，容错机制分为三种：

重新计算【默认策略】

指Spark RDD在进行计算时，可能因为意外的情况导致计算没有正确完成，则会触发RDD容错处理。

如果是窄依赖，只需要计算当前未完成的分区即可
如果是宽依赖，父RDD的所有分区都需要进行重新计算（不可避免的会造成多余计算）

Cache（缓存）

Spark RDD在进行计算时，可以将RDD的结果显式缓存到内存（memory）或者磁盘（disk）中。通常情况下，会将宽依赖的父RDD进行缓存

使用方法：

package com.baizhi

import org.apache.spark.{SparkConf, SparkContext}

/**
  * spark版本的单词统计
  */
object WordCountApplicationOnLocalWithCache {
  def main(args: Array[String]): Unit = {
    //1. 创建SparkContext，上下文对象提供spark应用运行环境信息
    val conf = new SparkConf()
      .setAppName("WordCount Apps")
      .setMaster("local[*]") // local 本地模式 模拟Spark应用运行 [*] 当前计算机的所有核心  cores 6

    val sc = new SparkContext(conf)

    //2. 编写DAG计算任务  有向无环图（某逻辑开发 --》 多重计算 --》最终输出）
    val rdd = sc.textFile("hdfs://SparkOnStandalone:9000/text.txt")

    // 将血统祖宗RDD Cache
    rdd.cache()
    rdd.count()

    val start = System.currentTimeMillis()
    rdd.count()
    val end = System.currentTimeMillis()
    println("使用cache应用耗费时间：" + (end - start)) // 


    // 取消cache
    rdd.unpersist()

    val start2 = System.currentTimeMillis()
    rdd
      .count()
    val end2 = System.currentTimeMillis()
    println("没有cache应用耗费时间：" + (end2 - start2))

    //3. 释放资源
    sc.stop()
  }
}

注意：

RDD#cache方法默认会将RDD缓存内存中
RDD#persist(storageLevel)，支持其它缓存等级

${{π型人才培养计划}}Apache Spark RDD_第11张图片$

_2 表示RDD数据会拥有原始和数据备份
_SER 表示RDD以序列化对象的形式进行存储
如果选择合理的存储等级？如果内存空间大建议使用MEMORY_ONLY或者MEMORY_ONLY_SER;如果内存一般建议使用MEMORY_AND_DISK或者

MEMORY_AND_DISK_SER

Checkpoint（检查点机制）

除了使用缓存机制可以有效的保证RDD的故障恢复，但是如果缓存失效还是会在导致系统重新计算RDD的结果，所以对于一些RDD的lineage较长的场景，计算比较耗时，用户可以尝试使用checkpoint机制存储RDD的计算结果，该种机制和缓存最大的不同在于，使用checkpoint之后被checkpoint的RDD数据直接持久化在共享文件系统中，一般推荐将结果写在 hdfs 中，这种checpoint并不会自动清空。注意checkpoint在计算的过程中先是对RDD做mark，在任务执行结束后，再对mark的RDD实行checkpoint，也就是要重新计算被Mark之后的rdd的依赖和结果，因此为了避免Mark RDD重复计算，推荐使用策略。

工作原理：

checkpoint并不是在计算时，立即将RDD的结果写在HDFS中，它会标记Mark需要进行Checkpoint处理的RDD

① 初始化 —> ② 标记 —> ③ 处理Checkpoint RDD —> ④ 处理完成后 checkpoint RDD之前血统中止

package com.baizhi

import org.apache.spark.{SparkConf, SparkContext}

/**
  * spark版本的单词统计
  */
object WordCountApplicationOnLocalWithCheckpoint {
  def main(args: Array[String]): Unit = {
    //1. 创建SparkContext，上下文对象提供spark应用运行环境信息
    val conf = new SparkConf()
      .setAppName("WordCount Apps")
      .setMaster("local[*]") // local 本地模式 模拟Spark应用运行 [*] 当前计算机的所有核心  cores 6

    val sc = new SparkContext(conf)

    // 设置了检查点目录
    sc.setCheckpointDir("hdfs://SparkOnStandalone:9000/checkpoint1")

    //2. 编写DAG计算任务  有向无环图（某逻辑开发 --》 多重计算 --》最终输出）
    val rdd = sc.textFile("hdfs://SparkOnStandalone:9000/text.txt")

    // rdd.cache()

    // 对需要进行检查点操作的RDD应用检查点操作
    // rdd.checkpoint()

    rdd.count()

    val mapRDD = rdd
      .flatMap(_.split(" "))
      .map((_, 1))

    mapRDD.cache()  // 双重容错： 对宽依赖的父RDD应用cache，然后对RDD设置了检查点
    mapRDD.checkpoint()

    mapRDD
      .groupByKey()
      .map(t2 => (t2._1, t2._2.size))
      .foreach(println)

    //3. 释放资源
    sc.stop()
  }
}

七、RDD的操作API

RDD的操作分为了两种类型Transformation（转换算子）和Action（行动算子）

Transformation

SparkRDD的转换算子，主要作用对RDD进行转换操作，所有的转换算子都是懒执行的（lazy），也就意味着不会立即应用转换操作，直到遇到行动算子后才会触发真正的计算，Spark这样的设计主要提供资源利用和计算效率的提升。

Transformation	Meaning
map(func)	Return a new distributed dataset formed by passing each element of the source through a function func.
filter(func)	Return a new dataset formed by selecting those elements of the source on which func returns true.
flatMap(func)	Similar to map, but each input item can be mapped to 0 or more output items (so func should return a Seq rather than a single item).
mapPartitions(func)	Similar to map, but runs separately on each partition (block) of the RDD, so func must be of type Iterator => Iterator when running on an RDD of type T.
mapPartitionsWithIndex(func)	Similar to mapPartitions, but also provides func with an integer value representing the index of the partition, so func must be of type (Int, Iterator) => Iterator when running on an RDD of type T.
sample(withReplacement, fraction, seed)	Sample a fraction fraction of the data, with or without replacement, using a given random number generator seed.
union(otherDataset)	Return a new dataset that contains the union of the elements in the source dataset and the argument.
intersection(otherDataset)	Return a new RDD that contains the intersection of elements in the source dataset and the argument.
distinct([numPartitions]))	Return a new dataset that contains the distinct elements of the source dataset.
groupByKey([numPartitions])	When called on a dataset of (K, V) pairs, returns a dataset of (K, Iterable) pairs. Note: If you are grouping in order to perform an aggregation (such as a sum or average) over each key, using `reduceByKey` or `aggregateByKey` will yield much better performance. Note: By default, the level of parallelism in the output depends on the number of partitions of the parent RDD. You can pass an optional `numPartitions` argument to set a different number of tasks.
reduceByKey(func, [numPartitions])	When called on a dataset of (K, V) pairs, returns a dataset of (K, V) pairs where the values for each key are aggregated using the given reduce function func, which must be of type (V,V) => V. Like in `groupByKey`, the number of reduce tasks is configurable through an optional second argument.
aggregateByKey(zeroValue)(seqOp, combOp, [numPartitions])	When called on a dataset of (K, V) pairs, returns a dataset of (K, U) pairs where the values for each key are aggregated using the given combine functions and a neutral “zero” value. Allows an aggregated value type that is different than the input value type, while avoiding unnecessary allocations. Like in `groupByKey`, the number of reduce tasks is configurable through an optional second argument.
sortByKey([ascending], [numPartitions])	When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the boolean `ascending` argument.
join(otherDataset, [numPartitions])	When called on datasets of type (K, V) and (K, W), returns a dataset of (K, (V, W)) pairs with all pairs of elements for each key. Outer joins are supported through `leftOuterJoin`, `rightOuterJoin`, and `fullOuterJoin`.
cogroup(otherDataset, [numPartitions])	When called on datasets of type (K, V) and (K, W), returns a dataset of (K, (Iterable, Iterable)) tuples. This operation is also called `groupWith`.
cartesian(otherDataset)	When called on datasets of types T and U, returns a dataset of (T, U) pairs (all pairs of elements).
pipe(command, [envVars])	Pipe each partition of the RDD through a shell command, e.g. a Perl or bash script. RDD elements are written to the process’s stdin and lines output to its stdout are returned as an RDD of strings.
coalesce(numPartitions)	Decrease the number of partitions in the RDD to numPartitions. Useful for running operations more efficiently after filtering down a large dataset.
repartition(numPartitions)	Reshuffle the data in the RDD randomly to create either more or fewer partitions and balance it across them. This always shuffles all data over the network.
repartitionAndSortWithinPartitions(partitioner)	Repartition the RDD according to the given partitioner and, within each resulting partition, sort records by their keys. This is more efficient than calling `repartition` and then sorting within each partition because it can push the sorting down into the shuffle machinery.

结论：

RDD的转换算子中，如果允许设置分区数量，则此转换算子为宽依赖的算子

RDD的宽依赖的转换算子，如果没有设定分区数量，则分区数量和父RDD的分区数量保持一致，也可以手动设定子RDD的分区数量，设定优先

map(fun) ：对源RDD的元素应用函数操作返回一个新的RDD

val sourceRDD = sc.makeRDD(ListBuffer("a","b","c"))
// map
sourceRDD
    .map(str => (str,str))
    .foreach(println)
//-------------------------------------------------------
(b,b)
(c,c)
(a,a)

filter(fun) ：对源RDD的元素进行过滤保留符合条件的元素返回一个新的RDD

val sourceRDD = sc.makeRDD(ListBuffer("a","b","c"))
sourceRDD
    .map(str => (str,str))
    .filter(t2 => ! t2._1.equals("b"))
    .foreach(println)
//-------------------------------------------------------
(c,c)
(a,a)

flatMap(fun) : 将源RDD的元素展开为0~n个元素，并返回一个新的RDD

val sourceRDD2 = sc.parallelize(Vector("Hello Scala", "Hello Hello Hello"))
sourceRDD2
    .flatMap(line => line.split(" "))
    .foreach(println)
//-------------------------------------------------------
Hello
Scala
Hello
Hello
Hello

mapPartitions(func) ：对源RDD的每一个分区独立应用函数操作，返回一个新的RDD

 // mapPartitions
val sourceRDD3 = sc.parallelize(Vector("Hello Scala", "Hello Hello Hello"), 2)
sourceRDD3
    .mapPartitions(itar => {
        val lb = ListBuffer[(String, Int)]()
        while (itar.hasNext) {
            val line = itar.next()
            lb.+=((line, 1))
        }
        lb.iterator
    })
    .foreach(println)
//---------------------------------------------------------
(Hello Scala,1)
(Hello Hello Hello,1)

mapPartitionsWithIndex(func) : 对源RDD的每一个分区应用函数操作，注意携带分区的索引序号，并返回一个新的RDD

val sourceRDD4 = sc.parallelize(Vector("Hello Scala", "Hello Hello Hello","Hadoop"), 2)
sourceRDD4
    .mapPartitionsWithIndex((index, itar) => {
        val lb = ListBuffer[(String, Int)]()
        while (itar.hasNext) {
            val line = itar.next()
            lb.+=((line, index))  // 对源RDD每一个分区应用函数操作 返回(line,分区索引)
        }
        lb.iterator
    })
    .foreach(println)

sample(withReplacement, fraction, seed) : 数据取样采样方法，

三个参数：

withReplacement 表示数据是否允许重复
fraction 分数，每个数据被抽选中的概率
seed 种子用以底层产生随机数

// sample
val sourceRDD5 = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7))
sourceRDD5
    // .sample(false, 0.5d)  // 数据不允许重复  每一个元素抽选中概率为0.5
    .sample(true, 1.8) // 数据允许重复, 每一个数可以被抽选中的次数
    .foreach(println)
//---------------------------------------------------------
1
5
3
3
3
5
5
5
6

union(rdd) ：将源RDD和参数RDD的内容合并，返回一个新的RDD

// union
val sourceRDD6 = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7), 1)
val sourceRDD7 = sc.makeRDD(List(5, 6, 7, 8, 9), 1)

sourceRDD6
    .union(sourceRDD7) // 新RDD(1,2,3,4,5,6,7,5,6,7,8,9)
    .sortBy(e => e, true,1)
    .foreach(println)
//-----------------------------------------------------------
1
2
3
4
5
5
6
6
7
7
8
9

intersection(otherDataset) : 将源RDD和参数RDD的内容求交集，返回一个新的RDD

// 前台系统大量数据  敏感词  敏感词词库
val sourceRDD8 = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7), 1)
val sourceRDD9 = sc.makeRDD(List(5, 6, 7, 8, 9), 1)

sourceRDD8
    .intersection(sourceRDD9) // 新RDD(5,6,7)
    .sortBy(e => e, true, 1)
    .foreach(println)

//-----------------------------------------------------------
5
6
7

distinct([numPartitions]) : 对源RDD元素进行去重，返回一个新的RDD

// distinct
val sourceRDD10 = sc.makeRDD(List(1, 2, 3, 3, 4, 4, 5, 6), 2)
sourceRDD10
    .distinct(1)
    .foreach(println)
//------------------------------------------------------------
4
1
6
3
5
2

groupByKey([numPartitions])：对一个源RDD (k,v)进行调用，返回一个k相同的（K， Iterable）

注意：如果不设定分区数量，则子RDD的分区数量和父RDD的分区数量一致，如果设定，则以设定的优先；

// groupByKey 根据key进行分组操作
val sourceRDD11 = sc.makeRDD(List(("Hello", 1), ("Spark", 1), ("Hello", 1), ("Scala", 1)), 2)
sourceRDD11
    .groupByKey(4) // 宽依赖的算子
    .foreach(println)
//------------------------------------------------------------
(Spark,CompactBuffer(1))
(Hello,CompactBuffer(1, 1))
(Scala,CompactBuffer(1))

reduceByKey(func, [numPartitions]) 重要 : 对一个源RDD (k,v)进行调用，返回一个新的结果RDD(k,v)；

注意：根据key对values进行给定的函数聚合操作

// reduceByKey
val sourceRDD12 = sc.makeRDD(List(("Hello", 1), ("Spark", 1), ("Hello", 1), ("Scala", 1)), 2)
// (Hello,(1,1,1))
//         1+1 = 2
//         2+1 = 3
val rdd = sourceRDD12
.reduceByKey(
    new Partitioner { // 自定义分区规则
        override def numPartitions: Int = 3

        override def getPartition(key: Any): Int = {
            val k = key.asInstanceOf[String]
            if (k.startsWith("H")) 0
            else if (k.startsWith("S")) 1
            else 2
        }
    },
    (v1, v2) => v1 + v2 // 或 _+_
)

println(rdd.getNumPartitions)
//rdd.foreach(println)

// 方法2：
/*
    sourceRDD12
      .reduceByKey(_ + _, 2)
      .foreach(println)
    */
// 方法3：
val rdd2 = sourceRDD12
.reduceByKey(_ + _)
println(rdd2.getNumPartitions)  // 2

aggregateByKey(zeroValue)(seqOp, combOp, [numPartitions]) ：根据key进行聚合操作

注意：首先分区内的计算，再进行分区间的计算

// aggregateByKey
val sourceRDD13 = sc.makeRDD(List(("Hello", 1), ("Spark", 1), ("Hello", 1), ("Scala", 1)), 2)

/*
   源RDD
        p0
          (Hello,1)   => (hello,1+1)  => (hello,2+2) => (hello,4)
          (spark,1)   => (spark,1+1)

        p1
          (Hello,1)   => (hello,1+1)
          (Scala,1)
*/
sourceRDD13
    .aggregateByKey(1)(
        (zeroValue, default) => zeroValue + default, // 分区内的聚合操作
        (p1, p2) => p1 + p2 // 不同分区间的聚合操作
    )
    .foreach(println)
//------------------------------------------------------------
(Spark,2)
(Hello,4)
(Scala,2)

sortByKey([ascending], [numPartitions]) : 对源RDD（k,v）调用，根据k进行排序返回一个新的RDD

// sortByKey
val sourceRDD14 = sc.parallelize(List(("b", 1), ("a", 1), ("c", 1), ("a", 1)), 2)
sourceRDD14
    //.sortByKey(false, 1) // 排序规则和排序后的分区数量
    .sortBy(t2 => t2._1,false,1)
    .foreach(println)
//------------------------------------------------------------
(c,1)
(b,1)
(a,1)
(a,1)

join(otherDataset, [numPartitions]) : 两个RDD(K,V)和(K,W)进行连接操作，返回一个新的RDD（K,(V,W)）

 // join
val sourceRDD15 = sc.parallelize(List((1, "zs"), (2, "ls"), (3, "ww"), (4, "zl")))
val sourceRDD16 = sc.parallelize(List((1, 18), (3, 28), (2, 9),(5,10)))
sourceRDD15
    // .join(sourceRDD16, 2)  // 相当于内连接
    //.leftOuterJoin(sourceRDD16,2)  // 左外连接
    .rightOuterJoin(sourceRDD16,2) // 相当于右外连接
    .foreach(t2 => println(t2._1 + "\t" + t2._2._1 + "\t" + t2._2._2))
//------------------------------------------------------------
2	Some(ls)	9
1	Some(zs)	18
3	Some(ww)	28
5	None	10

cogroup(otherDataset, [numPartitions]: 共同分组，两个RDD（K,V）和（K,W）进行共同分组，返回一个新的RDD (K, (Iterable, Iterable))

// cogroup
val sourceRDD17 = sc.parallelize(List(("b", 1), ("a", 1), ("c", 1), ("a", 1)), 2)
val sourceRDD18 = sc.parallelize(List(("e", 1), ("a", 1), ("c", 1), ("a", 1)), 2)

// sourceRDD17  (a,[1,1]) (b,[1]) (c,[1])
// sourceRDD18  (a,[1,1]) (e,[1]) (c,[1])
// cogroup后：(a,([1,1],[1,1])) (b,([1],[])) (c,([1],[1]))
sourceRDD17
    .cogroup(sourceRDD18)
    .foreach(println)
//------------------------------------------------------------
(e,(CompactBuffer(),CompactBuffer(1)))
(b,(CompactBuffer(1),CompactBuffer()))
(a,(CompactBuffer(1, 1),CompactBuffer(1, 1)))
(c,(CompactBuffer(1),CompactBuffer(1)))

cartesian(otherDataset)：笛卡尔连接交叉连接，尝试源RDD和另外一个RDD的元素各种组合可能

// cartesian  笛卡尔乘积
val sourceRdd19 = sc.makeRDD(List("a", "b", "c"))
val sourceRdd20 = sc.makeRDD(List(1, 2, 3))
sourceRdd19
    .cartesian(sourceRdd20) // ("a",1) ("a",2) ("a",3) ... 
    .foreach(println)

pipe(command, [envVars]) ：不是很重要，在RDD的每一个分区执行一个Shell指令或者脚本

coalesce(numPartitions) ：将源RDD的分区数量减少为numPartitions返回一个新的RDD

// coalesce 减少分区数量
val sourceRDD21 = sc.makeRDD(List("a", "b", "c", "d"), 4)

val rdd2 = sourceRDD21
    .coalesce(5)
println(rdd2.getNumPartitions) // 4  设置过大的分区数量 无意义，依然使用父RDD的分区数
//rdd2.foreach(println)

repartition(numPartitions) ：重新分区 stage (TaskSet) --> Task :Partition ---> Task：Thread

// repartition  重新分区
val sourceRDD22 = sc.makeRDD(List("a", "b", "c", "d"), 4)
val rdd3 = sourceRDD22
    .repartition(5) // 父RDD 4 ---> 子RDD 2
println(rdd3.getNumPartitions)

//rdd3.foreach(println)

repartitionAndSortWithinPartitions(partitioner)：重新分区，并对分区内的数据进行局部排序

 // repartitionAndSortWithinPartitions
val sourceRDD23 = sc.parallelize(List(("b", 1), ("e", 2), ("a", 1), ("c", 1), ("a", 3), ("a", 2)), 2)

sourceRDD23
    .repartitionAndSortWithinPartitions(new Partitioner {
        override def numPartitions: Int = 4

        override def getPartition(key: Any): Int = {
            val k = key.asInstanceOf[String]
            if (k.startsWith("a") || k.startsWith("e")) 0
            else if (k.startsWith("b")) 1
            else if (k.startsWith("c")) 2
            else 3
        }
    })
    .foreach(println)

// ---------------------------------------------------------------------
(b,1)
(a,1)
(a,3)
(a,2)
(e,2)
(c,1)

Action

行动算子

任意的行动算子都会触发spark应用的真实计算

通常情况下Action算子的返回值为Unit或者结果的集合

而Transformation算的返回值为新的RDD

Action	Meaning
reduce(func)	Aggregate the elements of the dataset using a function func (which takes two arguments and returns one). The function should be commutative and associative so that it can be computed correctly in parallel.
collect()	Return all the elements of the dataset as an array at the driver program. This is usually useful after a filter or other operation that returns a sufficiently small subset of the data.
count()	Return the number of elements in the dataset.
first()	Return the first element of the dataset (similar to take(1)).
take(n)	Return an array with the first n elements of the dataset.
takeSample(withReplacement, num, [seed])	Return an array with a random sample of num elements of the dataset, with or without replacement, optionally pre-specifying a random number generator seed.
takeOrdered(n, [ordering])	Return the first n elements of the RDD using either their natural order or a custom comparator.
saveAsTextFile(path)	Write the elements of the dataset as a text file (or set of text files) in a given directory in the local filesystem, HDFS or any other Hadoop-supported file system. Spark will call toString on each element to convert it to a line of text in the file.
saveAsSequenceFile(path) (Java and Scala)	Write the elements of the dataset as a Hadoop SequenceFile in a given path in the local filesystem, HDFS or any other Hadoop-supported file system. This is available on RDDs of key-value pairs that implement Hadoop’s Writable interface. In Scala, it is also available on types that are implicitly convertible to Writable (Spark includes conversions for basic types like Int, Double, String, etc).
saveAsObjectFile(path) (Java and Scala)	Write the elements of the dataset in a simple format using Java serialization, which can then be loaded using `SparkContext.objectFile()`.
countByKey()	Only available on RDDs of type (K, V). Returns a hashmap of (K, Int) pairs with the count of each key.
foreach(func)	Run a function func on each element of the dataset. This is usually done for side effects such as updating an Accumulator or interacting with external storage systems. Note: modifying variables other than Accumulators outside of the `foreach()` may result in undefined behavior. See Understanding closures for more details.

reduce(func) : 对RDD中的元素进行聚合操作

reduceByKey：根据k对v进行聚合操作

转换算子

返回值新的RDD

reduce: 直接对RDD中的元素进行聚合操作

行动算子

返回值和源RDD中的元素类型一致

val sourceRDD = sc.makeRDD(ListBuffer(1, 2, 3, 4, 5))
// reduce action算子
val sum:Int = sourceRDD
    .reduce((v1, v2) => v1 + v2)  // 1+2
    // 3+3
    // 6+4
    // 10+5

println("sum:"+sum)  // 15

collect() ：收集方法，将RDD的所有元素以数组形式返回给Driver端

val sourceRDD = sc.makeRDD(ListBuffer(1, 2, 3, 4, 5))
val arr: Array[Int] = sourceRDD.collect()
println(arr.mkString(","))
//-----------------------------------------------------
1,2,3,4,5

count() : 返回RDD中元素的个数

// count
val count = sourceRDD.count()
println(count)  //5

first() : 返回RDD中的第一个元素

// first
val first = sourceRDD.first()
println(first)  // 1

take(n) : 返回RDD中的前N个元素, 排行榜

// take(n)  保留单词出现次数最多前三个

val tuples: Array[(String, Int)] = sc
    .makeRDD(List("Hello Spark", "Hello Scala", "Hello Hello Spark", "Scala very good"))
    .flatMap(_.split(" "))
    .map((_, 1))
    .groupByKey()
    .map(t2 => (t2._1, t2._2.size))
    .sortBy(_._2, false, 1)
    .take(3)

for (t2 <- tuples) {
    println(t2._1 + "\t" + t2._2)
}

//-----------------------------------------------------------------------
Hello	4
Spark	2
Scala	2

takeSample(withReplacement, num, [seed]) ：数据采样

注意：

第二个参数：取样数据的数量，不同于转换算子Sample Fraction
```
// takeSample(withReplacement, num, [seed])
val arr = sourceRDD.takeSample(false, 2)
println(arr.mkString(">>"))
```

takeOrdered(n, [ordering]) : 获取RDD中前N个元素，使用默认的或者给定的排序规则

 // takeOrdered(n)  保留单词出现次数最多前三个

val tuples: Array[(String, Int)] = sc
    .makeRDD(List("Hello Spark", "Hello Scala", "Hello Hello Spark", "Scala very good"))
    .flatMap(_.split(" "))
    .map((_, 1))
    .groupByKey()
    .map(t2 => (t2._1, t2._2.size))
    .takeOrdered(3)(new Ordering[(String, Int)] {
        /**
              *
              * @param x
              * @param y
              * @return
              */
        override def compare(x: (String, Int), y: (String, Int)): Int = if (x._2 > y._2) -1 else 1
    })

for (t2 <- tuples) {
    println(t2._1 + "\t" + t2._2)
}

//------------------------------------------------------
Hello	4
Spark	2
Scala	2

saveAsTextFile(path) : 将RDD中的内容保存到HDFS或者Local File System
```
sourceRDD.saveAsTextFile("file:///D:\\result")
```
注意：

local[*], RDD的分区数量和CPU Cores一致

saveAsSequenceFile(path)：将RDD的内容以序列化文件的形式保存在HDFS或者Local FileSystem

val rdd = sc.makeRDD(List((1, "zs"), (2, "ls")))
// 对于 basic types like Int, Double, String 自动转换Hadoop Writable(序列化)
rdd.saveAsSequenceFile("file:///d://result2")

saveAsObjectFile(path): 将RDD的内容以Java序列化方法保存在HDFS或者Local FileSystem

// 将RDD中的内容以Java序列化方式写到指定Path
// sourceRDD.saveAsObjectFile("file:///d://result3")

val rdd = sc.objectFile("file:///d://result3")
rdd.foreach(println)
//------------------------------------------------------
1
2
3
4
5

countByKey(): 统计相同key的value数量，返回HashMap

sc
    .makeRDD(List("Hello Spark", "Hello Scala", "Hello Hello Spark", "Scala very good"))
    .flatMap(_.split(" "))
    .map((_, 1))
    .countByKey()
    .foreach(println)
//------------------------------------------------------
(good,1)
(Scala,2)
(Hello,4)
(Spark,2)
(very,1)

foreach : 对RDD中的每一个元素进行遍历处理

foreach行动算子可以将RDD的处理结果写到任意的可以存储的外围系统

注意：安装并运行Redis服务

// 将RDD的计算结果写到Redis中
[root@SparkOnStandalone ~]# tar -zxf redis-4.0.10.tar.gz
[root@SparkOnStandalone ~]# cd redis-4.0.10
[root@SparkOnStandalone redis-4.0.10]# make && make install
[root@SparkOnStandalone redis-4.0.10]#  cp redis.conf /usr/local/bin/
[root@SparkOnStandalone redis-4.0.10]# cd /usr/local/bin
[root@SparkOnStandalone bin]# vim redis.conf
# 开启redis远程访问
bind 0.0.0.0

[root@SparkOnStandalone bin]# ./redis-server redis.conf

# 导入jedis依赖
<dependency>
    <groupId>redis.clientsgroupId>
    <artifactId>jedisartifactId>
    <version>2.9.0version>
dependency>
<dependency>
  <groupId>mysqlgroupId>
    <artifactId>mysql-connector-javaartifactId>
  <version>5.1.47version>
dependency>

将计算结果写出到Redis或MySQL中

package opt.transformations

import java.sql.DriverManager

import org.apache.spark.{SparkConf, SparkContext}
import redis.clients.jedis.Jedis


object ActionTest2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("transformation test")
    val sc = new SparkContext(conf)

    // redis 连接对象 不允许序列化（只能够当前JVM使用）
    /*
    val jedis = new Jedis("SparkOnStandalone", 6379)

    sc
      .makeRDD(List("Hello Spark", "Hello Scala", "Hello Hello Spark", "Scala very good"))
      .flatMap(_.split(" "))
      .map((_, 1))
      .groupByKey()
      .map(t2 => (t2._1, t2._2.size))
      .foreach(t2 => jedis.set(t2._1, t2._2.toString))  // rdd的行动算子
    */



    classOf[com.mysql.jdbc.Driver]
    val connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/test", "root", "1234")

    sc
      .makeRDD(List("Hello Spark", "Hello Scala", "Hello Hello Spark", "Scala very good"))
      .flatMap(_.split(" "))
      .map((_, 1))
      .groupByKey()
      .map(t2 => (t2._1, t2._2.size))
      .foreach(t2 => {
        val pstm = connection.prepareStatement("insert into t_word values(?,?)")
        pstm.setString(1, t2._1)
        pstm.setInt(2, t2._2.toInt)
        pstm.executeUpdate()
        pstm.close()
      })

    connection.close()

    sc.stop()
  }
}

在测试时发现问题：

出现Caused by: java.io.NotSerializableException: java.lang.Object 异常

原因：当算子函数使用到外部的变量，则变量会序列化传输到任务节点。但是，通常情况下，数据存储系统的连接对象都不允许序列化

解决方案：

方法一

//------------------------------------------方案1----------------------------------------------
sc
      .makeRDD(List("Hello Spark", "Hello Scala", "Hello Hello Spark", "Scala very good"))
      .flatMap(_.split(" "))
      .map((_, 1))
      .groupByKey()
      .map(t2 => (t2._1, t2._2.size))
      .foreach(t2 => {
        classOf[com.mysql.jdbc.Driver]
        val connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/test", "root", "1234")
        val pstm = connection.prepareStatement("insert into t_word values(?,?)")
        pstm.setString(1, t2._1)
        pstm.setInt(2, t2._2.toInt)
        pstm.executeUpdate()
        pstm.close()
        connection.close()
      })

注意：foreach行动迭代处理RDD中元素时，会对每一个RDD的元素创建一个连接对象，会造成大量的资源浪费和性能损耗

方法二(优化版)

//------------------------------------------方案2----------------------------------------------
sc
    .makeRDD(List("Hello Spark", "Hello Scala", "Hello Hello Spark", "Scala very good"))
    .flatMap(_.split(" "))
    .map((_, 1))
    .groupByKey()
    .map(t2 => (t2._1, t2._2.size))
    .foreachPartition(itar => { // 对RDD的每一个分区（Task, 保证Task共享一个连接对象）应用迭代操作
        // itar代表的是每一个分区所有元素的迭代器
        classOf[com.mysql.jdbc.Driver]
        val connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/test", "root", "1234")
        val pstm = connection.prepareStatement("insert into t_word values(?,?)")
        itar.foreach(t2 => {
            pstm.setString(1, t2._1)
            pstm.setInt(2, t2._2)
            pstm.executeUpdate()
        })
        pstm.close()
        connection.close()
    })

八、RDD共享变量

共享变量定义：在Spark的算子函数中，如果使用到了算子函数外部的变量，则该变量会序列化并拷贝到任务节点，每一个任务操作的是拷贝的变量副本

Spark提供了两种类型的共享变量：**广播变量（broadcast variable）**和累加器（accumulator）

广播变量(broadcast variable) 【重点】

优化策略

定义广播变量，广播变量在使用时，每一个计算节点只会有一个可读的副本，所有的计算任务共享这一个相同的广播变量

${{π型人才培养计划}}Apache Spark RDD_第12张图片$

import org.apache.spark.{Partitioner, SparkConf, SparkContext}

object BroadcastVariableTest {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setAppName("broadcast test").setMaster("local[*]"))

    // 用户信息 ...
    val userInfo = Map((1, "zs"), (2, "ls"), (3, "ww"))


    val orderIno = List(("001", "iphone11", 4999.0D, 1), ("002", "打底裤", 99D, 3), ("003", "滑板车", 399D, 1), ("004", "刮胡刀", 199D, 2))

    // 统计每一个用户（谁）花费的总额
    val rdd = sc.parallelize(orderIno)

    //================================================================
    val value = sc.broadcast(userInfo) // 将userInfo外部变量作为一个广播变量
    //================================================================

    rdd
      .groupBy(t4 => t4._4) // rdd 分区 5
      .foreach(t2 => {
      val userId = t2._1
      val buffer = t2._2
      var sum = 0.0 // 这个所有订单的消费总额
      buffer.foreach(t4 => {
        sum += t4._3
      })

      // zs  5398
      // println(userInfo(userId) + "\t" + sum)

      // 通过广播变量的方法获取只读结果
      println(value.value(userId) + "\t" + sum)
    })
    sc.stop()
  }
}

//----------------------------------------------------------
ww	99.0
ls	199.0
zs	5398.0

累加器（accumulator）

累加器的主要作用就是进行共享性操作（累加），累加器的累加结果可以返回给Driver使用

import org.apache.spark.{SparkConf, SparkContext}

/**
  * 累加器操作
  */
object AccumulatorTest {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setAppName("accumulator test").setMaster("local[*]"))

    val rdd = sc.makeRDD(List(1, 2, 3, 4, 5))


    // 第一步: 定义累加器
    val longAccumulator = sc.longAccumulator("Sum") // 累加器起别名

    rdd.foreach(n => {
      // 累加器操作
      longAccumulator.add(n) // 0 + 1 + 2 + 3 + 4 + 5  
    })

    // 最后：累加器的结果可以在Driver端获取
    println(longAccumulator.value)  // 15

    sc.stop()
  }
}

作业

认真梳理Spark&RDD的知识细节？

编程作业

收集某系统的访问日志数据，格式如下

# 客户端的访问IP地址  访问时间          请求方式   请求URI地址  响应状态码  响应字节大小
192.168.10.1   2019-11-28 10:23:00  /GET /user/queryAll 200 1024
123.234.121.6  2019-11-28 10:23:02  /POST /user/save  404  1024
192.168.10.1   2019-11-28 10:23:03  /GET /user/queryAll  200  1024
... 

// 1. 系统健壮性统计（状态码分布）  
   a. 通过spark应用计算 200/98%  404/1.5%  500/0.5%    
   b  写入到MySQL中
   c. 并且进行数据的可视化展示【饼图】，要求使用ajax获取mysql中数据，做到动态展示 【AJAX + SpringBoot +MyBatis + Bootstrap】
   sc
	.textFile("hdfs://SparkOnStandalone:9000/logs/2019-11-28.log")
	.flatMap(line => line.split(" ")(5))
	.map((_,1))
	.reduceByKey(_+_)
	.foreachPartition( // mysql or redis)

// 2. 统计系统访问PV（page view）： 系统每日访问量，换句话来说PV = 访问记录数   页面展示（柱状图或者折线图）
   sc
	.textFile("hdfs://SparkOnStandalone:9000/logs/2019-11-28.log")
    .filter(....)
    .count()
        
// 3. 系统UV(Unique view) : 系统每日独立用户的访问量  ： groupBy(Ip)  count
   
----------------------------------------------------------------------------------
jar提交spark集群运行 2019-11-29 02:00:00

====================================

rdd
  .groupBy(t4 => t4._4) // rdd 分区 5
  .foreach(t2 => {
  val userId = t2._1
  val buffer = t2._2
  var sum = 0.0 // 这个所有订单的消费总额
  buffer.foreach(t4 => {
    sum += t4._3
  })

  // zs  5398
  // println(userInfo(userId) + "\t" + sum)

  // 通过广播变量的方法获取只读结果
  println(value.value(userId) + "\t" + sum)
})
sc.stop()

}
}

//----------------------------------------------------------
ww 99.0
ls 199.0
zs 5398.0


### 累加器（accumulator）

> 累加器的主要作用就是进行共享性操作（累加），累加器的累加结果可以返回给Driver使用

```scala
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 累加器操作
  */
object AccumulatorTest {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setAppName("accumulator test").setMaster("local[*]"))

    val rdd = sc.makeRDD(List(1, 2, 3, 4, 5))


    // 第一步: 定义累加器
    val longAccumulator = sc.longAccumulator("Sum") // 累加器起别名

    rdd.foreach(n => {
      // 累加器操作
      longAccumulator.add(n) // 0 + 1 + 2 + 3 + 4 + 5  
    })

    // 最后：累加器的结果可以在Driver端获取
    println(longAccumulator.value)  // 15

    sc.stop()
  }
}

作业

认真梳理Spark&RDD的知识细节？

编程作业

收集某系统的访问日志数据，格式如下

# 客户端的访问IP地址  访问时间          请求方式   请求URI地址  响应状态码  响应字节大小
192.168.10.1   2019-11-28 10:23:00  /GET /user/queryAll 200 1024
123.234.121.6  2019-11-28 10:23:02  /POST /user/save  404  1024
192.168.10.1   2019-11-28 10:23:03  /GET /user/queryAll  200  1024
... 

// 1. 系统健壮性统计（状态码分布）  
   a. 通过spark应用计算 200/98%  404/1.5%  500/0.5%    
   b  写入到MySQL中
   c. 并且进行数据的可视化展示【饼图】，要求使用ajax获取mysql中数据，做到动态展示 【AJAX + SpringBoot +MyBatis + Bootstrap】
   sc
	.textFile("hdfs://SparkOnStandalone:9000/logs/2019-11-28.log")
	.flatMap(line => line.split(" ")(5))
	.map((_,1))
	.reduceByKey(_+_)
	.foreachPartition( // mysql or redis)

// 2. 统计系统访问PV（page view）： 系统每日访问量，换句话来说PV = 访问记录数   页面展示（柱状图或者折线图）
   sc
	.textFile("hdfs://SparkOnStandalone:9000/logs/2019-11-28.log")
    .filter(....)
    .count()
        
// 3. 系统UV(Unique view) : 系统每日独立用户的访问量  ： groupBy(Ip)  count
   
----------------------------------------------------------------------------------
jar提交spark集群运行 2019-11-29 02:00:00

尝试商品热卖榜（不要求）

你可能感兴趣的:(Java大数据,笔记)

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓