计忆芳华

大数据总结【第九章：Spark】

Spark的主要特点

运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用。：支持使用Scala、 Java、 Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性： Spark 提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive 等多种数据源

SCALA的简单语句

Spark与hadoop的对比

Scala是一门现代的多范式编程语言，运行于Java平台(JVM，Java虚拟机)，并兼容现有的Java程序
Scala的特性:

Scala具备强大的并发性，支持函数式编程，可以更好地支持分布式系统
Scala语法简洁，能提供优雅的API，Scala兼容Java,运行速度快，且能融合到Hadoop生态圈中，Scala是Spark的主要编程语言，但Spark还支持Java、Python，R作为编程语言
Scala的优势是提供了REPL ( Read-Eval-Print Loop，交互式解释器)，提高程序开发效率
Hadoop存在如下一些缺点:
表达能力有限
磁盘I0开销大.
延迟高
– 任务之间的衔接涉及I0开销
– 在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务

Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题
相比于Hadoop MapReduce，Spark 主要具有如下优点:

●Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop，MapReduce更灵活
●Spark提供了内存计算，可将中间结果放到内存中,对于迭代运算效率更高
●Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制.

●使用Hadoop进行迭代计算非常耗资源.
●Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

Spark生态系统

大数据处理的三种类型

●复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间
●基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间
●基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间

各组件的功能

Spark生态系统已经成为伯克利数据分析软件栈BDAS ( Berkeley Data Analytics Stack )的重要组成部分

Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件
表1 Spark生态系统组件的应用场景

应用场景	时间跨度	其他框架	Spark生态系统中的组件
复杂的批量数据处理	T小时级	MapReduce、Hive	Spark
基于历史数据的交互式查询	分钟级、秒级	Impala、Dremel 、Drill	Spark SQL
基于实时数据流的数据处理	毫秒、秒级	Storm、S4	Spark Streaming
基于历更数据的数据挖掘	-	Mahout	MLlib
图结构数据的处理	-	Pregel、Hama	GraphX

运行架构

基本概念

RDD:是Resillient Distributed Dataset (弹性分布式数据集)的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型
DAG :是Directed Acyclic Graph (有向无环图)的简称，反映RDD之间的依赖关系
Executor:是运行在工作节点( WorkerNode )的一个进程，负责运行Task
Application:用户编写的Spark应用程序
Task:运行在Executor上的工作单元
Job:–个Job包含多个RDD及作用于相应RDD上的各种操作
Stage :是Job的基本调度单位，- 一个Job会分为多组Task，每组Task被称为Stage，或者也被称为TaskSet，代表了- -组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集

Spark 运行基本流程

( 1 )首先为应用构建起基本的运行环境，即由Driver创建一个SparkContext，进行资源的申请、任务的分配和监控
(2)资源管理器为Executor分配资源，并启动Executor进程
( 3 ) SparkContext根据RDD的依赖关系构建DAG图，DAG 图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskScheduler处理;Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor运行，并提供;应用程序代码
( 4) Task在Executor 上运行把执行结果反馈给TaskScheduler，然后反馈给DAGScheduler，运行完毕后写入数据并释放所有资源

总体而言，Spark 运行架构具有以下特点:
(1)每个Application都有自己专属的Executor进程并且该进程在Application运行期间一直驻留。Executor进程以多线程的方式运行Task
(2)Spark运行过程与资源管理器无关，只要能够获取Executor进程并保持通信即可
(3)Task采用了数据本地性和推测执行等优化机制

RDD的编程，执行过程示意图最少10分

RDD创建

1. 从文件系统中加载数据创建RDD

(1)从本地文件系统中加载数据创建

(2)从分布式文件系统HDFS中加载数据

scala> val lines = sctxFile("hs//cllhost9000/user/hadoop/word.txt")
scala> val lines = sc.textFile("/user/hadoop/word.txt")
scala> val lines a sc.textFile("word.txt")

三条语句是完全等价的，可以使用其中任意一种方式

2. 通过并行集合(数组)创建RDD

可以调用SparkContext的parallelize方法，在Driver中 -一个已经存在的集合(数组).上创建。

RDD操作

1. 转换操作

●对于RDD而言，每一次转换操作都会产生不同的RDD，供给下一个“转换”使用
●转换得到的RDD是惰性求值的，也就是说，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到.行动操作时，才会发生真正的计算，开始从血缘关系源头开始，进行物理的转换操作

.filter(func)

.map(func)

map(func)操作将每个元素传递到函数func中，并将结果返回为-一个新的数据集

.flatMap(func)

.groupByKey()

groupByKey()应用(K.V)键值对的数据集时，返回一个新的(K Iterable)形式数据集

.reduceByKey(func)

reduceByKey(func)应用于(K,V)键值对的数据集时，返回- -个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合后得到的结果

2.行动操作

行动操作是真正触发计算的地方。Spark程序执行到行动操作时，才会执行真正的计算，从文件中加载数据，完成一次又一-
次转换操作，最终，完成行动操作得到结果。
表常用的RDD行动操作API

操作	含义
count()	返回数据集中的元素个数
collect()	以数组的形式返回数据集中的所有元素
first()	返回数据集中的第一一个元素_
take(n)	以数组的形式返回数据集中的前n个元素
reduce(func)	通过函数func (输入两个参数并返回一个值)聚合数据集中的元素
foreach(func)	将数据集中的每个元素传递到函数func中运行

惰性机制

所谓(的“惰性机制”是指，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到行动操作时，才会触发“从头到尾”的真正的计算。这里给出-段简单的语句来解释Spark的惰性机制。

scala> val lines = sc.textFile("data.txt)
scala> val linel engths = lines.map(s => s.length)
scala> val totall ength = lineL engths.reduce((a, b)=> a + b)

持久化

在Spark中，RDD采用惰性求值的机制，每次遇到行动操作，都会从头开始执行计算。每次调用行动操作，都会触发一次从头开始的计算。这对于迭代计算而言，代价是很大的，迭代计算经常需要多次重复使用同一组数据
下面就是多次计算同一个RDD的例子:

scala> val list = List("Hadoop","Spark" "Hive")
list: List[String]三List(Hadoop, Spark, Hive)
scala> val rdd = sc.parallelize(list)
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[22] at
parallize at <console>:29
scala> printn(rdd.count())//行动操作，触发次真 正从头到尾的计算
3
scala> println(rd.collect().mkString(",")) //行动操作，触发次真正从头 到尾的计算
Hadoop,Spark,Hive

可以通过持久化(缓存)机制避免这种重复计算的开销
可以使用persist()方法对一个RDD标记为持久化
之所以说“标记为持久化”，是因为出现persist()语句的地方，并不会马上计算生成RDD并把它持久化，而是要等到遇到第一个行动操作触发真正计算以后，才会把计算结果进行持久化
持久化后的RDD将会被保留在计算节点的内存中被后面的行动操作重复使用

persist()的圆括号中包含的是持久化级别参数:

opersist(MEMORY_ _ONLY): 表示将RDD作为反序列化的对象存储于JVM中，如果内存不足，就要按照LRU原则替换缓存中的内容
persist(MEMORY_ AND_ _DISK)表示将RDD作为反序列化的对象存储在JVM中，如果内存不足，超出的分区将会被存放在硬盘上
一般而言，使用cache()方法时，会调用persist(MEMORY_ ONLY)
可以使用unpersist()方法手动地把持久化的RDD从缓存中移除

针对上面的实例，增加持久化语句以后的执行过程如下:

scala> val list a List("Hadoop","Spark ,"Hive")
list: List[String] a List(Hadoop, Spark, Hive)
scala> val rdd a sc.parallelize(list)
rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[22] at
parallelize at kconsole>:29
scala> rdd.cache() //会调用persist(MEMORY_ ONLY)， 但是，语句执行到这里，并不会缓存rdd,因为这时rdd还没有被计算生成
scala> printn(rdd.count() //第一次行动操作，触发次真正从头到尾的计算，这时上面的rdd.cache()才会被执行，把这个rdd放到缓存中
scala> printnd(dd.olct().mkString(",)) //第二次行动操作，不需要触发从头到尾的计算，只需要重复使用上面缓存中的rdd
Hadoop,Spark,Hive

分区

RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上
1.分区的作用
（1)增加并行度

(2)减少通信开销

一个综合实例

假设有一个本地文件word.txt，里面包含了很多行文本，每行文本由多个单词构成，单词之间用空格分隔。可以使用如下语句进行词频统计(即统计每个单词出现的次数):

scala> val lines = sc.textlil(le//sr/local/spark/mycode/wordcount/word.txt") 
scala> val wordCount三lines.ilatMap(line => line.split(" ")). map(word => (word, 1).reduceByKeyl(a, b)=>a+ b) 
scala> wordCount.collect()
scala> wordCount.foreach(println)

编程：：shell命令的简单使用

简答题

1．Spark的出现是为了解决Hadoop MapReduce的不足，试列举Hadoop MapReduce的几个缺陷，并说明Spark具备哪些优点。
Hadoop存在如下一些缺点:

表达能力有限
磁盘I0开销大.
延迟高
– 任务之间的衔接涉及I0开销
– 在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务
相比于Hadoop MapReduce，Spark 主要具有如下优点:
Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop，MapReduce更灵活
Spark提供了内存计算，可将中间结果放到内存中,对于迭代运算效率更高
Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制.

2．简述Spark生态系统的主要组件。
Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件
Spark Core：复杂的批量数据处理
Spark SQL：基于历史数据的交互式查询
Spark Streaming：基于实时数据流的数据处理
Mllib：基于历更数据的数据挖掘
GraphX：图结构数据的处理

3．试述如下Spark的几个主要概念：RDD、DAG、阶段、分区、窄依赖、宽依赖

RDD:是Resillient Distributed Dataset (弹性分布式数据集)的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型
DAG :是Directed Acyclic Graph (有向无环图)的简称，反映RDD之间的依赖关系
阶段 :是Job的基本调度单位，- 一个Job会分为多组Task，每组Task被称为Stage，或者也被称为TaskSet，代表了- -组关联的、相互之间没有Shuffle依赖关系的任务组成的“任务集”
分区 :RDD是弹性分布式数据集，通常RDD很大，会被分成很多个分区，分别保存在不同的节点上
窄依赖表现为一个父RDD的分区对应于一个子RDD的分区，或多个父RDD的分区对应于一个RDD分区
宽依赖表现为存在一个父RDD的分区对应一个子RDD的多个分区

4．简述Spark运行基本流程。
( 1 )首先为应用构建起基本的运行环境，即由Driver创建一个SparkContext，进行资源的申请、任务的分配和监控
(2)资源管理器为Executor分配资源，并启动Executor进程
( 3 ) SparkContext根据RDD的依赖关系构建DAG图，DAG 图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskScheduler处理;Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor运行，并提供;应用程序代码
( 4) Task在Executor 上运行把执行结果反馈给TaskScheduler，然后反馈给DAGScheduler，运行完毕后写入数据并释放所有资源

5．Spark为什么比mapreduce快？
Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题
相比于Hadoop MapReduce，Spark 主要具有如下优点:
●Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop，MapReduce更灵活
●Spark提供了内存计算，可将中间结果放到内存中,对于迭代运算效率更高
●Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制.

应用题

给出题目要求和代码，要求能画出这个程序执行过程的示意图。

假设有一个本地文件word.txt，里面包含了很多行文本，每行文本由多个单词构成，单词之间用空格分隔。可以使用如下语句进行词频统计(即统计每个单词出现的次数):

scala> val lines = sc.textlil(le//sr/local/spark/mycode/wordcount/word.txt") 
scala> val wordCount三lines.ilatMap(line => line.split(" ")). map(word => (word, 1).reduceByKeyl(a, b)=>a+ b) 
scala> wordCount.collect()
scala> wordCount.foreach(println)

给定一组键值对(“spark”,2),(“hadoop”,6),(“hadoop”,4),(“spark”,6)，键值对的key表示图书名称，value表示某天图书销量，请计算每个键对应的平均值，也就是计算每种图书的每天平均销量。
代码：

scala> val rdd = sc.parallelize(Array(("spark",2),("hadoop",6),("hadoop",4),("spark",6)))
rdd: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[38] at parallelize at <console>:27
scala> rdd.mapValues(x => (x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()
res22: Array[(String, Int)] = Array((spark,4), (hadoop,5))

要求：
画出计算图书平均销量过程的示意图。

选择题

1．Scala属于哪种编程语言（D）？
A．函数式编程语言 B．汇编语言
C．机器语言 D．多范式编程语言
2．以下哪种不属于Scala特性（A）？
A．命令式编程 B．函数式编程
C．静态类型 D．不可扩展性
3．以下哪种可以正确计算数组a的长度（D）？
A．count() B．take(1)
C．tail() D．length
4．以下Scala变量的定义不正确的是哪项（C）？
A．val words:String=”Hello World” B．val number=12
C．var number:String=None D．var apple:Double=2
5．以下关于List的定义不正确的一项是（C）。
A．val list=List(12,2,3) B．val list=List(“Hello”,”World”)
C．val list:String=List(“a”,”c”) D．val list=ListInt
6．对集（Set）进行操作“Set（3，0，1）+2+2-2”之后的结果为（）。
A．Set（3，0，1，2） B．Set（3，0，1）
C．Set（3，0） D．以上均不正确
8．下面哪一组全部都是转换操作（C）？
A．map、take、reduceByKey B．map、filter、collect
C．map、zip、reduceByKey D．join、map、take
9．使用saveAsTextFile存储数据到HDFS，要求数据类型为（D）。
A．List B．Array
C．Seq D．RDD
10．Spark 的四大组件下面哪个不是 (D )
A.Spark Streaming B. Mlib C Graphx D.Spark R
11.下面哪个不是 RDD 的特点 (C )
A. 可分区 B 可序列化 C 可修改 D 可持久化
12.Stage 的 Task 的数量由什么决定 (A )
A Partition B Job C Stage D TaskScheduler
13.下面哪个操作是窄依赖 (B )
A join B filter
C group D sort
14.下面哪个操作肯定是宽依赖 (C )
A map B flatMap
C reduceByKey D sample
15.Task 运行在下来哪里个选项中 Executor 上的工作单元 (C )
A Driver program B. spark master
C.worker node D Cluster manager
16. Spark SQL目前暂时不支持下列哪种语言A
• A. Java
• B.Matlab
• C.Scala
• D.Python
17 RDD操作分为转换（Transformation）和动作（Action）两种类型，下列属于动作（Action）类型的操作的是(B)
• A.filter
• B.count
• C.map
• D.groupBy
18 下列说法错误的是(B)
• A.在选择Spark Streaming和Storm时，对实时性要求高（比如要求毫秒级响应）的企业更倾向于选择流计算框架Storm
• B.RDD提供的转换接口既适用filter等粗粒度的转换，也适合某一数据项的细粒度转换
• C.Spark支持三种类型的部署方式：Standalone，Spark on Mesos，Spark on YARN
• D.RDD采用惰性调用，遇到“转换(Transformation)”类型的操作时，只会记录RDD生成的轨迹，只有遇到“动作(Action)”类型的操作时才会触发真正的计算
19下列关于常见的动作（Action）和转换（Transformation）操作的API解释错误的是(B)
• A.filter(func)：筛选出满足函数func的元素，并返回一个新的数据集
• B.take(n)：返回数据集中的第n个元素
• C.count()：返回数据集中的元素个数
• D.map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集
20下列大数据类型与其对应的软件框架不适应的是(D)
• A.复杂的批量数据处理：MapReduce
• B.基于实时数据流的数据处理：Storm
• C.图结构数据的计算：Hive
• D.基于历史数据的交互式查询：Impala

填空

1．为了使程序运行更快，Spark提供了（RDD），减少了迭代计算时的IO开销。
2．在实际应用中，大数据处理主要包括以下三个类型
●复杂的批量数据处理
●基于历史数据的交互式查询
●基于实时数据流的数据处理
3．RDD的操作类型有（转换操作）和（行动操作）。

大数据学习（141）-分布式数据库 viperrrrrrr 大数据学习分布式 clickhouse hdfs hbase
在分布式数据库中主要有hdfs、hbase、clickhouse三种。HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。一、HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生态系统的一部分，是一个高度容错的系统，适合存储大量数据。它被设计为
大数据从入门到入魔系列————大数据治理技术栈&技术选型小禾科技大数据大数据 hadoop spark no sql 数据仓库 ETL
文章目录前言一、大数据的历史二、大数据的必要性2.1为什么要学习大数据2.2大数据维度2.3大数据处理生活场景三、大数据处理问题模式四、大数据的学习路线4.1大数据技术栈4.2大数据学习路线献给读者福利福利免费的大数据学习资料网盘地址：点我！福利福利免费的大数据学习资料网盘地址：点我！福利福利免费的大数据学习资料网盘地址：点我！前言随着信息技术的迅猛发展，我们正处在一个数据驱动的世界中。每一天，全
大数据学习（138）-Hive数据分析3 viperrrrrrr 大数据学习 hive
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、分组排序问题（TopN变体）1.按多个条件排序并取TopN问题：查询每个部门薪资最高且入职最早的前2名员工。思路：窗口函数中用ORDERBYsalaryDESC,hire_dateASC实现多条件排序。用ROW_NUMBER()生成唯一排名，避免并列。代码模板：WITHrank
大数据学习路线，从Linux基础到大型网站高并发处理项目实战程序员面试吧
相信大家在学习大数据的时候都不知道怎么来学习，因为知识点太多了，也太杂了，没有一个系统的路线来引导大家学习.为了解决大家这个困惑，小编整理了从Linux基础到大型网站高并发处理项目实战的学习路线和知识点，希望大家能够喜欢，文末还有小编整理的视频和电子书籍，也希望大家能够喜欢。Linux理论1.Linux入门—Linux简介、VMWareworkstation安装—整理各大Linux发行版本的区别—
大数据学习（131）-Hive数据分析函数总结 viperrrrrrr 大数据学习 hive
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1.CAST函数用于将一种数据类型的表达式显式转换为另一种数据类型。它的语法如下：CAST(expression AS data_type)其中，expression是任何有效的SQL表达式，data_type是目标数据类型。CURRENT_DATE函数是SQL中的一个日期/时间函
大数据学习（133）-Hive数据分析2 viperrrrrrr 大数据学习 hive
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦十一、分组去重（保留每组最新/最早记录）核心思路：使用窗口函数ROW_NUMBER()按分组排序，保留指定顺序的第一条记录。典型例题：查询每个用户最后一次登录记录。代码模板：WITHranked_loginsAS(SELECTuser_id,login_date,ROW_NUMBE
大数据学习（130）-zookeeper viperrrrrrr 大数据学习 zookeeper
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1.ZooKeeper集群ZooKeeper集群是一个分布式协调服务系统，由多个ZooKeeper服务器节点组成。这些节点通过协作来提供高可用性、一致性和可靠性的服务。以下是ZooKeeper集群的关键特性：分布式架构：集群中的每个节点都可以处理客户端请求，并通过内部通信机制（如心
大数据学习（127）-hive日期函数 viperrrrrrr 大数据学习 hive
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、日期提取类函数1.dayofweek(date)功能：返回日期的星期几（1=星期日，2=星期一，...，7=星期六）。示例：SELECTdayofweek('2023-10-01');--返回1（星期日）2.year(date)/month(date)/day(date)功能：
大数据项目-大数据开发架构学习大纲 brightl09 软件开发大数据方向大数据
大数据项目-大数据开发架构学习大纲超详细的大数据学习路线图，从零基础到资深专家的全路径知识体系，分阶段明确核心知识点、技术栈、实战目标及能力要求，适合系统化学习和职业规划一、基础入门阶段1.目标掌握大数据开发基础工具与核心概念，能完成简单数据处理任务2.核心知识点编程基础：Python/Java语法、数据结构、文件操作、面向对象编程、SQL增删改查、聚合函数、窗口函数、多表关联Linux与Shel
大数据学习（125）-hive数据分析 viperrrrrrr 大数据学习
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1.连续登录问题变种题目：找出恰好连续登录3天的用户（不允许更长的连续区间）。表结构：user_logs(user_id,login_date)。参考答案：WITHranked_logsAS(SELECTuser_id,login_date,ROW_NUMBER()OVER(PAR
大数据学习（124）-spark数据倾斜 viperrrrrrr 大数据学习 spark
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1.倾斜表现某些Task执行时间远超其他Task（通常超过平均时间10倍以上）集群资源利用率不均（部分Executor负载过高）作业执行时间主要由少数几个Task决定频繁出现GC超时或OOM错误2.诊断方法scala//通过SparkUI观察Stage和Task的执行时间//查看S
大数据学习（121）-sql重点问题 viperrrrrrr 学习
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦窗口函数使用技巧窗口函数是SQL中处理复杂数据分析的强大工具，常用于排名、累计计算、同比环比等场景。以下从基础语法、高频函数、性能优化、典型场景四个维度总结核心技巧，并附示例代码和避坑指南。一、基础语法与核心组件1.完整语法结构sqlOVER([PARTITIONBY字段1,字段2
大数据学习之Linux环境搭建 Im_LSY 大数据
设置IP及主机名#1.修改IP$vi/etc/sysconfig/network-scripts/ifconfig-etho#修改IP为自己虚拟机IP段的固定IP：BOOTPROTO=staticIPADDR=192.168.111.11#2.设置主机名$vi/etc/sysconfig/networkNETWORKING=yesHOSTNAME=node01关闭防火墙和selinux#1.防火墙
尚硅谷大数据技术课程资料下载：开启大数据学习之旅裘心国Trent
尚硅谷大数据技术课程资料下载：开启大数据学习之旅尚硅谷大数据技术-教程-学习路线-笔记汇总表课程资料下载项目地址:https://gitcode.com/Resource-Bundle-Collection/1d0e3项目介绍在数字化时代，大数据技术已成为企业决策和创新的核心驱动力。为了帮助广大技术爱好者和从业者快速掌握大数据技术，尚硅谷推出了全面的大数据技术课程资料下载仓库。本仓库不仅提供了详细
大数据学习（115）-hive与impala viperrrrrrr 大数据学习 hive impala
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦简介：Impala和Hive都是大数据领域中广泛使用的查询工具，它们在功能、性能和适用场景上存在一些差异。本文将深入比较这两者，并探讨Impala的优缺点。一、ApacheHadoop中的角色Impala和Hive都是ApacheHadoop生态系统中的重要组件，用于处理大规模数据
大数据学习（112）-HIVE中的窗口函数 viperrrrrrr 学习 hive sql
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦在ApacheHive中，窗口函数（WindowFunctions）是一类强大的SQL函数，用于对查询结果集的一个“窗口”或“分组”进行计算，而不减少结果集的行数。以下是Hive中常用的窗口函数分类及示例：1.排名函数函数描述ROW_NUMBER()为结果集中的每一行分配一个唯一的
大数据学习（108）-子查询 viperrrrrrr 学习
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦相关子查询会针对外层查询的每一行单独执行，而不是一次性完成所有子查询操作。这意味着子查询的执行次数等于外层查询表的行数。SQL语句SELECTdepartment_nameFROMdepartmentsdWHERE5<(SELECTCOUNT(*)FROMemployeeseWHE
大数据学习（107）-sql中case使用场景 viperrrrrrr 大数据学习 sql
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦在SQL中，CASE语句是处理条件逻辑的核心工具，以下是6个典型使用场景及示例：1.数据分类统计将连续数值分段统计（如年龄、分数）：SELECTCASEWHENage'2025-01-01'THENpriceELSE0END)ASsales_2025,SUM(CASEWHENord
大数据学习笔记（三）：HDFS分布式文件系统架构原理详解 weixin_34303897 大数据系统架构
在网易云课堂买了卡夫卡的大数据课程，开始学习咯！HDFS分布式文件系统解决问题：海量数据的存储——>分布式结构设计分布式的特点：集群，有多台机器共同协作完成存储主从架构设计HDFS设计思想1.namenode-主节点-领导主要存储文件的属性信息，即文件的元数据：文件的名称文件的位置文件的副本数文件的拥有者、组、权限存储快各个块在哪些datanode节点上2.datanode-从节点-随从存储具体的
最全大数据学习路线指南：大数据知识点汇总保姆级教程（2万字长文）大模型大数据攻城狮大数据知识大数据思维导图大数据学习大数据入门大数据入行大数据面试大数据BI
目录第一章大数据基础篇1.1Linux基础学习1.2SQL基础学习1.3Java与Scala基础学习第二章数据采集与存储技术2.1Hadoop基础及实战2.2Hive与Hbase技术2.3ETL流程及原理第三章数据管理与查询技术3.1数据仓库体系搭建3.2数据治理体系方法论3.3OLAP查询技术第四章大数据开发工具与平台4.1分布式协调工具Zookeeper4.2消息队列Kafka4.3任务调度工
大数据学习（100）-kafka详解 viperrrrrrr 大数据学习 kafka
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦ApacheKafka是一个分布式流处理平台，主要用于构建高吞吐量、低延迟、可扩展的实时数据管道和流式应用程序。它广泛应用于日志聚合、事件溯源、消息队列、实时分析等场景。Kafka核心概念1.Producer（生产者）向Kafka发布（写入）消息的客户端。可以指定消息发送到哪个To
大数据学习（98）-数据治理 viperrrrrrr 大数据学习数据治理
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、大数据治理的核心目标提升数据质量通过自动化工具实时检测异常值、缺失值或逻辑错误（如使用ApacheGriffin或GreatExpectations）。建立数据质量评分体系，对数据源进行分级管理。元数据驱动管理构建全局元数据目录（如ApacheAtlas），追踪数据血缘、业务含
大数据学习（88）-zookeeper实现的高可用(HA) viperrrrrrr 学习 zookeeper 大数据
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦ZooKeeper实现高可用的能力详解ZooKeeper不仅是实现分布式系统高可用(HA)的关键工具，其自身也通过特定架构设计实现了高可用特性。一、ZooKeeper自身的高可用实现1.集群架构设计典型部署：由3/5/7个节点组成的ZooKeeperEnsemble[Client]
大数据学习（91）-SQL优化 viperrrrrrr 大数据学习 sql
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦数据库优化的思路SQL优化在我们书写SQL语句的时候，其实书写的顺序、策略会影响到SQL的性能，虽然实现的功能是一样的，但是它们的性能会有些许差别。因此，下面就讲解在书写SQL的时候，怎么写比较好。①选择最有效率的表名顺序数据库的解析器按照从右到左的顺序处理FROM子句中的表名，F
大数据学习-hive（四：数仓搭建，数据监控，数据支持）宇智波云大数据项目 hive hive
一：数仓搭建1：完备性。要保证所需要的数据全部到达数仓。2：准备性。etl，和数据的计算校验，确保输出的数据准确。3：一致性。确保输出端口一致，防止输出数据不准。4：时效性。每天的定时调度。5：规范性。表名，字段名要进行规范化处理。6：稳定性。确保数仓稳定。二：数仓校验1：建表语句--建表--droptableifexistsdm.dim_dk_vehicle_info_dqc;createtab
大数据学习（82）-数仓详解 viperrrrrrr 大数据学习数仓
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、什么是数据仓库数据仓库（下文以“数仓”称），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。从逻辑上理解，数据库和数仓没有区别，都是通过数据
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

大数据总结【第九章：Spark】

Spark的主要特点

SCALA的简单语句

Spark与hadoop的对比

Spark生态系统

大数据处理的三种类型

各组件的功能

运行架构

基本概念

Spark 运行基本流程

RDD的编程，执行过程示意图 最少10分

RDD创建

1. 从文件系统中加载数据创建RDD

2. 通过并行集合(数组)创建RDD

RDD操作

1. 转换操作

.filter(func)

.map(func)

.flatMap(func)

.groupByKey()

.reduceByKey(func)

2.行动操作

惰性机制

持久化

分区

一个综合实例

编程 ：：shell命令的简单使用

简答题

应用题

选择题

填空

你可能感兴趣的:(大数据学习)

RDD的编程，执行过程示意图最少10分

编程：：shell命令的简单使用