---SparkCore 第7页

spark中的闭包与广播变量

Spark任务调度图（以SparkCore为例）1.DAG的应用Spark的Job（Application），从宏观上来看处理过程大致如下：加载数据，获取RDD（或DF等）转换数据执行转换，获取结果并处理整个计算过程是从上往下的

jntcf·2020-08-22 17:45

关于spark job并行的问题

理论上，我们写sparkcore都不会用到多线程，那个代码的执行确实是一条线下去，当遇到action算子时会被阻塞，开始解析并执行这个spark任务，当任务执行完才会继续往下走。

小小酥_LH·2020-08-22 15:28

Spark中shuffle性能调优1

通过上面的架构和源码实现的分析，不难得出Shuffle是SparkCore比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。

liuzx32·2020-08-22 15:15

SparkSQL 全面深度解析

前言博主最开始使用Spark时喜欢使用SparkCore的RDD相关算子进行计算，后来发现SparkSQL比RDD算子好用多了，并且Spark开发者很重视SparkSQL模块功能的更新（在Spark3.0

w1016765655·2020-08-22 14:53

解决使用java编写spark代码maven打包报错问题

：Error:(20,46)java:无法访问scala.Cloneable原因是在pom.xml文件中添加了如下依赖：org.scala-langscala-library2.13.1该jar包会与sparkcore

古痴今狂·2020-08-22 13:49

基于 spark ml NaiveBayes实现中文文本分类

spark版本用的是2.2（spark2.0和1.6对sparkml影响挺大的，1.6的ml中的LabeledPoint可以转化为sparkmllib的，2.0以后就不能进行转化）代码的实现过程：1首先用sparkcore

记录每一份笔记·2020-08-22 09:56

大数据干货系列（十一）--Spark Streaming总结

预计阅读时长六分钟Spark-Streaming总结一、本质SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理二、SparkStreaming和SparkCore2.1

Shaun_Xi·2020-08-21 22:02

SparkSql使用入门

SparkSQL的特点：1、和SparkCore的无缝集成，可以在写整个RDD应用的时候，配置SparkSQL来完成逻辑实现。2、统一的数据访问方式，SparkSQL提供标准化的SQL查询。

青蛙小王子·2020-08-21 13:14

Spark Streaming学习笔记

它的底层，其实，也是基于SparkCore的。基本的计算模型，还是基于内存的大数据实时计算模型。而且，它的底层的组件或者叫做概念，其实还是最核心的RDD。针对实时计算的特点，在RDD之上，

堡垒-93·2020-08-21 04:07

SparkStreaming DStream

DStream就是离散流，它代表了一个持续不断的数据流，DStream的内部，其实是一系列不断产生的RDD,RDD是SparkCore的核心抽象，DStream中的每个RDD都包含了一个时间段内的数据对

mn_kw·2020-08-21 04:25

Spark Streaming入门

SparkStreaming入门1.概述SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable(SparkStreaming是基于SparkCore

le3t·2020-08-21 04:40

4.流式计算 - spark direct方式计算手动控制kafka偏移度[spark straming2.1 + kafka0.10.2.0]

流式计算，sparkstreaming之前有sparkcore开发的积累，直接使用sparkstreaming来进行流式计算开发是比较节省开发成本的。

feloxx·2020-08-21 03:00

Maven设置指定jar包依赖版本信息

我们在配置Sparkcore的maven依赖的时候jackson-module-scala_2.11的版本冲突，解决办法如下：org.apache.sparkspark-core_2.112.3.1com.fasterxml.jackson.modulejackson-module-scala

hello_heheha·2020-08-20 23:34

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream

EVAO_大个子·2020-08-20 21:30

大数据系列——Spark学习笔记Spark Streaming

1.SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream

EVAO_大个子·2020-08-20 21:30

第四篇|Spark Streaming编程指南(1)

SparkStreaming是构建在SparkCore基础之上的流处理框架，是Spark非常重要的组成部分。

西贝木土·2020-08-20 17:29

第四篇|Spark Streaming编程指南(1)

SparkStreaming是构建在SparkCore基础之上的流处理框架，是Spark非常重要的组成部分。

西贝木土·2020-08-20 17:29

第三篇|Spark SQL编程指南

在《第二篇|SparkCore编程指南》一文中，对Spark的核心模块进行了讲解。

西贝木土·2020-08-20 17:28

第二篇|Spark core编程指南

本文将深入探究Spark的核心组件--Sparkcore，SparkCore是Spark平台的基础通用执行引擎，所有其他功能均建立在该引擎之上。

西贝木土·2020-08-20 17:28

第三篇|Spark SQL编程指南

在《第二篇|SparkCore编程指南》一文中，对Spark的核心模块进行了讲解。

西贝木土·2020-08-20 17:28

第二篇|Spark core编程指南

本文将深入探究Spark的核心组件--Sparkcore，SparkCore是Spark平台的基础通用执行引擎，所有其他功能均建立在该引擎之上。

西贝木土·2020-08-20 17:27

21、Spark核心编程之创建RDD（集合、本地文件、HDFS文件）

然后在创建了初始的RDD之后，才可以通过SparkCore提供的transformation算子，对该RDD进行转换，来获取其他的RDD。

ZFH__ZJ·2020-08-20 04:46

Spark 笔记

Spark软件架构image.pngSparkCoreSparkCore实现了Spark的基本功能，包括任务调度，内存管理，错误恢复，与存储系统的交互SparkCore包含了对RDD（resilientdistributeddataset

null0007·2020-08-19 22:34

BigData-25：Spark基础

Spark生态圈：SparkCore:最重要，其中最重要的就是RDD（弹性分布式数据集）SparkSQLSparkStreamingSparkMLLib:协同过滤、ALS、逻辑回归等等—>实现推荐系统SparkGraphx

feiyanaffection·2020-08-19 06:55

Hadoop学习笔记（1）－Hadoop生态系统

中间红框部分是saprk的生态圈，有RDD，sparkCore，sparkSQL，sparkGraphX，sparkML，sparkR，sparkStreaming。

XianMing的博客·2020-08-18 12:55

Spark之【SparkSQL】入门概述

在之前的博客分享中，博主已经完成了对于Spark核心SparkCore的一个详细介绍。在接下来的几篇博客分享中，博主将为大家介绍的是SparkSQL。本篇，首先为大家介绍的是SparkSQL的概述。

Alice菌·2020-08-18 12:35

SparkCore之数据读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、HBASE以及数据库。文件类数据读取与保存Text文件数据读取:textFile(String)数据保存:saveAsTextFile(String)Json文件如果JSON文件中每一行就是

老菜啦·2020-08-18 12:27

SparkStreaming详解

Sparkcore的扩展，支持弹性，高吞吐，容错，实时数据流处理。

卷曲的葡萄藤·2020-08-18 12:50

大数据技术之SparkCore（一）

大数据技术之SparkCore（一）一：RDD概述RDD定义：RDD（ResilientDistributedDataset）叫做弹性分布式数据集。是Spark中最基本的数据抽象。

今天,我和你拼了·2020-08-18 12:16

59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例

weixin_30830327·2020-08-18 12:25

SparkCore之RDD编程进阶之累加器

累加器累加器用来对信息进行聚合，通常在向Spark传递函数时，比如使用map()函数或者用filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果系统累加器针对一个输入的日志文件，如果我们想计算文件中所有空行的数量，

大数据小同学·2020-08-18 12:21

SparkCore之文件类数据读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、HBASE以及数据库。Text文件数据读取:textFile(String)scala>valhdfsFile=sc.textFile("hdfs://hadoop102:9000/frui

大数据小同学·2020-08-18 12:20

SparkCore之文件系统类数据读取与保存

HDFSSpark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口.对于外部存储创建操作而言,hadoopRDD和newHadoopRDD是最为抽象的两个函数接口,主要包含以下四个参数.输入格式(InputFor

大数据小同学·2020-08-18 12:20

大数据晋级之路（8）Scala,Spark分布式安装

一、Spark介绍Spark是一个生态系统，内核由Scala语言开发，为批处理（SparkCore）、交互式（SparkSQL）、流式处理（SparkStreaming）、机器学习（MLlib）、图计算

King-Long·2020-08-18 12:37

SparkCore程序可能遇到的异常

Windows上IDEA中运行SparkCore程序可能遇到的异常-1.null/bin/winutils.exe原因是：windows上配置配置好hadoop的环境解决方案：按照文档进行配置("Windows

sun_shang·2020-08-18 11:37

大数据技术之SparkCore

第1章RDD概述1.1什么是RDDRDD（ResilientDistributedDataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2RDD的属性1)一组分区（Partition），即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner，即RDD的分片

魔法 • 革·2020-08-18 11:52

通过案例对SparkStreaming透彻理解三板之二

1.解密SparkStreaming运行机制2.解密SparkStreaming架构I.SparkCore是基于RDD形成的，RDD之间都会有依赖关系，SparkStreaming在RDD上的时间维度，

cary_1991·2020-08-18 10:21

大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结

2、SparkSQL的特点：（1）和SparkCore的无缝集成，可以在写整个RDD应用的时候，配合SparkSQL来实现逻辑。（2）统一的数据访问方式，SparkSQL提供标准化的SQ

aodawu2891·2020-08-18 10:02

如何开发SparkSQL项目？

前言Spark是企业中用的比较多的大数据计算框架，它主要由SparkCore、SparkSQL、SparkStreaming这三个模块组成，实时计算主要使用SparkStreaming，离线部分的数据处理则主要使用

曲健磊·2020-08-18 10:55

SparkSQL 基础编程

一、介绍SparkCore中，如果想要执行应用程序，需要首先构建上下文环境对象SparkContext，SparkSQL其实可以理解为对SparkCore的一种封装，不仅仅在模型上进行了封装，上下文环境对象也进行了封装

火成哥哥·2020-08-18 10:19

[spark streaming] DStream 和 DStreamGraph 解析

看sparkstreaming源码解析之前最好先了解sparkcore的内容。前言SparkStreaming是基于SparkCore将流式计算分解成一系列的小批处理任务来执行。

大写的UFO·2020-08-18 10:37

Spark基础，Local模式、Standalone模式、Yarn模式安装使用配置

1.2Spark内置模块SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系

往事随风_h·2020-08-18 10:09

SparkCore应用解析

文章目录RDD概念RDD概述什么是RDDRDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1Transformation2.3.2Action2.3.3数值RDD的统计操作2.3.4向RDD操作传递函数注意2.3.5在不同RDD类型间转换2.4RDD

靛蓝忆·2020-08-18 10:18

大数据系列之SparkCore应用解析（二)

文章目录第1章RDD概念1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1Transformation2.3.2Action2.3.3数值RDD的统计操作2.3.4向RDD操作

开封程序员阿强·2020-08-18 10:34

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结

==========SparkStreaming是什么==========1、SParkStreaming是Spark中一个组件，基于SparkCore进行构建，用于对流式进行处理，类似于Storm。

aodawu2891·2020-08-18 10:39

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

与SparkSQL结合使用SparkStreaming最强大的地方在于，可以与SparkCore、SparkSQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream

ZFH__ZJ·2020-08-18 10:07

SparkCore — Task执行源码分析之Task.run()源码分析

Task.run()源码分析上一篇博客分析了TaskRunner.run()源码，它里面有两个比较重要的方法一个是Task.run()—task的执行，还有就是task执行结束后将执行结果发送给Driver的StatusUpdate()，这里我们来分析Task.run()方法：finaldefrun(taskAttemptId:Long,attemptNumber:Int,metricsSyst

xiaoxin_ysj·2020-08-18 07:17

Spark调优多线程并行处理任务实现方式

方式1:1.明确Spark中Job与Streaming中Job的区别1.1SparkCore一个RDDDAGGraph可以生成一个或多个Job（Action操作）一个Job可以认为就是会最终输出一个结果

·2020-08-17 09:25

30天搞定spark源码系列-RDD番外篇-shuffledRDD

shuffle类算子sparkshuffle在实战中的优化方向shuffledRDD的基本流程和代码框架是什么1、sparkshuffle相信对于使用过spark的童鞋来说，不管是sparksql或者sparkcore

枫叶的落寞·2020-08-16 15:06

spark学习之入门（一）

spark是内存性的，扩充了mapReduce的计算模型spark组件sparkCore包含spark的基本功能，包含任务调度，内存管理，容错机制等，内部定义了RDDs(弹性分布式数据集）提供了很多API

MineCodelife·2020-08-15 21:39

推荐频道

---SparkCore

spark中的闭包与广播变量

关于spark job并行的问题

Spark中shuffle性能调优1

SparkSQL 全面深度解析

解决使用java编写spark代码maven打包报错问题

基于 spark ml NaiveBayes实现中文文本分类

大数据干货系列（十一）--Spark Streaming总结

SparkSql使用入门

Spark Streaming学习笔记

SparkStreaming DStream

Spark Streaming入门

4.流式计算 - spark direct方式计算手动控制kafka偏移度[spark straming2.1 + kafka0.10.2.0]

Maven设置指定jar包依赖版本信息

大数据系列——Spark学习笔记Spark Streaming

大数据系列——Spark学习笔记Spark Streaming

第四篇|Spark Streaming编程指南(1)

第四篇|Spark Streaming编程指南(1)

第三篇|Spark SQL编程指南

第二篇|Spark core编程指南

第三篇|Spark SQL编程指南

第二篇|Spark core编程指南

21、Spark核心编程之创建RDD（集合、本地文件、HDFS文件）

Spark 笔记

BigData-25：Spark基础

Hadoop学习笔记（1）－Hadoop生态系统

Spark之【SparkSQL】入门概述

SparkCore之数据读取与保存

SparkStreaming详解

大数据技术之SparkCore（一）

59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例

SparkCore之RDD编程进阶之累加器

SparkCore之文件类数据读取与保存

SparkCore之文件系统类数据读取与保存

大数据晋级之路（8）Scala,Spark分布式安装

SparkCore程序可能遇到的异常

大数据技术之SparkCore

通过案例对SparkStreaming透彻理解三板之二

大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结

如何开发SparkSQL项目？

SparkSQL 基础编程

[spark streaming] DStream 和 DStreamGraph 解析

Spark基础，Local模式、Standalone模式、Yarn模式安装使用配置

SparkCore应用解析

大数据系列之SparkCore应用解析（二)

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结

94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战

SparkCore — Task执行源码分析之Task.run()源码分析

Spark调优多线程并行处理任务实现方式

30天搞定spark源码系列-RDD番外篇-shuffledRDD

spark学习之入门（一）