Spark源码第9页

Spark源码分析：Spark存储管理

Spark源码分析：Spark存储管理我们在编写soark程序，总是和rdd打交道，但是rdd仅仅是一个“形”，我们所操作的数据放在哪里呢？他和rdd又是怎么映射的呢。

raincoffee·2020-02-27 00:27

Spark源码分析：RDD的依赖

RDD的成员之一是依赖集，依赖集也关系到任务调度源码Dependency代码主要在一个源文件中：core/Dependency代码中有5个类。除此以外在core/rdd/PartitionPruningRDD还有一个PruneDependency类。他们的名称和继承关系如下图：通过阅读代码可以得到以下信息：依赖的根类是Dependency，只有一个RDD成员，表示依赖的对象。这类继承了Serial

千锋IJava·2020-02-20 13:10

Spark源码分析：RDD的依赖

RDD的成员之一是依赖集，依赖集也关系到任务调度源码Dependency代码主要在一个源文件中：core/Dependency代码中有5个类。除此以外在core/rdd/PartitionPruningRDD还有一个PruneDependency类。他们的名称和继承关系如下图：通过阅读代码可以得到以下信息：依赖的根类是Dependency，只有一个RDD成员，表示依赖的对象。这类继承了Serial

千锋IJava·2020-02-20 13:49

华为云服务器centos7.2下spark源码编译

1.下载sourcehttp://spark.apache.org/downloads.html2.解压[root@ecs-dce7software]#tar-xvfspark-2.2.0.tgz-C../app/[[email protected]]#vimpom.xml搜索/central找到添加第二个repositoryclouderahttps://repository.cl

HUAWEIMate20·2020-02-20 01:20

spark源码阅读——shuffle读

DAGScheduler在拆分任务的时候如果发现需要shuffle则会把之前RDD运算产生的结果输出到本地磁盘中（详细的会在以后的文章分析）。紧接着就需要对Shuffle后的结果分别进行运算了（比如说count）那么接着之前的RDD会有一个ShuffledRDD来处理shuffle之后的结果。（实际上是一个新的Stage）同样在这个Stage会把任务拆分成Task并发送给Executor这里拆分成

Orz·2020-02-19 18:35

Spark Streaming运行流程及源码解析（一）

本系列主要描述SparkStreaming的运行流程，然后对每个流程的源码分别进行解析之前总听同事说Spark源码有多么棒，咱也不知道，就是疯狂点头。今天也来撸一下Spark源码。

upupfeng·2020-02-18 10:00

为Spark Deep Learning 添加NLP处理实现

后面看了TFoS,感觉很是巧妙，写了一篇TensorFlowOnSpark源码解析。

祝威廉·2020-02-18 04:01

[语法]updateStateByKey~Spark Streaming累加器操作

Spark源码走读12——SparkStreaming-峰哥的专栏-博客频道-CSDN.NEThttp://blog.csdn.net/huwenfeng_2011/article/details/43371325UpdateStateByKey

葡萄喃喃呓语·2020-02-17 21:59

【Spark】DAGScheduler源码浅析2

引入上一篇文章DAGScheduler源码浅析主要从提交Job的流程角度介绍了DAGScheduler源码中的重要函数和关键点，这篇DAGScheduler源码浅析2主要参考fxjwind的Spark源码分析

JasonDing·2020-02-16 18:24

原创-Spark源码分析二:Standalone模式下Master启动源码分析

接着上篇分析《https://www.jianshu.com/p/c9aa62460e43》在Master选举为leader后发送ElectedLeader消息，匹配recive方法中的ElectedLeader消息处理caseElectedLeader=>//获取持久化的app、driver、worker信息val(storedApps,storedDrivers,storedWorkers)=

无色的叶·2020-02-16 11:01

Spark On Hive 部署和配置

SparkOnHive，通过sparksql模块访问和使用Hive，默认Spark预编译(pre-built)版不包含hive相关依赖，并不支持此功能，因此需要对spark源码进行重新编译，并进行相关的配置

Jogging·2020-02-16 03:33

Spark源码分析：SparkContext初始化

Spark源码分析：SparkContext初始化1.Spark怎么运行？

raincoffee·2020-02-14 08:43

以LinkedBlockingQueue为例浅谈阻塞队列的实现

问题最近在阅读Spark源码的过程中，又重新接触到了一些Java并发方面的知识，于是就见缝插针地将它们记录下来，当做复习与备忘。

LittleMagic·2020-02-06 13:35

22list[听风居士]Spark 源码解析：TaskScheduler的任务提交和task最佳位置算法 - 听风居士

Spark源码解析：TaskScheduler的任务提交和task最佳位置算法-听风居士-博客园http://www.cnblogs.com/zhouyf/p/5743382.htmlSpark源码解析

葡萄喃喃呓语·2020-02-05 13:38

Spark Shuffle Write 和Read

本文基于spark源码2.111.前言shuffle是sparkjob中一个重要的阶段，发生在map和reduce之间，涉及到map到reduce之间的数据的移动，以下面一段wordCount为例：defmain

aaron1993·2020-01-08 02:41

GitERRORsrc refspec master does not match any. 错误处理办法

要学习一个Spark源码，想在学习过程中加一些注释，便于日后自己回忆、与同事分享。所以下载了Spark源码，并上传到自己github。在向远程push代码的时候，报上面错误。原因:本地仓库为空。

guyuetftb·2020-01-07 11:28

spark源码解析之partitioner

spark中stage的划分依据action算子进行，每一次action（reduceByKey等）算子都会触发一次shuffle过程，该过程涉及到数据的重新分区。spark中的分区器包括HashPartitioner及RangePartitioner两种。HashPartitioner根据key进行分区，当某一个key对应的数据较多时会出现数据倾斜的情况，又因为每一个partition对应一个t

藤风·2019-12-30 01:19

编译Spark源码支持Hive并部署

1、Spark源码下载Spark官网提供了预编译版本的Spark，但是要获得hive支持的Spark版本必须自己下载Spark源码进行编译加入hive支持。

祁衍·2019-12-29 13:12

一周 IT 技术干货（码农周刊第 32 期）

网页版|快速订阅《码农周刊》程序设计系列文章：深入剖析Redis（@郑思愿daoluan）系列文章：ApacheSpark源码走读（@徽沪一郎）工作机会[北京]大鱼[杭州]大搜车[杭州]风先生即刻送[上海

码农IO·2019-12-26 07:59

Spark源码解析排序算子sortBy和sortByKey存在未排序的情况

一.在使用中出现的问题1packagetest23importorg.apache.log4j.{Level,Logger}4importorg.apache.spark.sql.SparkSession56/**7*CreatedbyAdministratoron2019/12/17.8*/9objectTestZip{10/**11*设置日志级别12*/13Logger.getLogger("

云山之巅·2019-12-24 11:00

Spark入门指南 IV - 抛砖引玉的Spark源码开发

文章也同时在个人博客http://kimihe.com/更新引言"ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing."Spark是一种高性能分布式计算框架。它基于RDD使用内存来加速迭代过程。相比于前辈Hadoop，Spark有着更好的性能表现，尤其针对MachineLearning此类典型的应用，提升更为显著。作为入门

QihuaZhou·2019-12-23 10:04

帮你快速理解 Spark 的分区器

借用Spark源码里对groupByKey算子的描述（@noteThisoperationmaybeveryexpensive。。。），可见一斑。

俺是亮哥·2019-12-21 19:19

spark 源码阅读

1、IDEA查看spark元源码1、获取spark源码url:https://github.com/apache/spark.git登陆进去如下图所示image.png点击clone或者下载下spark

早点起床晒太阳·2019-12-18 00:59

Spark源码：启动Executors

源码目录SparkContext初始化时，创建并启动了TaskScheduler；TaskScheduler启动时注册Application到Master；Master上启动Application时会调用startExecutorsOnWorkers方法启动Executors；这里分析Executors的启动过程。1在Workers上规划Executors进入org.apache.spark.de

Jorvi·2019-12-17 16:28

Spark源码：启动Worker

源码目录1start-slave.sh#NOTE:ThisexactclassnameismatcheddownstreambySparkSubmit.#Anychangesneedtobereflectedthere.CLASS="org.apache.spark.deploy.worker.Worker"#Startuptheappropriatenumberofworkersonthisma

Jorvi·2019-12-17 15:29

Spark源码：运行Task

源码目录Driver端调用launchTasks方法发送LaunchTask消息给Executor，用于启动Task。1接收处理LaunchTask消息进入org.apache.spark.executor.CoarseGrainedExecutorBackend.scalaoverridedefreceive:PartialFunction[Any,Unit]={caseLaunchTask(d

Jorvi·2019-12-17 15:07

Spark源码：构建处理链

源码目录1程序入口varconf:SparkConf=newSparkConf().setAppName("SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkContext.parallelize(List("aaa","bbb","ccc","ddd"),2).r

Jorvi·2019-12-17 15:33

Spark内核分析之spark作业的三种提交方式

最近在研究Spark源码，顺便记录一下，供大家学习参考，如有错误，请批评指正。好，废话不多说，这一篇先来讲讲Spark作业提交流程的整体架构。

z小赵·2019-12-17 04:25

spark源码调试Debug环境搭建

运行环境java1.8scala2.11.0maven3.3.9idea2016spark2.0.21完成以下配置java环境变量scala环境变量mavensetting配置文件jar包存放路径idea下载scalaplugins语言插件idea配置mavensetting及jar包存放路径sparkgit:https://github.com/apache/spark.git2编译spark源

HxLiang·2019-12-16 11:01

spark源码中为什么有java scala python代码

新手很迷茫的一个问题，spark源码中为什么有javascalapython代码当看过源码就会发现，spark框架虽然是scala实现的，但是涉及到内存处理，网络，并发，磁盘io等计算机底层实现还是选择了

HxLiang·2019-12-14 06:37

spark源码解析

如何阅读源码？任何一个程序，或者一个框架，无论做什么，多么复杂，都会有唯一的入口。通过这个入口，能够找到一条主线，这条主线就是这个程序或者框架的核心。围绕这条主线，追溯整个调用链路，就能发掘出框架中的核心抽象，将这些抽象的作用搞懂，同时将它们之间的关系通过uml表示出来，这样，源码的大体结构就一览无余了。源码会涉及很多包，其实包本身就是对源码的分类和抽象，这些包的功能也要弄清楚。源码分为核心代码和

格瓦拉爱喝格瓦斯·2019-12-08 07:18

spark源码解析-分析一次完整的远程请求过程

spark版本：2.0.01.概念1.引入前面已经介绍了master启动，worker启动和rpc原理，现在结合这些，来探究一下一次完整的远程请求到底是咋样的？就以worker启动后注册到master为例，我们来细细品味一下其远程服务调用过程。2.远程服务请求过程worker注册到master的方法是masterEndpoint.ask[RegisterWorkerResponse](Regist

missv5·2019-11-25 21:35

python+Potrace实现自动作画——程序员的浪漫

连续看了快一个月的spark源码，吃饭脑子里蹦出来的都是rpc私有协议、DAGschedule人、TASKscheduler、调度、资源申请.....总之一句话就是看的快吐了，该换换脑子再做打算。

远洋之帆·2019-11-22 16:00

spark源码解析-master流程分析

spark版本：2.0.01.概念master管理着spark的主要元数据，用于管理集群，资源调度等。2.master启动过程2.1Master.main方法在start-master.sh脚本中可以看出最终调用的是org.apache.spark.deploy.master.Master的main方法。现在来分析一下这个方法：defmain(argStrings:Array[String]){/

missv5·2019-11-22 15:38

Spark源码执行逻辑分析【基于案例SparkPi】

一.案例SparkPi代码1packagescala23importorg.apache.spark.sql.SparkSession45importscala.math.random67/**Computesanapproximationtopi*/8objectSparkPi{9defmain(args:Array[String]){10valspark=SparkSession11.buil

云山之巅·2019-11-11 15:00

[Spark源码剖析] DAGScheduler划分stage

划分stage源码剖析本文基于Spark1.3.1先上一些stage相关的知识点：DAGScheduler将Job分解成具有前后依赖关系的多个stageDAGScheduler是根据ShuffleDependency划分stage的stage分为ShuffleMapStage和ResultStage；一个Job中包含一个ResultStage及多个ShuffleMapStage一个stage包含多

牛肉圆粉不加葱·2019-11-08 16:50

Spark源码分析：Spark运行模式及原理

Spark源码分析：Spark运行模式及原理1.运行模式概述spark运行模式多种多样，分为以下几种本地模式为分布式集群standalonemesoshadoopyarn基本框架：2.相关类介绍taskscheduler

raincoffee·2019-11-08 12:26

搞定Spark 源码单元测试

在Spark源码上添加了些代码，想做个单元测试，倒弄了半天，发现怎么着都会跑所有的单测，好浪费时间。

分裂四人组·2019-11-08 02:31

【Spark】配置Spark源码阅读环境

Scala构建工具（SBT）的使用SBT介绍SBT是SimpleBuildTool的简称，如果读者使用过Maven，那么可以简单将SBT看做是Scala世界的Maven，虽然二者各有优劣，但完成的工作基本是类似的。虽然Maven同样可以管理Scala项目的依赖并进行构建，但SBT的某些特性却让人如此着迷，比如：使用Scala作为DSL来定义build文件（onelanguagerulesthema

JasonDing·2019-11-06 21:39

基于Centos7编译spark指定Hadoop版本

基于Centos7编译Spark0摘要主要探究了如何对spark源码进行编译，以及普及了一下Maven中的-P,-D的意义以及我在编译过程中遇到的两个坑。为什么需要编译spark源码呢？

TrueKai·2019-10-19 14:00

升级 spark 2.4问题：Spark Streaming日志级别设置，最小堆内存设置

最小堆内存相等）2、新集群spark2.4.1jdk1.8jvm堆内存分配，刚开始分比较小的内存，当内存不够时，增加内存（主要是老年代内存），新生代内存也有增长，但是比较小（280M-556M），问题分析：查看spark

灵佑666·2019-10-07 17:11

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!

上篇基于Spark源码，从一个动手实战案例入手，

段智华·2019-09-26 18:47

Windows上IDEA搭建最新Spark2.4.3源码阅读及调试的开发环境

1.搭建Spark源码环境所需准备搭建Spark源码环境所需要准备的一些东西需要先准备好。这里也有我踩过的一些坑，我也会一并介绍。首

zzzzMing·2019-08-28 18:00

spark概念

spark源码:https://github.com/apache/spark官网：xxxx.apache.org源码：https://github.com/apache/xxxxRDDRDD：ResilientDistributedDataset

shone_shawn·2019-08-16 13:47

spark shuffle的写操作之准备工作

前言在前三篇文章中，spark源码分析之十九--DAG的生成和Stage的划分剖析了DAG的构建和Stage的划分，spark源码分析之二十--Stage的提交剖析了TaskSet任务的提交，以及spark

匠心源码·2019-08-02 22:00

spark 源码分析之二十一 -- Task的执行流程

引言在上两篇文章spark源码分析之十九--DAG的生成和Stage的划分和spark源码分析之二十--Stage的提交中剖析了Spark的DAG的生成，Stage的划分以及Stage转换为TaskSet

匠心源码·2019-07-29 19:00

Spark 源码分析系列

如下，是spark源码分析系列的一些文章汇总，持续更新中......SparkRPCspark源码分析之五--SparkRPC剖析之创建NettyRpcEnvspark源码分析之六--SparkRPC剖析之

匠心源码·2019-07-28 16:00

spark 源码分析之二十 -- Stage的提交

引言上篇spark源码分析之十九--DAG的生成和Stage的划分中，主要介绍了下图中的前两个阶段DAG的构建和Stage的划分。本篇文章主要剖析，Stage是如何提交的。

匠心源码·2019-07-26 19:00

spark 源码分析之十九 -- DAG的生成和Stage的划分

上篇文章spark源码分析之十八--Spark存储体系剖析重点剖析了Spark的存储体系。从本篇文章开始，剖析Spark作业的调度和计算体系。在说DAG之前，先简单说一下RDD。

匠心源码·2019-07-25 19:00

[笔记迁移][Spark][13]Spark源码——内核架构6

文章目录14.CheckPoint1.适用场景2.为什么3.功能：容错与高可用4.原理5.Checkpoint和持久化（persist/cache）的区别？6.建议7.源码14.CheckPoint1.适用场景自定义Spark应用程序特别复杂，从初始RDD到整个应用完成有很多步骤，比如超过20个Transformation操作，而且整个应用运行的时间也特别长，比如1-5小时。2.为什么对于特别复杂

Bro_Rabbit·2019-07-24 13:58

推荐频道

Spark源码

Spark源码分析：Spark存储管理

Spark源码分析：RDD的依赖

Spark源码分析：RDD的依赖

华为云服务器centos7.2下spark源码编译

spark源码阅读——shuffle读

Spark Streaming运行流程及源码解析（一）

为Spark Deep Learning 添加NLP处理实现

[语法]updateStateByKey~Spark Streaming累加器操作

【Spark】DAGScheduler源码浅析2

原创-Spark源码分析二:Standalone模式下Master启动源码分析

Spark On Hive 部署和配置

Spark源码分析：SparkContext初始化

以LinkedBlockingQueue为例浅谈阻塞队列的实现

22list[听风居士]Spark 源码解析：TaskScheduler的任务提交和task最佳位置算法 - 听风居士

Spark Shuffle Write 和Read

Git__ERROR__src refspec master does not match any. 错误处理办法

spark源码解析之partitioner

编译Spark源码支持Hive并部署

一周 IT 技术干货（码农周刊第 32 期）

Spark源码解析排序算子sortBy和sortByKey存在未排序的情况

Spark入门指南 IV - 抛砖引玉的Spark源码开发

帮你快速理解 Spark 的分区器

spark 源码阅读

Spark源码：启动Executors

Spark源码：启动Worker

Spark源码：运行Task

Spark源码：构建处理链

Spark内核分析之spark作业的三种提交方式

spark源码调试Debug环境搭建

spark源码中为什么有java scala python代码

spark源码解析

spark源码解析-分析一次完整的远程请求过程

python+Potrace实现自动作画——程序员的浪漫

spark源码解析-master流程分析

Spark源码执行逻辑分析【基于案例SparkPi】

[Spark源码剖析] DAGScheduler划分stage

Spark源码分析：Spark运行模式及原理

搞定Spark 源码单元测试

【Spark】配置Spark源码阅读环境

基于Centos7编译spark指定Hadoop版本

升级 spark 2.4问题：Spark Streaming日志级别设置，最小堆内存设置

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!

Windows上IDEA搭建最新Spark2.4.3源码阅读及调试的开发环境

spark概念

spark shuffle的写操作之准备工作

spark 源码分析之二十一 -- Task的执行流程

Spark 源码分析系列

spark 源码分析之二十 -- Stage的提交

spark 源码分析之十九 -- DAG的生成和Stage的划分

[笔记迁移][Spark][13]Spark源码——内核架构6

GitERRORsrc refspec master does not match any. 错误处理办法

2018年新春报喜！热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍清华大学出版社发行上市!