Spark源码第10页

[笔记迁移][Spark][12]Spark源码——内核架构5

文章目录11.Shuffle（最最最最最重要，重点出错、调优目标）12.BlockManager：底层数据管理组件（还是主从结构）13.CacheManager(2.3中没有CacheManager)11.Shuffle（最最最最最重要，重点出错、调优目标）（1）发生时机：与Tuple的key操作相关，包括reduceByKey/groupByKey/sortByKey/countByKey/jo

Bro_Rabbit·2019-07-24 11:25

spark 源码分析之十八 -- Spark存储体系剖析

NettyRpcEnv是Spark的默认的RpcEnv实现，它提供了个Spark集群各个节点的底层通信环境，可以参照文章spark源码分析之十二--SparkRPC剖析之SparkRPC总结做深入了解。

匠心源码·2019-07-23 19:00

spark 源码分析之十七 -- Spark磁盘存储剖析

上篇文章spark源码分析之十六--Spark内存存储剖析主要剖析了Spark的内存存储。本篇文章主要剖析磁盘存储。

匠心源码·2019-07-21 20:00

spark 源码分析之十六 -- Spark内存存储剖析

上篇spark源码分析之十五--Spark内存管理剖析讲解了Spark的内存管理机制，主要是MemoryManager的内容。

匠心源码·2019-07-18 21:00

[笔记迁移][Spark][11]Spark源码——内核架构4

文章目录8.TaskScheduler——分发Task至Executor9.Executor10.Task8.TaskScheduler——分发Task至Executor/***TaskScheduler提交Task的入口*/overridedefsubmitTasks(taskSet:TaskSet){valtasks=taskSet.taskslogInfo("Addingtaskset"+t

Bro_Rabbit·2019-07-18 16:29

spark 源码分析之十五 -- Spark内存管理剖析

在上篇文章spark源码分析之十四--broadcast是如何实现的？中对存储相关的内容没有做过多的剖析，下面计划先剖析Spark的内存机制，进而进入内存存储，最后再剖析磁盘存储。

匠心源码·2019-07-17 19:00

remote debug 远程调试Spark源码

1.IDEA配置remotedebug：2.客户端设置监听：exportSPARK_SUBMIT_OPTS=-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=90013.客户端提交任务（启动Spark），可以看到监听生效：Listeningfortransportdt_socketataddress:90014.IDEA中开

merrily01·2019-07-15 10:41

(spark源码)union算子

摘要问题:spark中,union方法是否重新分区,是否会触发shuffle结论:不会shuffle,不会划分stage,但是可能重新分区(窄依赖)解释:(1)宽窄依赖对应的原称为ShuffleDependency和NarrowDependency,字面上可以看出来,只有宽依赖才会发生shuffle.但是两种依赖都会重新分区,因此重分区和是否shuffle没有关系(2)如果被union的多个rdd

IAmListening·2019-07-04 14:45

spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析

在上篇spark源码分析之五--Spark内置RPC机制剖析之一创建NettyRPCEnv中，涉及到了Diapatcher内容，未做过多的剖析。本篇来剖析一下它的工作原理。

weixin_30632899·2019-07-03 22:00

修改Spark源码实现MySQL update

当我们在使用Spark写数据到MySQL时，通常会使用df.write.mode("xxx")...，但是当你点进mode查看源码会发现，可选项为：overwrite：翻盖存在的数据（会删除表或清空表）append：追加数据ignore：忽略操作，就是啥也不干error：抛出AnalysisException异常现在有个需求是数据写入表时当主键Key的数据存在时更新字段，否则插入数据。以上的所有选

雷禄辉·2019-06-28 19:09

Spark源码拜读（一）

RDD从一个样子转换成另一个状态，代码执行了，啥也没干，到了最后一步一下干了！懒加载是怎么做到的？打开RDD.scala，看最基础的map方法/***ReturnanewRDDbyapplyingafunctiontoallelementsofthisRDD.*/defmap[U:ClassTag](f:T=>U):RDD[U]=withScope{valcleanF=sc.clean(f)new

Wish大人·2019-06-27 00:00

spark源码分析任务流程

赘述本系列的文章将会从spark源码的角度来分析spark任务提交集群到运行结束这个过程的处理逻辑，所以对Spark编程的熟练度要求比较高。Spark是基于内存的大数据处理计算引擎。

北风西谷·2019-06-22 11:05

[以浪为码]Spark源码阅读02 - RPC模块

文章目录RpcEndpointrpc终点RpcEndpointRefRpcEnv与NettyRpcEnvRPC消息发送Outbox发件箱RPC消息接收请求的响应实战总结Spark的RPC模块是建立在network模块之上，虽然network提供了远程调用与数据流传输，但是RPC提供了更加方便的编程方式与性能提升。本文通过阅读RPC模块的代码，来了解其实现。在此之前，建议提前了解一下network模

以浪为码·2019-05-11 19:35

Spark之functions

前言Spark源码中的org.apache.spark.sql包下有一个叫做functions.scala的文件，该文件包含了大量的内置函数，尤其是在agg中会广泛使用（不仅限于此）这些内置函数可以极大的简化

SunnyRivers·2019-05-11 16:06

Spark环境搭建与测试

概述：本文主要介绍CentOS6.5下基于Hadoop的Spark环境搭建过程，并实现塞缪尔·厄尔曼《青春》的词频统计，Spark的具体搭建过程如下：1、下载并解压Spark源码https://archive.apache.org

JeeThink·2019-05-09 08:07

spark2.4.2编译（mac系统下）

编译前所注意事项：首先，尽可能阅读官网编译文档BuildingApacheSpark源码下载推荐gitclone或者wget。编译前确保网络良好。

夜下探戈·2019-05-02 00:38

Spark源码

Master和WorkerAkka实现RPC通信原理1.首先启动Master（actorSystem.actorof），然后启动所有的Worker2.Worker启动后，在preStart方法中与Master建立连接，向Master发送注册，将Worker的信息(tcp协议，hostname端口等)通过caseclass封装起来发送给Master3.Master接收到Woker的注册消息后将Wor

paulgeorge9527·2019-04-25 23:16

Spark源码系列之Standalone模式下Spark应用的整个启动过程

一，Standalone模式下的spark角色大家都知道在Standalone模式下，spark一共有以下五种角色：sparksubmit，master，Worker，Driver，Executor。具体这五种角色在我们提交应用的时候起到哪些作用呢，我们下面就来详细讲解。1，SparkSubmit加载一个Spark应用程序的入口。这个类处理设置spark相关依赖的Classpath(足见其重要性)

Jacy_Wang·2019-04-09 10:45

分析在 YARN 模式下的 Spark 里 BlockManager 的 LOCAL_DIRS

一、前言1.版本：Hadoop源码版本:Version2.7.1Spark源码版本:Version2.4.1二、分析1.Spark里BlockManager的LOCAL_DIRS在DiskBlockManager

亚历山大的陀螺·2019-04-02 21:43

Spark源码解析：TaskSetManager 任务推断执行源码解析。

1、TaskSetManager的概述TaskSetManager也实现了Schedulable特质，并参与到调度池的调度中，TaskSetManager对TaskSet进行管理，包括任务推断、Task本地性、并对Task进行资源分配。TaskSchedulerImpl依赖于TaskSetManager.2、推断执行在Hadoop2.x.x版本中，当一个应用向Yarn集群提交作业后，此作业的多个任

dadammd353690383·2019-03-28 12:03

Spark源码阅读环境搭建

本实验提供两种方式编译spark源码（1）idea+maven需要安装好idea、maven和scala，并配置好对应的环境变量。

leboop·2019-03-28 10:18

eclipse如何导入Spark源码方便阅读

很多都是IDEA怎么导入的，还有就是谈到了自己编译spark源码再倒入，但我还没有强到修改源码的地步，所以跳过编译直接导入阅读源码，过程如下下载spark源码从https://github.com/apache

lzw2016·2019-03-09 21:35

Mac上配置IntelliJ IDEA的Spark源码阅读环境

文章目录环境准备主要工具/软件Git安装IntelliJIDEA下载及Scala插件安装sbt安装基本步骤获取git目录在IDEA中构建sparkIDEA中查看代码环境准备主要工具/软件gitIntellijIDEA&ScalaPluginsbtGit安装IntelliJIDEA下载及Scala插件安装IJIDEA下载连接：https://www.jetbrains.com/idea/downlo

Lestat.Z.·2019-02-17 18:50

spark源码阅读之executor模块②

在spark源码阅读之executor模块①中，AppClient已经实例化完成，且注册了名为ClientEndpoint的通信端，调用其onStart方法，在其中又调用了registerWithMaster

invincine·2019-01-25 18:31

如何将Spark 源码导入IDEA中

下载spark源码https://github.com/apache/spark/在branch中选择相应的版本，这里我选择2.4版本待下载完成后，解压文件在IDEA中选择导入项目选择解压源码路径

颓废的大饼·2019-01-24 21:52

spark源码阅读之executor模块①

本文基于Spark1.6.3源码，采用一步一步深入的方式来展开阅读，本文是为了纪录自己在阅读源码时候的思路，看完一遍真的很容易忘记，写一篇文章梳理一遍可以加深印象。SparkContext：Spark应用的入口SparkContext是用户应用于Spark集群交互的主要接口，所以把SparkContext作为入口来展开executor的源码阅读，主要针对standaone模式下的executor模

invincine·2019-01-22 11:51

阿里大数据架构师分享：Spark源码解析

首先看一段使用scala编写的spark代码：packagespark0719importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextobjectTtspark{valconf=newSparkConf().setAppName("sp").setMaster("local")defmain(args:Array[Str

假的鱼·2019-01-15 17:27

tigase客户端之smack4.3用法【草稿】

项目介绍sureim项目地址：sureim项目地址gitclonehttps://git.tigase.tech/sureim.gitdemo网站：tigaseimspark源码编译获取源代码gitclonehttps

码农下的天桥·2018-12-18 18:56

Spark 源码分析之ShuffleMapTask内存数据Spill和合并

原文链接：https://my.oschina.net/u/723009/blog/2988340Spark源码分析之ShuffleMapTask内存数据Spill和合并更多资源分享SPARK源码分析技术分享

chongqueluo2709·2018-12-14 09:00

Spark MapOutputTracker源码分析

原文链接：https://my.oschina.net/u/723009/blog/2988336SparkMapOutputTracker源码分析更多资源分享SPARK源码分析技术分享(视频汇总套装视频

chongqueluo2709·2018-12-14 09:00

Spark HadoopRdd partition的开始位置计算

https://my.oschina.net/u/723009/blog/2985982SparkHadoopRddpartition的开始位置计算HadoopRDDpartition数据范围计算更多资源SPARK

chongqueluo2709·2018-12-09 23:00

升级 spark 2.3问题：Spark Streaming日志级别设置，最小堆内存设置

最小堆内存相等）2、新集群spark2.3.jdk1.8jvm堆内存分配，刚开始分比较小的内存，当内存不够时，增加内存（主要是老年代内存），新生代内存也有增长，但是比较小（280M-556M），问题分析：查看spark

T-Janey·2018-12-03 17:52

spark深度解析：调度算法

基于spark1.3.1的源码解读不得不佩服spark源码的精炼，standalone模式中，不到100行就搞定了资源调度，spark提供两种资源调度方式，尽量打散：即我们的executor会尽量的分配更多的

Java_Soldier·2018-11-28 14:29

spark源码解读

SparkContext初始化操作privatevalcreationSite:CallSite=Utils.getCallSite()private[spark]vallistenerBus=newLiveListenerBus(this)addedFiles/addedJars:用于存储每个静态文件/jar的URL以及文件的本地时间戳valsparkUser=Utils.getCurrentU

hochoy·2018-11-16 11:12

spark源码分析(1)

一、启动1.spark-submit分析在Linux是一个脚本，内容很简单，如下：if[-z"${SPARK_HOME}"];thenexportSPARK_HOME="$(cd"`dirname"$0"`"/..;pwd)"fi就是找到spark-submit命令所在的目录，然后进行上一层，并赋值给SPARK_HOME禁用Python3.3+中字符串的随机哈希，没关注，不知道为啥这样干expor

mainroot·2018-11-14 15:29

Spark源码系列:RDD repartition、coalesce 对比

在上一篇文章中Spark源码系列:DataFramerepartition、coalesce对比对DataFrame的repartition、coalesce进行了对比，在这篇文章中，将会对RDD的repartition

lillcol·2018-11-01 17:00

Spark源码系列:DataFrame repartition、coalesce 对比

在Spark开发中，有时为了更好的效率，特别是涉及到关联操作的时候，对数据进行重新分区操作可以提高程序运行效率（很多时候效率的提升远远高于重新分区的消耗，所以进行重新分区还是很有价值的）。在SparkSQL中，对数据重新分区主要有两个方法repartition和coalesce，下面将对两个方法比较repartitionrepartition有三个重载的函数：defrepartition(numP

lillcol·2018-10-31 19:00

搭建Spark源码研读和代码调试的开发环境

转载自https://github.com/linbojin/spark-notes/blob/master/ide-setup.md搭建Spark源码研读和代码调试的开发环境工欲善其事，必先利其器，第一篇笔记介绍如何搭建源码研读和代码调试的开发环境

cjlion·2018-10-23 20:07

Spark源码之连接簇SparkContext

任务提交之后，代码会依次执行，因为懒加载的缘故，算子都不会立即执行，直到遇到action动作。我们都知道遇到动作后，DAGScheder会根据无线图分解stage，TaskScheder会申请并运行任务。但是在此之前，需要一个连接来配置启动环境，来启动这些类。这就是我要说的SparkContext。在源码中对它有这样的描述MainentrypointforSparkfunctionality.AS

机器不能学习·2018-10-18 16:26

Spark源码之DAGScheduler

Spark源码之DAGScheduler介绍篇SparkApplication中的RDD经过一系列的Transformation操作后由Action算子导致了SparkContext.runjob的执行

小狼星I·2018-10-17 16:17

【Spark内核源码】Spark源码环境搭建

目录准备条件下载spark源码，并解压打开spark源码下的pom.xml文件，修改对应的java和intellij里的maven版本打开intellij，InportProject，将源码导入intellij

lazy_moon·2018-10-09 23:43

Windows Eclipse Spark源码maven导入小记

Spark环境和环境变量已经搭好，同时，也必须安装和配置GIT环境变量，亲测通过Maven导入spark源码是可行的，虽然期间有各种错误，而且尝试IDEA也是一样的问题，很多错误其实很好找原因，前提是不要过度依赖谷歌

farcicalbird·2018-09-24 00:09

Spark源码研读-散篇记录（二）：Spark内置RPC框架之TransportConf

1Spark版本Spark2.1.0。2说明去年在网易之初，已经开发了一个完整的RPC框架，其中使用的核心技术也是Netty，所以当看到Spark的RPC框架时，并不觉得太陌生，关于个人开发的这个RPC框架，真正完全可用是在今年，明年会完善一下，开源出来，因为个人觉得弄得一个简单RPC框架的技术原理，对于大数据、分布式计算相关的知识，真的是帮助太大。本篇说一下TransportContext、Tr

xpleaf·2018-09-10 23:58

Spark源码研读-散篇记录（一）：SparkConf

0关于散篇记录散篇记录就是，我自己觉得有需要记录一下以方便后来查找的内容，就记录下来。1Spark版本Spark2.1.0。2说明源码过程中所涉及的许多Scala的知识，完全可以参考之前Scala的笔记文章，应该来说确实很多知识内容都涉及到了。3SparkConf源码SparkConf的源码相对不难，主要是对Spark本身要有所理解，同时Scala也应该要有所掌握，那么看起来就不太复杂，只看了比较

xpleaf·2018-09-09 23:40

搭建Spark源码研读和代码调试的开发环境

Note：环境的基本配置可以参考我这里转载的这篇文章，当然我自己尝试的时候还是会出现其它的问题，如果有，那么参考下面两篇文章的案例：https://blog.51cto.com/wangyuguo/1981837https://www.mail-archive.com/[email protected]&q=subject:%22Build+error%22&o=newe

xpleaf·2018-09-08 20:20

Spark源码解析之Stage划分

这里以count操作为例，一步步解析Spark在执行一个Job时如何进行DAG图的解析。Spark在遇到Action类型算子时，会使用SparkContext进行一系列的runJob方法调用，最终会调用DAGScheduler的runJob方法来划分DAG图。一、runJob方法调用//计算RDD中包含的键值对个数，此时会触发一个SparkContext来提交执行Jobdefcount():Lon

dmy1115143060·2018-08-31 20:45

scala的函数式编程（一）

也就是因为函数才使得scala更加简洁、优雅、又耐人寻味，总之，函数式编程在scala中是一等一的重要，使用scala开发的各类框架都存在这大量函数，如果想去了解、阅读Spark源码，函数式编程这一关必须要过

lazy_moon·2018-08-22 20:57

spark sql自己定义规则

1）github下载spark源码（下面的代码都是需要添加的，找到对应的文件进行添加即可）2）找到SqlBase.g4文件，以offset为例进行说明，下面的2.1）找到下面的内容queryOrganization

强子no2·2018-08-17 11:16

Spark源码解读之Executor以及Task工作原理剖析

前一篇文章中主要讲述了TaskScheduler发送TaskSet中的task到executor中执行，那么，本篇文章接着上文的讲述看看executor的工作原理以及task是如何执行的。首先来看看executor的工作流程：executor会启动一个后台进程CoarseGrainedExecutorBackend，首先它会向driver发送RegisterExecutor消息注册executor

不清不慎·2018-08-03 23:27

Spark源码分析之DAGScheduler详解

在前面的几节中，主要介绍了SparkContext的启动初始化过程，包括Driver的启动，向Master的注册，Master启动Worker，在Worker中启动Executor，以及Worker向Master的注册，在讲述完这些之后，所有的准备工作都已经做完，就开始真正执行我们的Application，首先它会提交job到DAGScheduler中执行，包括对于job的stage划分，还有ta

不清不慎·2018-07-31 17:36

推荐频道

Spark源码

[笔记迁移][Spark][12]Spark源码——内核架构5

spark 源码分析之十八 -- Spark存储体系剖析

spark 源码分析之十七 -- Spark磁盘存储剖析

spark 源码分析之十六 -- Spark内存存储剖析

[笔记迁移][Spark][11]Spark源码——内核架构4

spark 源码分析之十五 -- Spark内存管理剖析

remote debug 远程调试Spark源码

(spark源码)union算子

spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析

修改Spark源码实现MySQL update

Spark源码拜读（一）

spark源码分析任务流程

[以浪为码]Spark源码阅读02 - RPC模块

Spark之functions

Spark环境搭建与测试

spark2.4.2编译（mac系统下）

Spark源码

Spark源码系列之Standalone模式下Spark应用的整个启动过程

分析 在 YARN 模式下的 Spark 里 BlockManager 的 LOCAL_DIRS

Spark源码解析：TaskSetManager 任务推断执行源码解析。

Spark源码阅读环境搭建

eclipse如何导入Spark源码方便阅读

Mac上配置IntelliJ IDEA的Spark源码阅读环境

spark源码阅读之executor模块②

如何将Spark 源码导入IDEA中

spark源码阅读之executor模块①

阿里大数据架构师分享：Spark源码解析

tigase客户端之smack4.3用法【草稿】

Spark 源码分析之ShuffleMapTask内存数据Spill和合并

Spark MapOutputTracker源码分析

Spark HadoopRdd partition的开始位置计算

升级 spark 2.3问题：Spark Streaming日志级别设置，最小堆内存设置

spark深度解析：调度算法

spark源码解读

spark源码分析(1)

Spark源码系列:RDD repartition、coalesce 对比

Spark源码系列:DataFrame repartition、coalesce 对比

搭建Spark源码研读和代码调试的开发环境

Spark源码之连接簇SparkContext

Spark源码之DAGScheduler

【Spark内核源码】Spark源码环境搭建

Windows Eclipse Spark源码maven导入小记

Spark源码研读-散篇记录（二）：Spark内置RPC框架之TransportConf

Spark源码研读-散篇记录（一）：SparkConf

搭建Spark源码研读和代码调试的开发环境

Spark源码解析之Stage划分

scala的函数式编程（一）

spark sql自己定义规则

Spark源码解读之Executor以及Task工作原理剖析

Spark源码分析之DAGScheduler详解

分析在 YARN 模式下的 Spark 里 BlockManager 的 LOCAL_DIRS