E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark源码分析
原创-
Spark源码分析
一:Standalone模式下Master启动源码分析
一:概述Master节点是SparkStandalone运行模式下的主节点,主要用于管理集群,负责资源的调度,其继承了ThreadSafeRpcEndpoint、LeaderElectable两个类。ThreadSafeRpcEndpoint类功能:线程安全的RpcEndpoint,可理解对消息有序处理,启动时默认先执行onStart方法,由receive和receiveAndReply方法处理接
无色的叶
·
2020-03-30 00:45
spark源码分析
之Checkpoint的过程
概述checkpoint的机制保证了需要访问重复数据的应用Spark的DAG执行行图可能很庞大,task中计算链可能会很长,这时如果task中途运行出错,那么task的整个需要重算非常耗时,因此,有必要将计算代价较大的RDDcheckpoint一下,当下游RDD计算出错时,可以直接从checkpoint过的RDD那里读取数据继续算。我们先来看一个例子,checkpoint的使用importorg.
张鱼猫
·
2020-03-17 11:11
Spark 学习计划
读书计划:
spark源码分析
和学习参考书记:《spark大数据处理技术》《深入理解spark:核心思想和源码分析》MateiZaharia写的《AnArchitectureforFastandGeneralDataProcessingonLargeClusters
raincoffee
·
2020-03-07 22:16
Spark源码分析
:Spark存储管理
Spark源码分析
:Spark存储管理我们在编写soark程序,总是和rdd打交道,但是rdd仅仅是一个“形”,我们所操作的数据放在哪里呢?他和rdd又是怎么映射的呢。
raincoffee
·
2020-02-27 00:27
Spark源码分析
:RDD的依赖
RDD的成员之一是依赖集,依赖集也关系到任务调度源码Dependency代码主要在一个源文件中:core/Dependency代码中有5个类。除此以外在core/rdd/PartitionPruningRDD还有一个PruneDependency类。他们的名称和继承关系如下图:通过阅读代码可以得到以下信息:依赖的根类是Dependency,只有一个RDD成员,表示依赖的对象。这类继承了Serial
千锋IJava
·
2020-02-20 13:10
SPARK
Spark源码分析
:RDD的依赖
RDD的成员之一是依赖集,依赖集也关系到任务调度源码Dependency代码主要在一个源文件中:core/Dependency代码中有5个类。除此以外在core/rdd/PartitionPruningRDD还有一个PruneDependency类。他们的名称和继承关系如下图:通过阅读代码可以得到以下信息:依赖的根类是Dependency,只有一个RDD成员,表示依赖的对象。这类继承了Serial
千锋IJava
·
2020-02-20 13:49
SPARK
【Spark】DAGScheduler源码浅析2
引入上一篇文章DAGScheduler源码浅析主要从提交Job的流程角度介绍了DAGScheduler源码中的重要函数和关键点,这篇DAGScheduler源码浅析2主要参考fxjwind的
Spark源码分析
JasonDing
·
2020-02-16 18:24
原创-
Spark源码分析
二:Standalone模式下Master启动源码分析
接着上篇分析《https://www.jianshu.com/p/c9aa62460e43》在Master选举为leader后发送ElectedLeader消息,匹配recive方法中的ElectedLeader消息处理caseElectedLeader=>//获取持久化的app、driver、worker信息val(storedApps,storedDrivers,storedWorkers)=
无色的叶
·
2020-02-16 11:01
Spark源码分析
:SparkContext初始化
Spark源码分析
:SparkContext初始化1.Spark怎么运行?
raincoffee
·
2020-02-14 08:43
Spark源码分析
:Spark运行模式及原理
Spark源码分析
:Spark运行模式及原理1.运行模式概述spark运行模式多种多样,分为以下几种本地模式为分布式集群standalonemesoshadoopyarn基本框架:2.相关类介绍taskscheduler
raincoffee
·
2019-11-08 12:26
spark shuffle的写操作之准备工作
前言在前三篇文章中,
spark源码分析
之十九--DAG的生成和Stage的划分剖析了DAG的构建和Stage的划分,
spark源码分析
之二十--Stage的提交剖析了TaskSet任务的提交,以及
spark
匠心源码
·
2019-08-02 22:00
spark 源码分析之二十一 -- Task的执行流程
引言在上两篇文章
spark源码分析
之十九--DAG的生成和Stage的划分和
spark源码分析
之二十--Stage的提交中剖析了Spark的DAG的生成,Stage的划分以及Stage转换为TaskSet
匠心源码
·
2019-07-29 19:00
Spark 源码分析系列
如下,是
spark源码分析
系列的一些文章汇总,持续更新中......SparkRPC
spark源码分析
之五--SparkRPC剖析之创建NettyRpcEnv
spark源码分析
之六--SparkRPC剖析之
匠心源码
·
2019-07-28 16:00
spark 源码分析之二十 -- Stage的提交
引言上篇
spark源码分析
之十九--DAG的生成和Stage的划分中,主要介绍了下图中的前两个阶段DAG的构建和Stage的划分。本篇文章主要剖析,Stage是如何提交的。
匠心源码
·
2019-07-26 19:00
spark 源码分析之十九 -- DAG的生成和Stage的划分
上篇文章
spark源码分析
之十八--Spark存储体系剖析重点剖析了Spark的存储体系。从本篇文章开始,剖析Spark作业的调度和计算体系。在说DAG之前,先简单说一下RDD。
匠心源码
·
2019-07-25 19:00
spark 源码分析之十八 -- Spark存储体系剖析
NettyRpcEnv是Spark的默认的RpcEnv实现,它提供了个Spark集群各个节点的底层通信环境,可以参照文章
spark源码分析
之十二--SparkRPC剖析之SparkRPC总结做深入了解。
匠心源码
·
2019-07-23 19:00
spark 源码分析之十七 -- Spark磁盘存储剖析
上篇文章
spark源码分析
之十六--Spark内存存储剖析主要剖析了Spark的内存存储。本篇文章主要剖析磁盘存储。
匠心源码
·
2019-07-21 20:00
spark 源码分析之十六 -- Spark内存存储剖析
上篇
spark源码分析
之十五--Spark内存管理剖析讲解了Spark的内存管理机制,主要是MemoryManager的内容。
匠心源码
·
2019-07-18 21:00
spark 源码分析之十五 -- Spark内存管理剖析
在上篇文章
spark源码分析
之十四--broadcast是如何实现的?中对存储相关的内容没有做过多的剖析,下面计划先剖析Spark的内存机制,进而进入内存存储,最后再剖析磁盘存储。
匠心源码
·
2019-07-17 19:00
spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析
在上篇
spark源码分析
之五--Spark内置RPC机制剖析之一创建NettyRPCEnv中,涉及到了Diapatcher内容,未做过多的剖析。本篇来剖析一下它的工作原理。
weixin_30632899
·
2019-07-03 22:00
大数据
netty
runtime
spark源码分析
任务流程
赘述本系列的文章将会从spark源码的角度来分析spark任务提交集群到运行结束这个过程的处理逻辑,所以对Spark编程的熟练度要求比较高。Spark是基于内存的大数据处理计算引擎。使用Scala语言实现,可以像操作本地集合对象一样轻松地操作分布式数据集,其将Scala用作其应用程序框架,同时支持java,python开发。这篇文章主要对spark的任务流程做一个简单的深度解析。正解下面将从某一台
北风西谷
·
2019-06-22 11:05
Spark 源码分析之ShuffleMapTask内存数据Spill和合并
原文链接:https://my.oschina.net/u/723009/blog/2988340
Spark源码分析
之ShuffleMapTask内存数据Spill和合并更多资源分享
SPARK源码分析
技术分享
chongqueluo2709
·
2018-12-14 09:00
Spark MapOutputTracker源码分析
原文链接:https://my.oschina.net/u/723009/blog/2988336SparkMapOutputTracker源码分析更多资源分享
SPARK源码分析
技术分享(视频汇总套装视频
chongqueluo2709
·
2018-12-14 09:00
Spark HadoopRdd partition的开始位置计算
https://my.oschina.net/u/723009/blog/2985982SparkHadoopRddpartition的开始位置计算HadoopRDDpartition数据范围计算更多资源
SPARK
chongqueluo2709
·
2018-12-09 23:00
spark源码分析
(1)
一、启动1.spark-submit分析在Linux是一个脚本,内容很简单,如下:if[-z"${SPARK_HOME}"];thenexportSPARK_HOME="$(cd"`dirname"$0"`"/..;pwd)"fi就是找到spark-submit命令所在的目录,然后进行上一层,并赋值给SPARK_HOME禁用Python3.3+中字符串的随机哈希,没关注,不知道为啥这样干expor
mainroot
·
2018-11-14 15:29
Spark源码分析
之DAGScheduler详解
在前面的几节中,主要介绍了SparkContext的启动初始化过程,包括Driver的启动,向Master的注册,Master启动Worker,在Worker中启动Executor,以及Worker向Master的注册,在讲述完这些之后,所有的准备工作都已经做完,就开始真正执行我们的Application,首先它会提交job到DAGScheduler中执行,包括对于job的stage划分,还有ta
不清不慎
·
2018-07-31 17:36
Spark
大数据
Spark源码剖析与调优
Spark源码分析
笔记(一)环境准备
已有环境hdfs+spark+yarn一.环境准备JDK+Scala+Spark二.WordCount单词计数进入spark-shellvallines=sc.textFile("../README.md",2)valwords=lines.flatMap(line=>line.split(""))valones=words.map(w=>(w,1))valcounts=ones.reduceBy
gbsmd
·
2018-07-17 22:04
大数据
Spark源码解析(一):Spark执行流程和脚本
Spark执行流程Spark带注释源码对于整个
Spark源码分析
系列,我将带有注释的Spark源码和分析的文件放在我的GitHub上Spark源码剖析欢迎大家fork和star过程描述:1.通过Shell
Oeljeklaus
·
2018-06-27 00:52
大数据
大数据框架知识
spark源码分析
— spark广播变量
spark广播变量是spark中一种只读的数据,广播的数据被集群不同节点共享,且默认存储在内存中,读取速度比较快。spark内部有很多地方都使用的广播变量功能,比如sparksql的join有一种broadcastjoin,就是使用广播变量实现的小表join的优化;spark提交job时,将task的依赖关系广播到集群等。接下来,分析一下,spark广播变量的实现细节:```valbroadcas
ShyieZhang
·
2018-05-06 14:18
spark
Spark源码分析
-1.集群架构介绍和SparkContext源码分析
Spark源码分析
-1.集群架构介绍和SparkContext源码分析在分析Spark源码之前,有必要把Spark的集群架构和SparkContext复习下,有助于后面对源码的理解。
木星之韵
·
2018-02-09 21:10
Spark
简单
Spark源码分析
1Master启动流程1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数,并调用startRpcEnvAndEndpoint()创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv(AkkaSystem),创建masterEndPoint(actor),newMaster(),实例化Master
云星数据-大数据团队
·
2018-01-15 19:33
Young
Spark源码分析
之 Driver和Excutor是怎么跑起来的?(2.2.0版本)
今天抽空回顾了一下Spark相关的源码,本来想要了解一下Block的管理机制,但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理过这部分的内容,这次就顺带着回顾一下。更多内容参考:我的大数据之路Spark作为目前最流行的大数据计算框架,已经发展了几个年头了。版本也从我刚接触的1.6升级到了2.2.1。由于目前工作使用的是2.2.0,所以这次的分析也就从2.2.0版本入
xingoo
·
2018-01-10 19:00
Hive on
Spark源码分析
1、HiveonSpark基本原理1.1运行模式在之前的HiveonSpark原理的文档中已经对HiveonSpark的运行流程进行了分析:HiveonSpark支持两种运行模式,本地(local)和远程(remote):当用户把SparkMasterURL设置为local时,采用本地模式;其余情况采用远程模式。本地模式下,SparkContext与客户端运行在同一个JVM中;远程模式下,Spar
lcjasas
·
2017-12-18 15:37
spark
hive-on-spark
Spark源码分析
: RDD
RDD1.注释org.apache.spark.rdd.RDD类源代码中有详细的注释:AResilientDistributedDataset(RDD),thebasicabstractioninSpark.翻译:弹性的分布式数据集是Spark基础的抽象。解释:弹性的(可复原的),说明数据集具有容错性、可修复性。分布式,说明数据集可以分布在不同的机器上Representsanimmutable,p
raincoffee
·
2017-12-06 16:20
spark源码分析
之任务调度篇
DAG的生成概述spark作为一套高效的分布式运算框架,但是想要更深入的学习它,就要通过分析spark的源码,不但可以更好的帮助理解spark的工作过程,还可以提高对集群的排错能力,本文主要关注的是Spark的Stage任务的执行流程的流程。DAG(DirectedAcyclicGraph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不
张鱼猫
·
2017-12-03 04:05
Spark源码分析
之SparkSql的Analyzer,Optimizer
在上一篇博文中,我们深入的了解了SparkSql中的sql语句经过DDLParser、SparkSQLParser和SqlParser处理后得到了一个树结构的UnresolvedLogicalPlan,这也是我们每一次使用sparkSql时必然会执行的,但是对于一些不是立刻需要返回结果的造作,执行到这边也就结束了,只有遇到哪些诸如show,collect等需要立刻的返回结果的操作,我们才会继续后面
yzgyjyw
·
2017-09-20 10:53
spark
深度学习笔记(一)感知器
刚忙完一个项目,最近时间相对比较多,上午一般对spark的源码分析,下午研究深度学习,
spark源码分析
文档在公司写的,没法外传,下午深度学习没有写博客,晚上写一个系列。
陈奉刚的笔记
·
2017-08-23 21:53
深度学习
spark mllib源码分析之逻辑回归弹性网络ElasticNet(一)
相关文章sparkmllib源码分析之逻辑回归弹性网络ElasticNet(二)
spark源码分析
之L-BFGSsparkmllib源码分析之OWLQNspark中的online均值/方差统计
spark
snaillup
·
2017-08-03 19:48
spark
spark源码分析
之SparkContext初始化一
阅读更多基于standalone模式这里,我们主要关注最主要的2个地方的初始化,首先是TaskScheduler的创建初始化。//Createandstarttheschedulerval(sched,ts)=SparkContext.createTaskScheduler(this,master)_schedulerBackend=sched_taskScheduler=ts_dagSchedu
字母哥
·
2017-07-04 18:00
Spark源码分析
之ClosureCleaner
一、前言研究过Spark源码的读者也许会发现,RDD中map、filter等方法对传入的函数都会调用sc.clean()进行清理,而这个方法调用了ClosureCleaner中的clean方法。相信有部分读者会对这个方法的作用有疑问,下面我们就对ClosureCleaner的clean方法的源码做深入分析。二、闭包及其实现在研究这个方法的源码之前,读者需要了解闭包的概念,同时也需要对Scala的闭
鹿先森vv
·
2017-04-17 19:00
Spark源码分析
-以wordcount为入口进行spark-submit源码分析
1、以wordcount开始
spark源码分析
1)Standalone模式启动启动Master,start-master.sh输出:/home/weiw/spark-1.6.3-bin-hadoop2.6
wangweislk
·
2017-03-14 17:04
Spark
spark
源码分析
Hive on
Spark源码分析
(六)—— RemoteSparkJobMonitor与JobHandle
Hiveon
Spark源码分析
(一)——SparkTaskHiveon
Spark源码分析
(二)——SparkSession与HiveSparkClientHiveon
Spark源码分析
(三)——SparkClilent
KevinZwx
·
2016-08-17 15:40
Hive
on
Spark
Hive on
Spark源码分析
(五)—— RemoteDriver
Hiveon
Spark源码分析
(一)——SparkTaskHiveon
Spark源码分析
(二)——SparkSession与HiveSparkClientHiveon
Spark源码分析
(三)——SparkClilent
KevinZwx
·
2016-08-17 01:42
Hive
on
Spark
Hive on
Spark源码分析
(四)—— SparkClilent与SparkClientImpl(下)
Hiveon
Spark源码分析
(一)——SparkTaskHiveon
Spark源码分析
(二)——SparkSession与HiveSparkClientHiveon
Spark源码分析
(三)——SparkClilent
KevinZwx
·
2016-08-17 01:00
Hive
on
Spark
Hive on
Spark源码分析
(三)—— SparkClilent与SparkClientImpl(上)
Hiveon
Spark源码分析
(一)——SparkTaskHiveon
Spark源码分析
(二)——SparkSession与HiveSparkClientHiveon
Spark源码分析
(三)——SparkClilent
KevinZwx
·
2016-08-17 00:26
Hive
on
Spark
Hive on
Spark源码分析
(二)—— SparkSession与HiveSparkClient
Hiveon
Spark源码分析
(一)——SparkTaskHiveon
Spark源码分析
(二)——SparkSession与HiveSparkClientHiveon
Spark源码分析
(三)——SparkClilent
KevinZwx
·
2016-08-17 00:35
Hive
on
Spark
Hive on
Spark源码分析
(一)—— SparkTask
Hiveon
Spark源码分析
(一)——SparkTaskHiveon
Spark源码分析
(二)——SparkSession与HiveSparkClientHiveon
Spark源码分析
(三)——SparkClilent
KevinZwx
·
2016-08-17 00:17
Hive
on
Spark
Spark内存管理模型
我们在《
Spark源码分析
之七:Task运行(一)》一文中曾经提到过,在Task被传递到Executor上去执行时,在为其分配的TaskRunner线程的run()方法内
Anonymous_cx
·
2016-08-15 21:55
Spark
SparkML之聚类(一)Kmeans聚类
------------------------------目录--------------------------------------------------Kmeans理论Matlab实现
Spark
legotime
·
2016-07-06 07:20
SparkML
SparkML之聚类(一)Kmeans聚类
------------------------------目录--------------------------------------------------Kmeans理论Matlab实现
Spark
legotime
·
2016-07-06 07:00
源码
spark机器学习
上一页
1
2
3
4
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他