E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark源码
Spark源码
分析之DAGScheduler详解
在前面的几节中,主要介绍了SparkContext的启动初始化过程,包括Driver的启动,向Master的注册,Master启动Worker,在Worker中启动Executor,以及Worker向Master的注册,在讲述完这些之后,所有的准备工作都已经做完,就开始真正执行我们的Application,首先它会提交job到DAGScheduler中执行,包括对于job的stage划分,还有ta
不清不慎
·
2018-07-31 17:36
Spark
大数据
Spark源码剖析与调优
Spark源码
解读之Worker剖析
在上一篇中我们剖析了Master的工作原理,这节我们接着来剖析Worker的工作员原理,Worker主要包括两部分的工作,启动Executor和启动Driver,然后向Master发送注册启动消息。下面是Worker的工作流程图:在Application向Master注册之后,Master会发出命令启动Wroker,在Worker节点启动之后,它会调动内部的两个方法LaunchDriver和Lau
不清不慎
·
2018-07-28 12:37
Spark
大数据
Spark源码剖析与调优
Spark源码
解读之SparkContext剖析
最近一直在研究Spark,也自己练习做了几个项目,对于Spark这个框架特别的喜爱,尤其是其一站式的大数据解决方案,而且也对SparkMLlib中的机器学习算法很感兴趣,也学习过一段时间。但是在自己空闲下来回想,对于Spark的理解自己仅仅只是停留在表层,如果只是使用API来编写Spark程序,那么无疑将Spark与其他普通的框架混为一谈,发挥不了其作用,根本谈不上说熟悉Spark。因此,想花一段
不清不慎
·
2018-07-26 16:22
Spark
大数据
Spark源码剖析与调优
Spark 源码阅读学习(一)
写本文的目标就是立下flag:好好研读
Spark源码
,从branch-0.7这个分支开始。如何通过阅读源码提高自己大家都说要多读优秀开源框架的源码,那么怎么读呢?
Clockworkai
·
2018-07-25 20:57
Spark的坑
Spark源码
分析笔记(一)环境准备
已有环境hdfs+spark+yarn一.环境准备JDK+Scala+Spark二.WordCount单词计数进入spark-shellvallines=sc.textFile("../README.md",2)valwords=lines.flatMap(line=>line.split(""))valones=words.map(w=>(w,1))valcounts=ones.reduceBy
gbsmd
·
2018-07-17 22:04
大数据
spark源码
阅读——rpc部分
rpc可以说是一个分布式系统最基础的组件了。这里解析一下spark的内部rpc框架。RpcEndpointRpcEndpoint这个接口表示一个Rpc端点,只要继承了这个trait,就具备了收发Rpc消息的能力,主要包含以下方法接收信息类defreceive:PartialFunction[Any,Unit]一个偏函数,用来接受其他RpcEndpoint发来的信息,其他类可以覆盖这个方法来重写接受
Orz
·
2018-07-14 01:38
Spark源码
解析(二):SparkContext流程
SparkContext内部执行流程SparkContext内部执行的时序图对于这个时序图的具体描述如下:1.SparkSubmit在main()方法中执行,然后根据提交的类型调用相应的方法,这里是”Submit”,调用submit()方法,submit()里面进行一些判断后,使用反射Class.forName(childMainClass,true,loader),然后调用invoke()方法来
Oeljeklaus
·
2018-07-09 08:59
大数据
大数据框架知识
Spark源码
解析(一):Spark执行流程和脚本
Spark执行流程Spark带注释源码对于整个
Spark源码
分析系列,我将带有注释的
Spark源码
和分析的文件放在我的GitHub上
Spark源码
剖析欢迎大家fork和star过程描述:1.通过Shell
Oeljeklaus
·
2018-06-27 00:52
大数据
大数据框架知识
spark源码
二:sparkContext初始化之spark的执行环境SparkConf
SparkEnv是Spark的执行环境对象,其中包括众多与Executor执行相关的对象。由于在local模式下Driver会创建Executor,local-cluster部署模式或者Standalone部署模式下Worker另起的CoarseGrainedExecutorBackend进程中也会创建Executor,所以SparkEnv存在于Driver或者CoarseGrainedExecu
每天一滴水
·
2018-06-25 16:56
spark源码
spark源码
系列之累加器实现机制及自定义累加器
一,基本概念累加器是Spark的一种变量,顾名思义该变量只能增加。有以下特点:1,累加器只能在Driver端构建及并只能是Driver读取结果,Task只能累加。2,累加器不会改变SparkLazy计算的特点。只会在Job触发的时候进行相关累加操作。3,现有累加器的类型。相信有很多学习大数据的道友,在这里我给大家说说我滴群哦,大数据海量知识分享,784789432.在此我保证,绝对大数据的干货,等
鲸落大叔
·
2018-06-06 07:14
大数据
spark
源码系列
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决
在编译
Spark源码
的时候,遇到了该问题,有两种可能的问题存在。第一种:在spark文件夹下的pom.xml里加入如下依赖,源码编译就没有报错成功编译出来了。
TOMSCUT
·
2018-06-01 08:03
大数据
Spark:自定义Estimator机器学习类
本文使用scala语言,基于spark2+由于没有将类写到包org.apache.spark.ml.feature里,所以很多
spark源码
里的方法不可以直接调用。
xuejianbest
·
2018-05-29 14:39
大数据
大数据/spark
算法
spark
ml
特征处理
机器学习
Estimator
spark源码
阅读(一) 启动代码阅读
spark启动代码阅读:spark使用一系列的shell脚本作为入口:其中bin目录下面是任务提交的脚本;sbin目录是master和worker启停相关的脚本。而所有脚本最后都是通过调用bin/spark-class来实现对java(scala)代码的调用。----------------------spark-class获取java参数分析开始-------------------------
sirius_kb
·
2018-05-28 21:31
spark
源码
阅读
spark
大数据平台搭建 - cdh5.11.1 -
spark源码
编译及集群搭建
一、spark简介ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎,Spark是一种与hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。二、spark编译为什么cdh提供了spark已经编译好的包,还要自
nicekk
·
2018-05-14 21:00
spark源码
分析— spark广播变量
spark广播变量是spark中一种只读的数据,广播的数据被集群不同节点共享,且默认存储在内存中,读取速度比较快。spark内部有很多地方都使用的广播变量功能,比如sparksql的join有一种broadcastjoin,就是使用广播变量实现的小表join的优化;spark提交job时,将task的依赖关系广播到集群等。接下来,分析一下,spark广播变量的实现细节:```valbroadcas
ShyieZhang
·
2018-05-06 14:18
spark
Spark笔记整理(一):spark单机安装部署、分布式集群与HA安装部署+
spark源码
编译
[TOC]spark单机安装部署1.安装scala解压:tar-zxvfsoft/scala-2.10.5.tgz-Capp/重命名:mvscala-2.10.5/scala配置到环境变量:exportSCALA_HOME=/home/uplooking/app/scalaexportPATH=$PATH:$SCALA_HOME/bin#虽然spark本身自带scala,但还是建议安装2.安装单机
xpleaf
·
2018-04-24 18:33
大数据
Spark
Spark
spark源码
二:yarn.client 客户端的调用流程
上次说到任务在submit的时候会根据,资源平台的不同,反射调用不同的类来调度任务,首先说下yarn的调度入口。找到org.apache.spark.deploy.yarn.Client总结下:client主要是初试话参数,封装RM为创建Application所需要的信息,最后通过RPCchannel向yarn发送启动ApplicationMaster的请求//从main方法开始defmain(a
aiai20
·
2018-03-09 16:26
spark源码
Spark2.1命令工具类CommandUtils的源码分析
如果不太关心其实现也不影响对
Spark源码
的阅读和原理的学习。我们要介绍的方法如下:buildProcessBuilder功能描述:基于给定的参数创建ProcessBuilder
泰山不老生
·
2018-03-09 11:53
Spark2
Spark2.1
Spark2.0
Command
进程
大数据
Spark
Scala
深入理解Spark
Spark源码
分析-1.集群架构介绍和SparkContext源码分析
Spark源码
分析-1.集群架构介绍和SparkContext源码分析在分析
Spark源码
之前,有必要把Spark的集群架构和SparkContext复习下,有助于后面对源码的理解。
木星之韵
·
2018-02-09 21:10
Spark
git checkout tag报错 * (no branch) 提示 detached HEAD
gitclone
Spark源码
后想切换到指定的标签版本:2.0.2,但是一直切换不了,报错是:[root@cm03spark]#gitcheckoutv2.0.2Note:checkingout'v2.0.2
荒野雄兵
·
2018-02-07 17:25
管理工具
附录A Spark2.1核心工具类Utils
即使不关心其实现也不会对理解本书对
Spark源码
的分析有太多影响。下面将逐个介绍Utils提供的方法。getSystemProperties功能描述:获取系统属性的键值
泰山不老生
·
2018-01-25 09:46
大数据
Spark
Scala
Java
深入理解Spark
SparkContext源码分析
Spark源码
是1.6.0版本今天我们来分析一下SparkContextSparkContext主要有三个功能:TaskSchedulertask调度器(主要讲)DAGSchedulerstage调度器
chlhyj
·
2018-01-17 17:45
spark
源码
spark
大数据
简单
Spark源码
分析
1Master启动流程1、在start-master.sh脚本中调用Mater.scala中的main方法2、在main方法中封装spark参数,并调用startRpcEnvAndEndpoint()创建RpcEnv3、在startRpcEnvAndEndpoint中创建RpcEnv(AkkaSystem),创建masterEndPoint(actor),newMaster(),实例化Master
云星数据-大数据团队
·
2018-01-15 19:33
Young
Spark源码
环境搭建
提前安装一些开发工具Scala2.10.4git2.8.1maven3.3.9IntelliJIDEA2015.02源代码获取和编译直接从官方的github上拉取代码
[email protected]
:apache/spark.git$gitcheckoutv1.6.0$gitcheckout-bv160编译源码参考官方文档,我们这里使用4个线程,跳过tests,以便加快编译速度$bu
chlhyj
·
2018-01-11 11:58
spark
大数据
Spark源码
分析 之 Driver和Excutor是怎么跑起来的?(2.2.0版本)
今天抽空回顾了一下Spark相关的源码,本来想要了解一下Block的管理机制,但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理过这部分的内容,这次就顺带着回顾一下。更多内容参考:我的大数据之路Spark作为目前最流行的大数据计算框架,已经发展了几个年头了。版本也从我刚接触的1.6升级到了2.2.1。由于目前工作使用的是2.2.0,所以这次的分析也就从2.2.0版本入
xingoo
·
2018-01-10 19:00
Spark源码
解读之SparkContext初始化
SparkContext初始化是Driver应用程序提交执行的前提,这里以local模式来了解SparkContext的初始化过程。本文以valconf=newSparkConf().setAppName(“mytest”).setMaster(“local[2]”)valsc=newSparkContext(conf)为例,打开debug模式,然后进行分析。一、SparkConf概述SparkC
盛装吾步
·
2018-01-04 19:00
spark
源码
SparkContext
spark
Spark中的稀疏向量SparseVector类的源码解读
首先纠正一下标题,这个类不是spark的源码中的,而是scala的源码中的,但是在
spark源码
中经常用到它。稀疏向量,底层基于索引数组和值数组共同实现。
weideng_san
·
2017-12-20 23:22
spark
Hive on
Spark源码
分析
1、HiveonSpark基本原理1.1运行模式在之前的HiveonSpark原理的文档中已经对HiveonSpark的运行流程进行了分析:HiveonSpark支持两种运行模式,本地(local)和远程(remote):当用户把SparkMasterURL设置为local时,采用本地模式;其余情况采用远程模式。本地模式下,SparkContext与客户端运行在同一个JVM中;远程模式下,Spar
lcjasas
·
2017-12-18 15:37
spark
hive-on-spark
利用IDEA工具编译
Spark源码
(1.60~2.20)
为了利用IDE工具调试
Spark源码
,分别在macOS上搭建了Spark1.60源码调试环境,在windows下搭建了Spark2.20调试环境。
He11o_Liu
·
2017-12-07 11:46
并行计算
Spark源码
分析: RDD
RDD1.注释org.apache.spark.rdd.RDD类源代码中有详细的注释:AResilientDistributedDataset(RDD),thebasicabstractioninSpark.翻译:弹性的分布式数据集是Spark基础的抽象。解释:弹性的(可复原的),说明数据集具有容错性、可修复性。分布式,说明数据集可以分布在不同的机器上Representsanimmutable,p
raincoffee
·
2017-12-06 16:20
spark源码
分析之任务调度篇
DAG的生成概述spark作为一套高效的分布式运算框架,但是想要更深入的学习它,就要通过分析spark的源码,不但可以更好的帮助理解spark的工作过程,还可以提高对集群的排错能力,本文主要关注的是Spark的Stage任务的执行流程的流程。DAG(DirectedAcyclicGraph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不
张鱼猫
·
2017-12-03 04:05
使用Maven编译
Spark源码
本文主要介绍Linux系统下使用Maven编译
Spark源码
,以及可能会遇到的问题及解决。由于windows下编译的方法类似,只做粗略介绍,详细参考Linux的编译方法。
lc_1123
·
2017-11-24 23:19
Spark学习
Spark源码
的下载和编译
1.spark的下载打开网址spark.apache.org,点击download,选择想要下载的版本,我这里选择了最新的2.2.0版本在chooseapackagetype中选择sourcecode,获取spark2.2.0的下载镜像,即可完成下载。(官网有时候版本切换会有问题,可以在downloadspark下方的signaturesandchecksums中选择想要的版本)2.spark的编
BornZhu
·
2017-11-15 16:08
报错
Spark
Spark源码
之路(一):绝对靠谱,Windows下用IDEA搭建源码阅读环境
先贴2张最后成功的图(和以前不build直接导入源码到IDEA有很大不同)###【预告:对WindowsSubsystemforLinux感兴趣的,下方提供一篇好文。】#总的说,就4步骤:(3不算)下载源码,可以去官网也可以直接去GitHub,可以压缩包也可以源码(这里测试用的是压缩包)解压网友们都说,一定要科学上网【关于此说法我没去验证,反正我一直是“科学”的】在解压后的根目录下执行:mvn-D
haixwang
·
2017-11-13 20:27
Hadoop
Spark
Hbase...
Spark源码学习
Spark源码
之路(一):绝对靠谱,Windows下用IDEA搭建源码阅读环境
先贴2张最后成功的图(和以前不build直接导入源码到IDEA有很大不同)###【预告:对WindowsSubsystemforLinux感兴趣的,下方提供一篇好文。】#总的说,就4步骤:(3不算)下载源码,可以去官网也可以直接去GitHub,可以压缩包也可以源码(这里测试用的是压缩包)解压网友们都说,一定要科学上网【关于此说法我没去验证,反正我一直是“科学”的】在解压后的根目录下执行:mvn-D
haixwang
·
2017-11-13 20:27
Hadoop
Spark
Hbase...
Spark源码学习
Spark源码
解读--任务生成和提交过程
Application把APP打包上传到集群:$SPARK_HOME/spark-submit\–classcom.sparktest\–masterspark://minimaster:7077\/home/wc.jarDriver端:1.调用SparkSubmit类,内部执行submit→doRunMain→通过反射获取应用程序的主类对象→执行主类的main方法SparkContext2.构建
长胖的wo一定特美
·
2017-11-05 19:25
Spark
Spark core篇一:
Spark源码
Master Worker启动消息通信
我们知道我们经常启动在Spark启动时,会去调用sbin/start-all.sh脚本,这个脚本实际上是执行了spark-config.sh,start-master.sh,start-slaves.sh,spark-config.sh没什么看的,就是设置一些spark环境变量,主要看后面两个,可知Master启动在Worker之前。if[-z"${SPARK_HOME}"];thenexport
kason_zhang
·
2017-10-29 21:09
Spark源码
走读(二) —— Job的提交
importorg.apache.spark.{SparkConf,SparkContext}objectSparkWordCount{defmain(args:Array[String]){if(args.length==0){System.exit(1)}valconf=newSparkConf().setAppName("SparkWordCount")valsc=newSparkConte
Austing_cai
·
2017-10-20 21:55
Spark
Spark基础及源码分析视频-杨千锋-专题视频课程
语言部分由浅入深,使得学生可以胜任项目中的开发之外,还可以读懂
Spark源码
,为以后研究Spark架
coding789
·
2017-10-16 09:16
视频教程
Spark源码
走读(一) —— Spark应用提交流程
Spark应用是使用spark-submit脚本提交,脚本内容如下,可知该脚本把SparkSubmit类作为参数传给spark-class脚本略去spark-class脚本上面的加载配置等步骤,发现这里使用launcher.Main启动SparkSubmit的执行从而启动应用。SparkSubmit中的main函数,主要是解析参数,根据参数执行不同行为。submit函数主要分两步:1、为提交的应用
Austing_cai
·
2017-10-14 22:17
Spark
Spark源码
解析之SparkStreaming数据处理及流动
在分析receiver启动的博文中SparkStreaming中Receiver的启动,我们遇到ReceiverSupervisor中的onStart方法defstart(){onStart()startReceiver()}我们先来回顾一下这个方法是如何被触发的:StreamingContext#startJobScheduler#startReceiverTracker#startlaunch
yzgyjyw
·
2017-09-21 15:51
spark
Spark源码
解析SparkStreaming数据接收
在上一篇博文中,我们讲述了一个SparkStreaming应用程序启动后开始的准备工作,即在executors启动receiver这里我们将讲述接收数据到存储数据的过程首先接受数据是在receiver的onStart方法里,在这里我们还是以SocketReceiver为例,在SocketReceiver的OnStart方法中启动一个线程,在该线程中调用receive方法,进行接收数据的处理defr
yzgyjyw
·
2017-09-21 14:28
spark
Spark源码
解析之SparkStreaming中Receiver的启动
本篇博文我们主要分析SparkStreaming中的Receiver启动的过程。我们都知道StreamingContext是SparkStreaming程序的的主要入口,我们先看一下它的部分源码:classStreamingContextprivate[streaming](sc_:SparkContext,cp_:Checkpoint,batchDur_:Duration)extendsLogg
yzgyjyw
·
2017-09-21 09:03
spark
Spark源码
分析之SparkSql的Analyzer,Optimizer
在上一篇博文中,我们深入的了解了SparkSql中的sql语句经过DDLParser、SparkSQLParser和SqlParser处理后得到了一个树结构的UnresolvedLogicalPlan,这也是我们每一次使用sparkSql时必然会执行的,但是对于一些不是立刻需要返回结果的造作,执行到这边也就结束了,只有遇到哪些诸如show,collect等需要立刻的返回结果的操作,我们才会继续后面
yzgyjyw
·
2017-09-20 10:53
spark
Spark源码
解析之SparkSql
首先我们回顾一下使用SparkSql的一般步骤:1.从数据源或者RDD读取数据,构造出一个DataFrame2.使用DataFrame的registerTempTable方法根据刚才读取的数据创建一个临时表3.调用sqlContext的sql方法执行sql语句那么在这里我们就从sql语句的调用开始:defsql(sqlText:String):DataFrame={DataFrame(this,p
yzgyjyw
·
2017-09-18 16:24
spark
spark2.2.0源码学习过程记录:Day8
1、《apache
spark源码
剖析》浏览第六、七、八、九章后面的几章中只准备学习其中的sparksql部分,所以首先全部浏览了一下,再回过头来看第七章2、读《apache
spark源码
剖析》第七章第1
猫耳山大王
·
2017-09-09 18:45
spark2.2.0源码学习
spark2.2.0源码学习过程记录:Day4
1、读《apache
spark源码
剖析》第四章第1节作业提交我也使用简单的WordCount例子sc.textFile("/hdfs-site.xml").flatMap(line=>line.split
猫耳山大王
·
2017-09-02 16:21
spark2.2.0源码学习
spark2.2.0源码学习过程记录:Day4
1、读《apache
spark源码
剖析》第四章第1节作业提交我也使用简单的WordCount例子sc.textFile("/hdfs-site.xml").flatMap(line=>line.split
猫耳山大王
·
2017-09-02 16:21
spark2.2.0源码学习
spark2.2.0源码学习过程记录:Day3
Day31、读《apache
spark源码
剖析》第三章第3.2节、3.3节因为3.3节的内容是是讲repl的,我暂时并不关系,所以这部分内容看看书就可以了而3.2节的内容是讲SparkContext的初始化
猫耳山大王
·
2017-09-02 16:42
spark2.2.0源码学习
干货 | 携程机票大数据架构最佳实践
著有《Apache
Spark源码
剖析》一书。本文来自许鹏在〖DAMS2017中国数据资产管理峰会〗上的分享,首发DBAplus社群(ID:dbaplus)。现如
Hadoop技术博文
·
2017-08-29 00:00
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他