E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
spark源码
阅读笔记RDD(四)RDD中WithScope是什么?
withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAGvisualizationonSparkUI)以前的sparkUI中只有stage的执行情况,也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在sparkUI中能展示更多的信息。所以把所有创建的RDD的方法都包裹起来,同时用RDDOperationScope记录RDD的操作历史和关联,就能达成目标。
legotime
·
2016-05-01 07:00
源码
spark
RDD
WithScope
Spark学习三:Spark Schedule以及idea的安装和导入源码
SparkSchedule以及idea的安装和导入源码标签(空格分隔):SparkSpark学习三SparkSchedule以及idea的安装和导入源码一RDD操作过程中的数据位置二SparkSchedule三Idea导入
spark
youfashion
·
2016-05-01 00:00
spark
spark源码
分析之Executor启动与任务提交篇
任务提交流程概述在阐明了Spark的Master的启动流程与Worker启动流程。接下继续执行的就是Worker上的Executor进程了,本文继续分析整个Executor的启动与任务提交流程Spark-submit提交一个任务到集群通过的是Spark-submit通过启动脚本的方式启动它的主类,这里以WordCount为例子`spark-submit--classcn.itcast.spark.
张鱼猫
·
2016-04-28 21:19
spark源码
分析Master与Worker启动流程篇
spark通信流程概述spark作为一套高效的分布式运算框架,但是想要更深入的学习它,就要通过分析spark的源码,不但可以更好的帮助理解spark的工作过程,还可以提高对集群的排错能力,本文主要关注的是Spark的Master的启动流程与Worker启动流程。现在Spark最新版本为1.6,但是代码的逻辑不够清晰,不便于理解,这里以1.3为准Master启动我们启动一个Master是通过Shel
张鱼猫
·
2016-04-28 21:25
搭建比较舒适的
spark源码
阅读环境
电脑操作系统win7已有jdk1.7的环境(如果没有需要安装)、maven本地仓库(如果没有需要安装)1、安装scala http://www.scala-lang.org/download/ 我下载的是 scala-2.11.8.msi,双击安装,安装之后,环境变量path已经配制好了,需要自己要手动添加SCALA_HOME变量 (要注意:scala安装的目录最好不要有空格 )配制完之后,cm
悠悠_
·
2016-04-27 10:00
eclipse
spark
环境搭建
spark源码
阅读笔记RDD(三)RDD的缓存原理
1、RDD的缓存(cache和persist)spark最重要一个能力就是:在不同的操作中把数据集缓存(cache)或存留(persist)在内存(memory)中。当持久化一个RDD后,每个节点都会把计算的分片的结果保存在内存中,之后可以对此数据集在其他action中再次使用。这使得后续的action变得迅速(通常快10x)[1].2、缓存的级别源码在:packageorg.apache.spa
legotime
·
2016-04-23 17:00
源码
spark
cache
spark源码
阅读笔记RDD(二)RDD子类基本方法和信息
RDD子类 //======================================================================= //MethodsthatshouldbeimplementedbysubclassesofRDD //====================================================================
legotime
·
2016-04-22 22:00
spark
RDD
spark源码
阅读笔记RDD(一)RDD的基本概念
什么是RDD?从文献1我们知道,MateiZaharia博士给RDD下的定义是:Formally,anRDDisaread-only,partitionedcollectionofrecords。关键词有只读、已分区记录的集合,也就是说:我们操作的RDD是一个只可读不可写的集合,而且这个集合是已经分好区且会有标记的集合。下面我们通过源码来说明一下RDD为什么是只读、已分区记录的集合。(源码见附录源
legotime
·
2016-04-21 15:00
源码
RDD
阅读
spark源码
阅读笔记Spark原理(一)基本前提
分布式与集群的区别是什么?集群是个物理形态,分布式是个工作方式。集群:一堆机器,进行统一管理。集群可以运行多个分布式系统,比如同时有hadoop和spark分布式:一个程序或系统运行在不同的机器上,這些机器可以是来自同一个集群也可以是不同集群集群下编程环境的挑战有哪些?第一个是并行化:这需要以并行的方式重写应用程序,同时这种编程模型能够处理范围广泛的的计算。然而,与其他并行平台相比,集群的第二个挑
legotime
·
2016-04-20 17:29
spark源码阅读笔记
spark源码
阅读笔记Spark原理(一)基本前提
分布式与集群的区别是什么?集群是个物理形态,分布式是个工作方式。集群:一堆机器,进行统一管理。集群可以运行多个分布式系统,比如同时有hadoop和spark分布式:一个程序或系统运行在不同的机器上,這些机器可以是来自同一个集群也可以是不同集群集群下编程环境的挑战有哪些?第一个是并行化:这需要以并行的方式重写应用程序,同时这种编程模型能够处理范围广泛的的计算。然而,与其他并行平台相比,集群的第二个挑
legotime
·
2016-04-20 17:00
spark源码
阅读(十五)--securityManager
securityManager主要用于权限设置,比如在使用yarn作为资源调度框架时,用于生成secretkey进行登录。该类默认只用一个实例,所以的app使用同一个实例,下面是该类的所有源代码:private[spark]classSecurityManager(sparkConf:SparkConf)extendsLoggingwithSecretKeyHolder{//keyusedtost
colossus_bigdata
·
2016-04-07 13:02
spark源码分析
Intellij Idea环境下
Spark源码
阅读环境
在windows下搭建
Spark源码
阅读环境的准备
Spark源码
是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发
youdianjinjin
·
2016-04-01 13:00
程序员2016年4月:Spark核心技术与实践
2014年至2015年,Spark经历了高速发展,Databricks2015Spark调查报告显示:2014年9月至2015年9月,已经有超过600个
Spark源码
贡献者,而在此之前的12个月人数只有
csdn_csdn__AI
·
2016-03-28 16:18
通过源码构建Spark
看了好几天
spark源码
,今天突然想试一试如何把spark编译出来。记录一下编译过程。
lsnl8480
·
2016-03-27 22:00
[置顶]
spark源码
系列文章目录
spark-streaming系列-------1.spark-streaming的Job调度上spark-streaming系列-------2.spark-streaming的Job调度下spark-streaming系列-------3.KafkaDirectDStream方式数据的接收 spark-streaming系列-------4.Spark-StreamingJob的生成和执行sp
u012684933
·
2016-03-20 20:00
Spark源码
编译
1、设置maven内存export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"2、配置配置Maven到OSChina中央库。 首先,感谢OSChina为我们提供了国内的Maven中央库,免去了偶尔无法连接国外Maven库蛋疼的问题,小弟首先在此表示感谢。OSChina为了方便广大开发同学,特别
Eric_Guan
·
2016-03-20 11:00
maven 3.3.9编译spark1.5.0 cdh5.5.1
1、下载
spark源码
解压到目录/usr/local/spark-1.5.0-cdh5.5.1,看看是否有pom.xml文件2、切换到目录/usr/local/spark-1.5.0-cdh5.5.1执行
安伦_Alan
·
2016-03-14 13:13
Spark
第3课:Scala函数式编程彻底精通及
Spark源码
阅读
本期内容:Scala中函数式变成彻底详解
Spark源码
中的Scala函数式编程案例和作业deffun1(name:String){println(name)} valfun1_v=fun1_//函数名
Crystal_Zero
·
2016-03-07 23:00
spark源码
分析-storage
Storage模块主要分为两层:1.通信层:storage模块采用的是master-slave结构来实现通信层,master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。2.存储层:storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提供相应接口。而其他模块若要和storage模块进行交互,storage模
u013153546
·
2016-03-07 23:00
源码
spark
Scala面向对象彻底精通及
Spark源码
阅读
不传参数可以不加括号gettersetter自定义classPerson{ privatevarmyName="Flink" defname=this.myName defname_=(newName:String){//不能有空格 myName=newName println("Hi:"+myName) } } valrocky=newPerson rocky.name rocky.name
Crystal_Zero
·
2016-03-07 18:00
scala
spark
spark源码
学习(十一):资源的调度Schedule
spark源码
学习(十一):资源的调度Schedule 在前面stabdalone模式下当worker向master注册成功之后,master会运行一个schedule函数来调度资源
liyaohhh
·
2016-03-04 15:00
spark源码
学习(九):map端计算结果缓存处理(一)
spark源码
学习(九):map端计算结果缓存处理(一) 在前面我们谈到了在map任务结束之后,map任务会对结果进行三种方式的处理,这里来看看具体的代码,就是进入ExternalSorter
liyaohhh
·
2016-03-04 11:00
spark源码
学习(十)--- blockManager分析
blockManager主要原理:blockmanager位于org.apache.spark.storage中,包含四个重要的组件:DiskStore,MemoryStore,Blocktransferservice,ConnectionManager。其中,diskStore负责对磁盘上的数据读写;memoryStore负责内存数据的读写,connectionManager负责到远程节点的连接
colossus_bigdata
·
2016-03-03 11:41
spark
spark源码分析
spark源码
学习(十):map端计算结果缓存处理(二)
spark源码
学习(十):map端计算结果缓存处理(二) 在介绍下面的内容之前,先介绍几个相关的概念: (1)bypassMergeThreshold:表示是在map
liyaohhh
·
2016-03-01 07:00
Spark源码
分析之八:Task运行(二)
在《
Spark源码
分析之七:Task运行(一)》一文中,我们详细叙述了Task运行的整体流程,最终Task被传输到Executor上,启动一个对应的TaskRunner线程,并且在线程池中被调度执行
lipeng_bigdata
·
2016-02-28 23:00
[置顶]
spark源码
学习(八):spark具体是如何使用集群的资源去运行任务
spark源码
学习(八):spark具体是如何使用集群的资源去运行任务 在前面的blog中谈到了sparkContext,DAGScheduler的初始化,TaskSeceduler
liyaohhh
·
2016-02-28 12:00
Spark源码
分析之九:内存管理模型
我们在《
Spark源码
分析之七:Task运行(一)》一文中曾经提到过,在Task被传递到Executor上去执行时,在为其分配的TaskRunner线程的
lipeng_bigdata
·
2016-02-27 19:00
spark源码
学习(六):standalone模式的cluster集群源码解读
spark源码
学习(六):standalone模式的cluster集群源码解读 在spark任务的提交的那片blog中,我们仅仅谈到了executor相关的概念:Execuor会向
liyaohhh
·
2016-02-27 12:00
spark源码
学习(五):stage的划分和task的创建
spark源码
学习(五):stage的划分和task的创建 上一篇blog简单的阐述了和Resultstage和ActiveJob创建相关的源码
liyaohhh
·
2016-02-26 08:00
spark源码
学习(四):Resultstage的产生和submitstage提交
spark源码
学习(四):Resultstage的产生和submitstage提交 上次我们对于stage的划分没有详细的划分,这里就来看看这些stage到底是通过什么流程来实现的
liyaohhh
·
2016-02-25 23:00
spark源码
学习(三):job的提交以及runJob函数的分析
spark源码
学习:sparkContext的初始化分析(三)上一篇仅仅谈及了taskScheduler和schedulerBackend相关的代码。
liyaohhh
·
2016-02-25 20:26
spark
spark源码
学习(二):sparkContext的初始化分析(二)
spark源码
学习:sparkContext的初始化分析(二) spark的sparkContext初始化中的sparkEnv相关的概念以及重要的组成部分在上一部分简单的介绍
liyaohhh
·
2016-02-25 17:00
spark源码
学习(一):sparkContext的初始化分析(一)
spark源码
学习:sparkContext的初始化分析 spark可以运行在本地模式local下,可以运行在yarn和standalone模式下,但是本地程序是通过什么渠道和这些集群交互的呢
liyaohhh
·
2016-02-25 12:00
Spark源码
分析之七:Task运行(一)
在Task调度相关的两篇文章《
Spark源码
分析之五:Task调度(一)》与《
Spark源码
分析之六:Task调度(二)》中,我们大致了解了Task调度相关的主要逻辑,并且在Task调度逻辑的最后
lipeng_bigdata
·
2016-02-24 23:00
spark源码
学习(七);task任务的提交分析
spark入门学(七)task任务的提交分析 spark虽然在计算速度上比hadoop要强势很多,但是这两个框架在底层的数据流都要经过shuffle。由此,shuffle把spark的job分成两个阶段,一个叫做shuffleMaptask,另外一个是resultTask。前者主要是把运算所得的数据结果写到指定的位置,后者是从对应的位置读取数据然后再把运行的
liyaohhh
·
2016-02-23 19:00
Spark源码
分析之六:Task调度(二)
话说在《
Spark源码
分析之五:Task调度(一)》一文中,我们对Task调度分析到了DriverEndpoint的makeOffers()方法。
lipeng_bigdata
·
2016-02-22 16:00
Spark源码
分析之五:Task调度(一)
在前四篇博文中,我们分析了Job提交运行总流程的第一阶段Stage划分与提交,它又被细化为三个分阶段: 1、Job的调度模型与运行反馈; 2、Stage划分; 3、Stage提交:对应TaskSet的生成。 Stage划分与提交阶段主要是由DAGScheduler完成的,而DAGScheduler负责Job的逻辑调度,主要职责也即DAG图的分解,按照RDD间
lipeng_bigdata
·
2016-02-19 14:00
Spark源码
分析之四:Stage提交
各位看官,上一篇《
Spark源码
分析之Stage划分》详细讲述了Spark中Stage的划分,下面,我们进入第三个阶段--Stage提交。
lipeng_bigdata
·
2016-02-17 23:00
Spark源码
分析之三:Stage划分
继上篇《
Spark源码
分析之Job的调度模型与运行反馈》之后,我们继续来看第二阶段--Stage划分。
lipeng_bigdata
·
2016-02-16 20:00
Spark源码
分析之二:Job的调度模型与运行反馈
在《
Spark源码
分析之Job提交运行总流程概述》一文中,我们提到了,Job提交与运行的第一阶段Stage划分与提交,可以分为三个阶段: 1、Job的调度模型与运行反馈; 2、Stage
lipeng_bigdata
·
2016-02-16 08:00
Spark源码
倒腾
本文演示
spark源码
在idea编辑器上编译和提交任务1、从网站上下载
spark源码
,在idea中点击VCS->CheckOutformVersionControl->Git把代码下载到本地
zhanjun
·
2016-02-15 21:00
spark学习心得
练习官方给出的例子之后,就是阅读源码了, 学习spark,了解spark应用后,就是阅读源码了,阅读源码并不难,编译器打开就能知道,而要知道源码设计思路,为什么这么设计,就是一个比较困难的地方了 阅读
spark
you啃up
·
2016-02-15 16:54
spark
Spark源码
分析之一:Job提交运行总流程概述
Spark是一个基于内存的分布式计算框架,运行在其上的应用程序,按照Action被划分为一个个Job,而Job提交运行的总流程,大致分为两个阶段: 1、Stage划分与提交 (1)Job按照RDD之间的依赖关系是否为宽依赖,由DAGScheduler划分为一个个Stage,并将每个Stage提交给TaskScheduler; (2)Stage随后被提交,并由TaskSch
lipeng_bigdata
·
2016-02-14 22:00
第4讲:Scala模式匹配、类型系统彻底精通与
Spark源码
阅读
简介:本篇文章主要要点有:Scala模式匹配彻底详解Scala类型系统彻底详解
Spark源码
阅读及作业1.Scala模式匹配彻底详解Scala中的模式匹配类似于java中的switchcase,但是switchcase
snail_gesture
·
2016-02-04 22:00
scala
spark源码
action系列-saveAsHadoopDataset
RDD.saveAsHadoopDataset这个功能是spark中的saveAsTextFile,saveASHadoopFile的基础实现.这个action用于把task中的数据通过指定的output format写入到hadoop的实现接口中,由PairRDDFunctions类进行实现.执行前的准备:得到hadoopConfiguration的实例,取出OutputFormat的实现类,k
u014393917
·
2016-01-29 15:00
spark源码分析
spark-transform
spark源码
action系列-reduce
RDD.reduce这个action的作用:在reduce中,是把rdd中所有的task中的结果合并成一个结果,最终输出这个结果.这个类似于一个count操作.在reduce中,传入的函数传入两个T类型的参数(T类型是RDD中KV的类型),这个函数返回值也是一个T类型的结果.注意,很多同学会把这个跟hadoop中的map reduce中的reduce进行等同看待,其实不是的,在map reduce
u014393917
·
2016-01-29 15:00
spark源码分析
spark-transform
spark源码
action系列-foreach与foreachPartition
RDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.首先我们先看看foreach的操作:在fureach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个
u014393917
·
2016-01-29 15:00
spark源码分析
spark-transform
spark源码
action系列-take
RDD.take的操作在这个action的操作中:Take的操作主要用于取出前n条数据的操作,这个操作中首先从第一个partition中去找,如果第一个partition中无法取出前n条数据时,再接下来从后面的partition中接着去找.直到取到n条数据或者说partition中都已经找完.与其对应的还有takeOrder的操作,这个后面在说.发起JOB的过程:1,如果take的操作是0,那么直
u014393917
·
2016-01-29 14:00
spark源码分析
spark-transform
spark源码
action系列-count
count操作中:把执行count操作的rdd中所有的partition的数据的总和时行相加,得到一个Long类型的返回值的操作.也就是说这个操作得到一个Long值,这个值当前的这个RDD中每个partition的iterator的总记录条数和.task的function的定义部分:这里主要是通过对每个partition中的iterator时行迭代,得到这个iterator的总记录数.这里的Uti
u014393917
·
2016-01-29 13:00
spark源码分析
spark-transform
spark源码
action系列-collect
RDD.collect的操作collect操作,在最后的ResultTask.runTask中,执行的function的操作为下面代码.由于对ResultTask的runTask这个函数的返回值就是这个runTask函数在执行完成RDD传入的function后的返回值.这里要说明下如果task的结果超过了spark.driver.maxResultSize配置的最大值时,默认是1G,直接对task
u014393917
·
2016-01-29 13:00
spark源码分析
spark-transform
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他