E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
Spark源码
分析之-deploy模块
2013/04/30/Spark%E6%BA%90%E7%A0%81%E5%88%86%E6%9E%90%E4%B9%8B-deploy%E6%A8%A1%E5%9D%97/ Background 在前文
Spark
·
2015-11-12 18:27
deploy
Spark源码
分析之-Storage模块
原文地址:http://blog.csdn.net/aiuyjerry/article/details/8595991 Storage模块主要负责数据存取,包括MapReduce Shuffle中间结果、MapReduce task中间stage结果、cache结果。下面从架构和源码细节上来分析Storage模块的实现。Storage模块主要由两大部分组成: BlockManager
·
2015-11-12 18:26
spark
Hive On Spark环境搭建
Spark源码
编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spark
·
2015-11-12 17:30
spark
《Apache
Spark源码
剖析》
Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐1.本书全面、系统地介绍了
Spark
·
2015-11-12 10:37
apache
Spark源码
分析
名词解释 RDD全称为ResilientDistributedDataset,弹性分布式数据集。就是分布在集群节点上的数据集,这些集合可以用来进行各种操作。最重要的一点是,某个操作计算后的数据集可以缓存在内存中,然后给其他计算使用,这种在迭代计算中很常见。比如:我们可以从hdfs文件里创建一个数据集,然后经过filter后,会生成一个新的数据集,还可以进行groupby,map函数等操作,得到另
·
2015-11-11 19:24
spark
[
Spark源码
剖析]Task的调度与执行源码剖析
本文基于Spark1.3.1,Standalone模式一个SparkApplication分为stage级别和task级别的调度,stage级别的调度已经用[DAGScheduler划分stage]和[DAGScheduler提交stage]两片文章进行源码层面的说明,本文将从源码层面剖析task是如何被调度和执行的。函数调用流程先给出task调度的总体函数调用流程,并说明每个关键函数是干嘛的。这
牛肉圆粉不加葱
·
2015-11-10 13:13
Spark修炼之道(高级篇)——
Spark源码
阅读:第十节 Standalone运行模式解析
SparkStandalone采用的是Master/Slave架构,主要涉及到的类包括:类:org.apache.spark.deploy.master.Master 说明:负责整个集群的资源调度及Application的管理。 消息类型: 接收Worker发送的消息 1.RegisterWorker 2.ExecutorStateChanged 3.WorkerSchedulerStateRes
lovehuangjiaju
·
2015-11-09 23:00
spark
源码解析
Apache Spark-1.0.0浅析(一):引子
Apache Spark版本迭代速度很快,但是基本框架和经典组件保持这统一模式,所以学习
Spark源码
,我选择的是Apache Spark-1.0.0版本,通过分析几个主要模块的工作原理,理解Spark
·
2015-11-07 11:26
apache
File System Implementation 文件系统设计实现
有种直接上
Spark源码
的冲动。。 1. 这篇博客具体什么内容? 这篇博客是一篇文件系统入门文章,介绍一种概念上的文件系统,VSFS(Very Simple File System)。 2.
·
2015-11-07 10:49
System
install4j打包Spark详解
1.将下载好的
spark源码
导入进MyEclipse 2.在MyEclipse中:Window -> Show View -> Ant,在下面打开的Ant标签中右击,选择 "
·
2015-11-02 13:57
Install
Scala并发编程Actor实战
学习了Scala并发编程实战初体验及其在
Spark源码
中的应用解析,具体来说Scala就是通过并发的Actor。
·
2015-11-02 10:18
scala
Scala并发编程匿名Actor、消息传递、偏函数实
学习了Scala并发编程匿名Actor、消息传递、偏函数实战解析及其在
Spark源码
中的应用解析,具体来说Scala就是通过actor_message=actor{},实现匿名Actor并发消息传递的,
·
2015-11-01 13:01
scala
spark研究之install4j打包spark
1、更改
spark源码
目录\spark\build下的build.xml文件,指定install4j安装目录; <property name="installer.install4j.home
·
2015-10-31 11:40
Install
net.sf.fmj.media.cdp.civil.CaptureDevicePlugger addCaptureDevices解决方法
Spark运行时报错,解决办法,将
spark源码
目录E:\MyeclipseWorkspace\spark\build\lib\dist\windows 下的civil.dll 文件拷贝到C盘jdk的bin
·
2015-10-31 11:39
device
Spark修炼之道(高级篇)——
Spark源码
阅读:第九节 Task执行成功时的结果处理
Task执行成功时的结果处理在上一节中,给出了Task在Executor上的运行代码演示,我们知道代码的最终运行通过的是TaskRunner方法classTaskRunner(execBackend:ExecutorBackend,valtaskId:Long,valattemptNumber:Int,taskName:String,serializedTask:ByteBuffer)extend
lovehuangjiaju
·
2015-10-29 19:00
spark
源码解析
Spark修炼之道(高级篇)——
Spark源码
阅读:第八节 Task执行
Task执行在上一节中,我们提到在Driver端CoarseGrainedSchedulerBackend中的launchTasks方法向Worker节点中的Executor发送启动任务命令,该命令的接收者是CoarseGrainedExecutorBackend(Standalone模式),类定义源码如下:private[spark]classCoarseGrainedExecutorBacke
lovehuangjiaju
·
2015-10-29 12:00
spark
源码解析
Spark修炼之道(高级篇)——
Spark源码
阅读:第七节 resourceOffers方法与launchTasks方法解析
在上一节中,我们提到Task提交通过makeOffers提交到Executor上//Makefakeresourceoffersonjustoneexecutor privatedefmakeOffers(executorId:String){ //Filteroutexecutorsunderkilling if(!executorsPendingToRemove.contains(execut
lovehuangjiaju
·
2015-10-28 21:00
spark
源码解析
Spark修炼之道(高级篇)——
Spark源码
阅读:第六节 Task提交
Task提交在上一节中的Stage提交中我们提到,最终stage被封装成TaskSet,使用taskScheduler.submitTasks提交,具体代码如下:taskScheduler.submitTasks(newTaskSet( tasks.toArray,stage.id,stage.latestInfo.attemptId,stage.firstJobId,properties))St
lovehuangjiaju
·
2015-10-27 23:00
spark
源码解析
Apache
Spark源码
走读之1 -- Spark论文阅读笔记
欢迎转载,转载请注明出处,徽沪一郎。 楔子 源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。 在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文是一个非常不错的选择。 在阅读该论文的基础之上,
·
2015-10-27 12:19
apache
Spark源码
分析 – Shuffle
参考详细探究Spark的shuffle实现, 写的很清楚, 当前设计的来龙去脉 Hadoop Hadoop的思路是, 在mapper端每次当memory buffer中的数据快满的时候, 先将memory中的数据, 按partition进行划分, 然后各自存成小文件, 这样当buffer不断的spill的时候, 就会产生大量的小文件 所以Hadoop后面直到reduce之前做的
·
2015-10-27 12:11
shuffle
Spark源码
分析 – Dependency
Dependency 依赖, 用于表示RDD之间的因果关系, 一个dependency表示一个parent rdd, 所以在RDD中使用Seq[Dependency[_]]来表示所有的依赖关系 Dependency的base class 可见Dependency唯一的成员就是rdd, 即所依赖的rdd, 或parent rdd /** * Base class for depende
·
2015-10-27 12:10
dependency
Apache
Spark源码
走读之21 -- WEB UI和Metrics初始化及数据更新过程分析
欢迎转载,转载请注明出处,徽沪一郎. 概要 WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口,本文将简略的过一下其内部代码实现。 WEB UI 先上图感受一下spark webui 假设当前已经在本机运行standalone cluster模式,输入http://127.0.0.1:8080将会看到如下页面 driver applica
·
2015-10-27 11:57
apache
Apache
Spark源码
走读之20 -- ShuffleMapTask计算结果的保存与读取
欢迎转载,转载请注明出处,徽沪一郎。 概要 ShuffleMapTask的计算结果保存在哪,随后Stage中的task又是如何知道从哪里去读取的呢,这个过程一直让我困惑不已。 用比较通俗一点的说法来解释一下Shuffle数据的写入和读取过程 每一个task负责处理一个特定的data partition task在初始化的时候就已经明确处理结果可能会产生多少个不同的data part
·
2015-10-27 11:56
shuffle
Apache
Spark源码
走读之19 -- standalone cluster模式下资源的申请与释放
欢迎转载,转载请注明出处,徽沪一郎。 概要 本文主要讲述在standalone cluster部署模式下,Spark Application在整个运行期间,资源(主要是cpu core和内存)的申请与释放。 构成Standalone cluster部署模式的四大组成部件如下图所示,分别为Master, worker, executor和driver,它们各自运行于独立的JVM进程。 从资
·
2015-10-27 11:56
cluster
Spark修炼之道(高级篇)——
Spark源码
阅读:第五节 Stage提交
Stage提交调用流程:1.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted2.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted.submitStage3.org.apache.spark.scheduler.DAGScheduler.handleJobSubmi
lovehuangjiaju
·
2015-10-26 17:00
spark
源码阅读
Spark源码
系列(八)Spark Streaming实例分析
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程指南》。 Example代码分析 val ssc = new StreamingContext(sparkConf, Seconds(1)); // 获得一个DStream负责连接 监听端口:地址 val lines = ssc.socketTextStream(serve
·
2015-10-26 15:18
Stream
Spark源码
系列(七)Spark on yarn具体实现
本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个stable的版本了,可是1.0.1也出来了,离1.0.0发布才一个月的时间,更新太快了,节奏跟不上啊,这里仍旧是讲1.0.0的代码,所以各位朋友也不要再问我讲的是哪个版本,目前为止发布的文章都是基于1.0.0的代码。 在第一章《spark-submit提交作业过
·
2015-10-26 15:17
spark
Spark源码
系列(六)Shuffle的过程解析
Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。 这篇文章主要是沿着下面几个问题来开展: 1、shuffle过程的划分? 2、shuffle的中间结果如何存储? 3、shuffle的数据如何拉取过来? Shuffle过程的划分 Spark的操作模型是基于RDD的,当调用RDD的
·
2015-10-26 15:16
shuffle
Spark源码
系列(一)spark-submit提交作业过程
前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个Driver Program的过程。 作业提交方法以及参数 我们先看一下用Spark Submit提交的方法吧,下面是从官方上面摘抄的内容。 # R
·
2015-10-26 15:13
submit
Spark源码
分析之Worker
Spark支持三种模式的部署:YARN、Standalone以及Mesos。本篇说到的Worker只有在Standalone模式下才有。Worker节点是Spark的工作节点,用于执行提交的作业。我们先从Worker节点的启动开始介绍。Spark中Worker的启动有多种方式,但是最终调用的都是org.apache.spark.deploy.worker.Worker类,启动Worker节点的时候
m635674608
·
2015-10-26 00:00
Spark修炼之道(高级篇)——
Spark源码
阅读:第二节 SparkContext的创建
博文推荐:http://blog.csdn.net/anzhsoft/article/details/39268963,由大神张安站写的Spark架构原理,使用Spark版本为1.2,本文以Spark1.5.0为蓝本,介绍Spark应用程序的执行流程。本文及后面的源码分析都以下列代码为样板importorg.apache.spark.{SparkConf,SparkContext} object
lovehuangjiaju
·
2015-10-25 00:00
spark
源码分析
Spark修炼之道(高级篇)——
Spark源码
阅读:第四节 Stage划分
Stage划分在上一节中我们讲了SparkJob的提交,在该讲中我们提到,当rdd触发action操作之后,会调用SparkContext的runJob方法,最后调用的DAGScheduler.handleJobSubmitted方法完成整个job的提交。然后DAGScheduler根据RDD的lineage进行Stage划分,再生成TaskSet,由TaskScheduler向集群申请资源,最终
lovehuangjiaju
·
2015-10-24 23:00
spark
源码解析
Spark修炼之道(高级篇)——
Spark源码
阅读:第三节 Spark Job的提交
前一我们分析了SparkContext的创建,这一节,我们介绍在RDD执行的时候,如何提交job进行分析,同样是下面的源码:importorg.apache.spark.{SparkConf,SparkContext} objectSparkWordCount{ defmain(args:Array[String]){ if(args.length==0){ System.err.println
lovehuangjiaju
·
2015-10-19 23:00
spark
源码分析
Spark修炼之道(高级篇)——
Spark源码
阅读:第一节 Spark应用程序提交流程
作者:摇摆少年梦微信号:zhouzhihubeyondspark-submit脚本应用程序提交流程在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下:root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# ./spark-submit--masters
lovehuangjiaju
·
2015-10-19 12:00
spark
源码分析
Spark源码
系列(七)Spark on yarn具体实现
Spark源码
系列(七)Sparkonyarn具体实现 作者岑玉海的博客,火龙果软件 发布于 2014-11-11来自于要资料 909次浏览 评价:好中差 本来不打算写的了,但是真的是闲来无事
javastart
·
2015-10-03 11:00
许鹏:从零开始学习,Apache
Spark源码
走读(三)
许鹏:从零开始学习,Apache
Spark源码
走读(三)发表于2014-06-1818:30|17149次阅读|来源个人博客|24条评论|作者许鹏大数据Spark开源技术博客推荐摘要:自2013年6月进入
javastart
·
2015-10-02 16:00
IntelliJ(IDEA)
Spark源码
阅读环境
IntelliJ(IDEA)
Spark源码
阅读环境依赖:IDEA(IntelliJ,前文已经安装),Scala(前文已经安装),SBT,GIT,
Spark源码
1.SBT安装1)官网下载压缩包http:/
AlinaYe
·
2015-09-15 10:30
spark
IntelliJ(IDEA)
Spark源码
阅读环境
IntelliJ(IDEA)
Spark源码
阅读环境依赖:IDEA(IntelliJ,前文已经安装),Scala(前文已经安装),SBT,GIT,
Spark源码
1.SBT安装1)官网下载压缩包http:/
AlinaYe
·
2015-09-15 10:30
spark
Spark开发环境及源码阅读环境配置
源码阅读环境配置:参考如下博文:Windows+IDEA+SBT打造
Spark源码
阅读环境上面是在windows环境的配置,比较耗时,而且由于网络原因,很有可能出错;在linux环境下就比较简单了:进入
yijichangkong
·
2015-09-03 19:00
spark
开发
Spark源码
分析:多种部署方式之间的区别与联系(1)
从官方的文档我们可以知道,Spark的部署方式有很多种:local、Standalone、Mesos、YARN.....不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。从代码中,我们可以得知其实Spark的部署方式其实比官方文档中介绍的还要多,这里我来列举一下:1、local:这种方式是在本地启动一个线程来运行作业;2、local[N]:也是本地模式,但是启动
Rayn-瑞恩
·
2015-09-02 14:00
Spark源码
分析:多种部署方式之间的区别与联系
在《
Spark源码
分析:多种部署方式之间的区别与联系(1)》我们谈到了SparkContext的初始化过程会做好几件事情(这里就不再列出,可以去《
Spark源码
分析:多种部署方式之间的区别与联系(1)》
Rayn-瑞恩
·
2015-09-02 14:00
搭建
Spark源码
阅读环境
1.安装JDK1.7、Maven3.2.5、Scala2.10.42.下载解压Spark1.4.0下载地址:http://mirrors.cnnic.cn/apache/spark/spark-1.4.0/spark-1.4.0.tgz3.下载安装IntelliJIDEA14.1.4,给IDEA安装Scala插件,然后导入Spark项目4.在IDEA中编译Spark若编译时遇到如下图所示的错误:在
张超
·
2015-08-30 05:00
Spark修炼之道系列教程预告
基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——
Spark
lovehuangjiaju
·
2015-08-24 09:00
spark
Spark修炼之道
spark core源码分析1 集群启动及任务提交过程
博客地址: http://blog.csdn.net/yueqian_zhu/spark版本号:1.4.1
spark源码
分析目的是在解读源码的过程中记录一些重要的步骤,加深自己的印象,或许也可以给别人提供一些帮助
yueqian_zhu
·
2015-08-23 13:00
源码
spark
spark
core
第1讲Spark纯实战公益大讲坛:通过案例实战掌握高可用HA下的Spark集群部署
第1讲Spark纯实战公益大讲坛:通过案例实战掌握高可用HA下的Spark集群部署 spark网站 spark集群配置
spark源码
初了解 DT大数据微信公众账号:DT_SparkDT大数据梦工厂
duan_zhihua
·
2015-08-22 12:00
Spark修炼之道——Spark学习路线、课程大纲
基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——
Spark
lovehuangjiaju
·
2015-08-19 19:00
spark
大数据
分布式
Spark修炼之道
第74讲:从
Spark源码
的角度思考Scala中的模式匹配
今天学习了从源码角度去分析scala中的模式匹配的功能。让我们看看源码中的这一段模式匹配:从代码中我们可以看到,caseRegisterWorker(id,workerHost,……..){}这里为模式匹配,而我们的模式匹配类RegisterWorker之前就已定义好,如下图:我们可以看到,我们的模式匹配类是已经定义好的,当我们的master接收到worker发来的消息时,进行模式匹配:这里还有一
pzw_0612
·
2015-08-03 22:00
scala
spark源码
分析--Master和worker建立连接
原创,转载请注明出处http://baishuo491.iteye.com/blog/1990242。作者邮箱
[email protected]
Spark的master启动后,等待work通过spark://master'ip:7077的url去连接Master. 在worker的回调函数preStart(Worker.scala)里面,调用了函数connectToMaster,这个函数
u010064842
·
2015-07-31 23:00
王家林大数据学习
第66讲:Scala并发编程实战初体验及其在
Spark源码
中的应用解析百度云:http://pan.baidu.com/s/1pJ5jzHx腾讯微云:http://url.cn/aSawrm360云盘:
张扬8
·
2015-07-26 11:36
scala
大数据
王家林
Spark源码
调试分析(一)-------------调试环境准备
1.
Spark源码
版本采用最新的1.4.1http://spark.apache.org/downloads.html首先下载源码并解压。2.下载ItellijiIDEA,选择免费的社区版本
happyAnger6
·
2015-07-26 10:00
源码
hadoop
scala
spark
spark
大数据
调试
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他