E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
Spark源码
分析(一)-Standalone启动过程
原创文章,转载请注明:转载自http://www.cnblogs.com/tovin/p/3858065.html为了更深入的了解spark,现开始对
spark源码
进行分析,本系列文章以spark1.0.0
tovin
·
2014-07-24 17:00
Apache
Spark源码
走读之19 -- standalone cluster模式下资源的申请与释放
欢迎转载,转载请注明出处,徽沪一郎。概要本文主要讲述在standalonecluster部署模式下,SparkApplication在整个运行期间,资源(主要是cpucore和内存)的申请与释放。构成Standalonecluster部署模式的四大组成部件如下图所示,分别为Master,worker,executor和driver,它们各自运行于独立的JVM进程。从资源管理的角度来说Master掌
??yy
·
2014-07-21 23:00
大数据
java
runtime
Spark亚太研究院决胜大数据时代100期公益大讲堂
鉴于Spark的巨大价值和潜力,同时由于国内极度缺乏Spark人才,Spark亚太研究院在完成了对
Spark源码
的彻底研究的同时,不断在实际环境中使用Spark的各种特性的基础之上,推出了《Spark
章��莫
·
2014-07-08 14:34
技术
报名
研究院
大讲堂
时代100
Apache
Spark源码
走读之17 -- 如何进行代码跟读
欢迎转载,转载请注明出处,徽沪一郎 概要 今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交互,那如何知道谁是接收方呢? new Throwable().printStackTrace 代码跟读的时候,经常会借助于日志,针对日
·
2014-07-05 20:00
apache
Apache
Spark源码
走读系列
Apache
Spark源码
走读系列http://www.cnblogs.com/hseagle/category/569175.htmltwitterstorm源码系列http://www.cnblogs.com
zongquanliu
·
2014-07-02 11:24
spark
storm
gdb
[Apache
Spark源码
阅读]天堂之门——SparkContext解析
稍微了解
Spark源码
的人应该都知道SparkContext,作为整个Project的程序入口,其重要性不言而喻,许多大牛也在源码分析的文章中对其做了很多相关的深入分析和解读。
MelodyIsHere
·
2014-06-19 22:00
spark
Apache
Spark源码
走读之1 -- Spark论文阅读笔记
转载自:http://www.cnblogs.com/hseagle/p/3664933.html楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读MateiZaharia做的Spark论文
myrainblues
·
2014-06-09 22:00
spark
Apache
Spark源码
走读之12 -- Hive on Spark运行环境搭建
欢迎转载,转载请注明出处,徽沪一郎。 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。 Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令
·
2014-05-30 08:00
apache
scala_apply
如果你不看
spark源码
的话,有前面scala的知识就够了,但是,如果你要玩spark的话,你不看源码是不行的。
23萝卜
·
2014-05-22 12:42
scala
apply
Apache
Spark源码
走读之10 -- 在YARN上运行SparkPi
y欢迎转载,转载请注明出处,徽沪一郎。 概要 “spark已经比较头痛了,还要将其运行在yarn上,yarn是什么,我一点概念都没有哎,再怎么办啊。不要跟我讲什么原理了,能不能直接告诉我怎么将spark在yarn上面跑起来,I'm a dummy, just told me how to do it.” 如果你和我一样是一个对形而上的东西不是太感兴趣,而只纠结于怎么去做的话,看这份
·
2014-05-19 18:00
apache
Spark 学习总结(学习资料一)
2014JanuaryJanuary4,2014 » 详细探究Spark的shuffle实现January2,2014 » 使用MapReduce框架实现SimRank算法2013OctoberOctober8,2013 »
Spark
lantian0802
·
2014-05-19 17:00
spark
Apache
Spark源码
走读之9 --
Spark源码
编译
欢迎转载,转载请注明出处,徽沪一郎。 概要 本来源码编译没有什么可说的,对于java项目来说,只要会点maven或ant的简单命令,依葫芦画瓢,一下子就ok了。但到了Spark上面,事情似乎不这么简单,按照spark officical document上的来做,总会出现这样或那样的编译错误,让人懊恼不已。 今天闲来无事,又重试了一把,居然o了,做个记录,以备后用。 准备 我的编译机器上安装
·
2014-05-16 16:00
apache
【scala初学】scala 语法 声明
看
spark源码
是怎么把我逼疯的。
yjplxq
·
2014-05-16 13:48
scala
基本类型
【scala初学】scala 语法 声明
至今遇到两个语言把我吓到了,一个是汇编,一个就是这个货,scala.看
spark源码
是怎么把我逼疯的。
yjplxq
·
2014-05-16 13:48
scala
基本类型
scala
Spark源码
分析13-Tuning Spark
We can refer to the link http://spark.incubator.apache.org/docs/latest/tuning.html for detail tuning document. After tuning, spark can process 200M logs every
frankfan915
·
2014-05-15 17:00
tuning
Spark源码
分析11-BlockManager
BlockManager主要在deriver和excutor构造。在deriver构造了一个BlockManagerMasterActor对象,主要负责收集block的info。在executor创建了BlockManagerMasterActor的ref,并且将ref封装到BlockManagerMaster中用于与BlockManagerMasterActor的通信。BlockManager封
frankfan915
·
2014-05-13 22:00
manager
Spark1.0.0 on Standalone 模式部署
/make-distribution.sh--hadoop2.2.0--with-yarn--tgz
spark源码
根
book_mmicky
·
2014-05-13 15:00
standalone
saprk
Spark源码
分析10-Schedualer
Spark很重要的一部分是Task的schedual,以下是具体的流程图。 SchedulableBuilder分为两种,分别是FairSchedulableBuilder和FIFOSchedulableBuilder。主要是pool的getSortedTaskSetQueue方法中调用不同的taskSetSchedulingAlgorithm去排序schedulableQueueoverride
frankfan915
·
2014-05-11 20:00
spark
Spark源码
分析9-Excutor
Excutor主要分为两部分,一是ExecutorBackend,二是Executor。ExecutorBackend用来接收信息,调用Executor执行task。我们以CoarseGrainedExecutorBackend为例介绍Excutor。 worker会调用java命令启动CoarseGrainedExecutorBackend。在run函数中创建了CoarseGrainedExe
frankfan915
·
2014-05-11 10:00
spark
Spark源码
分析8-client 如何选择将task提交给那个excutor
spark中很重要的一点就是task具体分配到哪个excutor上执行,如果分配不合理,将会消耗很多额外的资源。例如:executor1用flumereceiver接收到数据,并将数据保存到block1上,excutor2用flumereceiver接收到数据,并将数据保存到block2上。RDD将有两个patition,将对应产生两个task.task1处理block1,task2处理block
frankfan915
·
2014-05-08 15:00
client
Spark源码
分析7-Metrics的分析
spark用metrics-core这个jar包来做spark 各个部件metrics的管理 Metrics.properties.template文件是用来配置metrics的,metrics的配置分为两部分,一是source,二是sink。有些类似于flume的source和sink的概念。Source用来收集work,master,deriver,executor等的信息。Source有A
frankfan915
·
2014-05-08 11:00
spark
Spark源码
分析6-Worker
Worker 主要负责管理excutor和driver,并向master报告excutor和driver的状态 Worker的启动 类似于master,创建了worker的actor private[spark] object Worker { def main(argStrings: Array[String]) { val args = new Wor
frankfan915
·
2014-05-08 11:00
worker
5月11日上海交大免费公开课――源码级专家现场剖析云计算大数据的现在和未来
上海交通大学免费公益云计算讲座,上海的码农们有福利啦2014年5月11日,HADOOP、
SPARK源码
级专家王家林博士将做客慧讲坛,和您“一起揭秘――生产环境下的云计算大数据的现在和未来”。
羽凡欧普
·
2014-05-07 11:40
云计算
解决方案
上海交大
技术人才
免费公开课
Spark源码
分析5-Master
本节主要分析Master的主要功能。Master主要分为两块.1.Masterleader的选举。2.Master对work,application,deriver的管理 首先看Master是怎么启动的调用了 actorSystem.actorOf()创建了MasterActor对象defmain(argStrings:Array[String]){ valconf=newSparkConf
frankfan915
·
2014-05-07 11:00
master
Spark源码
分析2-Driver generate jobs and launch task
Drivergeneratejobsandlaunchtask1.Driver将按照DStream的compute方法生成RDD的依赖列表2.按照RDD的关系生成stage的列表,stage分为两种:finalStage和shuffledStage . 1)每个ShuffledRDD都会产生一个shuffledStage,shuffledstage用来将shuffledRDD的prevRDD计算
frankfan915
·
2014-05-06 14:00
driver
spark源码
分析:catalyst 草稿
object Optimizer extends RuleExecutor[LogicalPlan] { val batches = Batch("ConstantFolding", Once, ConstantFolding, &n
baishuo491
·
2014-05-06 10:00
spark
Spark源码
分析1-部署与整体架构
Spark官网:http://spark.apache.org/docs/latest/ApacheSparkisafastandgeneral-purposeclustercomputingsystem.Itprovideshigh-levelAPIsin Scala, Java,and Python thatmakeparalleljobseasytowrite,andanoptimizede
frankfan915
·
2014-05-06 10:00
spark
Apache
Spark源码
走读之3 -- Task运行期之函数调用关系分析
欢迎转载,转载请注明出处,徽沪一郎。 概要 本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。 准备 spark已经安装完毕 spark运行在local mode或local-cluster mode local-cluster mode local-cluster模
·
2014-04-23 15:00
apache
远程调试
spark源码
(基于java的调试工具)
本文对
spark源码
进行调试,此调试方式可以调试任何JVM相关的程序,如:普通的命令行程序、web程序等。
tjbklx33
·
2014-04-03 11:48
jdb
JDWP
调试
Java
远程调试
spark源码
(基于java的调试工具)
本文对
spark源码
进行调试,此调试方式可以调试任何JVM相关的程序,如:普通的命令行程序、web程序等。
tjbklx33
·
2014-04-03 11:48
jdb
调试
JDWP
Spark源码
编译---Spark学习笔记1
要学习一个框架最好的方式就是调试其源代码。编译Spark0.81 withhadoop2.2.0本机环境:1.eclipsekepler2.maven3.13.scala2.9.34.ubuntu12.04步骤:1.先从网上下载spark0.81的源代码. 下载方式:_2. upzipv0.8.1-incubating.zip3. exportMAVEN_OPTS="-Xmx1g-XX:MaxPe
u014388509
·
2014-03-28 01:00
spark源代码
spark源码
分析--rdd和stage的生成(更新了一张图)
原创,转载请注明出处 http://baishuo491.iteye.com/blog/2019510 ,作者邮箱:
[email protected]
,新浪微博:爱看历史的码农--白硕 作者单位:亚信联创大数据平台部 从一个简单的例子,来看rdd的演化,和stage是如何生成的(过程灰常之复杂和抽象,请参考附件的图来理解) object BaiWordCount2 {
baishuo491
·
2014-02-19 23:00
spark
Spark 源码分析 -- task实际执行过程
Spark源码
分析 – SparkContext 中的例子, 只分析到sc.runJob 那么最终是怎么执行的?
·
2014-01-21 16:00
spark
spark源码
分析--spark的任务调度(补充一张图)
原创,转载请注明出处 http://baishuo491.iteye.com/blog/2007317,作者邮箱:
[email protected]
,新浪微博:爱看历史的码农--白硕对于http://baishuo491.iteye.com/blog/1994026,画了一张图,辅助源码阅读,图片较大
baishuo491
·
2014-01-20 14:00
spark
Spark源码
分析 – 汇总索引
blog.csdn.net/pelick/article/details/17222873 如果想了解Spark的设计, 第一个足够 如果想梳理Spark的源码整体结构, 第二个也可以 ALL
Spark
·
2014-01-16 14:00
spark
Spark源码
分析 – SparkEnv
SparkEnv在两个地方会被创建, 由于SparkEnv中包含了很多重要的模块, 比如BlockManager, 所以SparkEnv很重要 Driver端, 在SparkContext初始化的时候, SparkEnv会被创建 // Create the Spark execution environment (cache, map output tracker, etc) pri
·
2014-01-13 10:00
spark
Openfire+
Spark源码
开发环境搭建
首先第一步,当然是环境搭建了... Openfire官网:http://www.igniterealtime.org/index.jsp 源码下载地址:http://www.igniterealtime.org/downloads/index.jspOpenfire SVN下载地址:http://svn.igniterealtime.org/svn/repos/openfire/
FallenPanda
·
2014-01-13 10:00
Spark源码
分析 – Checkpoint
CP的步骤 1. 首先如果RDD需要CP, 调用RDD.checkpoint()来mark 注释说了, 这个需要在Job被执行前被mark, 原因后面看, 并且最好选择persist这个RDD, 否则在存CP文件时需要重新computeRDD内容 并且当RDD被CP后, 所有dependencies都会被清除, 因为既然RDD已经被CP, 那么就可以直接从文件读取, 没有必要保留之前的pare
·
2014-01-10 18:00
spark
Spark源码
分析 – BlockManager
参考,
Spark源码
分析之-Storage模块 对于storage, 为何Spark需要storage模块?
·
2014-01-10 11:00
manager
Spark源码
分析 – Executor
ExecutorBackend 很简单的接口 package org.apache.spark.executor /** * A pluggable interface used by the Executor to send updates to the cluster scheduler. */ private[spark] trait ExecutorBackend {
·
2014-01-07 16:00
executor
Spark源码
分析 -- SchedulableBuilder
SchedulableBuilder就是对Scheduleable tree的封装, 在Pool层面(中间节点), 完成对TaskSet的调度(FIFO, FAIR) 在TaskSetManager 层面(叶子节点), 完成对TaskSet中task的调度(locality)以及track(retry) TaskSetManager 用于封装TaskSet, 主要提供对单个TaskSet内部的
·
2014-01-06 15:00
builder
Spark源码
分析 -- TaskScheduler
Spark在设计上将DAGScheduler和TaskScheduler完全解耦合, 所以在资源管理和task调度上可以有更多的方案 现在支持, LocalSheduler, ClusterScheduler, MesosScheduler, YarnClusterScheduler 先分析ClusterScheduler, 即standalone的Spark集群上, 因为比较单纯不涉及其他的
·
2014-01-03 18:00
scheduler
Spark源码
分析 – SchedulerBackend
SchedulerBackend, 两个任务, 申请资源和task执行和管理 对于SparkDeploySchedulerBackend, 基于actor模式, 主要就是启动和管理两个actor Deploy.Client Actor, 负责资源申请, 在SparkDeploySchedulerBackend初始化的时候就会被创建, 然后Client会去到Master上注册, 最终完成在Work
·
2014-01-03 17:00
scheduler
Spark源码
分析 – Deploy
参考,
Spark源码
分析之-deploy模块 Client Client在SparkDeploySchedulerBackend被start的时候, 被创建, 代表一个application
·
2014-01-02 17:00
deploy
Spark源码
分析 – DAGScheduler
DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Thread, 会不断的从eventQueue中获取event并处理 3. 实现TaskSchedulerListener, 并注册到TaskScheduler中, 这样TaskScheduler可以随时
·
2013-12-30 15:00
scheduler
Spark源码
分析 – SparkContext
Spark源码
分析之-scheduler模块 这位写的非常好, 让我对Spark的源码分析, 变的轻松了许多 这里自己再梳理一遍 先看一个简单的spark操作, val sc = new SparkContext
·
2013-12-24 18:00
context
Spark源码
分析 -- PairRDD
和一般RDD最大的不同就是有两个泛型参数, [K, V]表示pair的概念 关键的function是, combineByKey, 所有pair相关操作的抽象 combine是这样的操作, Turns an RDD[(K, V)] into a result of type RDD[(K, C)] 其中C有可能只是简单类型, 但经常是seq, 比如(Int, Int) to (Int, Seq[
·
2013-12-24 15:00
spark
spark源码
分析--spark的任务调度(standalone模式)
阅读更多原创,转载请注明出处http://baishuo491.iteye.com/blog/1994026,作者邮箱:
[email protected]
,新浪微博:爱看历史的码农--白硕在sparkContext的建立过程中(更细致的说是clientActor的preStart回调函数中),会向master发送RegisterApplication消息master!RegisterAppli
baishuo491
·
2013-12-23 16:00
spark
scala
bigdata
Hadoop
spark源码
分析--spark的任务调度(standalone模式)
阅读更多原创,转载请注明出处http://baishuo491.iteye.com/blog/1994026,作者邮箱:
[email protected]
,新浪微博:爱看历史的码农--白硕在sparkContext的建立过程中(更细致的说是clientActor的preStart回调函数中),会向master发送RegisterApplication消息master!RegisterAppli
baishuo491
·
2013-12-23 16:00
spark
scala
bigdata
Hadoop
spark源码
分析--spark的任务调度(standalone模式)
原创,转载请注明出处 http://baishuo491.iteye.com/blog/1994026 ,作者邮箱:
[email protected]
,新浪微博:爱看历史的码农--白硕 在sparkContext的建立过程中(更细致的说是clientActor的preStart回调函数中),会向master发送RegisterApplication消息 master ! R
baishuo491
·
2013-12-23 16:00
scala
hadoop
spark
BigData
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他