E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
Spark源码
系列(五)分布式缓存
这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。defpersist(newLevel:StorageLevel):this.type={//StorageLevel不能随意更改if(storageLevel!=StorageLevel.NONE&&newLevel!=storageLevel){thrownewUnsupporte
wbj0110
·
2015-02-27 15:00
spark
Spark源码
系列(四)图解作业生命周期
这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,letyouknow!我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。Driver向Master注册Application过程SparkContex
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(四)图解作业生命周期
这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,letyouknow!我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。Driver向Master注册Application过程SparkContex
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(四)图解作业生命周期
这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,letyouknow!我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。Driver向Master注册Application过程SparkContex
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(三)作业运行过程
作业执行上一章讲了RDD的转换,但是没讲作业的运行,它和DriverProgram的关系是啥,和RDD的关系是啥?官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect方法。defcollect():Array[T]={ valresults=sc.runJob(this,(iter:Iterator[T])=>iter.toArr
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(三)作业运行过程
作业执行上一章讲了RDD的转换,但是没讲作业的运行,它和DriverProgram的关系是啥,和RDD的关系是啥?官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect方法。defcollect():Array[T]={ valresults=sc.runJob(this,(iter:Iterator[T])=>iter.toArr
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(一)spark-submit提交作业过程
前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个DriverProgram的过程。作业提交方法以及参数我们先看一下用SparkSubmit提交的方法吧,下面是从官方上面摘抄的内容。#RunonaSparkstandalonecluster
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(二)RDD详解
1、什么是RDD?上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是ResilientDistributedDataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。2、有一个函数计算每一个分片,这里
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(一)spark-submit提交作业过程
前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个DriverProgram的过程。作业提交方法以及参数我们先看一下用SparkSubmit提交的方法吧,下面是从官方上面摘抄的内容。#RunonaSparkstandalonecluster
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(二)RDD详解
1、什么是RDD?上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是ResilientDistributedDataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。2、有一个函数计算每一个分片,这里
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(一)spark-submit提交作业过程
前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。 这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个DriverProgram的过程。作业提交方法以及参数我们先看一下用SparkSubmit提交的方法吧,下面是从官方上面摘抄的内容。#RunonaSparkstandalonecluster
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(二)RDD详解
1、什么是RDD?上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是ResilientDistributedDataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。2、有一个函数计算每一个分片,这里
wbj0110
·
2015-02-26 15:00
spark
Spark源码
系列(三)作业运行过程
作业执行上一章讲了RDD的转换,但是没讲作业的运行,它和DriverProgram的关系是啥,和RDD的关系是啥?官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect方法。defcollect():Array[T]={ valresults=sc.runJob(this,(iter:Iterator[T])=>iter.toArr
wbj0110
·
2015-02-26 15:00
spark
Spark源码
分析之-Storage模块
Storage模块整体架构Storage模块主要分为两层:通信层:storage模块采用的是master-slave结构来实现通信层,master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。存储层:storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提供相应接口。而其他模块若要和storage模块进行交互
wbj0110
·
2015-02-25 15:00
spark
Spark源码
分析之-Storage模块
Storage模块整体架构Storage模块主要分为两层:通信层:storage模块采用的是master-slave结构来实现通信层,master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。存储层:storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提供相应接口。而其他模块若要和storage模块进行交互
wbj0110
·
2015-02-25 15:00
spark
Spark源码
分析之-Storage模块
Storage模块整体架构Storage模块主要分为两层:通信层:storage模块采用的是master-slave结构来实现通信层,master和slave之间传输控制信息、状态信息,这些都是通过通信层来实现的。存储层:storage模块需要把数据存储到disk或是memory上面,有可能还需replicate到远端,这都是由存储层来实现和提供相应接口。而其他模块若要和storage模块进行交互
wbj0110
·
2015-02-25 15:00
spark
Spark的Standalone模式部署
/make-distribution.sh --hadoop 2.2.0 --with-yarn --tgz
spark源码
根目录下的make-distribution.sh可以带以下参数:--tgz:
frank_zero
·
2015-02-04 17:00
spark
Spark源码
分析(七)存储管理2
上章讲了一些基础概念,本章我们着重从源代码的角度分析存储管理模块BlockManager最重要的就是存取数据块,也就是get和put这两个方法,而这两个方法都是基于MemoryStore和DiskStore,即内存缓存和磁盘缓存,见下图,首先介绍这两个类 MemoryStore当我们基于内存缓存Block时,内存缓存在其内部维护了一个以数据块名称为键,块内容为值的哈希表:caseclassE
qq418517226
·
2015-02-03 17:00
源码
hadoop
spark
大数据
yarn
Windows下IntelliJ IDEA中调试Spark Standalone
/11/12/idea%E4%B8%8Adebug-spark-standalone/转载请注明来自:http://www.cnblogs.com/yuananyun/p/4265706.html研究
Spark
javastart
·
2015-02-01 18:21
大数据
Windows下IntelliJ IDEA中调试Spark Standalone
8Adebug-spark-standalone/转载请注明来自:http://www.cnblogs.com/yuananyun/p/4265706.html 研究
Spark
javastart
·
2015-02-01 18:00
Spark源码
走读10——Spark On Yarn
首先需要修改配置文件spark-env.sh。在这个文件中需要添加两个属性:ExportHADOOP_HOME=/../hadoop..ExportHADOOP_CONF_DIR=/../hadoop/etc/hadoop这里,一个是要hadoop的home目录。一个是配置文件目录。还需要配置一个就是spark-defaults.conf这个文件:需要修改红色框内的文件。下面看下这个文件里面的内容
莫然
·
2015-02-01 13:03
Apache
Spark
Spark源码
分析(六)存储管理1
背景 我们在编写Spark程序的时候常常需要与RDD打交道,通过RDD为我们提供的各种接口来实现我们的应用。RDD的引入提高了抽象层次,在接口和实现上进行了有效隔离,使用户无须关心底层的实现。但是,RDD提供给我们的仅仅是一个“形”,我们所操作的数据究竟放在哪里?如何存取?这个“体”是怎样的?数据的存放和管理都是由Spark的存储管理模块实现和管理的,在下面的内容我会详细介绍存储管理模块整体
qq418517226
·
2015-01-31 16:00
源码
hadoop
spark
大数据
yarn
Spark源码
分析(五)调度管理3
接着上章的内容CoarseGrainedExecutorBackend.DriverActor收到launchTask消息后(在第三章讲过,CoarseGrainedExecutorBackend是由AppClient向Master发送注册程序的消息,然后Master调度资源启动的),接下去的调用关系如下:Executor.launchTask ThreadPool.executor(newTas
qq418517226
·
2015-01-31 11:00
源码
hadoop
spark
大数据
yarn
Windows + IDEA + SBT 打造
Spark源码
阅读环境
转自:http://www.guozhongxin.com/pages/2014/10/15/spark_source_code.html
Spark源码
阅读环境的准备
Spark源码
是有Scala语言写成的
cafuc46wingw
·
2015-01-30 15:00
code
spark
git
idea
source
Spark源码
分析之-deploy模块
Deploy模块整体架构deploy模块主要包含3个子模块:master, worker, client。他们继承于Actor,通过actor实现互相之间的通信。Master:master的主要功能是接收worker的注册并管理所有的worker,接收client提交的application,(FIFO)调度等待的application并向worker提交。Worker:worker的主要功能是向
wbj0110
·
2015-01-30 09:00
spark
Spark源码
分析之-deploy模块
Deploy模块整体架构deploy模块主要包含3个子模块:master, worker, client。他们继承于Actor,通过actor实现互相之间的通信。Master:master的主要功能是接收worker的注册并管理所有的worker,接收client提交的application,(FIFO)调度等待的application并向worker提交。Worker:worker的主要功能是向
wbj0110
·
2015-01-30 09:00
spark
Spark源码
分析之-deploy模块
Deploy模块整体架构deploy模块主要包含3个子模块:master, worker, client。他们继承于Actor,通过actor实现互相之间的通信。Master:master的主要功能是接收worker的注册并管理所有的worker,接收client提交的application,(FIFO)调度等待的application并向worker提交。Worker:worker的主要功能是向
wbj0110
·
2015-01-30 09:00
spark
Spark源码
分析之-scheduler模块
BackgroundSpark在资源管理和调度方式上采用了类似于Hadoop YARN的方式,最上层是资源调度器,它负责分配资源和调度注册到Spark中的所有应用,Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部,Spark又实现了任务调度器,负责任务的调度和协调,类似于MapReduce。本质上,外层的资源调度和内层的任务调度相互独立,各司其职。本文对于Spark的源码
wbj0110
·
2015-01-30 09:00
spark
Spark源码
分析之-scheduler模块
BackgroundSpark在资源管理和调度方式上采用了类似于Hadoop YARN的方式,最上层是资源调度器,它负责分配资源和调度注册到Spark中的所有应用,Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部,Spark又实现了任务调度器,负责任务的调度和协调,类似于MapReduce。本质上,外层的资源调度和内层的任务调度相互独立,各司其职。本文对于Spark的源码
wbj0110
·
2015-01-30 09:00
spark
Spark源码
分析之-scheduler模块
BackgroundSpark在资源管理和调度方式上采用了类似于Hadoop YARN的方式,最上层是资源调度器,它负责分配资源和调度注册到Spark中的所有应用,Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部,Spark又实现了任务调度器,负责任务的调度和协调,类似于MapReduce。本质上,外层的资源调度和内层的任务调度相互独立,各司其职。本文对于Spark的源码
wbj0110
·
2015-01-30 09:00
spark
Spark源码
分析(四)调度管理2
DAGSchedulerSparkContext有两中提交作业的方法:1、是我前面一章讲的runJob方法2、还有一种是submit方法它们都是提交到DAGScheduler中,DAGScheduler对外暴露的两个入口两者的区别在于DAGScheduler.runJob在内部调用DAGScheduler.submit返回一个JobWaiter对象,阻塞等待直到作业完成或失败;而后者直接调用DAG
qq418517226
·
2015-01-27 23:00
源码
hadoop
spark
大数据
yarn
Spark源码
分析(三)调度管理1
Spark调度相关概念Task(任务):单个分区数据集上的最小处理流程单元TaskSet(任务集):由一组关联的,但相互之间没有Shuffle依赖关系的任务所组成的任务集Stage(调度阶段):由一个任务集对应Job(作业):由一个RDDAction生成的一个或多个调度阶段所组成的一次计算作业Application(应用程序):Spark应用程序,由一个或多个作业组成,用户编写的作业运行上一章讲了
qq418517226
·
2015-01-27 16:00
源码
hadoop
spark
大数据
yarn
Spark源码
分析(二)RDD
前言前段时间写了第一篇博客,回头想了想,补充一些东西:1、我的Spark版本是1.0.2的2、以后一个星期至少一篇博客,还请大家多多支持3、因为都是自己的一些拙见,有些问题还请大家指出,我会及时回复谢谢!!!关于RDD,有一篇论文,大家可以参考下《ResilientDistributedDatasets:AFault-TolerantAbstractionforIn-MemoryClusterCo
qq418517226
·
2015-01-20 16:00
源码
hadoop
spark
大数据
yarn
AKKA 实现 并行 Word Count
刚接触akka不久,之前看
spark源码
的时候,发现spark的master跟worker之间消息传递等都是用的akka。所以决定先了解下akka再说。作为typesafe公司下的三个产品(play!
blue1110
·
2015-01-15 19:00
akka
word
count
Spark源码
分析(一)作业提交
Spark架构 1、Standalone架构整个集群分为Master节点和Worker节点,相当于Hadoop的Master和Slave节点。Master节点上常驻Master守护进程,负责管理全部的Worker节点。Worker节点上常驻Worker守护进程,负责与Master节点通信并管理executors。Driver官方解释是“Theprocessrunningthemain()fun
qq418517226
·
2015-01-14 15:00
源码
hadoop
spark
大数据
yarn
用IDEA创建sbt的Scala工程
Spark源码
是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。下面我们以IDEA创建一个Scala项目。
zhongwen7710
·
2015-01-04 21:00
scala
spark
idea
Apache
Spark源码
走读之18 -- 使用Intellij idea调试
Spark源码
)(zhuan)
Apache
Spark源码
走读之18--使用Intellijidea调试
Spark源码
-徽沪一郎时间2014-07-1713:47:00富贵有定数,学问则无定数相似文章(0)原文http://www.cnblogs.com
javastart
·
2015-01-02 09:53
大数据
Apache
Spark源码
走读之18 -- 使用Intellij idea调试
Spark源码
)(zhuan)
Apache
Spark源码
走读之18--使用Intellijidea调试
Spark源码
-徽沪一郎时间 2014-07-1713:47:00富贵有定数,学问则无定数相似文章(0)原文 http://www.cnblogs.com
javastart
·
2015-01-02 09:00
spark编译安装及部署
1、下载并编译
spark源码
下载sparkhttp://spark.apache.org/downloads.html我下载的是1.2.0版本解压并编译,在编译前,可以根据自己机器的环境修改相应的pom.xml
tjbklx33
·
2014-12-29 16:44
spark
spark
spark编译安装及部署
1、下载并编译
spark源码
下载sparkhttp://spark.apache.org/downloads.html 我下载的是1.2.0版本 解压并编译,在编译前,可以根据自己机器的环境修改相应的
tjbklx33
·
2014-12-29 16:44
spark
spark源码
研究---作业提交
注意看表红的地方,那是代码的执行流程,有些通信的地方没有标注,因为通信是在太多了DAG:private[scheduler]defhandleJobSubmitted(jobId:Int, finalRDD:RDD[_], func:(TaskContext,Iterator[_])=>_, partitions:Array[Int], allowLocal:Boolean, callSite:C
hao707822882
·
2014-10-28 22:00
spark作业提交
Spark源码
分析之-scheduler模块
BackgroundSpark在资源管理和调度方式上采用了类似于Hadoop YARN的方式,最上层是资源调度器,它负责分配资源和调度注册到Spark中的所有应用,Spark选用Mesos或是YARN等作为其资源调度框架。在每一个应用内部,Spark又实现了任务调度器,负责任务的调度和协调,类似于MapReduce。本质上,外层的资源调度和内层的任务调度相互独立,各司其职。本文对于Spark的源码
hao707822882
·
2014-10-20 18:00
spark调度
IDEA阅读
Spark源码
将spark编译成idea-sbt工程tar-zxvfspark-1.1.0.tgzcdspark-1.1.0sbt/sbtgen-idea等待…… 成功后就能以SBT工程的形式导入idea进行阅读运行。如果提示栏出现如下的提示内容"iswaitingfor.sbt.ivy.lock",说明该lock文件无法创建,需要手工删除,具体操作如下:cd$HOME/.ivy2rm*.lock手工删除掉lo
lsshlsw
·
2014-10-19 18:00
spark
scala for spark
写了点scala的内容,方便看
spark源码
,估计一两天就能看完,内容比较粗浅。下载地址:http://download.csdn.net/detail/lsshlsw/7983541
lsshlsw
·
2014-09-28 08:00
scala
spark
Spark源码
编译
为什么需要编译?因为不同版本的HDFS在协议上是不兼容的,所以如果你想用你的Spark从HDFS上读取数据,那么你就的选择相应版本的HDFS来编译Spark,这个可以在编译的时候通过设置hadoop.version来选择,默认情况下,Spark默认为编译成Hadoop1.0.4版本。现在可以使用的方法有Maven编译,sbt编译(时间较长),Spark自带脚本编译(实际还是调用Maven)。当然也
breeze_lsw
·
2014-09-28 08:50
spark
源码编译
Maven
Spark
Apache
Spark源码
走读之24 -- Sort-based Shuffle的设计与实现
欢迎转载,转载请注明出处。 概要 Spark 1.1中对spark core的一个重大改进就是引入了sort-based shuffle处理机制,本文就该处理机制的实现进行初步的分析。 Sort-based Shuffle之初体验 通过一个小的实验来直观的感受一下sort-based shuffle算法会产生哪些中间文件,具体实验步骤如下所述。 步骤1: 修改conf/spark-defau
·
2014-09-19 10:00
shuffle
Spark源码
分析(1) 从WordCount示例看Spark延迟计算原理
WordCount示例:val file=spark.textFile("hdfs://...")val counts=file.flatMap(line=>line.split("")) .map(word=>(word,1)) .reduceByKey(_+_)counts.saveAsTextFile("hdfs://...")
josephguan
·
2014-08-22 12:00
spark
源代码
lazy
Spark源码
分析(四)-Job提交过程
原创文章,转载请注明:转载自http://www.cnblogs.com/tovin/p/3903478.html本文将以一个简单的WordCount为例来看看Job的提交过程由输出的日志可以看出job的提交过程主要经过了SparkContext-》DAGScheduler-》TaskScheduler的处理先从RDD入手,看看RDD的转化过程。在wordcount程序中一个README.md文件
tovin
·
2014-08-21 15:00
Apache
Spark源码
走读:如何进行代码跟读
概要转载的,做个标记今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交互,那如何知道谁是接收方呢?newThrowable().printStackTrace代码跟读的时候,经常会借助于日志,针对日志中输出的每一句,我们都很想知道
混绅士
·
2014-08-13 10:02
源码
spark
Apache
Spark源码
走读:如何进行代码跟读
概要转载的,做个标记今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交互,那如何知道谁是接收方呢?newThrowable().printStackTrace代码跟读的时候,经常会借助于日志,针对日志中输出的每一句,我们都很想知道
混绅士
·
2014-08-13 10:02
spark
源码
Spark
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他