E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark源码
Spark源码
分析:Spark存储管理
Spark源码
分析:Spark存储管理我们在编写soark程序,总是和rdd打交道,但是rdd仅仅是一个“形”,我们所操作的数据放在哪里呢?他和rdd又是怎么映射的呢。
raincoffee
·
2020-02-27 00:27
Spark源码
分析:RDD的依赖
RDD的成员之一是依赖集,依赖集也关系到任务调度源码Dependency代码主要在一个源文件中:core/Dependency代码中有5个类。除此以外在core/rdd/PartitionPruningRDD还有一个PruneDependency类。他们的名称和继承关系如下图:通过阅读代码可以得到以下信息:依赖的根类是Dependency,只有一个RDD成员,表示依赖的对象。这类继承了Serial
千锋IJava
·
2020-02-20 13:10
SPARK
Spark源码
分析:RDD的依赖
RDD的成员之一是依赖集,依赖集也关系到任务调度源码Dependency代码主要在一个源文件中:core/Dependency代码中有5个类。除此以外在core/rdd/PartitionPruningRDD还有一个PruneDependency类。他们的名称和继承关系如下图:通过阅读代码可以得到以下信息:依赖的根类是Dependency,只有一个RDD成员,表示依赖的对象。这类继承了Serial
千锋IJava
·
2020-02-20 13:49
SPARK
华为云服务器centos7.2下
spark源码
编译
1.下载sourcehttp://spark.apache.org/downloads.html2.解压[root@ecs-dce7software]#tar-xvfspark-2.2.0.tgz-C../app/[
[email protected]
]#vimpom.xml搜索/central找到添加第二个repositoryclouderahttps://repository.cl
HUAWEIMate20
·
2020-02-20 01:20
spark源码
阅读——shuffle读
DAGScheduler在拆分任务的时候如果发现需要shuffle则会把之前RDD运算产生的结果输出到本地磁盘中(详细的会在以后的文章分析)。紧接着就需要对Shuffle后的结果分别进行运算了(比如说count)那么接着之前的RDD会有一个ShuffledRDD来处理shuffle之后的结果。(实际上是一个新的Stage)同样在这个Stage会把任务拆分成Task并发送给Executor这里拆分成
Orz
·
2020-02-19 18:35
Spark Streaming运行流程及源码解析(一)
本系列主要描述SparkStreaming的运行流程,然后对每个流程的源码分别进行解析之前总听同事说
Spark源码
有多么棒,咱也不知道,就是疯狂点头。今天也来撸一下
Spark源码
。
upupfeng
·
2020-02-18 10:00
为Spark Deep Learning 添加NLP处理实现
后面看了TFoS,感觉很是巧妙,写了一篇TensorFlowOn
Spark源码
解析。
祝威廉
·
2020-02-18 04:01
[语法]updateStateByKey~Spark Streaming累加器操作
Spark源码
走读12——SparkStreaming-峰哥的专栏-博客频道-CSDN.NEThttp://blog.csdn.net/huwenfeng_2011/article/details/43371325UpdateStateByKey
葡萄喃喃呓语
·
2020-02-17 21:59
【Spark】DAGScheduler源码浅析2
引入上一篇文章DAGScheduler源码浅析主要从提交Job的流程角度介绍了DAGScheduler源码中的重要函数和关键点,这篇DAGScheduler源码浅析2主要参考fxjwind的
Spark源码
分析
JasonDing
·
2020-02-16 18:24
原创-
Spark源码
分析二:Standalone模式下Master启动源码分析
接着上篇分析《https://www.jianshu.com/p/c9aa62460e43》在Master选举为leader后发送ElectedLeader消息,匹配recive方法中的ElectedLeader消息处理caseElectedLeader=>//获取持久化的app、driver、worker信息val(storedApps,storedDrivers,storedWorkers)=
无色的叶
·
2020-02-16 11:01
Spark On Hive 部署和配置
SparkOnHive,通过sparksql模块访问和使用Hive,默认Spark预编译(pre-built)版不包含hive相关依赖,并不支持此功能,因此需要对
spark源码
进行重新编译,并进行相关的配置
Jogging
·
2020-02-16 03:33
Spark源码
分析:SparkContext初始化
Spark源码
分析:SparkContext初始化1.Spark怎么运行?
raincoffee
·
2020-02-14 08:43
以LinkedBlockingQueue为例浅谈阻塞队列的实现
问题最近在阅读
Spark源码
的过程中,又重新接触到了一些Java并发方面的知识,于是就见缝插针地将它们记录下来,当做复习与备忘。
LittleMagic
·
2020-02-06 13:35
22list[听风居士]Spark 源码解析:TaskScheduler的任务提交和task最佳位置算法 - 听风居士
Spark源码
解析:TaskScheduler的任务提交和task最佳位置算法-听风居士-博客园http://www.cnblogs.com/zhouyf/p/5743382.html
Spark源码
解析
葡萄喃喃呓语
·
2020-02-05 13:38
Spark Shuffle Write 和Read
本文基于
spark源码
2.111.前言shuffle是sparkjob中一个重要的阶段,发生在map和reduce之间,涉及到map到reduce之间的数据的移动,以下面一段wordCount为例:defmain
aaron1993
·
2020-01-08 02:41
Git__ERROR__src refspec master does not match any. 错误处理办法
要学习一个
Spark源码
,想在学习过程中加一些注释,便于日后自己回忆、与同事分享。所以下载了
Spark源码
,并上传到自己github。在向远程push代码的时候,报上面错误。原因:本地仓库为空。
guyuetftb
·
2020-01-07 11:28
spark源码
解析之partitioner
spark中stage的划分依据action算子进行,每一次action(reduceByKey等)算子都会触发一次shuffle过程,该过程涉及到数据的重新分区。spark中的分区器包括HashPartitioner及RangePartitioner两种。HashPartitioner根据key进行分区,当某一个key对应的数据较多时会出现数据倾斜的情况,又因为每一个partition对应一个t
藤风
·
2019-12-30 01:19
编译
Spark源码
支持Hive并部署
1、
Spark源码
下载Spark官网提供了预编译版本的Spark,但是要获得hive支持的Spark版本必须自己下载
Spark源码
进行编译加入hive支持。
祁衍
·
2019-12-29 13:12
一周 IT 技术干货(码农周刊第 32 期)
网页版|快速订阅《码农周刊》程序设计系列文章:深入剖析Redis(@郑思愿daoluan)系列文章:Apache
Spark源码
走读(@徽沪一郎)工作机会[北京]大鱼[杭州]大搜车[杭州]风先生即刻送[上海
码农IO
·
2019-12-26 07:59
Spark源码
解析排序算子sortBy和sortByKey存在未排序的情况
一.在使用中出现的问题1packagetest23importorg.apache.log4j.{Level,Logger}4importorg.apache.spark.sql.SparkSession56/**7*CreatedbyAdministratoron2019/12/17.8*/9objectTestZip{10/**11*设置日志级别12*/13Logger.getLogger("
云山之巅
·
2019-12-24 11:00
Spark入门指南 IV - 抛砖引玉的
Spark源码
开发
文章也同时在个人博客http://kimihe.com/更新引言"ApacheSpark™isafastandgeneralengineforlarge-scaledataprocessing."Spark是一种高性能分布式计算框架。它基于RDD使用内存来加速迭代过程。相比于前辈Hadoop,Spark有着更好的性能表现,尤其针对MachineLearning此类典型的应用,提升更为显著。作为入门
QihuaZhou
·
2019-12-23 10:04
帮你快速理解 Spark 的分区器
借用
Spark源码
里对groupByKey算子的描述(@noteThisoperationmaybeveryexpensive。。。),可见一斑。
俺是亮哥
·
2019-12-21 19:19
spark 源码阅读
1、IDEA查看spark元源码1、获取
spark源码
url:https://github.com/apache/spark.git登陆进去如下图所示image.png点击clone或者下载下
spark
早点起床晒太阳
·
2019-12-18 00:59
Spark源码
:启动Executors
源码目录SparkContext初始化时,创建并启动了TaskScheduler;TaskScheduler启动时注册Application到Master;Master上启动Application时会调用startExecutorsOnWorkers方法启动Executors;这里分析Executors的启动过程。1在Workers上规划Executors进入org.apache.spark.de
Jorvi
·
2019-12-17 16:28
Spark源码
:启动Worker
源码目录1start-slave.sh#NOTE:ThisexactclassnameismatcheddownstreambySparkSubmit.#Anychangesneedtobereflectedthere.CLASS="org.apache.spark.deploy.worker.Worker"#Startuptheappropriatenumberofworkersonthisma
Jorvi
·
2019-12-17 15:29
Spark源码
:运行Task
源码目录Driver端调用launchTasks方法发送LaunchTask消息给Executor,用于启动Task。1接收处理LaunchTask消息进入org.apache.spark.executor.CoarseGrainedExecutorBackend.scalaoverridedefreceive:PartialFunction[Any,Unit]={caseLaunchTask(d
Jorvi
·
2019-12-17 15:07
Spark源码
:构建处理链
源码目录1程序入口varconf:SparkConf=newSparkConf().setAppName("SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkContext.parallelize(List("aaa","bbb","ccc","ddd"),2).r
Jorvi
·
2019-12-17 15:33
Spark内核分析之spark作业的三种提交方式
最近在研究
Spark源码
,顺便记录一下,供大家学习参考,如有错误,请批评指正。好,废话不多说,这一篇先来讲讲Spark作业提交流程的整体架构。
z小赵
·
2019-12-17 04:25
spark源码
调试Debug环境搭建
运行环境java1.8scala2.11.0maven3.3.9idea2016spark2.0.21完成以下配置java环境变量scala环境变量mavensetting配置文件jar包存放路径idea下载scalaplugins语言插件idea配置mavensetting及jar包存放路径sparkgit:https://github.com/apache/spark.git2编译spark源
HxLiang
·
2019-12-16 11:01
spark源码
中为什么有java scala python代码
新手很迷茫的一个问题,
spark源码
中为什么有javascalapython代码当看过源码就会发现,spark框架虽然是scala实现的,但是涉及到内存处理,网络,并发,磁盘io等计算机底层实现还是选择了
HxLiang
·
2019-12-14 06:37
spark源码
解析
如何阅读源码?任何一个程序,或者一个框架,无论做什么,多么复杂,都会有唯一的入口。通过这个入口,能够找到一条主线,这条主线就是这个程序或者框架的核心。围绕这条主线,追溯整个调用链路,就能发掘出框架中的核心抽象,将这些抽象的作用搞懂,同时将它们之间的关系通过uml表示出来,这样,源码的大体结构就一览无余了。源码会涉及很多包,其实包本身就是对源码的分类和抽象,这些包的功能也要弄清楚。源码分为核心代码和
格瓦拉爱喝格瓦斯
·
2019-12-08 07:18
spark源码
解析-分析一次完整的远程请求过程
spark版本:2.0.01.概念1.引入前面已经介绍了master启动,worker启动和rpc原理,现在结合这些,来探究一下一次完整的远程请求到底是咋样的?就以worker启动后注册到master为例,我们来细细品味一下其远程服务调用过程。2.远程服务请求过程worker注册到master的方法是masterEndpoint.ask[RegisterWorkerResponse](Regist
missv5
·
2019-11-25 21:35
spark
spark
rpc
源码分析
python+Potrace实现自动作画——程序员的浪漫
连续看了快一个月的
spark源码
,吃饭脑子里蹦出来的都是rpc私有协议、DAGschedule人、TASKscheduler、调度、资源申请.....总之一句话就是看的快吐了,该换换脑子再做打算。
远洋之帆
·
2019-11-22 16:00
开发小技巧
spark源码
解析-master流程分析
spark版本:2.0.01.概念master管理着spark的主要元数据,用于管理集群,资源调度等。2.master启动过程2.1Master.main方法在start-master.sh脚本中可以看出最终调用的是org.apache.spark.deploy.master.Master的main方法。现在来分析一下这个方法:defmain(argStrings:Array[String]){/
missv5
·
2019-11-22 15:38
spark
spark
大数据
spark源码分析
源码
Spark源码
执行逻辑分析【基于案例SparkPi】
一.案例SparkPi代码1packagescala23importorg.apache.spark.sql.SparkSession45importscala.math.random67/**Computesanapproximationtopi*/8objectSparkPi{9defmain(args:Array[String]){10valspark=SparkSession11.buil
云山之巅
·
2019-11-11 15:00
[
Spark源码
剖析] DAGScheduler划分stage
划分stage源码剖析本文基于Spark1.3.1先上一些stage相关的知识点:DAGScheduler将Job分解成具有前后依赖关系的多个stageDAGScheduler是根据ShuffleDependency划分stage的stage分为ShuffleMapStage和ResultStage;一个Job中包含一个ResultStage及多个ShuffleMapStage一个stage包含多
牛肉圆粉不加葱
·
2019-11-08 16:50
Spark源码
分析:Spark运行模式及原理
Spark源码
分析:Spark运行模式及原理1.运行模式概述spark运行模式多种多样,分为以下几种本地模式为分布式集群standalonemesoshadoopyarn基本框架:2.相关类介绍taskscheduler
raincoffee
·
2019-11-08 12:26
搞定Spark 源码单元测试
在
Spark源码
上添加了些代码,想做个单元测试,倒弄了半天,发现怎么着都会跑所有的单测,好浪费时间。
分裂四人组
·
2019-11-08 02:31
【Spark】配置
Spark源码
阅读环境
Scala构建工具(SBT)的使用SBT介绍SBT是SimpleBuildTool的简称,如果读者使用过Maven,那么可以简单将SBT看做是Scala世界的Maven,虽然二者各有优劣,但完成的工作基本是类似的。虽然Maven同样可以管理Scala项目的依赖并进行构建,但SBT的某些特性却让人如此着迷,比如:使用Scala作为DSL来定义build文件(onelanguagerulesthema
JasonDing
·
2019-11-06 21:39
基于Centos7编译spark指定Hadoop版本
基于Centos7编译Spark0摘要主要探究了如何对
spark源码
进行编译,以及普及了一下Maven中的-P,-D的意义以及我在编译过程中遇到的两个坑。为什么需要编译
spark源码
呢?
TrueKai
·
2019-10-19 14:00
升级 spark 2.4问题:Spark Streaming日志级别设置,最小堆内存设置
最小堆内存相等)2、新集群spark2.4.1jdk1.8jvm堆内存分配,刚开始分比较小的内存,当内存不够时,增加内存(主要是老年代内存),新生代内存也有增长,但是比较小(280M-556M),问题分析:查看
spark
灵佑666
·
2019-10-07 17:11
Spark
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!
上篇基于
Spark源码
,从一个动手实战案例入手,
段智华
·
2019-09-26 18:47
出版书籍
AI
&
Big
Data案例实战课程
Windows上IDEA搭建最新Spark2.4.3源码阅读及调试的开发环境
1.搭建
Spark源码
环境所需准备搭建
Spark源码
环境所需要准备的一些东西需要先准备好。这里也有我踩过的一些坑,我也会一并介绍。首
zzzzMing
·
2019-08-28 18:00
spark概念
spark源码
:https://github.com/apache/spark官网:xxxx.apache.org源码:https://github.com/apache/xxxxRDDRDD:ResilientDistributedDataset
shone_shawn
·
2019-08-16 13:47
spark shuffle的写操作之准备工作
前言在前三篇文章中,
spark源码
分析之十九--DAG的生成和Stage的划分剖析了DAG的构建和Stage的划分,
spark源码
分析之二十--Stage的提交剖析了TaskSet任务的提交,以及
spark
匠心源码
·
2019-08-02 22:00
spark 源码分析之二十一 -- Task的执行流程
引言在上两篇文章
spark源码
分析之十九--DAG的生成和Stage的划分和
spark源码
分析之二十--Stage的提交中剖析了Spark的DAG的生成,Stage的划分以及Stage转换为TaskSet
匠心源码
·
2019-07-29 19:00
Spark 源码分析系列
如下,是
spark源码
分析系列的一些文章汇总,持续更新中......SparkRPC
spark源码
分析之五--SparkRPC剖析之创建NettyRpcEnv
spark源码
分析之六--SparkRPC剖析之
匠心源码
·
2019-07-28 16:00
spark 源码分析之二十 -- Stage的提交
引言上篇
spark源码
分析之十九--DAG的生成和Stage的划分中,主要介绍了下图中的前两个阶段DAG的构建和Stage的划分。本篇文章主要剖析,Stage是如何提交的。
匠心源码
·
2019-07-26 19:00
spark 源码分析之十九 -- DAG的生成和Stage的划分
上篇文章
spark源码
分析之十八--Spark存储体系剖析重点剖析了Spark的存储体系。从本篇文章开始,剖析Spark作业的调度和计算体系。在说DAG之前,先简单说一下RDD。
匠心源码
·
2019-07-25 19:00
[笔记迁移][Spark][13]
Spark源码
——内核架构6
文章目录14.CheckPoint1.适用场景2.为什么3.功能:容错与高可用4.原理5.Checkpoint和持久化(persist/cache)的区别?6.建议7.源码14.CheckPoint1.适用场景自定义Spark应用程序特别复杂,从初始RDD到整个应用完成有很多步骤,比如超过20个Transformation操作,而且整个应用运行的时间也特别长,比如1-5小时。2.为什么对于特别复杂
Bro_Rabbit
·
2019-07-24 13:58
bigdata
spark
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他