E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark源码
[笔记迁移][Spark][12]
Spark源码
——内核架构5
文章目录11.Shuffle(最最最最最重要,重点出错、调优目标)12.BlockManager:底层数据管理组件(还是主从结构)13.CacheManager(2.3中没有CacheManager)11.Shuffle(最最最最最重要,重点出错、调优目标)(1)发生时机:与Tuple的key操作相关,包括reduceByKey/groupByKey/sortByKey/countByKey/jo
Bro_Rabbit
·
2019-07-24 11:25
bigdata
spark
spark 源码分析之十八 -- Spark存储体系剖析
NettyRpcEnv是Spark的默认的RpcEnv实现,它提供了个Spark集群各个节点的底层通信环境,可以参照文章
spark源码
分析之十二--SparkRPC剖析之SparkRPC总结做深入了解。
匠心源码
·
2019-07-23 19:00
spark 源码分析之十七 -- Spark磁盘存储剖析
上篇文章
spark源码
分析之十六--Spark内存存储剖析主要剖析了Spark的内存存储。本篇文章主要剖析磁盘存储。
匠心源码
·
2019-07-21 20:00
spark 源码分析之十六 -- Spark内存存储剖析
上篇
spark源码
分析之十五--Spark内存管理剖析讲解了Spark的内存管理机制,主要是MemoryManager的内容。
匠心源码
·
2019-07-18 21:00
[笔记迁移][Spark][11]
Spark源码
——内核架构4
文章目录8.TaskScheduler——分发Task至Executor9.Executor10.Task8.TaskScheduler——分发Task至Executor/***TaskScheduler提交Task的入口*/overridedefsubmitTasks(taskSet:TaskSet){valtasks=taskSet.taskslogInfo("Addingtaskset"+t
Bro_Rabbit
·
2019-07-18 16:29
bigdata
spark
spark 源码分析之十五 -- Spark内存管理剖析
在上篇文章
spark源码
分析之十四--broadcast是如何实现的?中对存储相关的内容没有做过多的剖析,下面计划先剖析Spark的内存机制,进而进入内存存储,最后再剖析磁盘存储。
匠心源码
·
2019-07-17 19:00
remote debug 远程调试
Spark源码
1.IDEA配置remotedebug:2.客户端设置监听:exportSPARK_SUBMIT_OPTS=-agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=90013.客户端提交任务(启动Spark),可以看到监听生效:Listeningfortransportdt_socketataddress:90014.IDEA中开
merrily01
·
2019-07-15 10:41
Spark
Spark
(
spark源码
)union算子
摘要问题:spark中,union方法是否重新分区,是否会触发shuffle结论:不会shuffle,不会划分stage,但是可能重新分区(窄依赖)解释:(1)宽窄依赖对应的原称为ShuffleDependency和NarrowDependency,字面上可以看出来,只有宽依赖才会发生shuffle.但是两种依赖都会重新分区,因此重分区和是否shuffle没有关系(2)如果被union的多个rdd
IAmListening
·
2019-07-04 14:45
源码
spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析
在上篇
spark源码
分析之五--Spark内置RPC机制剖析之一创建NettyRPCEnv中,涉及到了Diapatcher内容,未做过多的剖析。本篇来剖析一下它的工作原理。
weixin_30632899
·
2019-07-03 22:00
大数据
netty
runtime
修改
Spark源码
实现MySQL update
当我们在使用Spark写数据到MySQL时,通常会使用df.write.mode("xxx")...,但是当你点进mode查看源码会发现,可选项为:overwrite:翻盖存在的数据(会删除表或清空表)append:追加数据ignore:忽略操作,就是啥也不干error:抛出AnalysisException异常现在有个需求是数据写入表时当主键Key的数据存在时更新字段,否则插入数据。以上的所有选
雷禄辉
·
2019-06-28 19:09
Spark
Spark源码
拜读(一)
RDD从一个样子转换成另一个状态,代码执行了,啥也没干,到了最后一步一下干了!懒加载是怎么做到的?打开RDD.scala,看最基础的map方法/***ReturnanewRDDbyapplyingafunctiontoallelementsofthisRDD.*/defmap[U:ClassTag](f:T=>U):RDD[U]=withScope{valcleanF=sc.clean(f)new
Wish大人
·
2019-06-27 00:00
scala
spark
spark源码
分析任务流程
赘述本系列的文章将会从
spark源码
的角度来分析spark任务提交集群到运行结束这个过程的处理逻辑,所以对Spark编程的熟练度要求比较高。Spark是基于内存的大数据处理计算引擎。
北风西谷
·
2019-06-22 11:05
[以浪为码]
Spark源码
阅读02 - RPC模块
文章目录RpcEndpointrpc终点RpcEndpointRefRpcEnv与NettyRpcEnvRPC消息发送Outbox发件箱RPC消息接收请求的响应实战总结Spark的RPC模块是建立在network模块之上,虽然network提供了远程调用与数据流传输,但是RPC提供了更加方便的编程方式与性能提升。本文通过阅读RPC模块的代码,来了解其实现。在此之前,建议提前了解一下network模
以浪为码
·
2019-05-11 19:35
Spark源码阅读
小浪阅读
Spark
源码
Spark
源码阅读
RPC
源码
阅读
Spark之functions
前言
Spark源码
中的org.apache.spark.sql包下有一个叫做functions.scala的文件,该文件包含了大量的内置函数,尤其是在agg中会广泛使用(不仅限于此)这些内置函数可以极大的简化
SunnyRivers
·
2019-05-11 16:06
Spark
Spark环境搭建与测试
概述:本文主要介绍CentOS6.5下基于Hadoop的Spark环境搭建过程,并实现塞缪尔·厄尔曼《青春》的词频统计,Spark的具体搭建过程如下:1、下载并解压
Spark源码
https://archive.apache.org
JeeThink
·
2019-05-09 08:07
spark2.4.2编译(mac系统下)
编译前所注意事项:首先,尽可能阅读官网编译文档BuildingApache
Spark源码
下载推荐gitclone或者wget。编译前确保网络良好。
夜下探戈
·
2019-05-02 00:38
Spark
Spark源码
Master和WorkerAkka实现RPC通信原理1.首先启动Master(actorSystem.actorof),然后启动所有的Worker2.Worker启动后,在preStart方法中与Master建立连接,向Master发送注册,将Worker的信息(tcp协议,hostname端口等)通过caseclass封装起来发送给Master3.Master接收到Woker的注册消息后将Wor
paulgeorge9527
·
2019-04-25 23:16
大数据之路
Spark源码
系列之Standalone模式下Spark应用的整个启动过程
一,Standalone模式下的spark角色大家都知道在Standalone模式下,spark一共有以下五种角色:sparksubmit,master,Worker,Driver,Executor。具体这五种角色在我们提交应用的时候起到哪些作用呢,我们下面就来详细讲解。1,SparkSubmit加载一个Spark应用程序的入口。这个类处理设置spark相关依赖的Classpath(足见其重要性)
Jacy_Wang
·
2019-04-09 10:45
spark
分析 在 YARN 模式下的 Spark 里 BlockManager 的 LOCAL_DIRS
一、前言1.版本:Hadoop源码版本:Version2.7.1
Spark源码
版本:Version2.4.1二、分析1.Spark里BlockManager的LOCAL_DIRS在DiskBlockManager
亚历山大的陀螺
·
2019-04-02 21:43
Yarn
Hadoop
Spark
Spark源码
解析:TaskSetManager 任务推断执行源码解析。
1、TaskSetManager的概述TaskSetManager也实现了Schedulable特质,并参与到调度池的调度中,TaskSetManager对TaskSet进行管理,包括任务推断、Task本地性、并对Task进行资源分配。TaskSchedulerImpl依赖于TaskSetManager.2、推断执行在Hadoop2.x.x版本中,当一个应用向Yarn集群提交作业后,此作业的多个任
dadammd353690383
·
2019-03-28 12:03
Spark源码
阅读环境搭建
本实验提供两种方式编译
spark源码
(1)idea+maven需要安装好idea、maven和scala,并配置好对应的环境变量。
leboop
·
2019-03-28 10:18
Spark
eclipse如何导入
Spark源码
方便阅读
很多都是IDEA怎么导入的,还有就是谈到了自己编译
spark源码
再倒入,但我还没有强到修改源码的地步,所以跳过编译直接导入阅读源码,过程如下下载
spark源码
从https://github.com/apache
lzw2016
·
2019-03-09 21:35
Hadoop及Spark学习
#
Learning
Spark
Mac上配置IntelliJ IDEA的
Spark源码
阅读环境
文章目录环境准备主要工具/软件Git安装IntelliJIDEA下载及Scala插件安装sbt安装基本步骤获取git目录在IDEA中构建sparkIDEA中查看代码环境准备主要工具/软件gitIntellijIDEA&ScalaPluginsbtGit安装IntelliJIDEA下载及Scala插件安装IJIDEA下载连接:https://www.jetbrains.com/idea/downlo
Lestat.Z.
·
2019-02-17 18:50
MacOS
Spark
Spark学习随笔
spark源码
阅读之executor模块②
在
spark源码
阅读之executor模块①中,AppClient已经实例化完成,且注册了名为ClientEndpoint的通信端,调用其onStart方法,在其中又调用了registerWithMaster
invincine
·
2019-01-25 18:31
如何将Spark 源码导入IDEA中
下载
spark源码
https://github.com/apache/spark/在branch中选择相应的版本,这里我选择2.4版本待下载完成后,解压文件在IDEA中选择导入项目选择解压源码路径
颓废的大饼
·
2019-01-24 21:52
Spark
spark源码
阅读之executor模块①
本文基于Spark1.6.3源码,采用一步一步深入的方式来展开阅读,本文是为了纪录自己在阅读源码时候的思路,看完一遍真的很容易忘记,写一篇文章梳理一遍可以加深印象。SparkContext:Spark应用的入口SparkContext是用户应用于Spark集群交互的主要接口,所以把SparkContext作为入口来展开executor的源码阅读,主要针对standaone模式下的executor模
invincine
·
2019-01-22 11:51
阿里大数据架构师分享:
Spark源码
解析
首先看一段使用scala编写的spark代码:packagespark0719importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextobjectTtspark{valconf=newSparkConf().setAppName("sp").setMaster("local")defmain(args:Array[Str
假的鱼
·
2019-01-15 17:27
大数据
tigase客户端之smack4.3用法【草稿】
项目介绍sureim项目地址:sureim项目地址gitclonehttps://git.tigase.tech/sureim.gitdemo网站:tigaseim
spark源码
编译获取源代码gitclonehttps
码农下的天桥
·
2018-12-18 18:56
即时通讯
Spark 源码分析之ShuffleMapTask内存数据Spill和合并
原文链接:https://my.oschina.net/u/723009/blog/2988340
Spark源码
分析之ShuffleMapTask内存数据Spill和合并更多资源分享
SPARK源码
分析技术分享
chongqueluo2709
·
2018-12-14 09:00
Spark MapOutputTracker源码分析
原文链接:https://my.oschina.net/u/723009/blog/2988336SparkMapOutputTracker源码分析更多资源分享
SPARK源码
分析技术分享(视频汇总套装视频
chongqueluo2709
·
2018-12-14 09:00
Spark HadoopRdd partition的开始位置计算
https://my.oschina.net/u/723009/blog/2985982SparkHadoopRddpartition的开始位置计算HadoopRDDpartition数据范围计算更多资源
SPARK
chongqueluo2709
·
2018-12-09 23:00
升级 spark 2.3问题:Spark Streaming日志级别设置,最小堆内存设置
最小堆内存相等)2、新集群spark2.3.jdk1.8jvm堆内存分配,刚开始分比较小的内存,当内存不够时,增加内存(主要是老年代内存),新生代内存也有增长,但是比较小(280M-556M),问题分析:查看
spark
T-Janey
·
2018-12-03 17:52
BigData
spark深度解析:调度算法
基于spark1.3.1的源码解读不得不佩服
spark源码
的精炼,standalone模式中,不到100行就搞定了资源调度,spark提供两种资源调度方式,尽量打散:即我们的executor会尽量的分配更多的
Java_Soldier
·
2018-11-28 14:29
spark
spark源码
解读
SparkContext初始化操作privatevalcreationSite:CallSite=Utils.getCallSite()private[spark]vallistenerBus=newLiveListenerBus(this)addedFiles/addedJars:用于存储每个静态文件/jar的URL以及文件的本地时间戳valsparkUser=Utils.getCurrentU
hochoy
·
2018-11-16 11:12
spark
spark源码
分析(1)
一、启动1.spark-submit分析在Linux是一个脚本,内容很简单,如下:if[-z"${SPARK_HOME}"];thenexportSPARK_HOME="$(cd"`dirname"$0"`"/..;pwd)"fi就是找到spark-submit命令所在的目录,然后进行上一层,并赋值给SPARK_HOME禁用Python3.3+中字符串的随机哈希,没关注,不知道为啥这样干expor
mainroot
·
2018-11-14 15:29
Spark源码
系列:RDD repartition、coalesce 对比
在上一篇文章中
Spark源码
系列:DataFramerepartition、coalesce对比对DataFrame的repartition、coalesce进行了对比,在这篇文章中,将会对RDD的repartition
lillcol
·
2018-11-01 17:00
Spark源码
系列:DataFrame repartition、coalesce 对比
在Spark开发中,有时为了更好的效率,特别是涉及到关联操作的时候,对数据进行重新分区操作可以提高程序运行效率(很多时候效率的提升远远高于重新分区的消耗,所以进行重新分区还是很有价值的)。在SparkSQL中,对数据重新分区主要有两个方法repartition和coalesce,下面将对两个方法比较repartitionrepartition有三个重载的函数:defrepartition(numP
lillcol
·
2018-10-31 19:00
搭建
Spark源码
研读和代码调试的开发环境
转载自https://github.com/linbojin/spark-notes/blob/master/ide-setup.md搭建
Spark源码
研读和代码调试的开发环境工欲善其事,必先利其器,第一篇笔记介绍如何搭建源码研读和代码调试的开发环境
cjlion
·
2018-10-23 20:07
spark
Spark源码
之连接簇SparkContext
任务提交之后,代码会依次执行,因为懒加载的缘故,算子都不会立即执行,直到遇到action动作。我们都知道遇到动作后,DAGScheder会根据无线图分解stage,TaskScheder会申请并运行任务。但是在此之前,需要一个连接来配置启动环境,来启动这些类。这就是我要说的SparkContext。在源码中对它有这样的描述MainentrypointforSparkfunctionality.AS
机器不能学习
·
2018-10-18 16:26
Spark源码
之DAGScheduler
Spark源码
之DAGScheduler介绍篇SparkApplication中的RDD经过一系列的Transformation操作后由Action算子导致了SparkContext.runjob的执行
小狼星I
·
2018-10-17 16:17
【Spark内核源码】
Spark源码
环境搭建
目录准备条件下载
spark源码
,并解压打开
spark源码
下的pom.xml文件,修改对应的java和intellij里的maven版本打开intellij,InportProject,将源码导入intellij
lazy_moon
·
2018-10-09 23:43
Spark内核源码
Windows Eclipse
Spark源码
maven导入小记
Spark环境和环境变量已经搭好,同时,也必须安装和配置GIT环境变量,亲测通过Maven导入
spark源码
是可行的,虽然期间有各种错误,而且尝试IDEA也是一样的问题,很多错误其实很好找原因,前提是不要过度依赖谷歌
farcicalbird
·
2018-09-24 00:09
Spark
Spark源码
研读-散篇记录(二):Spark内置RPC框架之TransportConf
1Spark版本Spark2.1.0。2说明去年在网易之初,已经开发了一个完整的RPC框架,其中使用的核心技术也是Netty,所以当看到Spark的RPC框架时,并不觉得太陌生,关于个人开发的这个RPC框架,真正完全可用是在今年,明年会完善一下,开源出来,因为个人觉得弄得一个简单RPC框架的技术原理,对于大数据、分布式计算相关的知识,真的是帮助太大。本篇说一下TransportContext、Tr
xpleaf
·
2018-09-10 23:58
Spark
源码
TransportConf
Spark
Spark源码
研读-散篇记录(一):SparkConf
0关于散篇记录散篇记录就是,我自己觉得有需要记录一下以方便后来查找的内容,就记录下来。1Spark版本Spark2.1.0。2说明源码过程中所涉及的许多Scala的知识,完全可以参考之前Scala的笔记文章,应该来说确实很多知识内容都涉及到了。3SparkConf源码SparkConf的源码相对不难,主要是对Spark本身要有所理解,同时Scala也应该要有所掌握,那么看起来就不太复杂,只看了比较
xpleaf
·
2018-09-09 23:40
Spark
源码
SparkConf
Spark
搭建
Spark源码
研读和代码调试的开发环境
Note:环境的基本配置可以参考我这里转载的这篇文章,当然我自己尝试的时候还是会出现其它的问题,如果有,那么参考下面两篇文章的案例:https://blog.51cto.com/wangyuguo/1981837https://www.mail-archive.com/
[email protected]
&q=subject:%22Build+error%22&o=newe
xpleaf
·
2018-09-08 20:20
大数据
Spark
源码
Spark
Spark源码
解析之Stage划分
这里以count操作为例,一步步解析Spark在执行一个Job时如何进行DAG图的解析。Spark在遇到Action类型算子时,会使用SparkContext进行一系列的runJob方法调用,最终会调用DAGScheduler的runJob方法来划分DAG图。一、runJob方法调用//计算RDD中包含的键值对个数,此时会触发一个SparkContext来提交执行Jobdefcount():Lon
dmy1115143060
·
2018-08-31 20:45
Spark
scala的函数式编程(一)
也就是因为函数才使得scala更加简洁、优雅、又耐人寻味,总之,函数式编程在scala中是一等一的重要,使用scala开发的各类框架都存在这大量函数,如果想去了解、阅读
Spark源码
,函数式编程这一关必须要过
lazy_moon
·
2018-08-22 20:57
scala基础
spark sql自己定义规则
1)github下载
spark源码
(下面的代码都是需要添加的,找到对应的文件进行添加即可)2)找到SqlBase.g4文件,以offset为例进行说明,下面的2.1)找到下面的内容queryOrganization
强子no2
·
2018-08-17 11:16
Spark
Spark源码
解读之Executor以及Task工作原理剖析
前一篇文章中主要讲述了TaskScheduler发送TaskSet中的task到executor中执行,那么,本篇文章接着上文的讲述看看executor的工作原理以及task是如何执行的。首先来看看executor的工作流程:executor会启动一个后台进程CoarseGrainedExecutorBackend,首先它会向driver发送RegisterExecutor消息注册executor
不清不慎
·
2018-08-03 23:27
Spark
大数据
Spark源码剖析与调优
Spark源码
分析之DAGScheduler详解
在前面的几节中,主要介绍了SparkContext的启动初始化过程,包括Driver的启动,向Master的注册,Master启动Worker,在Worker中启动Executor,以及Worker向Master的注册,在讲述完这些之后,所有的准备工作都已经做完,就开始真正执行我们的Application,首先它会提交job到DAGScheduler中执行,包括对于job的stage划分,还有ta
不清不慎
·
2018-07-31 17:36
Spark
大数据
Spark源码剖析与调优
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他