E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
Spark源码
阅读02-Spark核心原理之调度算法
Spark核心原理之调度算法Spark核心原理之调度算法应用程序之间作业及调度阶段之间1.创建调度池2.调度池加入调度内容3.提供已排序的任务集管理器任务之间1.数据本地性2.延迟执行3.任务执行调度算法Spark核心原理之调度算法在Spark的Standalone模式下的调度算法中,有三种粒度的调度算法。在应用程序之间可以任务执行的是有条件的FIFO策略,在作业及调度阶段提供了FIFO模式和FA
Faith_xzc
·
2021-11-14 01:17
Spark
Scala
spark
算法
大数据
Spark源码
阅读02-Spark核心原理之作业执行原理
概述Spark的作业调度主要是指基于RDD的一系列操作构成的一个作业,在Executor中执行的过程。其中,在Spark作业调度中最主要的是DAGScheduler和TaskScheduler两个调度器的执行。这两个调度器的主要任务如下:DAGScheduler负责任务逻辑调度,将作业拆分成不同阶段的具有依赖关系的任务集TaskScheduler负责具体任务的调度执行下图是Spark的作业和任务调
Faith_xzc
·
2021-11-08 19:10
Spark
spark
big
data
scala
Spark源码
阅读02-Spark核心原理之消息通信原理
Spark消息通信架构在Spark中定义了通信框架接口,这些接口实现中调用了Netty的具体方法。通信框架使用了工厂设计模式,这种模式实现了对Netty的解耦,能够根据需要引入其他的消息通信工具。Spark消息通信类图如下:通信框架在上图中虚线的部分。其具体实现步骤为:①定义RpcEnv和RpcEnvFactory两个抽象类,其中在RpcEnv中定义了RPC通信框架启动、停止和关闭等抽象方法;在R
Faith_xzc
·
2021-11-06 09:26
Spark
Scala
spark
大数据
scala
解析
spark源码
yarn-cluster模式任务提交
目录一,运行命令二,任务提交流程图三,启动脚本四,程序入口类org.apache.spark.deploy.SparkSubmit五,org.apache.spark.deploy.yarn.YarnClusterApplication类六,org.apache.spark.deploy.yarn.ApplicationMaster类。一,运行命令bin/spark-submit\--master
·
2021-09-25 07:48
OpenMLDB: 一文了解窗口倾斜优化技术细节
MPP引擎可基于Spark实现,并通过拓展
Spark源码
实现数倍性能提升。本文主要解释OpenMLDB如何基于Spark来解决窗口数据的倾斜问题。
·
2021-09-16 19:41
2021-02(完成事项)
规划:把leedcode中的SQL题全部完成,并要总结与复习把java基础中的核心概念在看一遍,有所遗忘把
spark源码
学习一下把博客中的flink给学习完并结合书籍,把b站上的flink架构学习完(这个部分至少要花费
隐约喜欢萌萌哒
·
2021-06-22 23:29
Spark源码
解析(二):SparkContext内部执行流程
SparkContext内部执行的时序图对于这个时序图的具体描述如下:1.SparkSubmit在main()方法中执行,然后根据提交的类型调用相应的方法,这里是"Submit",调用submit()方法,submit()里面进行一些判断后,使用反射Class.forName(childMainClass,true,loader),然后调用invoke()方法来调用程序员自己写的类,我们这里是Wo
Java技术范
·
2021-06-05 00:17
Spark源码
分析(1) RDD是什么
RDD是Spark的基础,是对大数据的抽象,所以先破解Spark,首先从RDD开始。RDD是什么?有什么特点?RDD包含什么?RDD能做什么?RDD的注释org.apache.spark.rdd.RDD类源代码中有详细的注释:AResilientDistributedDataset(RDD),thebasicabstractioninSpark.翻译:弹性的分布式数据集是Spark基础的抽象。解释
泥菩萨酱
·
2021-05-17 12:54
spark源码
阅读之shuffle模块①
我们在之前scheduler模块的分析中了解到,DAGScheduler划分stage的依据就是ShuffleDependency,那么Shuffle是一个怎么样的过程呢?Shuffle为何成为性能调优的重点呢?接下来的shuffle模块将从源码的角度来尝试给出答案。为什么存在shuffleSpark分布式的架构、分布式的计算、分布式的存储导致的,当运行某些特殊的算子(aggregate),汇聚具
invincine
·
2021-05-16 20:04
【Spark】Spark 编译调试
自动补全CLASSPATH参数:exportSPARK_PREPEND_CLASSES=1在编译完
Spark源码
后,通过设置该参数,可以自动加载Spark运行所需的classpath,这样就可以在源码包下直接跑
PowerMe
·
2021-05-13 11:04
Intellij 使用问题总结
CannotresolvesymbolXXXintellijidea导入
spark源码
后,存在大量的CannotresolvesymbolXXXintellijidea,猜想应该是maven的依赖jar
duval
·
2021-05-12 12:13
spark源码
之SparkContext
//初始化spark配置privatevar_conf:SparkConf=_privatevar_eventLogDir:Option[URI]=Noneprivatevar_eventLogCodec:Option[String]=Noneprivatevar_listenerBus:LiveListenerBus=_//初始化spark环境,SparkEnv下文详细介绍privatevar_
cclucc
·
2021-05-03 04:25
Spark源码
分析:TaskSetManager
任务集管理模块TaskSetManager详解前面提到,dagscheduler负责将一组任务提交给taskscheduler以后,这组任务的调度任务对于他来说就算完成了。接下来这组任务内部的调度逻辑则是由tastsetmanager来完成的。/***SchedulesthetaskswithinasingleTaskSetintheTaskSchedulerImpl.Thisclasskeeps
raincoffee
·
2021-04-28 09:13
Spark源码
分析(一):Spark执行流程
Spark执行流程过程描述:1.通过Shell脚本启动Master,Master类继承Actor类,通过ActorySystem创建并启动。2.通过Shell脚本启动Worker,Worker类继承Actor类,通过ActorySystem创建并启动。3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等),以后就是定时汇报,保持心跳。4.M
Java技术范
·
2021-04-22 05:45
Spark源码
分析之Master的启动流程
Spark源码
版本为2.3.1。阅读源码首先从启动脚本入手,看看首先加载的是哪个类,我们看一下start-master.sh启动脚本中的具体内容。
叫我不矜持
·
2021-04-21 05:30
spark源码
分析-Standalone Cluster模式源码分析,driver,executor开启
史上最全面的
spark源码
分析,独一无二的分析,让你彻底明白spark如何开启driver,以及什么时候会开启executor。避免培训机构讲解误导。
LinkStars
·
2021-02-17 14:31
spark
core
源码分析
spark
spark源码
分析,master如何开启,master和worker是怎么通信
开启流程如worker的开启流程:https://blog.csdn.net/LinkStars/article/details/112982187
spark源码
学习-worker启动消息通信,inbox
LinkStars
·
2021-01-31 12:36
spark
core
源码分析
spark
使用Antlr4和neo4j解析sql生成数据地图
使用Antlr4和neo4j解析sql生成数据地图杂谈1:之前学习搭建atlas平台的时候就很好奇他是如何解析sql,然后根据sql生成对应的血缘图的,在学习
spark源码
的过程中认识了antlr4这样一个可以根据自定义语法规则来解析成语法树的工具于是我就希望可以参考
大树的困惑
·
2021-01-30 20:38
sql
sql
数据库
Spark底层原理详细解析(深度好文,建议收藏)
Spark源码
从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流程具
·
2021-01-29 21:56
大数据spark
Spark底层原理详细解析(深度好文,建议收藏)
Spark源码
从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流程具
·
2021-01-29 20:10
大数据spark
Spark底层原理详细解析(深度好文,建议收藏)
Spark源码
从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流程具
·
2021-01-29 15:42
spark
spark源码
学习 -worker启动消息通信,inbox,outbox创建
注意:建议各位看如下代码,一定要导入一份源码到自己本地电脑中哦,可以导入进行调试。流程代码我删除许多,保留重点。本章主要介绍的是,worker开启,并与master通信流程,以及inbox收件箱outbox发件箱的创建。认真学习你可以收获许多哦,举例使用该inbox,outbox处理模式,可以嵌入到聊天程序当中哦,处理高并发请求。废话不多说,进入主题。spark业务操作和数据传输相隔里,数据传输就
LinkStars
·
2021-01-22 18:54
spark
core
源码分析
spark
worker开启
与master通信
开启
inbox
outbox调取netty服务
spark
netty
大数据开发-Scala-类型检查与模式匹配详解
但是相对于其他语言,Scala为了简化开发,产生了强大的模式匹配,其原理和Java中的switch-case很类似,但是其匹配能力更强,不仅仅可以匹配值,匹配类型,也可以进行类匹配,还可以进行前缀类匹配,而且在
Spark
Hoult丶吴邪
·
2021-01-12 04:51
大数据
spark sql 类型转换array_
Spark源码
和调优简介 Spark Core
作者:calvinrzluo,腾讯IEG后台开发工程师本文基于Spark2.4.4版本的源码,试图分析其Core模块的部分实现原理,其中如有错误,请指正。为了简化论述,将部分细节放到了源码中作为注释,因此正文中是主要内容。SparkCoreRDDRDD(ResilientDistributedDataset),即弹性数据集是Spark中的基础结构。RDD是distributive的、immutab
Yifeng Guo
·
2021-01-02 07:21
spark
sql
类型转换array
[
Spark源码
剖析] JobWaiter
职责等待DAGSchedulerjob完成,一个JobWaiter对象与一个job唯一一一对应一旦task完成,将该task结果填充到SparkContext.runJob创建的results数组中构造函数private[spark]classJobWaiter[T](dagScheduler:DAGScheduler,valjobId:Int,totalTasks:Int,resultHandl
牛肉圆粉不加葱
·
2020-12-30 13:25
sparkcore分区_Spark学习:
Spark源码
和调优简介 Spark Core (二)
第一部分内容见:Spark学习:
Spark源码
和调优简介SparkCore(一)Task阶段下面是重头戏submitMissingTasks,这个方法负责生成TaskSet,并且将它提交给TaskScheduler
蒲牢森
·
2020-12-27 16:59
sparkcore分区
大数据开发-Scala-类型检查与模式匹配详解
但是相对于其他语言,Scala为了简化开发,产生了强大的模式匹配,其原理和Java中的switch-case很类似,但是其匹配能力更强,不仅仅可以匹配值,匹配类型,也可以进行类匹配,还可以进行前缀类匹配,而且在
Spark
Hoult丶吴邪
·
2020-12-21 11:19
大数据
Spark源码
解析1-通信框架与Standalone模式启动
Spark源码
解析1-通信框架与Standalone模式启动Spark通讯架构RPCRPC是远程过程调用,Netty就是一种基于Actor模型的RPC框架.在Hadoop中NN与DN要通信,HBase中
不爱吃鱼的馋猫
·
2020-11-27 11:44
大数据
spark
hmaster启动不起来_
Spark源码
解析1-通信框架与Standalone模式启动
Spark通讯架构RPCRPC是远程过程调用,Netty就是一种基于Actor模型的RPC框架.在Hadoop中NN与DN要通信,HBase中HMaster和HRegionServer要进行通信,其实都是用RPC的通信方式,只不过对比Hadoop,Spark不一样,又进行了一层封装,源码看起来更加友好.RPC通信基于服务端与客户端的通信方式,比如Hadoop中NN与DN通信,DN写成功要告诉NN更
weixin_39763293
·
2020-11-26 08:24
hmaster启动不起来
面试技巧 面试复盘 编程技术 架构 看这一篇就够了
ZooKeeper:分布式过程协同技术详解自己动手写Java虚拟机JavaWebSocket编程开发、部署和保护动态Web应用SpringBoot揭秘:快速构建微服务体系Web全栈工程师的自我修养Apache
Spark
VekingCheng
·
2020-11-25 10:44
Spark源码
分析之MemoryManager
它会强制管理存储(storage)和执行(execution)之间的内存使用#记录用了多少storagememory和executionmemory#申请storage、execution和unrollmemory#释放storage和executionmemoryexecutionmemory:是指shuffles,joins,sorts和aggregation的计算操作storagememor
happy19870612
·
2020-09-17 03:53
大数据/spark/源码
spark源码
分析之TaskMemoryManager
概述TaskMemoryManager用于管理每个task分配的内存。在off-heap内存模式中,可以用64-bit的地址来表示内存地址。在on-heap内存模式中,通过baseobject的引用和该对象中64-bit的偏移量来表示内存地址。当我们想要存储其它结构内部的数据结构的指针时,这是一个问题,例如记录hashmap或者sortingbuffer的指针。即使我们使用128-bit来表示内存
weiqing687
·
2020-09-17 02:59
spark
Spark源码
分析之九:内存管理模型
我们在《
Spark源码
分析之七:Task运行(一)》一文中曾经提到过,在Task被传递到Executor上去执行时,在为其分配的TaskRunner线程的run()方法内
weixin_34357436
·
2020-09-17 02:00
大数据
内存管理
scala
每天学一点Scala之 高阶函数 map
可以参考下面的例子:marathon源码,
spark源码
中大量使用了高阶函数map,如下面是marathon的源码本文转自故新51CTO博客,原文链接:http://blog.51cto.com/xingej
weixin_33881753
·
2020-09-16 00:11
Spark源码
分析之Driver的分配启动和executor的分配启动
继上一篇我们讲到创建SparkContext对象的时候,创建了TaskScheduler对象,并通过ClientEndPoint中发送RegisterApplication消息向Master注册Application,在Master接收到这个消息后,将会作出下面的动作1.构建ApplicationInfo对象2.执行registerApplication(),将applicationInfo添加到
yzgyjyw
·
2020-09-15 20:09
spark
spark
源码
executor
driver
schedule
Spark源码
阅读之SparkContext
这次主要阅读了SparkContext中的初始化部分,也就是Spark程序启动时执行的一系列步骤。try{//克隆Spark配置文件_conf=config.clone()/***检查非法或不建议使用的配置设置。为前者抛出异常。*不是幂等的-可能会使此conf对象发生突变,以将不赞成使用的设置转换为受支持的设置。**/_conf.validateSettings()if(!_conf.contai
LMRzero
·
2020-09-15 17:03
Spark
spark
Spark源码
阅读之RDD
本文主要是注释RDD源代码,部分注释是翻译源代码中的英文注释。由于本人水平有限,如有错误的地方还请大家指出。/**LicensedtotheApacheSoftwareFoundation(ASF)underoneormore*contributorlicenseagreements.SeetheNOTICEfiledistributedwith*thisworkforadditionalinfo
LMRzero
·
2020-09-15 17:03
Spark
spark
Spark源码
阅读之环境配置(Windows)
Spark源码
阅读是深入理解大数据框架和性能调优的必要过程,本文介绍在Windows环境下配置
Spark源码
阅读环境。
LMRzero
·
2020-09-15 17:02
Spark
Spark源码阅读
spark
Spark源码
阅读之SparkSession
spark从1.6之后一直以SparkSession作为用户编程的主要api,本文主要是记录自己SparkSession源码阅读过程,没有过多注释,方便后期查阅。/***TheentrypointtoprogrammingSparkwiththeDatasetandDataFrameAPI.*使用Dataset和DataFrameAPI编程Spark的入口点**Inenvironmentsthat
LMRzero
·
2020-09-15 16:58
Spark
spark
【spark系列1】spark安装
1.下载源码官网下载
spark源码
,我下载的是0.9.1版本的2.开始安装sparksbt/sbtassembly网上看了下,有一个人运行了1个多小时(参见:http://blog.csdn.net/oopsoom
sina微博_SNS程飞
·
2020-09-15 14:36
spark
spark
安装
Spark修炼之道——Spark学习路线、课程大纲
基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——
Spark
weixin_34295316
·
2020-09-15 03:03
Spark修炼之道(高级篇)——
Spark源码
阅读:第一节 Spark应用程序提交流程
作者:摇摆少年梦微信号:zhouzhihubeyondspark-submit脚本应用程序提交流程在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下:root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin#./spark-submit--mastersp
weixin_34113237
·
2020-09-15 03:29
Spark修炼之道(高级篇)——
Spark源码
阅读:第一节 Spark应用程序提交流程
spark-submit脚本应用程序提交流程在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下:root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin#./spark-submit--masterspark://sparkmaster:7077--cla
五柳-先生
·
2020-09-15 02:27
大数据-离线计算-Spark
Spark源码
走读12——Spark Streaming
SummarizeSparkStreaming实现了对实时流数据的高吞吐量、地容错的数据处理API。它的数据来源有很多种:Kafka、Flume、Twitter、ZeroMQ、TCPScoket等。架构图如下:Streaming接收实时流输入的数据,将其按批划分,然后交给SparkEnigne分批处理。如下图所示:StreamingContext和SparkContext相似。要使用Spark的流
weixin_30273763
·
2020-09-15 02:07
大数据
网络
第4讲:Scala模式匹配、类型系统彻底精通与
Spark源码
阅读
简介:本篇文章主要要点有:Scala模式匹配彻底详解Scala类型系统彻底详解
Spark源码
阅读及作业1.Scala模式匹配彻底详解Scala中的模式匹配类似于java中的switchcase,但是switchcase
snail_gesture
·
2020-09-14 20:48
Scala
慕课网Spark SQL日志分析 - 2.Spark 实战环境搭建
官网:spark.apache.org/1.
Spark源码
编译1.1源码下载下载地址:spark.apache.org/downloads.h…1.2编译文档地址:spark.apache.org/docs
weixin_34341229
·
2020-09-14 11:00
大数据
java
测试
Spark源码
系列之Spark内核——Job提交
在介绍Job提交之前,我们先看下Job提交的过程:看完上图之后,大家应该会有一个比较直观的了解,同时也便于对整个流程的把握。DAGScheduler在RDD触发Action算子时,会调用sc.runJob(),以count算子为例:defcount():Long=sc.runJob(this,Utils.getIteratorSize_).sum在SparkContext的runJob()中,会调
GatsbyNewton
·
2020-09-14 02:53
Spark
DAGScheduler源码解析(一)
Spark源码
理解DAGSchedulerDAGScheduler是Spark中比较重要的一部分,它属于高级调度,主要实现stage的划分,接着生成整个DAG图,以及如何为每个stage生成任务集,并且将任务提交给
张章章Sam
·
2020-09-14 02:21
java.lang.ClassCastException:org.apache.spark.rdd.MapPartitionsRDD
再搭建的
spark源码
环境上,启动master与worker进程,然后将简单的单词统计代码提交到集群中,产生以下错误:17/09/0411:11:47INFODAGScheduler:ShuffleMapStage0
xugen12
·
2020-09-14 01:44
spark
【Spark】Apache 及 CDH Spark 源码编译
1、Apache
Spark源码
编译软件版本:JDK:1.7.0_67Scala:2.10.4Hadoop:2.5.0Spark:1.6.1Maven:3.3.3Zinc:0.3.5.3(1)搭建Maven
魏晓蕾
·
2020-09-13 18:30
BigData
Components
BigData
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他