E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
Spark-第三周
1.sparkcontext初始化源码分析
Spark源码
(7)-SparkContext初始化源码分析_太与旅
spark源码
-CSDN博客
Spark源码
学习(一):SparkContext初始化源码分析
fightingD&W
·
2024-08-27 12:13
Spark
spark
大数据
分布式
IDEA 本地运行Spark
IDEA本地运行Spark1、背景2、环境准备3、具体流程3.1IDEA创建maven项目3.2pom.xml配置3.3Demo程序示例3.4结果输出4、总结改进1、背景主要用于本地阅读
Spark源码
,
fir_dameng
·
2024-02-07 06:41
大数据开发
spark
Spark Submit提交时,Json字符串作为参数
今天遇到一个把json作为参数传入spark程序中的问题原因如下,
Spark源码
中会对把}}和{{替换掉@VisibleForTestingpublicstaticStringexpandEnvironment
南修子
·
2024-01-30 19:21
Spark源码
之CacheManager
Spark源码
之CacheManager篇CacheManager介绍1.CacheManager管理spark的缓存,而缓存可以基于内存的缓存,也可以是基于磁盘的缓存;2.CacheManager需要通过
小狼星I
·
2024-01-24 12:38
R 安装 devtools 报错信息
在编译
spark源码
时遇到sparkr有依赖R环境,当然一般用不到sparkr时可以不加入编译在安装R环境和一些依赖包时遇到一些问题Rscript-e"install.packages(c('knitr
第一次看海
·
2024-01-17 15:00
r语言
java
开发语言
Spark源码
分析之:Shuffle
这一篇我们来分析Spark2.1的Shuffle流程。其实ShuffleDependency从SparkContext初始化就已经被DAGScheduler划分好了,本文主要探讨在Task运行过程中的ShufleWrite和ShuffleRead。要从Task运行开始说起,就要知道Task在哪里运行的。我们普遍认为Executor是负责执行Task的,但是我们发现Executor其实就是一个类pr
你说个der
·
2024-01-03 02:30
Spark
spark
大数据
Spark源码
——Shuffle过程
shuffle很重要,调优的重点、性能的杀手未优化的shuffle:(图片来源:北风网)未优化的shuffle有两个特点:spark早期版本中,shuffleMapTask将所有数据写入bucket缓存后,才会刷新到磁盘,但是缓存就容易OOM,所以后来的版本,这个缓存设置了阈值,默认100kb,写入数据达到缓存的阈值后,就会将数据刷新到磁盘。这种就不容易OOM,但是频繁刷新涉及过多IO操作,所以这
阿松0311
·
2024-01-03 02:59
Spark
spark
mapreduce
big
data
mac系统spark环境搭建
scala官网下载scala版本下载需注意,后期idea编译可能导致报错,scala版本和spark版本存在一些兼容性问题spark开发语言支持scala、java和python,推荐scala,因为
spark
Maximilian_M
·
2023-12-24 13:19
Spark学习之路
spark
idea
scala
mac
环境搭建
【
Spark源码
分析】Spark的RPC通信二-初稿
Spark的RPC通信二-初稿SparkRPC的传输层传输层主要还是借助netty框架进行实现。TransportContext包含创建TransportServer、TransportClientFactory和使用TransportChannelHandler设置NettyChannel管道的上下文。TransportClient提供两种通信协议:control-planeRPCs和data-
顧棟
·
2023-12-23 05:25
spark
rpc
【
Spark源码
分析】Spark的RPC通信一-初稿
Spark的RPC通信一-初稿文章目录Spark的RPC通信一-初稿Spark的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`SparkRPC消息的发送与接收实现核心类`Inbox`核心类`Dispatcher`核心类`Outbox`Spark的RPC顶层设计在RpcEnv中定义了RPC通信框架的启动、停止和关闭等抽象方法,表示
顧棟
·
2023-12-23 05:53
Spark
spark
rpc
Spark源码
之Worker
Spark源码
之Worker介绍篇Worker介绍Worker作为工作节点,一般Driver以及Executor都会在这Worker上分布;Worker代码概览Worker继承了ThreadSafeRpcEndpoint
小狼星I
·
2023-12-16 18:40
spark源码
阅读——shuffle写
groupByKey这个操作一般会产生两个RDD:(map操作)MapPartitionsRDD(隐式转换之后聚合)ShuffledRDDdefgroupBy[K](f:T=>K,p:Partitioner)(implicitkt:ClassTag[K],ord:Ordering[K]=null):RDD[(K,Iterable[T])]=withScope{valcleanF=sc.clean(
WJL3333
·
2023-12-15 15:14
spark源码
之shuffleManager
shufflemanager的实现类:sortshufflemanagerSpark0.8及以前HashBasedShuffle在ShuffleWrite过程按照Hash的方式重组Partition的数据,不进行排序。每个map端的任务为每个reduce端的Task生成一个文件,通常会产生大量的文件(即对应为M*R个中间文件,其中M表示map端的Task个数,R表示reduce端的Task个数),
cclucc
·
2023-12-04 18:01
spark java 调试_远程调试
spark源码
(基于java的调试工具)
本文对
spark源码
进行调试,此调试方式可以调试任何JVM相关的程序,如:普通的命令行程序、web程序等。
吹亚吹
·
2023-11-30 02:44
spark
java
调试
SparkSQL远程调试(IDEA)
启动IntellijIDEA,打开
spark源码
项目,配置远程调试Run->EditConfiguration启动远程spark-sqlspark-sql--verbose--driver-java-options
RainTicking
·
2023-11-30 02:33
大数据
大数据
spark
1.
spark源码
分析(基于yarn cluster模式)-任务提交
首先声明,这个系列研究的源码基于spark-2.4.6我们在使用spark-shell提交任务的时候,一般采用如下模式提交任务:park-submit--classxxxxx--name'test_xxxx'--masteryarn-cluster--queueyarn-test--principalad-bigdata-test--keytab'xxxx.keytab'--num-executo
Leo Han
·
2023-11-25 01:45
大数据
spark
scala
big
data
yarn
Spark一级资源调度Shedule机制及SpreadOut模式源码深入剖析
本套系列博客从真实商业环境抽取案例进行总结和分享,并给出
Spark源码
解读及商业实战指导,请持续关注本套博客。版权声明:本套
Spark源码
解读及商业实战归作者(秦凯新)所有,禁止转载,欢迎学习。
weixin_34210740
·
2023-11-24 16:38
大数据
Spark事件监听总线流程分析-Spark商业环境实战
本套系列博客从真实商业环境抽取案例进行总结和分享,并给出
Spark源码
解读及商业实战指导,请持续关注本套博客。版权声明:本套
Spark源码
解读及商业实战归作者(秦凯新)所有,禁止转载,欢迎学习。
weixin_34268753
·
2023-11-24 16:38
大数据
ui
spark源码
:SparkContext初始化需要启动的组件
spark源码
分析之SparkContext1.SparkContext简介2初始化SparkContext需要启动的组件2.0SparkContext私有的可变成员变量2.1SpaekEnv2.2LiveListenerBus2.3SparkUI2.4SparkStatusTracker2.5ConsoleProgressBar2.6DAGScheduler2.7TaskScheduler2.8
weixin_38842855
·
2023-11-24 16:38
spark
【
Spark源码
分析】事件总线机制分析
Spark事件总线机制采用Spark2.11源码,以下类或方法被@DeveloperApi注解额部分,可能出现不同版本不同实现的情况。Spark中的事件总线用于接受事件并提交到对应的监听器中。事件总线在Spark应用启动时,会在SparkContext中激活spark运行的事件总线(LiveListenerBus)。LiveListenerBus相关的部分类图如下:由于Spark使用scala语言
顧棟
·
2023-11-24 16:02
Spark
spark
大数据
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决
解决方法1转载:http://www.cnblogs.com/war3blog/p/7864804.html在编译
spark源码
的时候老师报类似的错误然后在spark文件夹下的pom.xml里加入如下依赖
xiaoliuyiting
·
2023-11-20 03:51
spark
Spark源码
解析之org.apache.spark.deploy.SparkSubmit源码解析
前面解读launch.main的时候已经了解了spark-submit的提交流程,这里大概看下流程。当打jar提交到集群运行的时候,一般会设置一些参数,例如本地提交examples的SparkPi:spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://192.168.2.1:7077\D:\spark\spark
南宫紫攸
·
2023-11-09 20:17
Spark
Spark-deploy
Spark-deploy@(spark)[deploy|yarn]写在前面的话请参考
Spark源码
分析之-deploy模块,虽然是13年的文章,但是作者写的比我明白多了。so我写一半就算了。。。
blesslyy
·
2023-11-09 20:15
spark
deploy
Spark源码
解析之org.apache.spark.deploy.SparkSubmit源码解析
前面解读launch.main的时候已经了解了spark-submit的提交流程,这里大概看下流程。当打jar提交到集群运行的时候,一般会设置一些参数,例如本地提交examples的SparkPi:spark-submit\--classorg.apache.spark.examples.SparkPi\--masterspark://192.168.2.1:7077\D:\spark\spark
訾零
·
2023-11-09 20:15
Spark
k8s提交spark应用消费kafka数据写入elasticsearch7
spark版本时3.3.3k8s部署单节点的zookeeper、kafka、elasticsearch7二、
spark源码
https://download.csdn.net/download/TT1024167802
青春不流名
·
2023-11-06 23:50
kubernetes
spark
kafka
二、用IDEA导入
spark源码
,并在本地运行standlone
上面我们编译了源码,然后我们接下来用idea将源码导入到开发工具,并在idea上启动standlone的master和slave,方便我们调试。1将项目导入到idea当中然后openasproject即可。我看网上很多说,导入了,然后让maven自动导入依赖就行,但是不知道可能是我的网络问题,我遇到了很多问题,这里我分享出来,看是否能对你们有帮助。2遇到的问题1.导入到idea当中,spark-p
小小小黄鸡
·
2023-11-06 04:12
spark
spark
spark源码
之任务提交过程
感谢逃出你的肖生克文章指导。一般在命令行我们会以spark-submit来提交自己的代码,并会以这个形式提交./bin/spark-submit\--class\--master\--deploy-mode\--conf=\...#otheroptions\[application-arguments]代码提交到spark后大概会有三个流程。1.找到或是设置spark_home变量2.设置相关相关
机器不能学习
·
2023-11-02 09:19
Spark自定义输出文件
如何调用hadoop几种OutputFormat,从而实现的文件输出,这里将讲述几种工作中常使用的算子,例如:saveAsTextFile(path)、saveAsHadoopFile(path)二、
spark
客舟听雨2
·
2023-10-30 10:22
spark
hadoop
大数据
spark源码
分析Master与Worker启动流程篇
spark通信流程概述spark作为一套高效的分布式运算框架,但是想要更深入的学习它,就要通过分析spark的源码,不但可以更好的帮助理解spark的工作过程,还可以提高对集群的排错能力,本文主要关注的是Spark的Master的启动流程与Worker启动流程。Master启动我们启动一个Master是通过Shell命令启动了一个脚本start-master.sh开始的,这个脚本的启动流程如下st
那年的坏人
·
2023-10-26 04:23
spark
spark
源码
分布式
框架
2万字硬核
spark源码
精讲手册
本期为大家带来
spark源码
精讲系列,我将结合自身的理解深入浅出的剖析spark内核。全文内容很肝,希望能够给大家提供帮助。
大数据兵工厂
·
2023-10-23 01:06
大数据
spark
大数据
【
Spark源码
】spark-submit和Spark-class
首先从启动脚本开始看:bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--masteryarn\--deploy-modecluster\./examples/jars/spark-examples_2.12-3.0.0.jar\10启动脚本调用的是spark-submit,所以直接看bin/spark-submit脚本,跟spa
陈小哥cw
·
2023-10-19 08:53
Spark
Spark源码
解析之读取文件
原理读文件分区源码/***PhysicalplannodeforscanningdatafromHadoopFsRelations.**@paramrelationThefile-basedrelationtoscan.*@paramoutputOutputattributesofthescan,includingdataattributesandpartitionattributes.*@par
Woten我特牛
·
2023-10-09 15:31
大数据
Spark
spark
大数据
Scala
而Spark就是使用Scala编写,包括Kafka早期底层也是用Scala写的,因此为了更好的学习Spark,看懂
Spark源码
,那就需要掌握Scala这门语言。
_Levi__
·
2023-09-30 00:05
Spark 源码分析之ShuffleMapTask内存数据Spill和合并
Spark源码
分析之ShuffleMapTask内存数据Spill和合并更多资源分享
SPARK源码
分析技术分享(视频汇总套装视频):https://www.bilibili.com/video/av37442139
thinktothings
·
2023-09-25 10:45
Spark
Spark
M2 MacbookPro配置
Spark源码
运行环境
版本信息MacBook:MacBookProM2JDK:1.8.0_381Scala:2.12.15Maven:3.6.3Homebrew:4.1.12(可选,下载Git需要)Git:2.42.0(下载
Spark
&再见萤火虫&
·
2023-09-22 14:32
spark
大数据
分布式
spark源码
阅读之executor模块③
在
spark源码
阅读之executor模块①中,我们创建了DriverEndpoint并说明它会周期性的通过给自己发送ReviveOffers消息而去调用makeOffers()方法,从而实现为executor
invincine
·
2023-09-18 06:21
spark源码
阅读之shuffleManager
1、shufflemanager的实现类:sortshufflemanagerSpark0.8及以前HashBasedShuffle在ShuffleWrite过程按照Hash的方式重组Partition的数据,不进行排序。每个map端的任务为每个reduce端的Task生成一个文件,通常会产生大量的文件(即对应为M*R个中间文件,其中M表示map端的Task个数,R表示reduce端的Task个数
cclucc
·
2023-09-14 22:42
Spark源码
之Master
Spark源码
之Master介绍篇Master介绍Master作为资源管理和分配的组件,所以今天我们重点来看SparkCore中的Master如何实现资源的注册,状态的维护以及调度分配;Master内部代码概览
小狼星I
·
2023-09-14 10:59
spark源码
阅读之storage模块②
在
spark源码
阅读之storage模块①中,描绘了Storage模块的整体框架是标准的master-slave框架:master用来管理slave的元数据信息,slave则是具体存储数据,分析了作为master
invincine
·
2023-09-10 00:53
Spark作业提交过程
读前准备本文档旨在帮助新人更好地学习Apache
Spark源码
,在阅读文档之前,需要读者掌握以下前置知识:明白driver,executor等Spark中的基本概念,知道YARN的RM,NM,AM各有什么作用了解
qing_feng
·
2023-09-02 14:57
原创-
Spark源码
分析六:Standalone模式下Driver注册启动流程
作业提交流程图image.png作业执行流程描述:客户端提交作业给MasterMaster让一个Worker启动Driver,即SchedulerBackend。Worker创建一个DriverRunner线程,DriverRunner启动SchedulerBackend进程。另外Master还会让其余Worker启动Exeuctor,即ExecutorBackend。Worker创建一个Exec
无色的叶
·
2023-08-30 06:18
SparkSQL源码分析系列02-编译环境准备
本文主要描述一些阅读
Spark源码
环境的准备工作,会涉及到源码编译,插件安装等。1.克隆代码。
Empty-cup
·
2023-08-19 18:08
Spark
spark
Spark源码
之SparkContext
Spark源码
之SparkContext介绍篇SparkContext介绍SparkContext作为spark的主入口类,SparkContext表示一个spark集群的链接,它会用在创建RDD,计数器以及广播变量在
小狼星I
·
2023-08-09 12:30
[
Spark源码
学习] reduceByKey和groupByKey实现与combineByKey的关系
groupByKey和reduceByKey是spark中十分常用的两个功能函数。正常情况下两个函数都能得出正确的且相同的结果,但reduceByKey函数更适合使用在大数据集上,而大多数人建议尽量少用groupByKey,这是为什么呢?(这是较早时候大家的建议)因为Spark在执行时,reduceByKey先在同一个分区内组合数据,然后在移动。groupByKey则是先移动后组合,所以移动的工作
奋斗的瘦胖子
·
2023-08-03 18:15
spark
Spark
python
reduceBykey
groupBykey
Spark Join优化-BucketJoin实现
此篇我们来介绍以下,在不进行
Spark源码
修改的情况下,怎么实现BucketJoin背景Spark提供的Join方式主要有HashJoin、Broadcas
蠟筆小噺没有烦恼
·
2023-07-26 21:36
Spark Sql日志分析项目实战
项目简介统计主站最受欢迎的课程TopN访问次数按地市统计主站最受欢迎的TopN课程按流量统计主站最受欢迎的TopN课程环境安装CDH相关软件下载地址Spark环境搭建
Spark源码
编译(以spark2.1.0
kangapp
·
2023-07-24 06:17
07-尚硅谷大数据技术之
Spark源码
1.环境准备(Yarn集群)搭建SparkonYarn集群3.3Yarn模式独立部署(Standalone)模式由Spark自身提供计算资源,无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但是你也要记住,Spark主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的
Wzideng
·
2023-07-20 15:17
#
spark
大数据
spark
硬件架构
上手Scala到开发程序
而Spark就是使用Scala编写,包括Kafka早期底层也是用Scala写的,因此为了更好的学习Spark,看懂
Spark源码
,那就需要掌握Scala这门语言。因此
Levi_
·
2023-07-16 23:30
大数据
Scala
Scala入门
Scala学习
Scala使用
Spark源码
系列-Standalone模式下Client&Cluster模式的资源启动
本文带读者从源码查看,分析Standalone模式下Client&Cluster模式的资源启动流程,分析Client&Cluster究竟有什么不一样回顾在xxxx中我们分析了Standalone模式下Master和Worker的启动流程。image.pngMaster负责集群总资源的管理,包括CPU、内存的分配以及所有Applications的管理、Cluster模式下还有所有的driver的管理
LancerLin_LX
·
2023-06-19 02:46
Spark源码
编译与部署
Spark源码
编译与调试源码下载源码编译安装部署Sparkyarn模式JobHistoryServer配置源码下载可以从官网下载最新版本:https://spark.apache.org/downloads.html
RainTicking
·
2023-06-18 06:31
大数据
spark
hadoop
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他