E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark源码
慕课网Spark SQL日志分析 - 2.Spark 实战环境搭建
官网:spark.apache.org/1.
Spark源码
编译1.1源码下载下载地址:spark.apache.org/downloads.h…1.2编译文档地址:spark.apache.org/docs
weixin_34341229
·
2020-09-14 11:00
大数据
java
测试
Spark源码
系列之Spark内核——Job提交
在介绍Job提交之前,我们先看下Job提交的过程:看完上图之后,大家应该会有一个比较直观的了解,同时也便于对整个流程的把握。DAGScheduler在RDD触发Action算子时,会调用sc.runJob(),以count算子为例:defcount():Long=sc.runJob(this,Utils.getIteratorSize_).sum在SparkContext的runJob()中,会调
GatsbyNewton
·
2020-09-14 02:53
Spark
DAGScheduler源码解析(一)
Spark源码
理解DAGSchedulerDAGScheduler是Spark中比较重要的一部分,它属于高级调度,主要实现stage的划分,接着生成整个DAG图,以及如何为每个stage生成任务集,并且将任务提交给
张章章Sam
·
2020-09-14 02:21
java.lang.ClassCastException:org.apache.spark.rdd.MapPartitionsRDD
再搭建的
spark源码
环境上,启动master与worker进程,然后将简单的单词统计代码提交到集群中,产生以下错误:17/09/0411:11:47INFODAGScheduler:ShuffleMapStage0
xugen12
·
2020-09-14 01:44
spark
【Spark】Apache 及 CDH Spark 源码编译
1、Apache
Spark源码
编译软件版本:JDK:1.7.0_67Scala:2.10.4Hadoop:2.5.0Spark:1.6.1Maven:3.3.3Zinc:0.3.5.3(1)搭建Maven
魏晓蕾
·
2020-09-13 18:30
BigData
Components
BigData
Spark3.0源码编译
源码地址
Spark源码
是托管在github上面的,源码地址:Spark官方源码不过clone下了还是老费劲,不得琢磨琢磨微软收购github之后这个中国的网速问题不知道他们怎么看,我在gitee上面直接也
敏叔V587
·
2020-09-13 17:34
大数据
Spark
第4节:Scala控制结构if..else,for,while,breakable
控制结构在
spark源码
中的鉴赏none省写的话默认是()是返回any类型,而none是optional类型。
挖矿的小强
·
2020-09-13 09:52
scala
Spark源码
分析-应用程序到底是如何提交到Spark并运行的?
网上有不少关于Spark应用程序提交流程分析的文章,有的鞭辟入里、有的浅尝辄止。但由于Spark代码版本更迭或关注点的缘故,总有一些自己想知道的细节不能系统的获取。所以打算基于spark-2.4.4(3.0-release版本还未发版),记录下自己对Spark应用程序提交和运行流程源码的一些分析和理解,同时通过打断点代码调试的方式,将完整的代码执行流程分享给大家,希望能做到真正的手把手带你读Spa
merrily01
·
2020-09-13 08:21
Spark源码分析
Spark源码
解析(一):运行架构
目录1总体介绍2脚本提交流程3重要类介绍4yarn-client模式源码分析4.1整体流程4.2源码分析第一阶段:org.apache.spark.deploy.yarn.Client的创建第二阶段:ApplicationMaster的创建到Executor的启动第三阶段:Executor的注册与任务执行5yarn-cluster模式源码解析5.1整体流程5.2源码分析6yarn-client与y
gentlewei
·
2020-09-13 08:08
笔记
spark
我的
Spark源码
核心SparkContext走读全纪录
我的
Spark源码
核心SparkContext走读全纪录DirverProgram(SparkConf)packageorg.apache.spark.SparkConfMasterpackageorg.apache.spark.deploy.masterSparkContextpackageorg.apache.spark.SparkContextStagepackageorg.apache.s
weixin_34270606
·
2020-09-12 07:27
Spark源码
解读(6)——Shuffle过程
Shuffle应该说是SparkCore中较为复杂的部分,本文主要从一个最简单的WordCount例子出发分析Spark的Shuffle过程:1,概述sc.parallelize(1to1000).map(i=>(i%5,1)).reduceByKey(_+_).collect()计算过程中会分成两个Stage,如下图所示:每个Stage由多个Task组成,同一Stage的各Task并行执行互不影
scalahome
·
2020-09-11 16:06
spark
Spark源码
解读之Master剖析
在上篇文章中我们剖析了SparkContext创建启动的整个流程,但是在创建SparkContext之后,TaskScheduler是如何向master注册application,以及master是如何调度worker启动的?带着这些问题我们来看看master的内部构造。首先我们从下面这四个方面来深入Master源码来探究:主备切换切换机制注册机制状态改变机制资源调度机制(两种资源调度算法)主备切
不清不慎
·
2020-09-11 15:30
Spark
大数据
Spark源码剖析与调优
Spark源码
阅读#1:SparkConf详解
1.类作用我们Spark的代码开头往往是这样的valconf:SparkConf=newSparkConf().setAppName("app").setMaster("local[2]")根据代码和官方的注释可以知道,SparkConf是Spark应用程序的配置类,通常用来设置KV结构的Spark参数。它还具有以下基础的特性。当使用newSparkConf()时,大多数情况下会把Java参数(r
MoForest
·
2020-09-11 13:17
大数据
Spark源码
导入IDE
可以查看:https://cwiki.apache.org/confluence/display/SPARK/Useful+Developer+Tools#UsefulDeveloperTools-IntelliJ1.导入IntelliJ(方法一)1.1下载安装IntelliJ,在一开始的界面"Configure->Plugins"中输入Scala,安装Scala插件.1.2在界面"ImportP
拱头
·
2020-09-11 12:52
scala
spark
Intellij IDEA搭建Spark开发环境并运行
在IntellIJIDEA中搭建好spark开发环境,并在IntelliJIDEA中运行local模式,这是学习spark开发和调试spark程序,以及分析
spark源码
的绝佳方式.基本流程:1.安装JDK
YiqiangXu
·
2020-09-11 10:34
spark
使用java语言实现spark的wordCount入门程序
学了scala之后就是为了能读懂
spark源码
!
王林_John
·
2020-09-11 10:05
技术
云计算大数据
Spark快速入门之SBT安装
安装sbt本文方法有些繁琐,可以查看github最新更新:用sbt编译
spark源码
linux版本:CentOS6.7sbt:0.13.9Spark中没有自带sbt,需要手动安装sbt,我的方法是下载sbt-launch.jar
walker_storage
·
2020-09-11 09:32
Spark
Windows使用Idea编译
spark源码
jdk1.8.0scala2.11maven3.5.9pythonidea中安装了scalapluinGit一、将源码导入IDEA1、在idea中安装scala插件此处我已安装完成,请注意选择对应的版本2、下载
spark
张虎宇
·
2020-09-11 09:51
大数据
IDEA本地启动Spark的Master和Worker
在Windows环境IDEA上解读
Spark源码
的时候,为了查看参数传递,总是连接服务器很麻烦。简单实现从本地启动Spark的Master和Worker,方便源码解读。
心有余力
·
2020-09-11 09:25
Spark
Spark学习三:Spark Schedule以及idea的安装和导入源码
SparkSchedule以及idea的安装和导入源码标签(空格分隔):SparkSpark学习三SparkSchedule以及idea的安装和导入源码一RDD操作过程中的数据位置二SparkSchedule三Idea导入
spark
forrestxingyunfei
·
2020-09-11 06:21
spark
Spark源码
解读之TaskScheduler剖析
在前面的一篇文章中介绍了stage的划分算法以及task对应的partition的最佳位置计算算法。在DAGScheduler中将stage划分好之后,然后TaskScheduler会将taskSet中的task提交到executor中去执行,那么TaskScheduler是怎么样将task提交到executor中执行,又是如何如何分配executor的呢?本篇主要围绕TaskScheduler的
不清不慎
·
2020-09-11 03:24
Spark
大数据
Spark源码剖析与调优
Spark源码
2.4.2之Shuffle写过程
ShuffleManager介绍spark之所以比mapReduce的性能高其中一个主要的原因就是对shuffle过程的优化,一方面spark的shuffle过程更好地利用内存(执行内存),另一方面对于shuffle过程中溢写的磁盘文件归并排序和引入索引文件。当然,spark性能高的另一个主要原因还有对计算链的优化,把多步map类型的计算chain在一起,大大减少中间过程的落盘,这也是spark显
klinh
·
2020-09-11 01:33
git clone后代码位置
从git上拉取
spark源码
(前提:git已经配置好)win+R打开控制台输入gitclonehttps://github.com/apache/spark.git按enter执行拉取的源码位置为命令行运位置
丶大白菜
·
2020-09-11 01:58
git
Spark源码
解读之Shuffle原理剖析与源码分析
在前面几篇文章中,介绍了Spark的启动流程Spark内核架构流程深度剖析,
Spark源码
分析之DAGScheduler详解,
Spark源码
解读之Executor以及Task工作原理剖析,
Spark源码
解读之
不清不慎
·
2020-09-10 23:51
Spark
Spark源码剖析与调优
从跳表到Redis有序集合
一、
Spark源码
系列
Spark源码
阅读系列停更了好久,因为一直没能达到想要的效果。写了一篇Spark物理计划生成,读下来味同嚼蜡,暂时不打算放出来了。
renqHIT
·
2020-09-10 17:47
数据结构
Redis
Spark源码
分析(3) RDD 的转换
RDD的转换可以产生新的RDD。RDD转换图如上图,外圈是RDD的转换,内圈红色RDD是转换产生的新RDD。按颜色区分转换:绿色是单RDD窄依赖转换黑色是多RDD窄依赖转换紫色是KV洗牌型转换黄色是重分区转换蓝色是特例的转换单RDD窄依赖转换MapPartitionRDD这个RDD在第一次分析中已经分析过。简单复述一下:依赖列表:一个窄依赖,依赖上游RDD分区列表:上游RDD的分区列表计算流程:映
泥菩萨酱
·
2020-08-26 15:21
第3章 实战环境搭建
3-1课程目录实战环境搭建
Spark源码
编译Spark环境搭建Spark简单使用3-2-
Spark源码
编译1、下载到官网(源码编译版本)(http://spark.apache.org/downloads.html
weixin_SAG
·
2020-08-26 09:37
Spark
SQL
大数据
[
Spark源码
贡献]--怎样贡献代码给spark team
以前总是想着贡献源码,只是想想罢了,没有认真去做过。今天突发奇想,觉得是不是可以尝试着看看呢?虽然是菜鸟,但是菜鸟也能看看吧!于是打开spark的官方文档,迈出了第一步,希望这篇文章能对想贡献源码给sparkteam的朋友有用。由于水平有限,文章稍微粗糙,如需查看原文,请见:http://spark.apache.org/contributing.html译文如下:本指南记录了对ApacheSpa
highfei2011
·
2020-08-25 14:55
Spark
Chapter10 注 解
Chapter10这节还是挺重要的,在看
Spark源码
的过程中,发现其源码使用到很多注解的知识,所以这节一定要好好学习。1.什么是注解注解:是那些你插入到代码中以方便工具可以对它们进行处理的标签。
白 杨
·
2020-08-25 06:11
Scala
Scala入门指南
SparkCore(2):
Spark源码
导入IDEA(blog很经典)
参考blog:https://www.cnblogs.com/zlslch/p/5881893.html
RayBreslin
·
2020-08-24 16:08
Spark
大数据开发
常用网址
SparkCore
Master Woker Executor 远程调试方法--mac 伪分布式集群(standalone)
苦于不知道如何通过远程调试跟进
spark源码
,千方百计的去搜索资源,终于搞会了,现在分享一下远程调试的步骤1、MasterWorker远程调试1.1在spark-env.sh末尾新增2行代码exportSPARK_MASTER_OPTS
明喆_sama
·
2020-08-24 16:07
spark
spark源码
阅读-动作操作stage的划分和job的提交
dan是要想真正了解其框架还是要从其源码开始第一步准备spark的源码包,要有一定的scala基础saprk源码下载[http://spark.apache.org/downloads.html]1.打开
spark
weixin_44128597
·
2020-08-24 14:36
spark源码分析
spark
Spark源码
学习笔记3-LiveListenerBus
继2-JobProgressListener之后,我们再来看看SparkContext构造函数中的listenerBus:LiveListenerBus,JobProgressListener在SparkContext构造函数new出来之后就添加到listenerBus中了,代码如下:_jobProgressListener=newJobProgressListener(_conf)listene
lzy2014
·
2020-08-23 08:54
spark
Spark源码
分析之作业和任务调度流程
一.前言Spark的作业和任务调度系统是其核心。Spark的作业调度主要是基于RDD的一系列操作构成一个作业,然后在Executor上执行,这些操作算子主要分为转换和行动算子,对于转换算子的计算是lazy级别的,也就是延迟执行,只有出现了行动算子才触发作业的提交。在Spark调度中,最重要的是DAGScheduler和TaskSechduler两个调度器,其中DAGScheduler负责任务的逻辑
叫我不矜持
·
2020-08-23 05:56
windows下配置spark-源码阅读
Spark源码
是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。
Knightcode
·
2020-08-23 05:29
编译spark 2.1.0源码
编译spark2.1.0源码准备环境:准备
spark源码
包:https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0.tgz准备maven
Mars_sock
·
2020-08-23 05:54
spark
ExternalSorter 外部排序器在Spark Shuffle过程中的设计思路剖析-Spark商业环境实战
本套系列博客从真实商业环境抽取案例进行总结和分享,并给出
Spark源码
解读及商业实战指导,请持续关注本套博客。版权声明:本套
Spark源码
解读及商业实战归作者(秦凯新)所有,禁止转载,欢迎学习。
weixin_34221276
·
2020-08-23 03:22
Spark源码
分析之七:Task运行(一)
在Task调度相关的两篇文章《
Spark源码
分析之五:Task调度(一)》与《
Spark源码
分析之六:Task调度(二)》中,我们大致了解了Task调度相关的主要逻辑,并且在Task调度逻辑的最后,CoarseGrainedSchedulerBackend
H_MZ
·
2020-08-23 03:52
Spark源码
解析——Shuffle
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与HadoopMapRedu
mango_song
·
2020-08-23 02:13
spark
Spark调度系统--Job Scheduling
这块源码对应之前的
spark源码
(四)–master资源调度。主要对应的是application包括driver、executor的调度。
山高水长~
·
2020-08-22 19:25
spark
Spark修炼之道(高级篇)——
Spark源码
阅读:第三节 Spark Job的提交
前一我们分析了SparkContext的创建,这一节,我们介绍在RDD执行的时候,如何提交job进行分析,同样是下面的源码:importorg.apache.spark.{SparkConf,SparkContext}objectSparkWordCount{defmain(args:Array[String]){if(args.length==0){System.err.println("Usa
weixin_34149796
·
2020-08-22 19:35
spark源码
action系列-foreach与foreachPartition
RDD.foreachPartition/foreach的操作在这个action的操作中:这两个action主要用于对每个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.首先我们先看看foreach的操作:在fureach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个
隔壁老杨hongs
·
2020-08-22 18:28
spark1.6源码
Spark源码
学习(7)——Broadcast
本文要解决的问题:从源码角度学习一下Spark中Broadcast板块的工作过程和实现细节。Broadcast变量是Spark所支持的两种共享变量。主要共享分布式计算过程中各个task都会用到的只读变量。广播变量允许程序员在每台机器上保持一个只读变量的缓存,而不是发送它的一个副本任务。他们可以用于:给一个大量输入数据集的副本以有效的拷贝到每个节点。Spark也尝试使用高效广播算法来降低通信成本。以
sbq63683210
·
2020-08-22 15:48
Spark
Spark
Spark源码
学习--内置RPC框架(3)
RPC客户端工厂TransportClientFactoryTransportClientFactory是创建TransportClient的工厂类。TransportContext的createClientFactory方法可以创建TransportClientFactory的实例/***InitializesaClientFactorywhichrunsthegivenTransportCli
小明的数据脚印
·
2020-08-22 15:10
spark
源码学习
大数据
Spark源码
学习--内置RPC框架(1)
在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节点间的Shuffle过程、Block数据的复制与备份等。在Spark0.x.x与Spark1.x.x版本中,组件间的消息通信主要借助于Akka,使用Akka可以轻松地构建强有力的高并发与分布式应用。但是Akka在Spark2.0.0版本中被移除了,Spark官网文档对此的描述为:“Akka的依赖被
小明的数据脚印
·
2020-08-22 15:03
spark
源码学习
大数据
Spark源码
阅读环境搭建(基于idea+maven)
在cmd中输入bash命令,如果能进入bash视图则成功6.下载
spark源码
https://github.com/apache/sparkhttps://archive.apache
bugDesigner
·
2020-08-22 15:31
spark
源码学习
大数据
Spark源码
学习--内置RPC框架(2)
RPC配置类TransportConfTransportConf给Spark的RPC框架提供配置信息,它有两个成员属性——配置提供者conf和配置的模块名称module。这两个属性的定义如下://配置提供者privatefinalConfigProviderconf;//模块名称privatefinalStringmodule;ConfigProvider是一个抽象类,代码如下:/***Provi
小明的数据脚印
·
2020-08-22 12:28
spark
源码学习
大数据
Spark源码
阅读-HHbase-BulkPut
/***AsimpleabstractionovertheHBaseContext.foreachPartitionmethod.**ItallowadditionsupportforausertotakeRDD*andgenerateputsandsendthemtoHBase.*ThecomplexityofmanagingtheHConnectionis*removedfromthedeve
pcqlegend
·
2020-08-22 01:42
spark源码
阅读-KafkaUtils代码-Direct方式
KafkaUtils用于创建一个从KafkaBrokers拉取数据的输入数据流。之前有一个文章介绍了sparkstream创建kafka的数据流有两种方式,一种是Receiver一种是Direct方式。我们先看下Direct方式,具体的区别可以参考我的另一篇文章https://www.jianshu.com/p/88862316c4db代码深入:KafkaUtils->DirectKafkaInp
pcqlegend
·
2020-08-21 23:11
spark源码
剖析(一,job调用流程)
版本信息sparkversion2.3.3jdk1.8idea2019MacBookPro最近领导让做一次关于Spark的分享,于是专门把spark的流程看了一边,做一下记录,也是为了练练MarkDown,仅此而已。版本信息sparkversion2.3.3jdk1.8idea2019MacBookPro从RDD开始在spark中,一个action算子触发真正的计算,我们看下RDD上的count/
蔚1
·
2020-08-21 06:50
scala
java
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他