E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
spark源码
编译
如果官方给的安装包不能满足我们生产环境的要求又或者我们基于自己的需求修改了
spark源码
,那么我们就需要对
spark源码
重新编译打包,相关方法和命令官网也写的特别清楚,我们只需要安装官网一步步操作即可,
Sx_Ren
·
2020-07-02 07:53
scala 隐式详解(implicit关键字)
掌握implicit的用法是阅读
spark源码
的基础,也是学习scala其它的开源框架的关键,implicit可分为:隐式参数隐式转换类型隐式调用函数1.隐式参数当我们在定义方法时,可以把最后一个参数列表标记为
JamesFen
·
2020-07-02 00:51
spark
scala
spark
Spark HadoopRDD读取HDFS文件
SparkHadoopRDD读取HDFS文件更多资源
SPARK源码
分析技术分享(bilibilid视频汇总套装视频):https://www.bilibili.com/video/av37442139/
thinktothings
·
2020-07-01 04:10
Spark
Spark
Spark
HadoopRDD
源码分析
Spark 源码解析:彻底理解TaskScheduler的任务提交和task最佳位置算法
上篇文章《
Spark源码
解析:DAGScheduler中的DAG划分与提交》介绍了DAGScheduler的Stage划分算法。
听风的蜗牛
·
2020-06-30 16:52
spark内核
Spark源码分析
任务调度
DAGScheduler
TaskScheduler
最佳位置
[源码]Spark Streaming--
Spark源码
走读12——
Spark源码
走读12——SparkStreaming-峰哥的专栏-博客频道-CSDN.NEThttp://blog.csdn.net/huwenfeng_2011/article/details/43371325SummarizeSparkStreaming
葡萄喃喃呓语
·
2020-06-29 05:54
Spark源码
系列(六)Shuffle的过程解析
Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。这篇文章主要是沿着下面几个问题来开展:1、shuffle过程的划分?2、shuffle的中间结果如何存储?3、shuffle的数据如何拉取过来?Shuffle过程的划分Spark的操作模型是基于RDD的,当调用RDD的reduceByKey
weixin_34290000
·
2020-06-28 16:52
Spark源码
系列(五)分布式缓存
这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。defpersist(newLevel:StorageLevel):this.type={//StorageLevel不能随意更改if(storageLevel!=StorageLevel.NONE&&newLevel!=storageLevel){thrownewUnsupporte
weixin_34061555
·
2020-06-28 10:02
深度剖析Spark分布式执行原理
Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于
Spark源码
分析的文章有很多,但是介绍Spark如何处理代码分布式执行问题的资料少之又少,这也是我撰写文本的目的。
weixin_34055910
·
2020-06-28 10:04
Scala 入门笔记
Scala函数式编程:感觉spark一般用scala写,甚至
spark源码
就是用scala实现的,所以就学习一下scala基础/***基础语法*/objectbase{defhello1(name:String
weixin_30569033
·
2020-06-27 21:17
精通
spark源码
-rdd是如何运行的
一、spark执行过程的一个例子//rdd_people:id,年龄varrdd_people=sc.range(1,100,1).map(i=>(i,20+i%80))//rdd_score:id,成绩varrdd_score=sc.range(1,100,1).map(i=>(i,i+2))//两个进行joinvarrdd_res=rdd_people.join(rdd_score)rdd_r
曾二爷耶
·
2020-06-27 18:43
【0】
Spark源码
编译
一直说阅读
Spark源码
,工作太忙,搁置了很久,今天献上
Spark源码
编译步骤,是为
Spark源码
系列的序。
JNSimba
·
2020-06-27 09:12
Spark
30天搞定
spark源码
系列-Job,stage,task区别
阅读本篇文章,你应该得到spark面试中的这几个问题的答案:job的概念,job是以什么为准划分的stage的概念,stage是以什么为准划分的task的概念,task是以什么划分的rdd的宽窄依赖是什么,怎么区分1、概念关系图其实这几个概念的理解有个比较好的思路,从stage下手;spark在任务调度这块,将stage作为核心概念,向下:stage是一系列task的集合;向上:多个stage构成
枫叶的落寞
·
2020-06-27 06:28
spark
30天搞定
spark源码
系列-rdd dataset dataframe的区别
阅读本篇文章,你预期可以得到下面几个问题的答案:RddDataSetDataFrame的区别Row类型是什么Row格式是怎么存储的1、RddRDD(ResilientDistributedDataset)弹性分布式数据集,是spark框架中最基本的抽象元素。具有不可变,可伸缩、易并行的特点;它具有几个比较重要的属性:一系列分片;就是partition的概念,主要是为了实现并行对于每个分片都会参与到
枫叶的落寞
·
2020-06-27 06:28
spark
Scala入门到大数据二
一、spark的安装首先需要安装的就是java环境,安装特定的spark版本需要特定的java版本,可从
spark源码
中的pom文件中查看java版本要求,安装好java环境之后进入spark官网(http
十案圈圈
·
2020-06-27 04:38
记一次
spark源码
的bug排查,顺便简单看一下spark sql底层引擎catalyst处理的流程
场景:hive中事先创建好分区表test_table_name,然后通过sparkstreaming任务处理数据,将rdd转为dataframe后写hive。具体出错代码valresult=sparkSession.createDataFrame(rdd,schema)result.write.mode("append").format("hive").partitionBy("dt").save
knowfarhhy
·
2020-06-27 02:14
spark
Spark源码
系列之Spark内核——Shuffle
在Hadoop中有一个阶段——Shuffle,Shuffle存在于Map和Reduce之间。同样在Spark中也存在Shuffle,而且Shuffle影响着Job的性能。尽管Spark尽可能的减少Shuffle,但是操作却需要Shuffle来完成(如,groupByKey、sortByKey、reduceByKey、distinct等)。假设有MapTasks=M,ReduceTasks=R,则S
GatsbyNewton
·
2020-06-26 22:44
Spark
SPARK 源码分析技术分享(带bilibili视频)
SPARK源码
分析技术分享(带bilibili视频)【本站点正在持续更新中…2018-12-05…】SPARK1.6.0-cdh5.15.0Hadoop2.6.0-cdh5.15.0spark-scala-maven
thinktothings
·
2020-06-26 18:18
Spark
基于Hadoop CDH进行Spark编译
Spark-2.4.0下载地址:官方地址:https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2.tgz编译
Spark源码
的文档(参考官方文档
时光在路上
·
2020-06-26 18:37
大数据
spark-2.4.2-bin-2.6.0-cdh5.7.0源码编译
2.4.2编译需要Java8、Maven-3.5.4及以上版本配置环境解压jdk,并配置Java环境变量解压Maven,配置Maven环境变量编译准备tar-zxvfspark-2.4.2.tgz#解压
spark
好笨的菜鸟
·
2020-06-25 15:12
spark
spark源码
系列(9)BlockManager的原理
上一篇说到CacheManager和checkpoint来管理缓存和数据相关的东西。但实际上,他们底层都是通过BlockManger来管理数据的。找到RDD#getOrCompute中的SparkEnv.get.blockManager.getOrElseUpdate(blockId,storageLevel,elementClassTag,我们就可以看到最终是通过BlockManager来管理数
小宝宝的迷你宝
·
2020-06-24 11:05
大数据
框架
Spark源码
解析:DStream
0x00前言本篇是
Spark源码
解析的第二篇,主要通过源码分析SparkStreaming设计中最重要的一个概念——DStream。
木东居士
·
2020-06-24 06:56
Spark源码
系列(七)Spark on yarn具体实现
Spark源码
系列(七)Sparkonyarn具体实现作者岑玉海的博客,火龙果软件发布于2014-11-11来自于要资料909次浏览评价:好中差本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思
javastart
·
2020-06-23 21:09
大数据
大数据学习笔记之Spark(六):Spark内核解析
文章目录小笔记spark通信架构spark脚本sparkStandalone启动流程spark应用提交流程sparkshuffle过程Spark内存管理与分配第1章Spark整体概述如何查看
spark源码
Leesin Dong
·
2020-06-23 03:14
Big
Data
Cloud
Technology❤️
#
BigData
------
Spark
spark源码
系列文章目录
spark-streaming系列-------1.spark-streaming的Job调度上spark-streaming系列-------2.spark-streaming的Job调度下spark-streaming系列-------3.KafkaDirectDStream方式数据的接收spark-streaming系列-------4.Spark-StreamingJob的生成和执行spa
heayin123
·
2020-06-21 08:44
Spark源码
拜读之RDD的迭代器串联
1.迭代器模式在计算时,为了节省内存,不把所有的数据一次全部加载到内存中,有一种设计模式叫迭代器模式。迭代器模式:在逻辑代码执行时,真正的逻辑并未执行,而是创建了新的迭代器,新的迭代器保存着对当前迭代器的引用从而形成链表,每个迭代器需要实现hasNext(),next()两个方法。当触发计算时,最后一个创建的迭代器会调用next方法,next方法会调用父迭代器的next方法。例如:vallist=
Wish大人
·
2020-06-01 19:56
scala
spark
Spark源码
学习--内置RPC框架(3)
RPC客户端工厂TransportClientFactoryTransportClientFactory是创建TransportClient的工厂类。TransportContext的createClientFactory方法可以创建TransportClientFactory的实例/***InitializesaClientFactorywhichrunsthegivenTransportCli
小明的数据脚印
·
2020-05-28 00:49
spark
源码学习
大数据
Spark源码
解析-textFile
概述RDD是Spark的核心,其创建方式可以通过其他RDD转换而来,或者从存储系统中创建,比如本地文件系统或者hdfs。其中SparkContext中的textFile便可以从文件系统中生产RDD,其实质便是new出了RDD的实例,其中一个重要的信息便是分区。下面将详细介绍。textFile解析调用textFile可以用下面的方式:SparkSessionspark=SparkSession.bu
bugDesigner
·
2020-05-28 00:46
spark
源码分析
大数据
Spark源码
学习--内置RPC框架(1)
在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节点间的Shuffle过程、Block数据的复制与备份等。在Spark0.x.x与Spark1.x.x版本中,组件间的消息通信主要借助于Akka,使用Akka可以轻松地构建强有力的高并发与分布式应用。但是Akka在Spark2.0.0版本中被移除了,Spark官网文档对此的描述为:“Akka的依赖被
小明的数据脚印
·
2020-05-28 00:49
spark
源码学习
大数据
Spark源码
阅读环境搭建(基于idea+maven)
在cmd中输入bash命令,如果能进入bash视图则成功6.下载
spark源码
https://github.com/apache/sparkhttps://archive.apache
bugDesigner
·
2020-05-28 00:34
spark
源码学习
大数据
Spark源码
学习--内置RPC框架(2)
RPC配置类TransportConfTransportConf给Spark的RPC框架提供配置信息,它有两个成员属性——配置提供者conf和配置的模块名称module。这两个属性的定义如下://配置提供者privatefinalConfigProviderconf;//模块名称privatefinalStringmodule;ConfigProvider是一个抽象类,代码如下:/***Provi
小明的数据脚印
·
2020-05-28 00:43
spark
源码学习
大数据
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决
解决方法1转载:http://www.cnblogs.com/war3blog/p/7864804.html在编译
spark源码
的时候老师报类似的错误然后在spark文件夹下的pom.xml里加入如下依赖
达微
·
2020-05-27 21:24
Spark源码
编译
前言:因为线上生产环境和实际业务需求的复杂性,不可避免地需要修改
spark源码
,重新编译并测试完成后应用于线上生产环境。
伍柒大人的三言两语
·
2020-04-11 22:23
赛赛的网络日志-记录点滴-Jerry Shao 的blog
blogtestHelloWorldarchitectureSummaryofSparkStreamingInvestigationofDynamicAllocationinSpark详细探究Spark的shuffle实现
Spark
Albert陈凯
·
2020-04-08 08:57
Spark内核流程概要
本篇文章主要介绍Spark的内核架构,详细介绍从Saprk程序编写完成使用Sparksubmit(shell)的方式提交到完成任务的流程,为后续阅读
Spark源码
打下基础。
liuzx32
·
2020-04-08 07:34
1. 通过案例对SparkStreaming 透彻理解三板斧之一:解密SparkStreaming另类实验
Spark源码
定制选择从SparkStreaming入手这是一个流处理的时代,一切数据如果不是流式的处理或者跟流式的处理不相关的话,都是无效的数据。
milkfan
·
2020-04-07 01:27
Spark从入门到精通33:编译
Spark源码
以支持Hive
Spark官网提供的原生的安装包不支持Hive,但是我们可以使用Spark官网提供的
Spark源码
包编译成支持Hive的安装包来使用。
金字塔下的小蜗牛
·
2020-04-02 09:54
原创-
Spark源码
分析一:Standalone模式下Master启动源码分析
一:概述Master节点是SparkStandalone运行模式下的主节点,主要用于管理集群,负责资源的调度,其继承了ThreadSafeRpcEndpoint、LeaderElectable两个类。ThreadSafeRpcEndpoint类功能:线程安全的RpcEndpoint,可理解对消息有序处理,启动时默认先执行onStart方法,由receive和receiveAndReply方法处理接
无色的叶
·
2020-03-30 00:45
【spark笔记】在idea用maven导入
spark源码
成功的前提一定要把maven安装好,并修改maven安装目录下的conf/settings.xml的mirror为国内的服务器(比如阿里的镜像)配置好了maven之后就很简单了先下载好
spark源码
二、
代码足迹
·
2020-03-26 07:40
Spark源码
—— 从 SparkSubmit 到 Driver启动
前言本文主要是以笔记的整理方式写的,仅以分享的方式供你阅读,如有不对的地方欢迎指点错误。读完本文可以学到:当你用shell命令执行spark-submit之后,到你的代码开始正式运行的一些列知识和细节,恩...粗略的,要看的更细,可以按照流程自己撸源码哈~~~~SparkSubmitSpark-Submit脚本执行后,会执行到org.apache.spark.deploy.SparkSubmit所
code_solve
·
2020-03-23 07:55
Spark2.4.0 源码编译
Spark源码
编译源码下载从github上下载最新版本
spark源码
https://github.com/apache/sparkApacheMaven(Maven编译)基于maven的编译的版本要求如下
井地儿
·
2020-03-20 22:38
spark源码
分析之Checkpoint的过程
概述checkpoint的机制保证了需要访问重复数据的应用Spark的DAG执行行图可能很庞大,task中计算链可能会很长,这时如果task中途运行出错,那么task的整个需要重算非常耗时,因此,有必要将计算代价较大的RDDcheckpoint一下,当下游RDD计算出错时,可以直接从checkpoint过的RDD那里读取数据继续算。我们先来看一个例子,checkpoint的使用importorg.
张鱼猫
·
2020-03-17 11:11
[
Spark源码
剖析]Spark 延迟调度策略
本文旨在说明Spark的延迟调度及其是如何工作的什么是延迟调度在Spark中,若task与其输入数据在同一个jvm中,我们称task的本地性为PROCESS_LOCAL,这种本地性(localitylevel)是最优的,避免了网络传输及文件IO,是最快的;其次是task与输入数据在同一节点上的NODE_LOCAL,数据在哪都一样的NO_PREF,数据与task在同一机架不同节点的RACK_LOCA
牛肉圆粉不加葱
·
2020-03-13 21:05
Spark源码
阅读 (一) - Spark 初始化
1.从wordcount程序开始代码如下:代码1defmain(args:Array[String]){valsparkConf=newSparkConf().setAppName("WordCount")valsc=newSparkContext(sparkConf)vallines=sc.textFile("README.md",1)valwords=lines.flatMap(line=>l
aaron1993
·
2020-03-13 02:05
Spark笔记1. rpcEnv 源码分析
master-worker这两天看了下
Spark源码
,感叹Scala的强大,不愧是killer级别的产品。想想golang果然是两个风格的语言。
董泽润
·
2020-03-12 23:09
TensorFlowOn
Spark源码
解析
前言这两天琢磨了下spark-deep-learning和spark-sklearn两个项目,但是感觉都不尽人如意。在training时,都需要把数据broadcast到各个节点进行并行训练,基本就失去实用价值了(tranning数据都会大于单节点内存的好么),而且spark-deep-learning目前还没有实现和tfcluster的结合。所以这个时候转向了开源已久的yahoo的TensorF
千锋IJava
·
2020-03-11 12:23
java
ideallij中单步调试
spark源码
的两种方法
该篇文章介绍多种在ideallij中单步调试
spark源码
的方法,以sparksql为例来进行说明方法一直接通过app的方式进行单步调试本方法假设开发者已经搭建了spark在ideallij中的的运行环境
兵马勇_8f4f
·
2020-03-09 14:26
每日一读 10.27
Spark源码
解读之Task是如何被分配到executor上执行http://www.aboutyun.com/forum.php?
Vicor
·
2020-03-09 11:54
【Scala】按照element个数(长度)分组集合或者字符串
今天看
Spark源码
偶然发现一个优雅的函数:grouped(存在于scala-library库),它能够实现按照element个数分组集合或者字符串,之前都是自己实现逻辑进行切分的,代码写出来比较丑,scala
PowerMe
·
2020-03-08 09:55
Spark 学习计划
读书计划:
spark源码
分析和学习参考书记:《spark大数据处理技术》《深入理解spark:核心思想和源码分析》MateiZaharia写的《AnArchitectureforFastandGeneralDataProcessingonLargeClusters
raincoffee
·
2020-03-07 22:16
spark源码
----Spark 通讯架构
Spark通信架构概述Spark2.x版本使用Netty通讯框架作为内部通讯组件。spark基于netty新的rpc框架借鉴了Akka的中的设计,它是基于Actor模型,如下图所示:Spark通讯框架中各个组件(Client/Master/Worker)可以认为是一个个独立的实体,各个实体之间通过消息来进行通信。具体各个组件之间的关系图如下:Endpoint(Client/Master/Worke
没有合适的昵称
·
2020-02-29 17:55
spark
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他