spark源码第8页

戳破 | hive on spark 调优点

所以，spark爱好者，大数据爱好者，spark源码爱好者，欢迎加入浪尖知识星球，获取高效指导。入口点击阅读原文。入群，请加浪尖微信：158570986.h

大数据星球-浪尖·2020-07-05 11:13

如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】

答案在spark源码中的pom文件。首先我们从官网下载源码。进入官网[Bashshell]纯文本查看复制

about云·2020-07-04 12:54

Hive on Spark 搭建过程(hvie-2.3.6 spark-2.4.4 hadoop-2.8.5)

下载Spark源码，以spark-2.4.4为例。编译Spark源码。

TMH_ITBOY·2020-07-04 06:45

spark源码阅读基本思路

1.为何要阅读源码浪尖以自己的经验讲一下为何需要阅读源码吧！a.解决企业中bug。比如flink早期bug，就很多，如json序列化工具，在开启flink仅一次处理，json格式不符合要求，就会抛异常而挂掉，然后重试，挂掉。这明显不科学，要解决这个bug就要会读源码，改源码。bug代码如下：修改后代码如下：b.丰富原有框架的需求。比如sparkstreaming与kafka早期版本结合，是不支持动

浪尖聊大数据-浪尖·2020-07-03 23:38

Spark源码环境问题

异常1点击idea–build–buildproject,或者打开源码显示导入异常。但是maven包都是下载好了的Error:(45,66)notfound:typeSparkFlumeProtocolvaltransactionTimeout:Int,valbackOffInterval:Int)extendsSparkFlumeProtocolwithLogging{^解决方法：点击右侧mav

灰二和杉菜·2020-07-02 15:27

spark源码编译

如果官方给的安装包不能满足我们生产环境的要求又或者我们基于自己的需求修改了spark源码，那么我们就需要对spark源码重新编译打包，相关方法和命令官网也写的特别清楚，我们只需要安装官网一步步操作即可，

Sx_Ren·2020-07-02 07:53

scala 隐式详解(implicit关键字)

掌握implicit的用法是阅读spark源码的基础，也是学习scala其它的开源框架的关键，implicit可分为：隐式参数隐式转换类型隐式调用函数1.隐式参数当我们在定义方法时，可以把最后一个参数列表标记为

JamesFen·2020-07-02 00:51

Spark HadoopRDD读取HDFS文件

SparkHadoopRDD读取HDFS文件更多资源SPARK源码分析技术分享(bilibilid视频汇总套装视频):https://www.bilibili.com/video/av37442139/

thinktothings·2020-07-01 04:10

Spark 源码解析：彻底理解TaskScheduler的任务提交和task最佳位置算法

上篇文章《Spark源码解析:DAGScheduler中的DAG划分与提交》介绍了DAGScheduler的Stage划分算法。

听风的蜗牛·2020-06-30 16:52

[源码]Spark Streaming--Spark源码走读12——

Spark源码走读12——SparkStreaming-峰哥的专栏-博客频道-CSDN.NEThttp://blog.csdn.net/huwenfeng_2011/article/details/43371325SummarizeSparkStreaming

葡萄喃喃呓语·2020-06-29 05:54

Spark源码系列（六）Shuffle的过程解析

Spark大会上，所有的演讲嘉宾都认为shuffle是最影响性能的地方，但是又无可奈何。之前去百度面试hadoop的时候，也被问到了这个问题，直接回答了不知道。这篇文章主要是沿着下面几个问题来开展：1、shuffle过程的划分？2、shuffle的中间结果如何存储？3、shuffle的数据如何拉取过来？Shuffle过程的划分Spark的操作模型是基于RDD的，当调用RDD的reduceByKey

weixin_34290000·2020-06-28 16:52

Spark源码系列（五）分布式缓存

这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。defpersist(newLevel:StorageLevel):this.type={//StorageLevel不能随意更改if(storageLevel!=StorageLevel.NONE&&newLevel!=storageLevel){thrownewUnsupporte

weixin_34061555·2020-06-28 10:02

深度剖析Spark分布式执行原理

Spark是大数据领域中相当火热的计算框架，在大数据分析领域有一统江湖的趋势，网上对于Spark源码分析的文章有很多，但是介绍Spark如何处理代码分布式执行问题的资料少之又少，这也是我撰写文本的目的。

weixin_34055910·2020-06-28 10:04

Scala 入门笔记

Scala函数式编程：感觉spark一般用scala写，甚至spark源码就是用scala实现的，所以就学习一下scala基础/***基础语法*/objectbase{defhello1(name:String

weixin_30569033·2020-06-27 21:17

精通spark源码-rdd是如何运行的

一、spark执行过程的一个例子//rdd_people:id，年龄varrdd_people=sc.range(1,100,1).map(i=>(i,20+i%80))//rdd_score:id，成绩varrdd_score=sc.range(1,100,1).map(i=>(i,i+2))//两个进行joinvarrdd_res=rdd_people.join(rdd_score)rdd_r

曾二爷耶·2020-06-27 18:43

【0】Spark源码编译

一直说阅读Spark源码，工作太忙，搁置了很久，今天献上Spark源码编译步骤，是为Spark源码系列的序。

JNSimba·2020-06-27 09:12

30天搞定spark源码系列-Job，stage，task区别

阅读本篇文章，你应该得到spark面试中的这几个问题的答案：job的概念，job是以什么为准划分的stage的概念，stage是以什么为准划分的task的概念，task是以什么划分的rdd的宽窄依赖是什么，怎么区分1、概念关系图其实这几个概念的理解有个比较好的思路，从stage下手；spark在任务调度这块，将stage作为核心概念，向下：stage是一系列task的集合；向上：多个stage构成

枫叶的落寞·2020-06-27 06:28

30天搞定spark源码系列-rdd dataset dataframe的区别

阅读本篇文章，你预期可以得到下面几个问题的答案：RddDataSetDataFrame的区别Row类型是什么Row格式是怎么存储的1、RddRDD（ResilientDistributedDataset）弹性分布式数据集，是spark框架中最基本的抽象元素。具有不可变，可伸缩、易并行的特点；它具有几个比较重要的属性：一系列分片；就是partition的概念，主要是为了实现并行对于每个分片都会参与到

枫叶的落寞·2020-06-27 06:28

Scala入门到大数据二

一、spark的安装首先需要安装的就是java环境，安装特定的spark版本需要特定的java版本，可从spark源码中的pom文件中查看java版本要求，安装好java环境之后进入spark官网（http

十案圈圈·2020-06-27 04:38

记一次spark源码的bug排查,顺便简单看一下spark sql底层引擎catalyst处理的流程

场景：hive中事先创建好分区表test_table_name，然后通过sparkstreaming任务处理数据，将rdd转为dataframe后写hive。具体出错代码valresult=sparkSession.createDataFrame(rdd,schema)result.write.mode("append").format("hive").partitionBy("dt").save

knowfarhhy·2020-06-27 02:14

Spark源码系列之Spark内核——Shuffle

在Hadoop中有一个阶段——Shuffle，Shuffle存在于Map和Reduce之间。同样在Spark中也存在Shuffle，而且Shuffle影响着Job的性能。尽管Spark尽可能的减少Shuffle，但是操作却需要Shuffle来完成（如，groupByKey、sortByKey、reduceByKey、distinct等）。假设有MapTasks=M，ReduceTasks=R，则S

GatsbyNewton·2020-06-26 22:44

SPARK 源码分析技术分享(带bilibili视频)

SPARK源码分析技术分享(带bilibili视频)【本站点正在持续更新中…2018-12-05…】SPARK1.6.0-cdh5.15.0Hadoop2.6.0-cdh5.15.0spark-scala-maven

thinktothings·2020-06-26 18:18

基于Hadoop CDH进行Spark编译

Spark-2.4.0下载地址：官方地址：https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2.tgz编译Spark源码的文档(参考官方文档

时光在路上·2020-06-26 18:37

spark-2.4.2-bin-2.6.0-cdh5.7.0源码编译

2.4.2编译需要Java8、Maven-3.5.4及以上版本配置环境解压jdk，并配置Java环境变量解压Maven，配置Maven环境变量编译准备tar-zxvfspark-2.4.2.tgz#解压spark

好笨的菜鸟·2020-06-25 15:12

spark源码系列（9）BlockManager的原理

上一篇说到CacheManager和checkpoint来管理缓存和数据相关的东西。但实际上，他们底层都是通过BlockManger来管理数据的。找到RDD#getOrCompute中的SparkEnv.get.blockManager.getOrElseUpdate(blockId,storageLevel,elementClassTag,我们就可以看到最终是通过BlockManager来管理数

小宝宝的迷你宝·2020-06-24 11:05

Spark源码解析：DStream

0x00前言本篇是Spark源码解析的第二篇，主要通过源码分析SparkStreaming设计中最重要的一个概念——DStream。

木东居士·2020-06-24 06:56

Spark源码系列（七）Spark on yarn具体实现

Spark源码系列（七）Sparkonyarn具体实现作者岑玉海的博客，火龙果软件发布于2014-11-11来自于要资料909次浏览评价：好中差本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思

javastart·2020-06-23 21:09

大数据学习笔记之Spark（六）：Spark内核解析

文章目录小笔记spark通信架构spark脚本sparkStandalone启动流程spark应用提交流程sparkshuffle过程Spark内存管理与分配第1章Spark整体概述如何查看spark源码

Leesin Dong·2020-06-23 03:14

spark源码系列文章目录

spark-streaming系列-------1.spark-streaming的Job调度上spark-streaming系列-------2.spark-streaming的Job调度下spark-streaming系列-------3.KafkaDirectDStream方式数据的接收spark-streaming系列-------4.Spark-StreamingJob的生成和执行spa

heayin123·2020-06-21 08:44

Spark源码拜读之RDD的迭代器串联

1.迭代器模式在计算时，为了节省内存，不把所有的数据一次全部加载到内存中，有一种设计模式叫迭代器模式。迭代器模式：在逻辑代码执行时，真正的逻辑并未执行，而是创建了新的迭代器，新的迭代器保存着对当前迭代器的引用从而形成链表，每个迭代器需要实现hasNext()，next()两个方法。当触发计算时，最后一个创建的迭代器会调用next方法，next方法会调用父迭代器的next方法。例如：vallist=

Wish大人·2020-06-01 19:56

Spark源码学习--内置RPC框架(3)

RPC客户端工厂TransportClientFactoryTransportClientFactory是创建TransportClient的工厂类。TransportContext的createClientFactory方法可以创建TransportClientFactory的实例/***InitializesaClientFactorywhichrunsthegivenTransportCli

小明的数据脚印·2020-05-28 00:49

Spark源码解析-textFile

概述RDD是Spark的核心，其创建方式可以通过其他RDD转换而来，或者从存储系统中创建，比如本地文件系统或者hdfs。其中SparkContext中的textFile便可以从文件系统中生产RDD，其实质便是new出了RDD的实例，其中一个重要的信息便是分区。下面将详细介绍。textFile解析调用textFile可以用下面的方式：SparkSessionspark=SparkSession.bu

bugDesigner·2020-05-28 00:46

Spark源码学习--内置RPC框架(1)

在Spark中很多地方都涉及网络通信，比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节点间的Shuffle过程、Block数据的复制与备份等。在Spark0.x.x与Spark1.x.x版本中，组件间的消息通信主要借助于Akka，使用Akka可以轻松地构建强有力的高并发与分布式应用。但是Akka在Spark2.0.0版本中被移除了，Spark官网文档对此的描述为：“Akka的依赖被

小明的数据脚印·2020-05-28 00:49

Spark源码阅读环境搭建（基于idea+maven）

在cmd中输入bash命令，如果能进入bash视图则成功6.下载spark源码https://github.com/apache/sparkhttps://archive.apache

bugDesigner·2020-05-28 00:34

Spark源码学习--内置RPC框架(2)

RPC配置类TransportConfTransportConf给Spark的RPC框架提供配置信息，它有两个成员属性——配置提供者conf和配置的模块名称module。这两个属性的定义如下：//配置提供者privatefinalConfigProviderconf;//模块名称privatefinalStringmodule;ConfigProvider是一个抽象类，代码如下：/***Provi

小明的数据脚印·2020-05-28 00:43

Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决

解决方法1转载：http://www.cnblogs.com/war3blog/p/7864804.html在编译spark源码的时候老师报类似的错误然后在spark文件夹下的pom.xml里加入如下依赖

达微·2020-05-27 21:24

Spark源码编译

前言：因为线上生产环境和实际业务需求的复杂性，不可避免地需要修改spark源码，重新编译并测试完成后应用于线上生产环境。

伍柒大人的三言两语·2020-04-11 22:23

赛赛的网络日志-记录点滴-Jerry Shao 的blog

blogtestHelloWorldarchitectureSummaryofSparkStreamingInvestigationofDynamicAllocationinSpark详细探究Spark的shuffle实现Spark

Albert陈凯·2020-04-08 08:57

Spark内核流程概要

本篇文章主要介绍Spark的内核架构，详细介绍从Saprk程序编写完成使用Sparksubmit(shell)的方式提交到完成任务的流程，为后续阅读Spark源码打下基础。

liuzx32·2020-04-08 07:34

1. 通过案例对SparkStreaming 透彻理解三板斧之一：解密SparkStreaming另类实验

Spark源码定制选择从SparkStreaming入手这是一个流处理的时代，一切数据如果不是流式的处理或者跟流式的处理不相关的话，都是无效的数据。

milkfan·2020-04-07 01:27

Spark从入门到精通33：编译Spark源码以支持Hive

Spark官网提供的原生的安装包不支持Hive，但是我们可以使用Spark官网提供的Spark源码包编译成支持Hive的安装包来使用。

金字塔下的小蜗牛·2020-04-02 09:54

原创-Spark源码分析一:Standalone模式下Master启动源码分析

一：概述Master节点是SparkStandalone运行模式下的主节点，主要用于管理集群，负责资源的调度，其继承了ThreadSafeRpcEndpoint、LeaderElectable两个类。ThreadSafeRpcEndpoint类功能：线程安全的RpcEndpoint，可理解对消息有序处理，启动时默认先执行onStart方法，由receive和receiveAndReply方法处理接

无色的叶·2020-03-30 00:45

【spark笔记】在idea用maven导入spark源码

成功的前提一定要把maven安装好，并修改maven安装目录下的conf/settings.xml的mirror为国内的服务器（比如阿里的镜像）配置好了maven之后就很简单了先下载好spark源码二、

代码足迹·2020-03-26 07:40

Spark源码 —— 从 SparkSubmit 到 Driver启动

前言本文主要是以笔记的整理方式写的，仅以分享的方式供你阅读，如有不对的地方欢迎指点错误。读完本文可以学到：当你用shell命令执行spark-submit之后，到你的代码开始正式运行的一些列知识和细节，恩...粗略的，要看的更细，可以按照流程自己撸源码哈~~~~SparkSubmitSpark-Submit脚本执行后，会执行到org.apache.spark.deploy.SparkSubmit所

code_solve·2020-03-23 07:55

Spark2.4.0 源码编译

Spark源码编译源码下载从github上下载最新版本spark源码https://github.com/apache/sparkApacheMaven（Maven编译）基于maven的编译的版本要求如下

井地儿·2020-03-20 22:38

spark源码分析之Checkpoint的过程

概述checkpoint的机制保证了需要访问重复数据的应用Spark的DAG执行行图可能很庞大，task中计算链可能会很长，这时如果task中途运行出错，那么task的整个需要重算非常耗时，因此，有必要将计算代价较大的RDDcheckpoint一下，当下游RDD计算出错时，可以直接从checkpoint过的RDD那里读取数据继续算。我们先来看一个例子，checkpoint的使用importorg.

张鱼猫·2020-03-17 11:11

[Spark源码剖析]Spark 延迟调度策略

本文旨在说明Spark的延迟调度及其是如何工作的什么是延迟调度在Spark中，若task与其输入数据在同一个jvm中，我们称task的本地性为PROCESS_LOCAL，这种本地性（localitylevel）是最优的，避免了网络传输及文件IO，是最快的；其次是task与输入数据在同一节点上的NODE_LOCAL，数据在哪都一样的NO_PREF，数据与task在同一机架不同节点的RACK_LOCA

牛肉圆粉不加葱·2020-03-13 21:05

Spark源码阅读 (一) - Spark 初始化

1.从wordcount程序开始代码如下：代码1defmain(args:Array[String]){valsparkConf=newSparkConf().setAppName("WordCount")valsc=newSparkContext(sparkConf)vallines=sc.textFile("README.md",1)valwords=lines.flatMap(line=>l

aaron1993·2020-03-13 02:05

Spark笔记1. rpcEnv 源码分析

master-worker这两天看了下Spark源码，感叹Scala的强大，不愧是killer级别的产品。想想golang果然是两个风格的语言。

董泽润·2020-03-12 23:09

TensorFlowOnSpark源码解析

前言这两天琢磨了下spark-deep-learning和spark-sklearn两个项目，但是感觉都不尽人如意。在training时，都需要把数据broadcast到各个节点进行并行训练，基本就失去实用价值了(tranning数据都会大于单节点内存的好么)，而且spark-deep-learning目前还没有实现和tfcluster的结合。所以这个时候转向了开源已久的yahoo的TensorF

千锋IJava·2020-03-11 12:23

推荐频道

spark源码