E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark源码
hive on spark亲自编译,详细教程
3、编译
spark源码
[root@m
Bonyin
·
2023-06-16 21:34
spark
hive
hadoop
1.Spark Submit任务提交
Spark源码
版本:2.1.0Spark在集群上的运行方式.pngSpark在集群上的运行方式及相关概念Spark应用程序在集群上以独立的进程集运行,整个的任务执行过程如下:用户提交编写的程序(DriverProgram
laungcisin
·
2023-04-21 14:50
Spark源码
:启动Master
源码目录1start-master.sh--spark/sbin/start-master.shCLASS="org.apache.spark.deploy.master.Master""${SPARK_HOME}/sbin"/spark-daemon.shstart$CLASS1\--host$SPARK_MASTER_HOST--port$SPARK_MASTER_PORT--webui-po
Jorvi
·
2023-04-20 15:20
Spark源码
:创建TaskScheduler和DAGScheduler
源码目录初始化SparkContext时,会创建TaskScheduler和DAGScheduler。1创建TaskScheduler调用SparkContext.createTaskScheduler(this,master,deployMode)创建TaskScheduler。进入org.apache.spark.SparkContext.scala/***Createataskschedul
Jorvi
·
2023-04-20 13:44
Spark源码
:Job的Stage划分
源码目录1.程序入口varconf:SparkConf=newSparkConf().setAppName("SparkJob_Demo").setMaster("local[*]");valsparkContext:SparkContext=newSparkContext(conf);sparkContext.parallelize(List("aaa","bbb","ccc","ddd"),2
Jorvi
·
2023-04-20 02:25
Spark源码
:提交Tasks
源码目录1程序入口varconf:SparkConf=newSparkConf().setAppName("SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkContext.parallelize(List("aaa","bbb","ccc","ddd"),2).r
Jorvi
·
2023-04-19 08:59
spark源码
阅读之storage模块①
Storage模块负责管理spark在计算过程中产生的数据,对用户来说,spark的编程面向的是RDD这种抽象的逻辑数据集,对RDD的转换和动作完成对数据运算逻辑的处理。而在RDD优雅外表之下,Storage模块则是兢兢业业的管理着数据的计算,可以说是背后的功臣。storage模块的架构storage-frame1.png如上图所示,Storage模块与Driver和Executor遥相呼应,也是
invincine
·
2023-04-13 20:36
Spark源码
:提交Application到Spark集群
源码目录1spark-submit.sh#!/usr/bin/envbashif[-z"${SPARK_HOME}"];thensource"$(dirname"$0")"/find-spark-homefi#disablerandomizedhashforstringinPython3.3+exportPYTHONHASHSEED=0exec"${SPARK_HOME}"/bin/spark-c
Jorvi
·
2023-04-13 08:45
Scala学习(一)——安装与入门
学习scala编程语言是为了更好地掌握spark这个大数据计算框架,
spark源码
就是用scala写的。不过scala语言最终也是基于JVM环境的。
大数据阶梯之路
·
2023-04-12 06:19
Spark源码
:初始化SparkContext
源码目录提交Application到Spark,创建启动Driver,在Driver内开始执行自己的应用程序代码。1程序入口varconf:SparkConf=newSparkConf().setAppName("SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkC
Jorvi
·
2023-04-12 02:13
Spark源码
:目录
www.louisvv.com/archives/category/spark/spark%e6%ba%90%e7%a0%81Spark内核设计的艺术-架构设计与实现(耿嘉安著)version:2.4.4框架启动
Spark
Jorvi
·
2023-04-12 00:53
Spark源码
解析(三):Executor启动流程
Executor启动流程流程图源码分析Executor进程的启动这里我们需要追踪的方法是Master类中的schedule()方法内部的607行,这个方法的主要作用是向Worker发送消息,然后启动Executor进程。以上代码的所做的工作是记录和Master通信的Worker使用的资源,并且发送消息给Worker,最后Master向ClientActor发送的消息,告知Executor已经启动了
Java技术范
·
2023-04-09 11:35
记一次
spark源码
的bug排查,顺便简单看一下spark sql底层引擎catalyst处理的流程
场景:hive中事先创建好分区表test_table_name,然后通过sparkstreaming任务处理数据,将rdd转为dataframe后写hive。具体出错代码valresult=sparkSession.createDataFrame(rdd,schema)result.write.mode("append").format("hive").partitionBy("dt").save
zxfBdd
·
2023-04-09 02:03
spark
Spark Streaming实时流处理-2. Spark实战环境搭建
0.目录
Spark源码
编译Spark环境搭建Spark简单使用1.
Spark源码
编译http://spark.apache.org/downloads.html下载SourceCode源码使用tar-zxvf
何以畅闲情
·
2023-04-08 10:23
数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向
Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统@目录*概述SparkonHiveHiveonSpark概述编译
Spark源码
配置调优思路编程方向分组聚合优化join
qq_43479892
·
2023-04-05 22:23
python
hive
spark
python
计算机
Spark源码
:启动TaskScheduler
源码目录初始化SparkContext时,会创建TaskScheduler,现在来看看TaskScheduler启动过程。1启动TaskScheduler调用_taskScheduler.start()启动TaskScheduler。进入org.apache.spark.scheduler.TaskSchedulerImpl.scalaprivatevalspeculationScheduler=
Jorvi
·
2023-04-03 18:16
Git rebase合并多条commit记录
在定制
Spark源码
内部功能的过程中,和其他Git托管项目一样,都会产生对同一个功能不断改进、多次远程提交生成commit记录的情况,为了保证一个功能点只有一条提交记录利于后续维护,需要利用gitrebase
书忆江南
·
2023-04-01 16:43
Git
git
rebase
commit
提交
合并
spark源码
分析StatCounter以及用法
StatCounter这是用于统计的一个类,在org.apache.spark.util包中如果是RDD[Double]可以通过隐式转化DoubleRDDFunctions来获得一些额外的功能,就比如能产生这个对象的.statsdefstats():StatCounter=self.withScope{self.mapPartitions(nums=>Iterator(StatCounter(nu
达微
·
2023-04-01 13:39
配置Spark on YARN集群内存
还没有看
Spark源码
,只能先搜搜相关的博客解决问题。按照Spark应用程序中的driver分布方式不同,SparkonYARN有两种模式:yarn-client模式、yarn-cluster模式。
格格巫 MMQ!!
·
2023-03-28 19:49
spark
spark
大数据
hadoop
Spark源码
系列-Yarn模式下Client&Cluster模式的资源启动
本文带读者从源码查看,分析Yarn模式下Client&Cluster模式的资源启动流程,分析Client&Cluster究竟有什么不一样回顾在xxxx中我们分析了Standalone模式下Master和Worker的启动流程。image.pngMaster负责集群总资源的管理,包括CPU、内存的分配以及所有Applications的管理、Cluster模式下还有所有的driver的管理。Maste
LancerLin_LX
·
2023-03-26 19:20
spark源码
阅读之shuffle模块②
在
spark源码
阅读之shuffle模块①中,介绍了spark版本shuffle的演化史,提到了主要的两个shuffle策略:HashBasedShuffle和SortedBasedShuffle,分别分析了它们的原理以及
invincine
·
2023-03-24 03:12
spark源码
阅读之scheduler模块①
本文基于Spark1.6.3版本源码整体概述spark的调度模块可以说是非常有特色的模块设计,使用DAG(有向无环图)刻画spark任务的逻辑关系,将任务切分为多个stage,在每个stage中根据并行度又分为多个task,这多个Task的计算逻辑都一样,然后把封装好的task提交给executor执行得出结果。且每个stage之间以及stage内部又存在着依赖关系,通过这些依赖关系构成了line
invincine
·
2023-03-19 14:53
spark源码
阅读之scheduler模块②
在
spark源码
阅读之scheduler模块①中,分析了DAGScheduler如何提交Job,并且将Job划分为stage提交给TaskScheduler,最后调用了TaskScheduler的submitTasks
invincine
·
2023-03-14 04:52
图解
Spark源码
(一)--- Spark 通信架构
小乌龟今天学习的是Spark的通讯框架。因为Spark毕竟是分布式的,各模块之间需要进行通信,那么就必然用到通信框架。Spark通信架构概述Spark1.6之前使用的是Akka作为内部通讯组件,Spark1.6之后将Akka换成了Netty。但是它借鉴了Akka中的设计,即Actor模型。Spark是一个分布式计算系统,因此节点间存在很多通信,那么Spark就会借助这些通讯框架进行RPC通信。Sp
快跑小乌龟
·
2023-02-26 07:17
Spark
spark
架构
Spark(七):scala类型系统编程实战
一、泛型的操作背景scala的类和方法1、函数都可以是泛型,在
Spark源码
中可以到处看到类和方法的类型,在实际的实例化的时候指定具体的类型2、例如Spark的最核心、最基础、最重要的抽象数据结构RDD
文子轩
·
2023-02-17 12:23
《关于我因为flink成为
spark源码
贡献者这件小事》
各位读者老爷请放下手上的板砖,我可真没有标题党,且容老弟慢慢道来。spark和flink本身相信我不用做过多的介绍,后端同学不管搞没搞过大数据,应该都多多少少听过。如果没听过,简单说,spark和flink之于大数据,就好比vue和react之于前端,就好比spring家族之于java。从20
是奉壹呀
·
2023-02-16 17:00
Spark源码
-spark算子-1-构建RDD的算子
构建RDD的算子1.概述2.RDD创建方式2.1.根据驱动程序中现有并行化集合创建RDD2.1.1.parallelize方式创建RDD2.2.根据外部存储系统中的数据集创建RDD2.2.1.textFile-根据本地文本文件创建RDD2.2.1.1.hadoopFile-根据文件创建hadoopRDD2.2.2.wholeTextFiles-根据文件目录创建RDD2.2.3.sequenceFi
zdaiqing
·
2023-02-03 12:26
源码
Spark
大数据
spark
大数据
scala
数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向
文章目录概述SparkonHiveHiveonSpark概述编译
Spark源码
配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐
IT小神
·
2022-12-29 13:31
大数据
运维
hive
spark
大数据
使用
spark源码
脚本编译CDH版本spark
需求描述个人开发环境中大数据所有软件版本都是基于CDH5.15.1版本安装,但是CDH版本spark还停留在1.x版本,并且CDH版本的spark不支持sparkSQL的功能。我们可以使用Apache版本的spark版本进行重新编译满足CDH版本的spark。版本spark:spark2.4.4maven:3.6.2java:jdk8cdh版本:5.15.1注意事项maven版本以及java版本说
weixin_44641024
·
2022-12-15 11:06
环境部署
安装
spark-2.4.5编译支持Hadoop-3.3.1和Hive-3.1.2
文章目录
SPARK源码
编译版本要求前提准备---Maven安装前提准备---Scala安装
spark源码
编译编译问题问题一问题二Spark单机模式启动并测试Spark集群配置一、spark的安装路径:二
做一个徘徊在牛a与牛c之间
·
2022-12-15 11:23
大数据组件
spark
hive
hadoop
Spark物理计划和CBO和AQE
个人新文章:如何优化复杂的spark项目(一)--瓶颈分析_dkk2014的博客-CSDN博客1.Spark本身其实并没有实现成本模型,目前一个逻辑计划可能生成多个物理计划,
Spark源码
直接调用.next
Me丶kang
·
2022-12-15 11:09
spark
大数据
面试
CDH5适配spark3.0集成kyuubi详细教程
详细教程前言参考文章一、编译环境准备二、环境安装1.maven环境(Java和Scala环境这里就不说了)2.上传并解压文件3.配置setting文件3.1配置maven本地存储路径3.2修改镜像地址为阿里地址三、
spark
佑白4399
·
2022-12-15 11:33
编译
hive
hadoop
spark
大数据
Spark修炼之道系列教程预告
基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——
Spark
zhouzhihubeyond
·
2022-11-30 08:41
Spark
Spark修炼之道
spark
Spark修炼之道
Spark修炼之道——Spark学习路线、课程大纲
基础(15讲)、Akka分布式编程(8讲)Spark修炼之道(进阶篇)——Spark入门到精通(30讲)Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)Spark修炼之道(高级篇)——
Spark
zhouzhihubeyond
·
2022-11-30 08:41
Spark
Spark修炼之道
spark
大数据
分布式
Spark修炼之道
Spark 源码理解之withScope (含补充说明)
Spark源码
理解之withScope在通过看RDD源码理解各算子的作用时,总能看到withScope,withScope到底是个什么东西?
yoshubom
·
2022-11-20 10:16
spark
scala
big
data
Spark源码
解析之map,mapPartitions
最近在复习spark,写一些笔记来记录复习的源码过程,以及使用一些源码手动实现算子的过程。map算子//这是一个简单的map方法DemoobjectDemo1{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName("Demo1").setMaster("local[*]")valsc=newSparkContext(
最后一瓶脉动
·
2022-11-20 01:01
大数据框架啊
spark
大数据
编译 Apache Spark 源码报错?那是因为你漏掉了关键操作
本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文源码准备下载Apache
Spark源码
打开IDEA,如下操作:如下操作,输入:
[email protected]
:apache/spark.git
Shockang
·
2022-10-22 07:05
大数据技术体系
apache
spark
大数据
spark源码
(六)spark如何通过BlockManager控制数据的读写
spark几乎所有的读写功能都由BlockManager模块实现,且所有的BlockManager受BlockManagerMaster协调管理,它们的大致关系如下图所示(这里并没有把BlockManagerMaster和BlockManager中的所有子模块都罗列出来,这里只是罗列了和我们疑问有关联的模块):driver上启动BlockManagerMaster、BlockManager,其存储
Interest1_wyt
·
2022-07-17 12:12
源码系列
大数据
spark
spark源码
阅读总纲
spark使用了这么长时间,对于driver、master、worker、BlockManage、RDD、DAGScheduler、TaskScheduler这些概念或多或少都了解一些,但是对于其任务的提交,driver、application的调度与注册,资源的分配,executor的创建,job到stage再到task的切分过程,hdfs文件数据的读写操作,RDD本身的mapreduce操作,
Interest1_wyt
·
2022-07-17 12:11
源码系列
spark
big
data
hadoop
Apache
Spark源码
走读(八)Graphx实现剖析&spark repl实现详解
Graphx实现剖析概要图的并行化处理一直是一个非常热门的话题,这里头的重点有两个,一是如何将图的算法并行化,二是找到一个合适的并行化处理框架。Spark作为一个非常优秀的并行处理框架,将一些并行化的算法移到其上面就成了一个很自然的事情。Graphx是一些图的常用算法在Spark上的并行化实现,同时提供了丰富的API接口。本文就Graphx的代码架构及pagerank在graphx中的具体实现做一
weixin_33847182
·
2022-05-22 07:08
scala
操作系统
大数据
Spark源码
下载及编译步骤,以及运行过程中出现的一些报错的解决办法
一、环境准备运行环境需要安装jdk,并配置环境变量,本次使用的是jdk1.8;使用到的开发工具是idea,并且安装scala和antlr插件,如果没有搜索到antlr插件,需要从网上下载一个插件包,导入到idea中,插件安装完成之后需要重启idea;需要安装maven,并修改配置文件,主要修改本地仓库地址和国内镜像源;antlr4插件地址https://plugins.jetbrains.com/
xw486223221
·
2022-05-15 14:44
spark
intellij-idea
maven
spark源码
----Spark任务划分、调度、执行
从RDD的创建开始讲起把它当做入口,然后点进去主要关注hadoopFile,进去会发现new了一个HadoopRDD以上其实就是一个RDD的构建过程又比如我们看flatMap,它一样会去构建一个新的RDD,把之前的RDD给传进去了又比如我们看map,它一样会去构建一个新的RDD,把之前的RDD给传进去了在换一个算子reduceByKey,点进去,包含一个默认的分区器然后再点进去,combineBy
没有合适的昵称
·
2022-02-28 11:08
spark
Spark+Hadoop+中台实战pdf -阿里巴巴资深架构师熬几个通宵肛出来的
SparkSpark生态系统BDASSpark架构与运行逻辑弹性分布式数据集2、Spark开发与环境配置Spark应用开发环境2置使用Intellii开发Spark远程调试Spark程序Spark编译配置
Spark
Java技术小吴
·
2022-02-22 13:13
阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf
SparkSpark生态系统BDASSpark架构与运行逻辑弹性分布式数据集2、Spark开发与环境配置Spark应用开发环境2置使用Intellii开发Spark远程调试Spark程序Spark编译配置
Spark
写代码的珏秒秒
·
2022-02-22 12:36
Java
程序员
编程
spark
hadoop
big
data
2020-12(完成事项)
12.1-12.2×1.分析spark中的执行流程√2.shuffleRDD的学习(计划于12.04-12.05学习)√12.33.分析
spark源码
√4.scala中的高级方法博客的书写√12.4-12.55
隐约喜欢萌萌哒
·
2022-02-18 07:39
Scala类型系统
Scala类型系统编程:Scala的类和方法、函数都可以是泛型,在
Spark源码
中可以到处看到类和方法的泛型,在实际实例化的时候指定具体的类型,例如Spark最核心、最基础、最重要的抽象数据结构RDD里面关于
SunnyMore
·
2022-02-16 07:07
spark源码
编译过程
本文环境:Scala2.11.8、Maven3.3.9、Spark2.3.01.下载源码1.png原因:1.spark对应不同的hadoop版本有不同的支持2.方便后期对源码的更改,并进行编译需要注意2.pngspark文件夹中的pom文件需要修改maven的路径3.pngpom文件修改,默认的是Apache的源,建议改成cdh的源,避免很多坑WechatIMG5992.jpeg特别注意:需要有目
番茄ozz
·
2022-02-12 16:14
写给小师妹的Scala学习笔记·开篇
但真正提起兴趣,大概率是之前准备看
Spark源码
的时候,然而当时应该是打开RDD的定义看了不到10行就放弃了。这一次重新燃起兴趣,我觉得应该是出于以下几点:用Java用的越久
elon_wen
·
2022-01-02 14:38
Spark源码
阅读02-Spark核心原理之监控管理
监控管理监控管理UI监控实时UI监控历史UI监控Metrics输入源(MetricsSource)介绍输出方式(MetricsSink)介绍TEST监控管理Spark提供了UI监控、SparkMetrics和REST3种方式监控应用程序运行状态。其中:UI监控以网页方式提供用户监控调度阶段、存储、运行环境和Executor参数等信息SparkMetrics通过定制的方式,将应用程序的运行情况以多种
Faith_xzc
·
2021-11-20 11:57
Spark
spark
大数据
Spark源码
阅读02-Spark核心原理之容错及HA(高可用)
容错及HA(高可用)概念介绍Executor异常Worker异常Master异常概念介绍容错指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用(HA)的系统应该具有很高的容错性,系统不会因为一点小的错误导致系统性能严重下降或者造成系统瘫痪。对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,其不能因为这些原因造成集群系统不能提供服务。所以像Spark这样的大型分布式计算
Faith_xzc
·
2021-11-16 20:35
Spark
spark
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他