E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
大数据----Hadoop----Spark入门介绍
文章目录Spark1.
SparkCore
2.SparkSQL3.SparkStreaming4.MLlibMachineLearningLibrary5.GraphXHadoop生态圈包含多种组件,貌似各不相同
noworldling
·
2022-07-02 07:33
大数据
hadoop
Spark
hadoop
大数据
spark
大数据之Spark(四):Spark SQL
一、SparkSQL的发展1.1概述SparkSQL是Spark⽣态体系中的构建在
SparkCore
基础之上的⼀个基于SQL的计算模块。
Oak-Komorebi
·
2022-06-16 01:24
#
Spark
spark
Spark15:Spark SQL:DataFrame常见算子操作、DataFrame的sql操作、RDD转换为DataFrame、load和save操作、SaveMode、内置函数
前面我们学习了Spark中的
Sparkcore
,离线数据计算,下面我们来学习一下Spark中的SparkSQL。
SRE菜鸟的成长之路
·
2022-06-16 01:21
spark
spark
sql
hive
Spark SQL之RDD, DataFrame, DataSet详细使用
前言
SparkCore
中,如果想要执行应用程序,需要首先构建上下文环境对象SparkContext,SparkSQL其实可以理解为对
SparkCore
的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装
逆风飞翔的小叔
·
2022-06-16 00:47
spark
Spark
DataFrame
Spark
SQL详细使用
Spark
DataSet
Spark 3.x Spark Core详解 & 性能优化
SparkCore
1.概述Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎1.1HadoopvsSpark上面流程对应Hadoop的处理流程,下面对应着Spark的处理流程HadoopHadoop
Xi-iX
·
2022-06-01 09:00
“Spark三剑客”之
SparkCore
和SparkSql学习笔记(零基础入门)(一)
目录1Spark的介绍1.1Spark的定义1.2Spark为什么比MapReduce快?1.3RDD弹性式分布式数据集1.4MasterURL1.5Spark为什么很占内存?1.6SparkCount的典型案例(真我瞎写的,非官方)1.7spark代码的核心框架(指的是main方法里的)2RDD的那些事2.1介绍RDD2.2Transformation算子2.2.1map算子2.2.2flatm
林柚晞你今天博学了吗
·
2022-05-17 16:46
大数据那些事
spark
bigdata
大数据开发
Spark深入解析(十三):
SparkCore
之RDD依赖关系、DAG生成、划分Stage
目录Lineage宽窄依赖如何区分宽窄依赖为什么要设计宽窄依赖DAG(有向无环图)DAG划分StageLineage RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。(1)读取一个
老王的小知识
·
2022-02-28 11:46
#
【大数据】Spark
spark
大数据
宽窄依赖
DAG
Stage
(4)spark RDD 算子练习
*///TODO需求:统计出每一个省份广告被点击数量排行的Top3valagentRdd=sc.textFile("Input/
sparkCore
/agent.log")a
有何不可~
·
2022-02-28 10:49
Spark
spark
scala
大数据
大数据课程——课后练习3
SparkCore
:该组件是Spark的核心模块,主要包含两个功能:一是负责任务调度、内存管理、错误恢复与存储系统交互等;二是其包含了对弹性分布式数据集的API定义。
冰冷灬泡面
·
2022-02-23 12:59
大数据课程学习
1 Spark SQL 简介
1.概述SparkSQL是一层依赖
SparkCore
也就是基础操作的API封装出的一层组件.和GraphX类似,它的核心思想是解决两个问题:如何把底层数据结构化.在SparkSQL这里是结构化成表.值得一提的是
GongMeng
·
2022-02-20 11:59
Spark多语言开发
目录1多语言开发-说明2Java-Spark-掌握2.1
SparkCore
2.2SparkStreaming2.3SparkSQL2.4StructuredStreaming2.5线性回归算法-房价预测案例
赵广陆
·
2022-02-15 11:45
spark
spark
scala
big
data
法拉利的外观(Spark)
是批处理的马自达,那Spark一定是批处理的法拉利原因之一就是它将数据优先放在内存,内存读取速度远高于MapReduce的磁盘IO速度,如果需要多次Map处理,就像马自达和法拉利比赛跑远距离,之间的差距成指数级扩大
SparkCore
Aderlabo
·
2022-02-13 09:10
5W字总结Spark(二)(建议收藏)
四、SparkStreamingSparkStreaming是一个基于
SparkCore
之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点。
坨坨的大数据
·
2022-02-10 18:47
5W字总结Spark(一)(建议收藏)
本文目录:一、Spark基础二、
SparkCore
三、SparkSQL四、SparkStreaming五、StructuredStreaming六、Spark两种核心Shuffle七、Spark底层执行原理八
坨坨的大数据
·
2022-02-10 18:12
Spark原理基础笔记
sparkcore
承上启下.pngSpark的概念https://www.cnblogs.com/wzj4858/p/8204411.html核心基本概念RDD(ResilientDistributedDataset
gregocean
·
2022-02-10 00:53
Spark从入门到精通01之基础理解
Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎
SparkCore
中提供了Spark最基础与最核心的功能SparkSQL是Spark用来操作结构化数据的组件。
Coder-michael
·
2022-02-08 10:40
大数据
spark
scala
big
data
spark入门到精通
spark理解
Spark Core源码精读计划#29:BlockManager主从及RPC逻辑
BlockManager注册例:处理BlockManager心跳从RPC端点BlockManagerSlaveEndpointBlockManagerMaster总结前言通过前面几篇文章的讲解,我们就把
SparkCore
LittleMagic
·
2022-02-06 08:24
Spark Core源码精读计划#17:上下文清理器ContextCleaner
顾名思义,它扮演着
SparkCore
中垃圾收集器的角色,因此虽然我们在平时编码时甚少见到它,但它算是一个幕后
LittleMagic
·
2022-02-05 11:47
Spark企业级项目实战:实时流量监控系统
本项目使用了Spark技术生态栈中的三个技术框架:
SparkCore
、SparkStreaming和SparkMLlib,进行道路交通实时流量监控预测系统的开发。
飞雪雪团队
·
2022-02-03 05:42
Spark综合学习笔记(十八)SparkSQL数据抽象
p=53引言
SparkCore
的数据抽象:RDDSparkStreaming的数据抽象:DStream,底层是RDDSparkSQL的数据抽象:DataFrame和DataSet,底层是RDDDataFrame
斯特凡今天也很帅
·
2021-11-25 12:10
大数据
SQL
spark
postman
测试工具
spark
大数据开发技术之Spark RDD详解与依赖关系
RDD(ResilientDistributedDatasets)弹性的分布式数据集,又称
Sparkcore
,它代表一个只读的、不可变、可分区,里面的元素可分布式并行计算的数据集。
·
2021-10-11 10:03
大数据spark
Spark学习记录之
SparkCore
核心属性
Spark学习记录之
SparkCore
初步概念Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
·
2021-08-25 10:10
创建SparkSession和sparkSQL的详细过程
目录一、概述二、创建SparkSession三、SQLContext四、HiveContext一、概述spark有三大引擎,
sparkcore
、sparkSQL、sparkStreaming,
sparkcore
·
2021-08-10 12:11
SparkSQL编程之用户自定义函数
IDEA创建SparkSQL程序IDEA中程序的打包和运行方式都和
SparkCore
类似,Maven依赖中需要添加新的依赖项org.apache.sparkspark-sql_2.112.1.1程序如下
大数据小同学
·
2021-06-27 12:18
Spark--
SparkCore
面试知识点总结
整理于【Spark面试2000题】
Sparkcore
面试篇03,梅峰谷大数据1.Spark使用parquet文件存储格式能带来哪些好处?
李小李的路
·
2021-06-21 17:07
spark从入门到放弃四十一:Spark Streaming(1) 简介
www.haha174.top/article/details/2519951.大数据实时计算介绍1.SparkStreaming其实就是一种spark提供的对于大数据进行实时计算的一种框架,他的底层其实也是之前提到的
sparkcore
意浅离殇
·
2021-06-14 09:54
面试题汇总:Spark
《
SparkCore
面试篇01》5.《spark面试问题收集》
金字塔下的小蜗牛
·
2021-06-11 02:51
一文通俗理解Spark架构、Spark部署方式、配属配置优先级、Spark处理所提交的application的流程、Spark共享变量、Spark监听,以及master、driver、worke...
一、Spark的四大核心组件和集群资源调度器Spark四大核心组件1.1Spark的四大核心组件
Sparkcore
定义了Spark基本功能和模块,包含SparkSession、RDD、DAG、Lingage
alexlee666
·
2021-06-06 14:29
Spark Streaming运行架构分析
简介SparkStreaming是
SparkCore
的扩展,是构建于
SparkCore
之上的实时流处理系统。
H猫眼里的半途
·
2021-06-05 08:59
SparkCore
之RDD编程
一、编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换,RDD经过一系列的transformation转换定义之后,就可以调用actions出发RDD的计算,action可以是向应用程序返回结果,或者是向存储系统保存数据,在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算)。二、RDD的创建2.1IDEA环境准备创建maven工程在pom文件中添
哈哈哈捧场王
·
2021-05-15 09:09
大数据平台学习
SparkCore
基础(二)
*
SparkCore
基础(二)继续探讨
SparkCore
,开门见山,不多废话。
Z尽际
·
2021-04-28 05:42
Spark学习_01_概述
Spark一、spark概述1.spark·spark是一种由Scala语言开发的快速、通用、可拓展的大数据分析引擎·
sparkcore
中提供了spark最基础与最核心的功能·sparkSQL是spark
?CaMKII
·
2021-04-23 19:28
Hadoop
Spark
大数据
Spark Core随笔
SparkCore
随笔第一章
SparkCore
概述1.1概念Spark是一种基于内存的快速、通用、可扩展的大数据的分析计算引擎。
南宫齐世伟
·
2021-04-13 23:20
Spark
大数据
Spark
Core
随笔
SparkCore
实现离线IDMapping
最近在开发一个IDMapping业务系统——识别数据上报中社交账号的关联关系,找到系统中哪些社交账号属于现实世界中的同一个人。简单来讲,如果同一条上报数据中出现了两个社交账号(比如一个手机号和一个QQ号),就认为这两个社交账号在现实世界属于同一个人。那么,如何计算这个关联关系呢?一开始我们解决这个问题的思路很直接:现实世界的每个人在系统中用唯一的UUID标识,每次社交账号(Account)上报,在
·
2021-03-15 13:23
scala
Spark Streaming原理与架构
计算流程:将流试计算分解成一系列短小的批处理作业,批处理引擎是
SparkCore
按照输入数据的batchsize(如1秒),将数据分解成一段一段转换成RDDSparkStreaming中对DStream
刘啊福
·
2021-01-20 17:04
Spark
sparkcore
分区_Spark学习:Spark源码和调优简介 Spark Core (二)
第一部分内容见:Spark学习:Spark源码和调优简介
SparkCore
(一)Task阶段下面是重头戏submitMissingTasks,这个方法负责生成TaskSet,并且将它提交给TaskScheduler
蒲牢森
·
2020-12-27 16:59
sparkcore分区
Spark(18) --
SparkCore
总结
Spark的核心是根据RDD来实现的,SparkScheduler则为Spark核心实现的重要一环,其作用就是任务调度。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中的任务发到指定节点运行。基于Spark的任务调度原理,可以合理规划资源利用,做到尽可能用最少的资源高效地完成任务计算。 以词频统计Wor
erainm
·
2020-10-06 10:14
大数据学习
spark
spark架构与原理
Sparkcore
:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他spark的库都是构
thxiong1234
·
2020-09-16 23:49
大数据
Spark中saveAsTextFile至stage划分和job提交的源代码分析
现在回过头来,打算看一下
sparkcore
部分代码,就先找了下saveAsTextFile这个方法作为入口,看一下是怎么保存文档到hadoop中,并且怎么切分stage以及提交Task。
zhouxucando
·
2020-09-16 21:21
Spark
《Spark大数据分析》一书的书评和采访
\\t了解
SparkCore
及加载项库,包括SparkSQL、SparkStreaming、GraphX、Mllib和SparkML。
weixin_34242509
·
2020-09-16 19:53
scala
运维
数据库
6.Spark streaming技术内幕 : Job动态生成原理与源码解析
转载请注明:转载自周岳飞博客(http://zhou-yuefei.iteye.com/)Sparkstreaming程序的运行过程是将DStream的操作转化成RDD的操作,SparkStreaming和
SparkCore
听风的蜗牛
·
2020-09-16 17:00
spark
streaming内幕
Spark2.0版本新特性学习笔记
一、
SparkCore
&SparkSQLAPI1、dataframe与dataset统一,dataframe只是dataset[Row]的类型别名2、SparkSession:统一SQLContext和
风中的大数据
·
2020-09-16 13:38
Spark
[大数据]连载No9之
SparkCore
核心篇-资源调度
本次总结见目录stage切割规则1:每一个stage的并行度由task个数决定,task由partition个数决定,partitio由数据大小决定,或者说,stage并行度由最后一个RDD的partiton决定2:每个task的处理逻辑就是每条线贯穿的Stage的所有的partition的处理逻辑,以递归函数的展开式整合起来的见图Spark任务调度流程代码:1)varconf=newSparkC
小石头2014
·
2020-09-16 12:04
大数据
Spark1.6新特性简介及个人的理解
1.DatasetAPI目前Spark有两大类API:RDDAPI(
SparkCore
),DataFrameAPI(S
u011180846
·
2020-09-16 12:10
Spark
大数据
Spark
SparkSQL
二。spark相关Rdd
Spark模块-------------
SparkCore
//核心库SparkSQL//SQLSparkStreaming//准实时计算。
皓月青风
·
2020-09-16 11:51
spark知识
Spark学习笔记三之RDD是个什么东西
RDD可以说是
SparkCore
最核心的内容,这一篇开始我将根据自己的理解针对RDD进行深入的剖析。
Shockang
·
2020-09-16 11:06
Spark
spark
大数据
SparkCore
-核心概念和集群架构(第一天)
SparkCore
-核心概念和集群架构(第一天)一、核心概念spark是基于内存的计算框架,是大规模数据处理的统一分析引擎。
果不其燃
·
2020-09-16 11:45
spark
大数据知识点—spark概念,核心架构,运行流程
核心架构
SparkCore
包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。
BAO7988
·
2020-09-16 10:45
大数据
大数据
spark
SparkCore
-RDD的概述,特性,核心属性,执行原理介绍
文章目录RDD的概述、特性核心属性分区列表分区计算函数RDD之间的依赖关系分区器(可选)首选位置(可选)执行原理RDD的概述、特性RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的一种数据处理的模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。RDD是Spark提供的最重要的抽象概念,它是一种有容错机制
Demik
·
2020-09-16 10:58
Spark
spark
大数据
SparkCore
-核心组件,核心概念,提交流程
文章目录核心组件核心概念提交流程核心组件Spark框架可以大致分三个部分:第一部分:Driver+Executor,任务执行和调度第二部分:Master+Worker,Saprk自身的资源调度框架,只有Standalone模式下才有Master和Worker.第三部分:ClusterManager,集群管理中间件,协调任务的调度Application:Spark应用程序:SparkApplicat
Demik
·
2020-09-16 10:58
Spark
spark
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他