E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkcore
SparkStreaming相关
SparkStreaming介绍SparkStreaming是在
SparkCore
的基础上进行扩展,可实现对实时数据的扩展、高吞吐量、容错性处理。
一生逍遥一生
·
2023-03-26 11:27
1. spark streaming Job 架构和容错解析
SparkStreaming的Job分为两大类:每隔BatchInterval时间片就会产生的一个个Job,这里的Job并不是
SparkCore
中的Job,它只是基于DStreamGraph而生成的RDD
尼小摩
·
2023-03-25 18:45
Spark16:【案例】实战:TopN主播统计:SparkSQL进行实现
一、实战:TopN主播统计在前面讲
Sparkcore
的时候我们讲过一个案例,TopN主播统计,计算每个大区当天金币收入TopN的主播,之前我们使用spark中的transformation算子去计算,实现起来还是比较麻烦的
做一个有趣的人Zz
·
2023-03-23 22:16
spark
big
data
spark
hive
spark学习笔记2-Spark SQL
本文是对SparkSQL基础知识的一个学习总结,包含如下几部分的内容:概述SparkSession类DataFrame类Sql语句操作DataSet类数据源小结预备知识:1、SparkSQL是在
SparkCore
我是老薛
·
2023-03-23 01:11
(1)sparkstreaming结合sparksql读取socket实时数据流
SparkStreaming是构建在
SparkCore
的RDD基础之上的,与此同时SparkStreaming引入了一个新的概念:DStream(DiscretizedStream,离散化数据流),表示连续不断的数据流
NBI大数据可视化分析
·
2023-03-18 15:01
spark jdbc java_spark之JDBC开发(实战)
一、概述
SparkCore
、Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用$SPARK_HOME/bin#.
weixin_39937312
·
2023-03-15 08:26
spark
jdbc
java
SparkCore
核心知识
一、Spark作业调度方式1、local测试或实验性质的本地运行模式local[N]是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。example:spark-submit--classJavaWordCount--masterlocal[10
ta落叶知秋
·
2023-03-12 13:41
$05[
SparkCore
(Action_序列化_依赖关系_持久化)]
第一章.Action行动算子1.reducepackagecom.atguigu.spark.day05importorg.apache.spark.{SparkConf,SparkContext}importorg.junit.Testclass$01_Action{valsc=newSparkContext(newSparkConf().setMaster("local[4]").setApp
ly的学习笔记
·
2023-03-12 08:38
#
spark基础
scala
spark
开发语言
SparkSql面试指南
2.反观弹性分布式数据集RDD(数据可完全放内存或完全放磁盘,也可部分存放在内存,部分存放在磁盘,task如果失败会特定次数的重试),由于无从得知所存数据元素的具体内部结构,
SparkCore
只能在
piaow_
·
2023-03-10 20:42
大数据
sparksql
大数据
大数据框架之Spark详解
1.2Spark内置模块
SparkCore
:实现了Spar
xingchensuiyue
·
2023-02-26 07:50
大数据
spark
spark
大数据
Spark ---------- 大数据框架,spark简介及架构图示
Spark包含了大数据领域常见的各种计算框架:比如
SparkCore
用于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX
isOllie
·
2023-02-26 07:47
Spark
Spark
Spark~~
SparkCore
文章目录第1章Spark概述1.1Spark是什么1.2SparkandHadoop1.3SparkorHadoop1.4Spark核心模块SparkCoreSparkSQLSparkStreamingSparkMLlibSparkGraphX第2章Spark快速上手2.1创建Maven项目2.1.1增加Scala插件2.1.2增加依赖关系2.1.3WordCount2.1.4异常处理第3章Spa
几窗花鸢
·
2023-02-18 21:21
Spark
spark
深入理解Spark SQL原理
SparkSQL最终是通过
SparkCore
的RDD进行计算。所以在阅读SparkSQL源码之前,一定要深刻掌握
SparkCore
原理,而阅读源码的思路就是理解SparkSQL最后如
yians
·
2023-02-06 19:34
spark
spark
sql
大数据
Spark SQL
1.SparkSQL概述SparkSQL是spark用来处理结构化数据的模块,它提供了2个编程抽象,类似
SparkCore
中的RDD:DataFrameDataSet1.1DataFrame与RDD的区别
风老魔
·
2023-02-06 19:02
大数据
spark
sql
大数据
Spark详细概述
可扩展的大数据分析引擎历史2009年诞生于加州大学伯克利分校AMPLab,项目采用Scala编写2010年开源2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目Spark内置模块
SparkCore
小刘同学-很乖
·
2023-02-04 19:56
Spark
算法
大数据
hadoop
python
java
Spark之RDD与DataFrame的区别与理解
1.RDD是Spark对于分布式数据模型的抽象,DF是带数据模式的结构化分布式数据集,类似于传统数据库中的一张表,RDD不带数据模式或者说是泛型的2.RDDAPI的执行引擎是
SparkCore
,其
SparkCore
莫叫石榴姐
·
2023-02-03 12:39
spark
spark
spark.1
Spark的组成:
SparkCore
:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度,RPC,序列化和压缩,并为运行在其上的上层组件提供APISparkSQL:SparkSQL是Saprk
瓜皮小咸鱼
·
2023-01-27 19:45
4.Spark基础学习四(IDEA创建Spark_SQL)
IDEA创建SparkSQL程序IDEA中程序的打包和运行方式都和
SparkCore
类似,Maven依赖中需要添加新的依赖项:org.apache.sparkspark-sql_2.112.1.1packagecom.atguigu.sparksqlimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark
做个合格的大厂程序员
·
2023-01-25 23:26
大数据--spark生态2--spark架构和rdd总结
目录一:Spark特点二:
SparkCore
三:Spark基本概念四.Spark架构设计4.1整体架构4.2Executor4.3master&worker五:Spark基本运行流程六:RDD概念七:RDD
斑马!
·
2023-01-24 20:30
大数据
#
spark生态
flink生态
大数据
大数据开发:spark core核心讲解
今天的大数据开发学习分享,我们就主要来讲讲Spark框架核心
SparkCore
。
SparkCore
简介
SparkCore
包含Spark的基本功能,如内存计算、任务调度、部署模式、故障恢复、存储管理等。
加米谷大数据张老师
·
2023-01-24 20:58
大数据
大数据
分布式
spark
大数据-Spark的介绍:前世今生
Spark包含了大数据领域常见的各种计算框架:比如
SparkCore
用于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX
Iamarookie999
·
2023-01-24 20:56
Spark
大数据--spark--核心:
sparkCore
一.什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。在代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。二.RDD的5个主要属性(property)1一组分区(Partition),即数据集的基本组成单位;2一个计算每个分区的函数;3RDD之间的依赖关系;4一个Partitioner,
像影子追着光梦游_
·
2023-01-24 20:25
大数据
big
data
大数据
spark
Sparkcore
实操案例----Top10热门品类(笔记)
一、需求说明:品类是指产品的分类,大型电商网站品类分多级,咱们的项目中品类只有一级,不同的公司可能对热门的定义不一样。我们按照每个品类的点击、下单、支付的量来统计热门品类。例如,综合排名=点击数*20%+下单数*30%+支付数*50%本项目需求优化为:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。二、需求实现方案一1、需求分析分别统计每个品类点击的次数
梦痕长情
·
2023-01-15 17:32
spark
一次弄懂Spark运行模式和框架模块
整个Spark框架模块包含:
SparkCore
、SparkSQL、SparkStreaming、SparkGraphX、SparkMLlib,而后四项的能力都是建立在核心引擎之上。
让你五行代码
·
2023-01-10 14:11
Python大数据
spark
大数据
分布式
Spark系列--SparkSQL(二)RDD、DataFrame、DataSet
前言在
SparkCore
中我们知道数据抽象是RDD,在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?
淡淡的倔强
·
2022-12-20 18:21
Spark
Spark-SparkSql基础、DataFrame、DataSet
SparkSQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,类似
SparkCore
中的RDD:DataFrameDataSetSpa
魔笛Love
·
2022-12-18 19:11
spark
big
data
hive
Spark SQL
1、spark前世今生SparkSQLSQL:MySQL、Oracle、DB2、SQLServer很多小伙伴熟悉SQL语言数据量越来越大==>大数据(Hive、
SparkCore
)直接使用SQL语句来对大数据进行分析
zhaoxiaoba123
·
2022-12-15 12:13
Spark
hadoop
python
大数据
spark
Spark技术栈中的组件
主要有
SparkCore
、SparkStreaming、SparkSQL等。
Rnan-prince
·
2022-12-15 11:18
spark
spark
大数据技术之Spark入门(一)概述
1.1什么是Spark1.2Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
BAO7988
·
2022-12-15 11:03
大数据
大数据
spark
大数据学习
大数据分析
大数据开发
【大数据入门核心技术-Spark】(二)Spark核心模块
一、Spark核心模块1、
SparkCore
实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。
forest_long
·
2022-12-10 11:34
大数据技术入门到21天通关
大数据
spark
分布式
hadoop
big
data
Spark的运行架构和基本原理
备注:此博客为转载,转载请点击此处Spark软件栈
SparkCore
:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些
陆山右
·
2022-12-09 09:56
Spark
Spark的运行架构和基本原理
spark基本架构及原理
架构及生态:
SparkCore
:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。
一只哈士奇
·
2022-12-09 09:55
Spark
大数据
Spark核心之Spark Streaming
前面说到Spark的核心技术的时候,有和大家说过,有五大核心技术,不知道大家还记不记得;给大家回忆下,这五大核心技术:分布式计算引擎
SparkCore
、基于Hadoop的SQL解决方案SparkSQL、
天ヾ道℡酬勤
·
2022-12-07 11:42
spark
spark
【备忘】《图解Spark 核心技术与案例实战》PDF
第1章Spark及其生态圈概述1.1Spark简介1.1.1什么是Spark1.1.2Spark与MapReduce比较1.1.3Spark的演进路线图1.2Spark生态系统1.2.1
SparkCore
1
qq_38472089
·
2022-12-06 02:46
Spark
MLlib
Spark
Streaming
阿里大数据专家图解sparkRDD(附代码实操)
ResilientDistributedDatasets,RDD)和算子(Operation).RDD背景 Spark的核心是建立在RDD之上,使Spark中的各个组件可以无缝进行集成,从而在一个应用程序中完成大数据计算.这也是为什么说在
SparkCore
Java架构师联盟
·
2022-12-05 18:06
spark
大数据
Scala
分布式
大数据
hadoop
spark
Spark系列之Spark体系架构
title:Spark系列第四章Spark体系架构4.1Spark核心功能Alluxio原来叫tachyon分布式内存文件系统
SparkCore
提供Spark最基础的最核心的功能,主要包括:1、SparkContext
落叶飘雪2014
·
2022-11-29 21:44
Spark
数据计算
Spark
大数据
Spark快速入门
文章目录前言一、Spark概述1.1Spark是什么1.2Spark和Hadoop1.3Spark和MR二、Spark核心模块1.
SparkCore
2.SparkSQL3.SparkStreaming4
易逑实战数据
·
2022-11-29 11:41
大数据
spark
big
data
hadoop
RDD—Transformation算子
Spark核心编程(
SparkCore
)文章目录Spark核心编程(
SparkCore
)1.了解RDD1.2RDD五大特性1.3WordCount案例分析2RDD编程入门2.1RDD的创建2.2RDD算子
JStana
·
2022-11-27 20:31
大数据学习
大数据
spark-sql
来进行操作,简化rdd的开发DataFrame是一种以rdd为基础的分布式数据集,也就类似于二维表格,只关心数据的含义,提供详细的结构信息DataSet是分布式数据集合,,是DataFrame的一个扩展
sparkcore
爱吃鸡的小鸡
·
2022-11-22 20:13
spark
scala
开发语言
spark
学习
大数据
Spark的一些问题汇总 及 Yarn与Spark架构的对比
核心
SparkCore
、SQL计算(SparkSQL)、流计算(SparkStreaming)、图计算(Graphx)、机器学习(MLlib)3、Spark有哪些特点?
木易巷
·
2022-11-06 22:49
Spark
spark
大数据
分布式
Spark 从 0 到 1 学习(1) —— Apache Spark 介绍
文章目录1.初始Spark1.1什么是Spark1.2Spark与MapReduce的区别1.3Spark运行模式2.
SparkCore
2.1RDD2.1.1概念2.1.2RDD的五大特性2.1.3RDD
dwjf321
·
2022-09-28 06:57
大数据
spark
spark
(1)sparkstreaming结合sparksql读取socket实时数据流
SparkStreaming是构建在
SparkCore
的RDD基础之上的,与此同时SparkStreaming引入了一个新的概念:DStream(DiscretizedStream,离散化数据流),表示连续不断的数据流
·
2022-08-31 13:46
SparkCore
入门编程
一、Spark的概述1.1Hadoop的回顾版本号的发展hadoop1.x:hdfs和mapreducehadoop2.x:hdfs、mapreduce、yarn、commonhadoop3.x:hdfs、mapreduce、yarn、commonhadoop的重要模块组成hdfs:分布式文件存储系统需要搭建和部署mapreduce:离线分析和计算框架不需要搭建,是程序要要开发的逻辑代码yarn:
默主归沙
·
2022-08-24 15:49
大数据那些事
Spark
大数据开发
Spark学习之路 (八)
SparkCore
的调优之开发调优
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最
王知无(import_bigdata)
·
2022-08-21 09:43
Spark系统性学习专栏
Scala | Spark核心编程 |
SparkCore
| 算子
文章目录一、
SparkCore
1.RDD1.1概念1.2RDD的五大属性(重点)1.3RDD理解图2.Spark任务执行原理3.Spark代码流程二、算子1.Transformations转换算子1.1filter
跟乌龟赛跑
·
2022-08-18 20:47
Spark
spark
大数据
spark学习笔记(七)——
sparkcore
核心编程-RDD序列化/依赖关系/持久化/分区器/累加器/广播变量
目录RDD序列化(1)闭包检查(2)序列化方法和属性(3)Kryo序列化RDD依赖关系(1)RDD血缘关系(2)RDD依赖关系(3)RDD窄依赖(4)RDD宽依赖(5)RDD阶段划分(6)RDD任务划分RDD持久化(1)RDDCache缓存(2)RDDCheckPoint检查点(3)缓存和检查点的区别RDD分区器累加器:分布式共享只写变量(1)系统累加器(2)自定义累加器广播变量:分布式共享只读变
一个人的牛牛
·
2022-07-28 14:53
spark
spark
学习
scala
Spark总结(
SparkCore
,SparkSQL,SparkStreaming)
SparkCore
1.一句话介绍Hadoop和Sparkspark是基于内存的分布式计算框架。
ambitfly
·
2022-07-16 15:58
大数据
大数据
spark
hadoop
java
数据仓库
大数据实战二十一课 - Spark SQL01
上次课回顾第一章:SparkSQL的认识1.1RDD的API用SQL实现第二章:DataSet和DataFrame第三章:SparkSQL运行3.1hivethrift+beeline的使用一、上次课回顾回顾:
SparkCore
zhikanjiani
·
2022-07-12 12:55
高级班Spark-SQL
大数据高级开发工程师——Spark学习笔记(1)
四大特性1.速度快2.易用性3.通用性4.兼容性内置组件1.集群资源管理2.
SparkCore
(核心库)3.SparkSQL(SQL解析)4.SparkStreaming(实时处理)5.SparkMLlib
yangwei_sir
·
2022-07-08 11:36
大数据
大数据
spark
standalone
cluster
shuffle
python spark进行大数据分析_python大数据分析基于Spark实战
9、基于Python的
SparkCore
编程模板.rar108.1M8、PySpark第三方包的安装配置.rar108.1M7、PyCharm安装、设置及创建工程和测试.rar109M6、Python介绍
weixin_40000131
·
2022-07-05 19:41
python
spark进行大数据分析
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他