E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
---SparkCore
spark中的闭包与广播变量
Spark任务调度图(以
SparkCore
为例)1.DAG的应用Spark的Job(Application),从宏观上来看处理过程大致如下:加载数据,获取RDD(或DF等)转换数据执行转换,获取结果并处理整个计算过程是从上往下的
jntcf
·
2020-08-22 17:45
大数据技术-spark
关于spark job并行的问题
理论上,我们写
sparkcore
都不会用到多线程,那个代码的执行确实是一条线下去,当遇到action算子时会被阻塞,开始解析并执行这个spark任务,当任务执行完才会继续往下走。
小小酥_LH
·
2020-08-22 15:28
Spark中shuffle性能调优1
通过上面的架构和源码实现的分析,不难得出Shuffle是
SparkCore
比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。
liuzx32
·
2020-08-22 15:15
SparkSQL 全面深度解析
前言博主最开始使用Spark时喜欢使用
SparkCore
的RDD相关算子进行计算,后来发现SparkSQL比RDD算子好用多了,并且Spark开发者很重视SparkSQL模块功能的更新(在Spark3.0
w1016765655
·
2020-08-22 14:53
解决使用java编写spark代码maven打包报错问题
:Error:(20,46)java:无法访问scala.Cloneable原因是在pom.xml文件中添加了如下依赖:org.scala-langscala-library2.13.1该jar包会与
sparkcore
古痴今狂
·
2020-08-22 13:49
基于 spark ml NaiveBayes实现中文文本分类
spark版本用的是2.2(spark2.0和1.6对sparkml影响挺大的,1.6的ml中的LabeledPoint可以转化为sparkmllib的,2.0以后就不能进行转化)代码的实现过程:1首先用
sparkcore
记录每一份笔记
·
2020-08-22 09:56
大数据干货系列(十一)--Spark Streaming总结
预计阅读时长六分钟Spark-Streaming总结一、本质SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理二、SparkStreaming和
SparkCore
2.1
Shaun_Xi
·
2020-08-21 22:02
Hadoop系统架构
SparkSql使用入门
SparkSQL的特点:1、和
SparkCore
的无缝集成,可以在写整个RDD应用的时候,配置SparkSQL来完成逻辑实现。2、统一的数据访问方式,SparkSQL提供标准化的SQL查询。
青蛙小王子
·
2020-08-21 13:14
hadoop
spark
Spark Streaming学习笔记
它的底层,其实,也是基于
SparkCore
的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。针对实时计算的特点,在RDD之上,
堡垒-93
·
2020-08-21 04:07
Spark学习
SparkStreaming DStream
DStream就是离散流,它代表了一个持续不断的数据流,DStream的内部,其实是一系列不断产生的RDD,RDD是
SparkCore
的核心抽象,DStream中的每个RDD都包含了一个时间段内的数据对
mn_kw
·
2020-08-21 04:25
spark
Spark Streaming入门
SparkStreaming入门1.概述SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable(SparkStreaming是基于
SparkCore
le3t
·
2020-08-21 04:40
4.流式计算 - spark direct方式计算手动控制kafka偏移度[spark straming2.1 + kafka0.10.2.0]
流式计算,sparkstreaming之前有
sparkcore
开发的积累,直接使用sparkstreaming来进行流式计算开发是比较节省开发成本的。
feloxx
·
2020-08-21 03:00
spark
streaming
Maven设置指定jar包依赖版本信息
我们在配置
Sparkcore
的maven依赖的时候jackson-module-scala_2.11的版本冲突,解决办法如下:org.apache.sparkspark-core_2.112.3.1com.fasterxml.jackson.modulejackson-module-scala
hello_heheha
·
2020-08-20 23:34
Spark
Maven
大数据
大数据系列——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于
SparkCore
之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream
EVAO_大个子
·
2020-08-20 21:30
spark-streaming
大数据系列——Spark学习笔记Spark Streaming
1.SparkStreamingSparkStreaming是一个基于
SparkCore
之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理SparkStreaing中有一个最基本的抽象叫DStream
EVAO_大个子
·
2020-08-20 21:30
spark-streaming
第四篇|Spark Streaming编程指南(1)
SparkStreaming是构建在
SparkCore
基础之上的流处理框架,是Spark非常重要的组成部分。
西贝木土
·
2020-08-20 17:29
spark
第四篇|Spark Streaming编程指南(1)
SparkStreaming是构建在
SparkCore
基础之上的流处理框架,是Spark非常重要的组成部分。
西贝木土
·
2020-08-20 17:29
spark
第三篇|Spark SQL编程指南
在《第二篇|
SparkCore
编程指南》一文中,对Spark的核心模块进行了讲解。
西贝木土
·
2020-08-20 17:28
spark
第二篇|Spark core编程指南
本文将深入探究Spark的核心组件--
Sparkcore
,
SparkCore
是Spark平台的基础通用执行引擎,所有其他功能均建立在该引擎之上。
西贝木土
·
2020-08-20 17:28
spark
第三篇|Spark SQL编程指南
在《第二篇|
SparkCore
编程指南》一文中,对Spark的核心模块进行了讲解。
西贝木土
·
2020-08-20 17:28
spark
第二篇|Spark core编程指南
本文将深入探究Spark的核心组件--
Sparkcore
,
SparkCore
是Spark平台的基础通用执行引擎,所有其他功能均建立在该引擎之上。
西贝木土
·
2020-08-20 17:27
spark
21、Spark核心编程之创建RDD(集合、本地文件、HDFS文件)
然后在创建了初始的RDD之后,才可以通过
SparkCore
提供的transformation算子,对该RDD进行转换,来获取其他的RDD。
ZFH__ZJ
·
2020-08-20 04:46
Spark 笔记
Spark软件架构image.pngSparkCoreSparkCore实现了Spark的基本功能,包括任务调度,内存管理,错误恢复,与存储系统的交互
SparkCore
包含了对RDD(resilientdistributeddataset
null0007
·
2020-08-19 22:34
BigData-25:Spark基础
Spark生态圈:
SparkCore
:最重要,其中最重要的就是RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤、ALS、逻辑回归等等—>实现推荐系统SparkGraphx
feiyanaffection
·
2020-08-19 06:55
Hadoop
Hadoop学习笔记(1)-Hadoop生态系统
中间红框部分是saprk的生态圈,有RDD,
sparkCore
,sparkSQL,sparkGraphX,sparkML,sparkR,sparkStreaming。
XianMing的博客
·
2020-08-18 12:55
Hadoop
Spark之【SparkSQL】入门概述
在之前的博客分享中,博主已经完成了对于Spark核心
SparkCore
的一个详细介绍。在接下来的几篇博客分享中,博主将为大家介绍的是SparkSQL。本篇,首先为大家介绍的是SparkSQL的概述。
Alice菌
·
2020-08-18 12:35
#
Spark
SparkCore
之数据读取与保存
Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。文件类数据读取与保存Text文件数据读取:textFile(String)数据保存:saveAsTextFile(String)Json文件如果JSON文件中每一行就是
老菜啦
·
2020-08-18 12:27
Spark
SparkStreaming详解
Sparkcore
的扩展,支持弹性,高吞吐,容错,实时数据流处理。
卷曲的葡萄藤
·
2020-08-18 12:50
Spark
大数据技术之
SparkCore
(一)
大数据技术之
SparkCore
(一)一:RDD概述RDD定义:RDD(ResilientDistributedDataset)叫做弹性分布式数据集。是Spark中最基本的数据抽象。
今天,我和你拼了
·
2020-08-18 12:16
Spark
spark
59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例
一、top3热门商品实时统计案例1、概述SparkStreaming最强大的地方在于,可以与
SparkCore
、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,
weixin_30830327
·
2020-08-18 12:25
SparkCore
之RDD编程进阶之累加器
累加器累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果系统累加器针对一个输入的日志文件,如果我们想计算文件中所有空行的数量,
大数据小同学
·
2020-08-18 12:21
#
SparkCore
SparkCore
之文件类数据读取与保存
Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。Text文件数据读取:textFile(String)scala>valhdfsFile=sc.textFile("hdfs://hadoop102:9000/frui
大数据小同学
·
2020-08-18 12:20
#
SparkCore
SparkCore
之文件系统类数据读取与保存
HDFSSpark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口.对于外部存储创建操作而言,hadoopRDD和newHadoopRDD是最为抽象的两个函数接口,主要包含以下四个参数.输入格式(InputFor
大数据小同学
·
2020-08-18 12:20
#
SparkCore
大数据晋级之路(8)Scala,Spark分布式安装
一、Spark介绍Spark是一个生态系统,内核由Scala语言开发,为批处理(
SparkCore
)、交互式(SparkSQL)、流式处理(SparkStreaming)、机器学习(MLlib)、图计算
King-Long
·
2020-08-18 12:37
大数据
系统架构
Hadoop
架构师的修罗场
SparkCore
程序可能遇到的异常
Windows上IDEA中运行
SparkCore
程序可能遇到的异常-1.null/bin/winutils.exe原因是:windows上配置配置好hadoop的环境解决方案:按照文档进行配置("Windows
sun_shang
·
2020-08-18 11:37
hadoop
大数据技术之
SparkCore
第1章RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2RDD的属性1)一组分区(Partition),即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner,即RDD的分片
魔法 • 革
·
2020-08-18 11:52
通过案例对SparkStreaming透彻理解三板之二
1.解密SparkStreaming运行机制2.解密SparkStreaming架构I.
SparkCore
是基于RDD形成的,RDD之间都会有依赖关系,SparkStreaming在RDD上的时间维度,
cary_1991
·
2020-08-18 10:21
IMF
Spark
Spark
Streamin
Spark
版本定制
Spakr
Spark
Streaming
大数据
IMF
Spark版本定制
大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结
2、SparkSQL的特点: (1)和
SparkCore
的无缝集成,可以在写整个RDD应用的时候,配合SparkSQL来实现逻辑。 (2)统一的数据访问方式,SparkSQL提供标准化的SQ
aodawu2891
·
2020-08-18 10:02
如何开发SparkSQL项目?
前言Spark是企业中用的比较多的大数据计算框架,它主要由
SparkCore
、SparkSQL、SparkStreaming这三个模块组成,实时计算主要使用SparkStreaming,离线部分的数据处理则主要使用
曲健磊
·
2020-08-18 10:55
【Spark】
SparkSQL 基础编程
一、介绍
SparkCore
中,如果想要执行应用程序,需要首先构建上下文环境对象SparkContext,SparkSQL其实可以理解为对
SparkCore
的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装
火成哥哥
·
2020-08-18 10:19
spark
数据库
大数据
java
spark
spark-sql
[spark streaming] DStream 和 DStreamGraph 解析
看sparkstreaming源码解析之前最好先了解
sparkcore
的内容。前言SparkStreaming是基于
SparkCore
将流式计算分解成一系列的小批处理任务来执行。
大写的UFO
·
2020-08-18 10:37
spark
Spark基础,Local模式、Standalone模式、Yarn模式安装使用配置
1.2Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系
往事随风_h
·
2020-08-18 10:09
Spark
SparkCore
应用解析
文章目录RDD概念RDD概述什么是RDDRDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1Transformation2.3.2Action2.3.3数值RDD的统计操作2.3.4向RDD操作传递函数注意2.3.5在不同RDD类型间转换2.4RDD
靛蓝忆
·
2020-08-18 10:18
大数据
大数据系列之
SparkCore
应用解析(二)
文章目录第1章RDD概念1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1Transformation2.3.2Action2.3.3数值RDD的统计操作2.3.4向RDD操作
开封程序员阿强
·
2020-08-18 10:34
大数据系列学习笔记
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结
==========SparkStreaming是什么==========1、SParkStreaming是Spark中一个组件,基于
SparkCore
进行构建,用于对流式进行处理,类似于Storm。
aodawu2891
·
2020-08-18 10:39
94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战
与SparkSQL结合使用SparkStreaming最强大的地方在于,可以与
SparkCore
、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream
ZFH__ZJ
·
2020-08-18 10:07
Spark入坑
SparkCore
— Task执行源码分析之Task.run()源码分析
Task.run()源码分析 上一篇博客分析了TaskRunner.run()源码,它里面有两个比较重要的方法一个是Task.run()—task的执行,还有就是task执行结束后将执行结果发送给Driver的StatusUpdate(),这里我们来分析Task.run()方法:finaldefrun(taskAttemptId:Long,attemptNumber:Int,metricsSyst
xiaoxin_ysj
·
2020-08-18 07:17
Spark
Core原理与源码分析
Spark调优多线程并行处理任务实现方式
方式1:1.明确Spark中Job与Streaming中Job的区别1.1
SparkCore
一个RDDDAGGraph可以生成一个或多个Job(Action操作)一个Job可以认为就是会最终输出一个结果
·
2020-08-17 09:25
30天搞定spark源码系列-RDD番外篇-shuffledRDD
shuffle类算子sparkshuffle在实战中的优化方向shuffledRDD的基本流程和代码框架是什么1、sparkshuffle相信对于使用过spark的童鞋来说,不管是sparksql或者
sparkcore
枫叶的落寞
·
2020-08-16 15:06
spark
spark学习之入门(一)
spark是内存性的,扩充了mapReduce的计算模型spark组件
sparkCore
包含spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集)提供了很多API
MineCodelife
·
2020-08-15 21:39
spark
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他