E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkcore
第三篇|Spark SQL编程指南
在《第二篇|
SparkCore
编程指南》一文中,对Spark的核心模块进行了讲解。
西贝木土
·
2020-08-20 17:28
spark
第二篇|Spark core编程指南
本文将深入探究Spark的核心组件--
Sparkcore
,
SparkCore
是Spark平台的基础通用执行引擎,所有其他功能均建立在该引擎之上。
西贝木土
·
2020-08-20 17:28
spark
第三篇|Spark SQL编程指南
在《第二篇|
SparkCore
编程指南》一文中,对Spark的核心模块进行了讲解。
西贝木土
·
2020-08-20 17:28
spark
第二篇|Spark core编程指南
本文将深入探究Spark的核心组件--
Sparkcore
,
SparkCore
是Spark平台的基础通用执行引擎,所有其他功能均建立在该引擎之上。
西贝木土
·
2020-08-20 17:27
spark
21、Spark核心编程之创建RDD(集合、本地文件、HDFS文件)
然后在创建了初始的RDD之后,才可以通过
SparkCore
提供的transformation算子,对该RDD进行转换,来获取其他的RDD。
ZFH__ZJ
·
2020-08-20 04:46
Spark 笔记
Spark软件架构image.pngSparkCoreSparkCore实现了Spark的基本功能,包括任务调度,内存管理,错误恢复,与存储系统的交互
SparkCore
包含了对RDD(resilientdistributeddataset
null0007
·
2020-08-19 22:34
BigData-25:Spark基础
Spark生态圈:
SparkCore
:最重要,其中最重要的就是RDD(弹性分布式数据集)SparkSQLSparkStreamingSparkMLLib:协同过滤、ALS、逻辑回归等等—>实现推荐系统SparkGraphx
feiyanaffection
·
2020-08-19 06:55
Hadoop
Hadoop学习笔记(1)-Hadoop生态系统
中间红框部分是saprk的生态圈,有RDD,
sparkCore
,sparkSQL,sparkGraphX,sparkML,sparkR,sparkStreaming。
XianMing的博客
·
2020-08-18 12:55
Hadoop
Spark之【SparkSQL】入门概述
在之前的博客分享中,博主已经完成了对于Spark核心
SparkCore
的一个详细介绍。在接下来的几篇博客分享中,博主将为大家介绍的是SparkSQL。本篇,首先为大家介绍的是SparkSQL的概述。
Alice菌
·
2020-08-18 12:35
#
Spark
SparkCore
之数据读取与保存
Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。文件类数据读取与保存Text文件数据读取:textFile(String)数据保存:saveAsTextFile(String)Json文件如果JSON文件中每一行就是
老菜啦
·
2020-08-18 12:27
Spark
SparkStreaming详解
Sparkcore
的扩展,支持弹性,高吞吐,容错,实时数据流处理。
卷曲的葡萄藤
·
2020-08-18 12:50
Spark
大数据技术之
SparkCore
(一)
大数据技术之
SparkCore
(一)一:RDD概述RDD定义:RDD(ResilientDistributedDataset)叫做弹性分布式数据集。是Spark中最基本的数据抽象。
今天,我和你拼了
·
2020-08-18 12:16
Spark
spark
59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例
一、top3热门商品实时统计案例1、概述SparkStreaming最强大的地方在于,可以与
SparkCore
、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,
weixin_30830327
·
2020-08-18 12:25
SparkCore
之RDD编程进阶之累加器
累加器累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果系统累加器针对一个输入的日志文件,如果我们想计算文件中所有空行的数量,
大数据小同学
·
2020-08-18 12:21
#
SparkCore
SparkCore
之文件类数据读取与保存
Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件;文件系统分为:本地文件系统、HDFS、HBASE以及数据库。Text文件数据读取:textFile(String)scala>valhdfsFile=sc.textFile("hdfs://hadoop102:9000/frui
大数据小同学
·
2020-08-18 12:20
#
SparkCore
SparkCore
之文件系统类数据读取与保存
HDFSSpark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口.对于外部存储创建操作而言,hadoopRDD和newHadoopRDD是最为抽象的两个函数接口,主要包含以下四个参数.输入格式(InputFor
大数据小同学
·
2020-08-18 12:20
#
SparkCore
大数据晋级之路(8)Scala,Spark分布式安装
一、Spark介绍Spark是一个生态系统,内核由Scala语言开发,为批处理(
SparkCore
)、交互式(SparkSQL)、流式处理(SparkStreaming)、机器学习(MLlib)、图计算
King-Long
·
2020-08-18 12:37
大数据
系统架构
Hadoop
架构师的修罗场
SparkCore
程序可能遇到的异常
Windows上IDEA中运行
SparkCore
程序可能遇到的异常-1.null/bin/winutils.exe原因是:windows上配置配置好hadoop的环境解决方案:按照文档进行配置("Windows
sun_shang
·
2020-08-18 11:37
hadoop
大数据技术之
SparkCore
第1章RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2RDD的属性1)一组分区(Partition),即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner,即RDD的分片
魔法 • 革
·
2020-08-18 11:52
通过案例对SparkStreaming透彻理解三板之二
1.解密SparkStreaming运行机制2.解密SparkStreaming架构I.
SparkCore
是基于RDD形成的,RDD之间都会有依赖关系,SparkStreaming在RDD上的时间维度,
cary_1991
·
2020-08-18 10:21
IMF
Spark
Spark
Streamin
Spark
版本定制
Spakr
Spark
Streaming
大数据
IMF
Spark版本定制
大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结
2、SparkSQL的特点: (1)和
SparkCore
的无缝集成,可以在写整个RDD应用的时候,配合SparkSQL来实现逻辑。 (2)统一的数据访问方式,SparkSQL提供标准化的SQ
aodawu2891
·
2020-08-18 10:02
如何开发SparkSQL项目?
前言Spark是企业中用的比较多的大数据计算框架,它主要由
SparkCore
、SparkSQL、SparkStreaming这三个模块组成,实时计算主要使用SparkStreaming,离线部分的数据处理则主要使用
曲健磊
·
2020-08-18 10:55
【Spark】
SparkSQL 基础编程
一、介绍
SparkCore
中,如果想要执行应用程序,需要首先构建上下文环境对象SparkContext,SparkSQL其实可以理解为对
SparkCore
的一种封装,不仅仅在模型上进行了封装,上下文环境对象也进行了封装
火成哥哥
·
2020-08-18 10:19
spark
数据库
大数据
java
spark
spark-sql
[spark streaming] DStream 和 DStreamGraph 解析
看sparkstreaming源码解析之前最好先了解
sparkcore
的内容。前言SparkStreaming是基于
SparkCore
将流式计算分解成一系列的小批处理任务来执行。
大写的UFO
·
2020-08-18 10:37
spark
Spark基础,Local模式、Standalone模式、Yarn模式安装使用配置
1.2Spark内置模块
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系
往事随风_h
·
2020-08-18 10:09
Spark
SparkCore
应用解析
文章目录RDD概念RDD概述什么是RDDRDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1Transformation2.3.2Action2.3.3数值RDD的统计操作2.3.4向RDD操作传递函数注意2.3.5在不同RDD类型间转换2.4RDD
靛蓝忆
·
2020-08-18 10:18
大数据
大数据系列之
SparkCore
应用解析(二)
文章目录第1章RDD概念1.1RDD为什么会产生1.2RDD概述1.2.1什么是RDD1.2.2RDD的属性1.3RDD弹性1.4RDD特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5checkpoint第2章RDD编程2.1编程模型2.2创建RDD2.3RDD编程2.3.1Transformation2.3.2Action2.3.3数值RDD的统计操作2.3.4向RDD操作
开封程序员阿强
·
2020-08-18 10:34
大数据系列学习笔记
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结
==========SparkStreaming是什么==========1、SParkStreaming是Spark中一个组件,基于
SparkCore
进行构建,用于对流式进行处理,类似于Storm。
aodawu2891
·
2020-08-18 10:39
94、Spark Streaming之与Spark SQL结合使用之top3热门商品实时统计案例实战
与SparkSQL结合使用SparkStreaming最强大的地方在于,可以与
SparkCore
、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream
ZFH__ZJ
·
2020-08-18 10:07
Spark入坑
SparkCore
— Task执行源码分析之Task.run()源码分析
Task.run()源码分析 上一篇博客分析了TaskRunner.run()源码,它里面有两个比较重要的方法一个是Task.run()—task的执行,还有就是task执行结束后将执行结果发送给Driver的StatusUpdate(),这里我们来分析Task.run()方法:finaldefrun(taskAttemptId:Long,attemptNumber:Int,metricsSyst
xiaoxin_ysj
·
2020-08-18 07:17
Spark
Core原理与源码分析
Spark调优多线程并行处理任务实现方式
方式1:1.明确Spark中Job与Streaming中Job的区别1.1
SparkCore
一个RDDDAGGraph可以生成一个或多个Job(Action操作)一个Job可以认为就是会最终输出一个结果
·
2020-08-17 09:25
30天搞定spark源码系列-RDD番外篇-shuffledRDD
shuffle类算子sparkshuffle在实战中的优化方向shuffledRDD的基本流程和代码框架是什么1、sparkshuffle相信对于使用过spark的童鞋来说,不管是sparksql或者
sparkcore
枫叶的落寞
·
2020-08-16 15:06
spark
spark学习之入门(一)
spark是内存性的,扩充了mapReduce的计算模型spark组件
sparkCore
包含spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集)提供了很多API
MineCodelife
·
2020-08-15 21:39
spark
Spark 生态系统组件
Spark生态系统以
SparkCore
为核心,能够读取传统文件(如文本文件)、HDFS、A
博文视点
·
2020-08-15 07:18
Spark
Spark-Core
spark-mllib
spark-streaming
SparkCore
:Spark on Yarn运行模式和过程、Client模式新增进程、参数配置
文章目录1、SparkonYARN如何配置2、Cluster和Client两种模式2.1Cluster和Client对比2.2Cluster模式2.3Client模式3、测试,查看运行结果3.1cluster模式提交程序3.2client模式提交程序,或者通过spark-shell进入client模式4、参数配置,调优4.1启动方式4.2spark.yarn.jars参数4.3spark.port
11号车厢
·
2020-08-14 17:32
Spark2
Spark2
从0开始学习spark(7)
SparkCore
核心知识复习与核心机制详解
Spark零基础入门第七课Spark的核心概念:Spark运行架构特点Spark运行架构图:sparkstage阶段划分算法图:spark-on-yarn模式图:sparkContext的构建的过程SparkMasterHA机制Worker节点的原理没有看前面的同学可以回顾一下:**6.Spark共享变量之累加器和广播变量的使用!!!5.RDD常用算子用法训练(附习题答案)(aggregateBy
蛋蛋淡淡定
·
2020-08-14 11:30
spark
从0开始学习spark(9)Spark性能优化-开发调优
Spark零基础入门第九课:spark调优建议1.spark开发调优:没有看前面的同学可以回顾一下:8.
SparkCore
调优之内存模型7.
SparkCore
核心知识复习与核心机制详解6.Spark共享变量之累加器和广播变量的使用
蛋蛋淡淡定
·
2020-08-14 09:45
spark
从0开始学习spark(8)
SparkCore
调优之内存模型
静态内存管理3.2统一内存管理4.存储内存管理4.1RDD的持久化机制4.2RDD缓存的过程4.3淘汰和落盘5.执行内存管理5.1多任务间内存分配5.2Shuffle的内存占用没有看前面的同学可以回顾一下:7.
SparkCore
蛋蛋淡淡定
·
2020-08-14 09:45
spark
SparkCore
— Task分配算法
Task分配算法 接着上一篇的Task最佳位置,我们分析了submitMissingTasks()方法,其中里面比较重要的:一个是task的最佳位置计算,另一个就是提交TaskSet给TaskScheduler。下面分析提交到TaskScheduler后的TaskSet中的task是如何被分配到Executor上去的。 默认情况下,standalone模式,是使用的TaskSchedulerImp
xiaoxin_ysj
·
2020-08-14 00:14
Spark
Core原理与源码分析
spark中将数据输出到json文件的两种方式
通常的案例就是,给我们一个普通文件,然后我们用
sparkcore
或者sparkSQL,遍历文件内容后,按照需求将再将遍历后得到的数据写入json文件中。
物物相连
·
2020-08-13 22:52
大数据
大数据实时框架原理
它的底层,其实,也是基于我们之前讲解的
SparkCore
的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。
大数据的未来
·
2020-08-13 19:18
spark学习之路
用户画像与推荐系统的关系
用户画像是将用户的特征进行标签化,有简单的标签,也有复杂的标签,复杂的标签来自原始的标签,这其中有复杂的规则逻辑,用sql或这
sparkCore
来执行产生,也有利用算法模型来产生的,利用SVM,LR,RF
yyqq188
·
2020-08-12 00:06
推荐系统
兄台别走,带您去看Hadoop和Spark的不同!!!
一、Spark它主要包含以下几个方面:
SparkCore
–用于通用分布式数据处理的引擎。它不依赖于任何其他组件,可以运行在任何商用服务器集群上。
我还有大把的头发
·
2020-08-11 05:21
Spark SQL及RDD、DataFrame、DataSet数据抽象
2、SparkSQL的特点:(1)和
SparkCore
的无缝集成,我可以在写整个RDD应用的时候,配置SparkSQL来实现我的逻辑(2)统一的数据访问方式,SparkSQL提供标准化的SQL
one111a
·
2020-08-11 05:54
spark
Spark Streaming 实现思路与模块概述
一、基于Spark做SparkStreaming的思路SparkStreaming与
SparkCore
的关系可以用下面的经典部件图来表述:在本节,我们先探讨一下基于
SparkCore
的RDDAPI,如何对
xuguokun1986
·
2020-08-11 05:26
大数据
大数据:Spark Shuffle(一)ShuffleWrite:Executor如何将Shuffle的结果进行归并写到数据文件中去
1.前序关于Executor如何运行算子,请参考前面博文:大数据:
SparkCore
(四)用LogQuery的例子来说明Executor是如何运算RDD的算子,当Executor进行reduce运算的时候
raintungli
·
2020-08-11 04:35
大数据
Spark大数据平台源码分析
初识spark
1.Spark的组成
SparkCore
:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。
天一涯
·
2020-08-10 13:39
大数据学习之路
spark
[Spark] RDD中JOIN的使用
JOIN在
SparkCore
中的使用1.innerjoininnerjoin,只返回左右都匹配上的//启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01~]$spark-shell
cindysz110
·
2020-08-10 07:48
Spark
spark大数据架构初学入门基础详解
Spark是什么a)是一种通用的大数据计算框架b)
SparkCore
离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)
星月情缘02
·
2020-08-10 04:28
Spark
sparkStreaming的编程步骤
(1)StreamingContext 与
sparkcore
的编程类似,在编写SparkStreaming的程序时,也需要一个通用的编程入口----StreamingContext。
weixin_33924770
·
2020-08-10 03:10
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他