E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
SparkCore
SparkCore
核心RDD详解及五大特性
GithubRDD源码1、AResilientDistributedDataset(RDD),thebasicabstractioninSpark.2、Representsanimmutable,partitionedcollectionofelementsthatcanbeoperatedoninparallelRDD是ResilientDistributedDataset(弹性分布式数据集)的
喵星人ZC
·
2019-05-12 18:58
Spark-SQL之JDBC数据源
读取的数据,依然由DataFrame表示,可以很方便地使用
SparkCore
提供的各种算子进行处理。创建方式:查询时连接Mysql:用SparkSQL处理JDBC中的数据是非常有用的。
S_Running_snail
·
2019-04-13 13:56
spark
大数据学习路线(完整详细版)
Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,
sparkcore
qq_25889465
·
2019-04-08 23:16
RDD中JOIN的使用
JOIN在
SparkCore
中的使用1.innerjoininnerjoin,只返回左右都匹配上的>>>data2=sc.parallelize(range(6,15)).map(lambdaline:
Data_IT_Farmer
·
2019-03-30 11:01
Spark
Spark Streaming 实现思路与模块概述
一、基于Spark做SparkStreaming的思路SparkStreaming与
SparkCore
的关系可以用下面的经典部件图来表述:在本节,我们先探讨一下基于
SparkCore
的RDDAPI,如何对
Wei-L
·
2019-03-28 13:54
Big
Data
spark streaming 使用心得及源码阅读
其实,想用好sparkstreaming掌握
sparkcore
,sparkrpc,spark任务调度,spark并行度等原理还非常有必要。
lspshun
·
2019-03-27 15:28
spark
Spark一路火花带闪电——认识Spark
文章目录认识ApacheSpark1.1Spark是一个软件栈1.1.1
SparkCore
1.1.2SparkSQL1.1.3SparkStreaming1.1.4MLlib1.1.5GraphX1.1.6
No_Game_No_Life_
·
2019-03-27 14:33
分布式架构
大数据基础
Spark Core 子模块 Shuffle 分析
二、
SparkCore
子
亚历山大的陀螺
·
2019-03-26 15:24
Spark
Spark Core源码精读计划#0:Hello Again, WordCount
SparkWebUIApplicationJobStageTaskShuffleDAG与RDD依赖Executor与DriverSpark集群ClusterManagerWorker总结前言思来想去,还是决定从头开始写起,从最基础的东西入手,研读
SparkCore
LittleMagic
·
2019-03-23 12:58
spark core 系列一
spark为批处理(
Sparkcore
),交互式(SparkSQL),流式(SparkStreaming),机器学习(MLib),图处理(GraphX)提供一个统一的数据处理平台,这相对于使用Hado
scott_alpha
·
2019-03-15 21:43
每周一书《Spark与Hadoop大数据分析》分享!
Hadoop大数据分析比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,既涵盖ApacheSpark和Hadoop的基础知识,又深入探讨所有Spark组件——
SparkCore
中科计算所
·
2019-03-15 12:04
Spark
Hadoop
大数据
Spark SQL数据倾斜解决方案
之前在
SparkCore
中的数据倾斜的七种解决方案,全部都可以直接套用在SparkSQL上。
Johnson8702
·
2019-03-10 20:38
大数据
Spark调优
大数据生态圈的理解
HDFS是整个大数据架构的底层,它提供了一个文件系统Spark(
Sparkcore
(RDD))和MapReduce是一个层级,是一种操作计算框架,MapReduce相当于一个别人写好的java程序,它并不需要在服务器上启动相应的服务
奥兰治的威廉
·
2019-03-04 20:53
big
data
【大数据】
SparkCore
学习笔记
第1章RDD概述1.1什么是RDDRDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。1.2RDD的属性1)一组分区(Partition),即数据集的基本组成单位;2)一个计算每个分区的函数;3)RDD之间的依赖关系;4)一个Partitioner,即RDD的分片
weixin_33708432
·
2019-02-25 11:00
大数据
java
scala
读《Spark内核设计的艺术 架构设计与实现》笔记之二----Spark模块设计
Spark模块设计整个Spark主要由
SparkCore
,SparkSQL,SparkStreaming,GraphX,MLlib组成,
SparkCore
是整个Spark体系的核心引擎,SparkSQL
TMH_ITBOY
·
2019-02-15 16:00
Spark
184、Spark 2.0之Spark 2.x与1.x对比以及分析
Spark2.x与1.x对比Spark1.x:
SparkCore
(RDD)、SparkSQL(SQL+Dataframe+Dataset)、SparkStreaming、SparkMLlib、SparkGraphxSpark2
ZFH__ZJ
·
2019-02-11 13:00
Spark入坑
Spark学习笔记: Spark Streaming
批处理MapReduce和
SparkCore
都是批处理:需要收集数据,然后分批处理,这样一般会有一定的延时。流式处理数据收集后,直接处理。流式计算框架SparkStreaming是微批(微小批处理)
GaryBigPig
·
2019-01-24 23:02
Spark
大数据学习路线(完整详细版)
Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,
sparkcore
juan188
·
2019-01-22 11:07
大数据
大数据学习
大数据开发
人工智能
程序员
数据分析
spark
hadoop
Linux
spark checkpoint详解
转载地址:https://www.cnblogs.com/superhedantou/p/9004820.htmlcheckpoint在spark中主要有两块应用:一块是在
sparkcore
中对RDD做
learn_tech
·
2019-01-16 17:19
spark
sparkStreaming的编程步骤
(1)StreamingContext 与
sparkcore
的编程类似,在编写SparkStreaming的程序时,也需要一个通用的编程入口----StreamingContext。
原生zzy
·
2019-01-06 21:55
Spark
Streaming
编程套路
spark
SparkCore
核心知识——核心机制
目录1、Spark的核心概念2、Spark的运行流程2.1、Spark的基本运行流程2.2、运行流程图解2.3、SparkContext初始化2.4、Spark运行架构特点2.5、DAGScheduler2.6、TaskScheduler2.8、Executor3、Spark任务执行流程分析3.1、Spark任务的任务执行流程图解3.2、Spark任务的任务执行流程文字描述简介3.3、Spark任
jiangw-Tony
·
2019-01-03 21:23
Spark
Spark Core 的核心理论
1.
SparkCore
的核心功能 (1)SparkContext: 通常而言,DriverApplication的执行与输出都是通过SparkContext完成的,在正式提交Application之前
原生zzy
·
2019-01-02 21:13
Spark
Core
的核心理论
spark
Spark Core 学习笔记
SparkCore
学习笔记1、Spark简介Spark是一种用于大规模数据处理的统一计算引擎。它是加州大学伯克利分校AMP实验室所开发,后又成为Apache顶级项目。
猪联璧何
·
2018-12-15 11:16
Spark Core 学习笔记
SparkCore
学习笔记1、Spark简介Spark是一种用于大规模数据处理的统一计算引擎。它是加州大学伯克利分校AMP实验室所开发,后又成为Apache顶级项目。
猪联璧何
·
2018-12-15 11:16
大数据学习路线(完整详细版)
Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,
sparkcore
大数据01
·
2018-11-28 12:33
Spark学习笔记——1
一、Spark简介1、Spark:完全基于Hadoop的一种计算框架2、计算框架——》适用场景:SparkRDD——》离线批处理
SparkCore
——》流式计算SparkSQL——》交互式查询(基于Hive
Mr_Effiya
·
2018-11-21 10:24
Spark
Spark计算的核心RDD
在
SparkCore
中的一切计算都是基于RDD的,那RDD是个什么东西呢?
Chris_MZJ
·
2018-11-18 16:39
大数据
Spark计算的核心RDD
在
SparkCore
中的一切计算都是基于RDD的,那RDD是个什么东西呢?
Chris_MZJ
·
2018-11-18 16:39
RDD
Spark
大数据
(五)transform、Join的使用、DStream和RDD整合 域名黑名单
domain.time.trafficruozedata.combaidu.comruozedata.com数据二:已有文件黑名单domainbaidu.com需求:把数据二当做一个黑名单,也就是把数据一中的baidu.com数据剔除掉,只留下ruozedata.com一、用
SparkCore
白面葫芦娃92
·
2018-11-17 11:59
Spark源代码阅读(一)
强烈推荐https://blog.csdn.net/weixin_41705780/article/details/79273666总体架构Spark工程下的模块
sparkcore
,spark内核sparkstreaming
define_us
·
2018-11-13 11:45
java
Spark Streaming(五):与Spark SQL整合
SparkStreaming最强大的地方在于,可以与
SparkCore
、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream中的RDD使用
SparkCore
张凯_9908
·
2018-11-07 01:36
Spark学习笔记二:Spark.SQL
SparkSQL在
SparkCore
的基础上对外提供了SQL接口,可以让熟悉SQL的技术人员快速上手。其编程入口为SparkSession。.
DanyYan
·
2018-11-06 20:11
Spark
Spark数据倾斜解决方案二:过滤导致数据倾斜的Key
如果是在SparkSQL中使用where字句过滤,如果在
SparkCore
中,就是用RDD的filter算子来过滤。
hipeer
·
2018-11-02 18:24
Apache 流框架 Flink,Spark Streaming,Storm对比分析(2)
2.SparkStreaming架构及特性分析2.1基本架构基于是
sparkcore
的sparkstreaming架构。SparkStreaming是将流式计算分解成一系列短小的批处理作业。
H_MZ
·
2018-10-31 05:59
java
数据库
runtime
大数据学习路线(完整详细版)
Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Spark(scala,spark,
sparkcore
haohsq
·
2018-10-27 14:21
大数据
spark streaming 排错--JVM方法栈溢出
对于堆溢出要分两种情况:1.突然堆溢出,这种情况的处理方案参照
sparkcore
对于堆溢出的处理,不做详述。
sunkl_
·
2018-10-24 02:41
SparkCore
(5):Spark on Standalone配置和测试
1.实现功能Spark应用运行在Standalone资源管理框架系统上,Standalone是spark自带的一种资源管理框架,类似yarn,分布式的。2.Standalone的框架Worker:执行节点服务,管理当前节点的资源及启动executorMaster:集群资源管理及申请3.配置信息(1)要求:spark的local本地模式可以成功运行,配置spark-env.shJAVA_HOME=/
RayBreslin
·
2018-10-23 07:27
大数据开发
SparkCore
Spark
SparkStreaming源码分析起始篇
并且是如何将SparkStreamingApi转化为
SparkCore
的呢?接下来的文章我们通过分析SparkStream
小狼星I
·
2018-10-21 11:12
《Spark快速大数据分析》总结--(2)
SparkCore
还包括了对弹性分布式数据集(RDD)的API定义。R
徐周
·
2018-10-17 21:56
机器学习
【Spark内核源码】SparkConf,Spark的配置管控
SparkConf位于
SparkCore
中的org.apac
lazy_moon
·
2018-10-15 20:55
Spark内核源码
Spark Streaming执行流程源码剖析
一、StreamingContext初始化过程在SparkStreaming中使用StreamingContext来操作DStream,这也好比
SparkCore
中SparkContext对于RDD,DStream
不清不慎
·
2018-10-06 11:22
Spark
Spark源码剖析与调优
Spark Streaming(二十八)性能调优
减少批处理的时间SparkStreaming的优化可以大大提高每个批次的处理时间,每个批次处理其实就是操作RDD,那么怎么样才能缩短操作RDD的时间呢,那我们就可以参考
SparkCore
(十九)Spark
666呀
·
2018-10-01 09:18
spark
Apache 流框架 Flink,Spark Streaming,Storm对比分析 (二)
2.SparkStreaming架构及特性分析2.1基本架构基于是
sparkcore
的sparkstreaming架构。SparkStreaming是将流式计算分解成一系列短小的批处理作业。
生活的探路者
·
2018-09-30 13:35
Spark 实现两表查询(
SparkCore
和SparkSql)
项目需求:ip.txt:包含ip起始地址,ip结束地址,ip所属省份access.txt:包含ip地址和各种访问数据需求:两表联合查询每个省份的ip数量
SparkCore
使用广播,将小表广播到executor
曼路
·
2018-09-30 11:35
hadoop
Spark系列1 - Spark生态和RDD
1Spark的生态
SparkCore
中的基本概念DAG(DirectedAcyclicGraph),有向无环图。
guoxiaojie_415
·
2018-09-28 18:34
大数据
使用Spark进行每日Top3热点搜索词统计
本案例旨在综合使用
SparkCore
和SparkSql完成业务需求,具有一定的参考价值。
固安李庆海
·
2018-09-28 09:12
Spark学习笔记:Spark Streaming与Spark SQL协同工作
SparkStreaming与SparkSQL协同工作SparkStreaming可以和
SparkCore
,SparkSQL整合在一起使用,这也是它最强大的一个地方。
SetsunaMeow
·
2018-09-19 17:48
Spark
Spark
Streaming
Spark SQL(二十)初识Spark SQL
SparkSQL优点它与
SparkCore
无缝集成,在项目中我们可以与
SparkCore
配合实现业务逻辑。
666呀
·
2018-09-09 00:00
spark
大数据专栏(一)Spark
[spark streaming] 架构和运行机制
SparkStreaming架构2.SparkStreaming运行机制3.解密SparkStreamingJob架构和运行机制4.解密SparkStreaming容错架构和运行机制Spark大数据分析框架的核心部件:
sparkCore
风一样的男人_
·
2018-08-28 11:19
spark
玩转spark
Spark Streaming运行架构和运行原理总结
一运行架构SparkStreaming相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈,其中SparkStreaming功能主要包括流处理引擎的流数据接收与存储以及批处理作业的生成与管理,而
SparkCore
Anbang713
·
2018-08-26 09:50
大数据/Spark/Spark
Streaming
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他