E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Sparkcore
Spark:RDD操作和持久化
然后在创建了初始的RDD之后,才可以通过
SparkCore
提供的transformation算子,对该RDD进行转换,来获取其他的RDDSparkCore提供了三种创建RDD的方式使用程序中的集合创建RDD
焦焦^_^
·
2020-07-30 12:56
Spark
SparkCore
:RDD Persistence持久化策略, persist和cache算子
文章目录1、RDDPersistence介绍2、persist()和cache()算子2.1cache底层源码2.2StorageLevel2.2StorageLevel使用2.3StorageLevel如何选择2.4RDD.unpersist()移除缓存数据官网:RDDPersistencehttp://spark.apache.org/docs/latest/rdd-programming-g
11号车厢
·
2020-07-30 12:30
Spark2
SparkCore
基础(一)
*
SparkCore
基础(一)学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!
weixin_30629977
·
2020-07-30 02:01
SparkCore
(16):Spark内存管理机制1.6之前和1.6+
一、Spark1.6之前(固定的值)1.架构图2.具体分配Spark应用中代码使用内存:你编写的程序中使用到的内存=>20%Spark数据缓存的时候用到的内存:60%=>spark.storage.memoryFractionSparkshuffle过程中使用到的内存:20%=>spark.shuffle.memoryFraction3.官网spark.shuffle.memoryFraction
RayBreslin
·
2020-07-30 01:59
Spark
大数据开发
SparkCore
【Spark】
SparkCore
入门解析(五)
(图片来源于网络,侵删)MRShuffle和SparkShuffle机制和原理分析MR的ShuffleShuffle是什么?(以下部分图片来自于网络,侵删)Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据为什么MapReduce计算模型需要Shu
默默走开
·
2020-07-29 23:16
Spark
【Spark】
SparkCore
入门解析(二)
(图片来源于网络,侵删)一、RDD概念【1】RDD概述①RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合②在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值③RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性④RDD支持两种操
默默走开
·
2020-07-29 23:16
Spark
【Spark】
SparkCore
入门解析(四)
(图片来源于网络,侵删)一、Spark累加器和广播变量【1】累加器累加器是在Spark计算操作中变量值累加起来,可以被用来实现计数器、或者求和操作。Spark原生地只支持数字类型的累加器,用户可以继承累加器类来自定义累加器逻辑。如果创建累加器时指定了名字,可就以在SparkUI界面看到。这有利于理解每个执行阶段的进程。总的来说,累加器在Driver端定义赋初始值,累加器只能在Driver端读取,在
默默走开
·
2020-07-29 23:16
Spark
Spark Streaming 入门
SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable,high-throughput,fault-tolerantstreamprocessingoflivedatastreams.根据官网的解释,SparkStreaming是一个基于
SparkCore
留歌36
·
2020-07-29 14:11
spark
Spark Steaming快速入门
SparkSteamingSparkStreaming简介什么是SparkStreamingSparkStreaming使用
SparkCore
的快速调度功能来执行流分析。
exklin
·
2020-07-29 13:59
大数据
Spark
Spark Core面试篇01
SparkCore
面试篇01随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。
weixin_41267871
·
2020-07-29 12:44
Spark深入解析(十四):
SparkCore
之RDD的持久化/缓存、容错机制Checkpoint
目录RDD的持久化/缓存持久化/缓存API详解代码演示RDD的容错机制Checkpoint代码演示持久化和Checkpoint的区别RDD的持久化/缓存 在实际开发中某些RDD的计算或转换可能会比较耗费时间,如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存,这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率持久化/缓存API详解persist方法和cache
老王的小知识
·
2020-07-29 00:53
【大数据】Spark
分布式
spark
编程语言
cache
checkpoint
Delta元数据解析
从事Spark内核优化,对
SparkCore
/SprakSQL有深入了解,SparkContributorDelta元数据解析元数据初识Delta有自己的元数据管理,主要有6种类型的元数据Action:
weixin_45906054
·
2020-07-28 23:24
不能错过的Delta元数据解析!
从事Spark内核优化,对
SparkCore
/SprakSQL有深入了解,SparkContributorDelta元数据解析元数据初识Delta有自己的元数据管理,主要有6种类型的元数据Action:
weixin_45906054
·
2020-07-28 23:54
基于 Spark 的数据分析实践
Spark主要包含了
SparkCore
、SparkSQL、SparkStreaming、MLLib和GraphX等组件。
EAWorld
·
2020-07-28 23:18
SparkCore
:RDD-API史上最详细操作(内含面试题)
RDD-API创建RDD三种方法RDD的方法/算子分类Transformation转换算子Action动作算子统计操作基础练习[快速演示]准备工作案例1.WordCount2.创建RDD3.查看该RDD的分区数量4.map5.filter6.flatmap7.sortBy8.交集、并集、差集、笛卡尔积9.Join10.groupbykey11.cogroup[了解]12.groupBy13.red
真情流露哦呦
·
2020-07-28 22:05
SparkCore
SparkCore
:RDD史上最详细的解释
RDD详解1.1.什么是RDD为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中,不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。但是,之前的MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种通用的
真情流露哦呦
·
2020-07-28 21:34
SparkCore
SparkCore
-RDD编程进阶
一、累加器累加器用来对信息进行聚合,通常在向Spark传递函数时,比如使用map()函数或者用filter()传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。1.系统累加器针对一个输入的日志文件,如果我们想计算文件中所有空
我是星星我会发光i
·
2020-07-28 21:42
Spark
深入理解Spark:核心思想与源码分析. 2.3 Spark基本设计思想
2.3Spark基本设计思想2.3.1Spark模块设计整个Spark主要由以下模块组成:
SparkCore
:Spark的核心功能实现,包括:SparkContext的初始化(DriverApplication
weixin_33995481
·
2020-07-28 18:41
大数据
人工智能
网络
Spark学习(1)——初识spark
Spark包含了大数据领域常见的各种计算框架;比如
SparkCore
勇于离线计算,SparkSQL用于交互式查询,SparkStreaming用于实时流式计算,SparkMLlib用于机器学习,SparkGraphX
Mbappe
·
2020-07-28 15:25
spark学习系列
浪院长 | spark streaming的使用心得
其实,想用好sparkstreaming掌握
sparkcore
,sparkrpc,spark任务调度,spark并行度等原理还非常有必要。
大数据星球-浪尖
·
2020-07-28 10:37
SparkCore
快速入门及介绍
什么是RDD弹性、分布式、数据集(数据存储在内存)弹性的,RDD中的数据可以保存在内存中或磁盘里面分布式存储,可以用于分布式计算集合,可以存放很多元素一个不可变,可分区,里面的元素可并行计算的集合RDD的主要属性数据集的基本组成但是一个组分片或一个分区列表,每个分片都会被一个计算任务处理,分区数量决定并发度。用户可以在创建RDD是指定RDD的分片个数,如果没有指定,那么久采用默认值(cpu盒数)一
lhh学bg
·
2020-07-28 09:57
Spark
SparkCore
进阶:键值对RDD数据分区器,Hash与Ranger自定义分区,文件类数据读取与保存,文件系统类数据库数据读取与保存,RDD编程进阶,累加器,广播变量(调优策略),RDD相关概念关系
接上篇文章第2章2.8:
SparkCore
之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDDCheckPoint
DougLeaMrConcurrency
·
2020-07-28 09:16
Spark生态体系
Spark Streaming快速入门
SparkStreaming一、概述http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSparkStreaming是
SparkCore
Mcy2017
·
2020-07-28 08:27
大数据
sparkCore
Api常用算子使用
packagesparkjava;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.
骑着毛驴开大奔
·
2020-07-28 05:02
spark
初识
sparkCore
一、概念RDD(ResilientDistributedDataset),弹性分布式数据集,是分布式内存的一个抽象概念。二、RDD的五大特性1、RDD是由一系列的partition组成的。partition一般有三种方式产生(1)从Scala集合中创建,通过调用SparkContext#makeRDD或SparkContext#parallelize是可以指定partition个数的,若指定了具体
LiryZlian
·
2020-07-28 03:20
Spark
Bigdata
[Spark进阶]--再识spark高阶架构
SparkEcoSystem几乎都是以
SparkCore
为核心而构建起来的,那么,先看看
SparkCore
的高阶架构:分别介绍下几个概念1、DriverProgramsAdriverprogramisanapplicationthatusesSparkasalibrary.ItprovidesthedataprocessingcodethatSparkexecutesontheworkernode
highfei2011
·
2020-07-27 23:17
Spark
SPARK CORE(python编程)
一、
SPARKCORE
的使用1.在JUPYTER网页上创建新的ipynb文件2.环境准备代码importosimportsysspark_home=os.environ.get('SPARK_HOME'
VanChaoi
·
2020-07-27 17:46
Python
SPARK
SparkCore
-RDD 练习
1.原始数据如下:*格式:timestampprovincecityuseridadid*某个时间点某个省份某个城市某个用户某个广告 151660914386767641615166091438699475181516609143869178712151660914386928929*注意:•用户ID范围:0-99•省份、城市ID相同:0-9•adid:0-192.需求:统计每一个省份点击TOP3
似梦似意境
·
2020-07-27 16:27
#
Spark
SparkCore
累加器和广播变量(Spark编程进阶)
本章介绍前几章没有提及的Spark编程的各种进阶特性,会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcastvariable)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。在已有的RDD转化操作的基础上,我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。为了扩展可用的工具范围,本章会介绍Spark与外部程序交互的方式,比如如何与用R语言编
似梦似意境
·
2020-07-27 16:27
#
Spark
SparkCore
-RDD编程详解
1.编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count,collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运
似梦似意境
·
2020-07-27 16:26
#
Spark
Spark深入解析(十二):
SparkCore
之RDD中的函数传递
目录传递一个方法传递一个属性 在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。传递一个方法1.创建一个类classSearch(s:String){//过滤出包含字符串的数据defisMatch(s:String):Boolean={s.contai
老王的小知识
·
2020-07-27 14:47
【大数据】Spark
SparkCore
| Rdd依赖关系| 数据读取保存| 广播变量和累加器
Spark中三大数据结构:RDD;广播变量:分布式只读共享变量;累加器:分布式只写共享变量;线程和进程之间1.RDD中的函数传递自己定义一些RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。传递一个方法classSearch(query:String){//extendsSerializabl
weixin_38166557
·
2020-07-27 13:13
Spark系列--
SparkCore
(三)RDD基本操作
前言RDD的基本操作分为两种,一种是转换Transformation,一种是行动ActionRDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。各算子的详细代码示例,参考如下:Spark算子使用示例一、常
淡淡的倔强
·
2020-07-27 13:27
Spark
Spark 笔录
运行模式2.1集群角色1.Master和Worker2.Driver和Executor2.2Local模式2.3Spark核心概念2.4Standalone模式2.5Yarn模式2.6集中运行模式对比三、
SparkCore
3.1RDD3.2RDD
马本不想再等了
·
2020-07-27 12:50
spark
SparkCore
之RDD中的函数传递
在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。下面我们看几个例子:1传递一个方法1.创建一个类classSearch(query:String){//过滤出包含字符串的数据defisMatch(s:String):Boolean={s.contain
不稳定记忆
·
2020-07-27 11:42
Spark
Spark入门
SparkCore
:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复与内存系统交互等模块。
MXC肖某某
·
2020-07-21 14:00
SparkCore
一、概述1,定义RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2,RDD的特点RDD表示制度的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必须的信息。RDDs之间存在依赖,R
MXC肖某某
·
2020-07-21 14:00
Spark---spark Sql建立临时表进行查询
这个时候直接建立临时表并查询即可当外部文件非json文件,只是简单的结构性数据的时候,需要先用
sparkcore
的
一只生活丰富的程序猿
·
2020-07-16 06:34
spark
Spark(Python)学习(三)
RDD编程RDD编程指的是
SparkCore
编程RDD创建(1)通过文件系统加载数据来创建RDDSpark的SparkContext通过“.textFile()”读取数据,生成内存中的RDD。
雨山林稀
·
2020-07-16 06:23
Spark
大数据常用组件 Maven 依赖, 已根据CDH兼容版本
主要包括,
sparkcore
,sql,stream,kafka,ml.Hbase,HdfsClient,Scala.org.apache.hbasehbase-common2.1.9org.apache.hbasehbase-client2.1.9org.apache.commonscommons-lang33.9com.thoughtworks.paranamerparanamer2.8org
DJH2717
·
2020-07-15 17:00
集群搭建和配置
Spark面试相关
SparkCore
面试篇01一、简答题1.Sparkmaster使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?
aeluwl2038
·
2020-07-15 14:36
[0.0.0] 大型spark项目实战
参考电商用户行为分析大数据平台-中华石杉DT大数据梦工厂-王家林spark官网文档场景在项目实战中理解:1、
sparkcore
、sql、streaming以及机器学习与图计算相关的知识点2、性能调优、troubleshooting
彭宇成
·
2020-07-15 13:03
项目总结
Apache SparkStreaming
SparkStreaminghttp://spark.apache.org/docs/latest/streaming-programming-guide.html#overviewSparkStreaming是
SparkCore
非常爱非常
·
2020-07-15 08:06
SparkStreaming StructuredStreaming Flink Storm 对比
SparkStreaming2.StructuredStreaming延迟数据处理Watermark容错性3.FlinkFlink分层API3.场景1.SparkStreamingSparkStreaming是
SparkCore
孟知之
·
2020-07-15 07:00
大数据组件
Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考
RDD的三个问题1.RDD到底是怎么生成的2.具体执行的时候,是否和基于
SparkCore
上的RDD有所不同,runtime级别的3.运行之后我们对RDD如何处理。
阳光男孩spark
·
2020-07-15 02:52
Spark系列--Spark Streaming(二)IDEA编写Spark Streaming--NetWordCount程序
一、IDEA编写NetWordCount在原有的
SparkCore
项目基础上,添加SparkStreaming项目依赖: org.apache.spark spark-streaming_2.11 ${
淡淡的倔强
·
2020-07-15 01:54
Spark
SparkCore
流量统计
packagecom.xzdream.sparkimportorg.apache.spark.{SparkConf,SparkContext}/***LogApp*/objectSparkContextApp{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf();sparkConf.setAppName("LogApp").se
袁河之滨
·
2020-07-15 00:40
大数据入门实践
大数据环境准备
疯狂Spark之
SparkCore
入门
什么是SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写,方便快速编程。Spark与MapReduce的区别都
千锋教育官方博客
·
2020-07-14 04:39
大数据
spark(一)
2.Spark模块
Sparkcore
//核心模块SparkSQL//SQLSparkStreaming//流计算SparkMLlib//机器学习Spar
高国才
·
2020-07-14 03:45
spark
spark
大数据
疯狂Spark之
SparkCore
入门
什么是SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写,方便快速编程。Spark与MapReduce的区别都
QF大数据
·
2020-07-13 09:29
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他