sparkcore 第9页

Spark:RDD操作和持久化

然后在创建了初始的RDD之后，才可以通过SparkCore提供的transformation算子，对该RDD进行转换，来获取其他的RDDSparkCore提供了三种创建RDD的方式使用程序中的集合创建RDD

焦焦^_^·2020-07-30 12:56

SparkCore：RDD Persistence持久化策略， persist和cache算子

文章目录1、RDDPersistence介绍2、persist()和cache()算子2.1cache底层源码2.2StorageLevel2.2StorageLevel使用2.3StorageLevel如何选择2.4RDD.unpersist()移除缓存数据官网：RDDPersistencehttp://spark.apache.org/docs/latest/rdd-programming-g

11号车厢·2020-07-30 12:30

SparkCore基础（一）

*SparkCore基础（一）学习Spark，首先要熟悉Scala，当然你说你会Python或者Java能不能玩Spark？能！

weixin_30629977·2020-07-30 02:01

SparkCore（16）：Spark内存管理机制1.6之前和1.6+

一、Spark1.6之前（固定的值）1.架构图2.具体分配Spark应用中代码使用内存：你编写的程序中使用到的内存=>20%Spark数据缓存的时候用到的内存：60%=>spark.storage.memoryFractionSparkshuffle过程中使用到的内存：20%=>spark.shuffle.memoryFraction3.官网spark.shuffle.memoryFraction

RayBreslin·2020-07-30 01:59

【Spark】SparkCore入门解析（五）

（图片来源于网络，侵删）MRShuffle和SparkShuffle机制和原理分析MR的ShuffleShuffle是什么？（以下部分图片来自于网络，侵删）Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据为什么MapReduce计算模型需要Shu

默默走开·2020-07-29 23:16

【Spark】SparkCore入门解析（二）

（图片来源于网络，侵删）一、RDD概念【1】RDD概述①RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合②在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值③RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性④RDD支持两种操

默默走开·2020-07-29 23:16

【Spark】SparkCore入门解析（四）

（图片来源于网络，侵删）一、Spark累加器和广播变量【1】累加器累加器是在Spark计算操作中变量值累加起来，可以被用来实现计数器、或者求和操作。Spark原生地只支持数字类型的累加器，用户可以继承累加器类来自定义累加器逻辑。如果创建累加器时指定了名字，可就以在SparkUI界面看到。这有利于理解每个执行阶段的进程。总的来说，累加器在Driver端定义赋初始值，累加器只能在Driver端读取，在

默默走开·2020-07-29 23:16

Spark Streaming 入门

SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable,high-throughput,fault-tolerantstreamprocessingoflivedatastreams.根据官网的解释,SparkStreaming是一个基于SparkCore

留歌36·2020-07-29 14:11

Spark Steaming快速入门

SparkSteamingSparkStreaming简介什么是SparkStreamingSparkStreaming使用SparkCore的快速调度功能来执行流分析。

exklin·2020-07-29 13:59

Spark Core面试篇01

SparkCore面试篇01随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。

weixin_41267871·2020-07-29 12:44

Spark深入解析（十四）：SparkCore之RDD的持久化/缓存、容错机制Checkpoint

目录RDD的持久化/缓存持久化/缓存API详解代码演示RDD的容错机制Checkpoint代码演示持久化和Checkpoint的区别RDD的持久化/缓存在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率持久化/缓存API详解persist方法和cache

老王的小知识·2020-07-29 00:53

Delta元数据解析

从事Spark内核优化，对SparkCore/SprakSQL有深入了解，SparkContributorDelta元数据解析元数据初识Delta有自己的元数据管理，主要有6种类型的元数据Action:

weixin_45906054·2020-07-28 23:24

不能错过的Delta元数据解析！

从事Spark内核优化，对SparkCore/SprakSQL有深入了解，SparkContributorDelta元数据解析元数据初识Delta有自己的元数据管理，主要有6种类型的元数据Action:

weixin_45906054·2020-07-28 23:54

基于 Spark 的数据分析实践

Spark主要包含了SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等组件。

EAWorld·2020-07-28 23:18

SparkCore:RDD-API史上最详细操作(内含面试题)

RDD-API创建RDD三种方法RDD的方法/算子分类Transformation转换算子Action动作算子统计操作基础练习[快速演示]准备工作案例1.WordCount2.创建RDD3.查看该RDD的分区数量4.map5.filter6.flatmap7.sortBy8.交集、并集、差集、笛卡尔积9.Join10.groupbykey11.cogroup[了解]12.groupBy13.red

真情流露哦呦·2020-07-28 22:05

SparkCore:RDD史上最详细的解释

RDD详解1.1.什么是RDD为什么要有RDD?在许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘中，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，之前的MapReduce框架采用非循环式的数据流模型，把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce)，并没有提供一种通用的

真情流露哦呦·2020-07-28 21:34

SparkCore-RDD编程进阶

一、累加器累加器用来对信息进行聚合，通常在向Spark传递函数时，比如使用map()函数或者用filter()传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。1.系统累加器针对一个输入的日志文件，如果我们想计算文件中所有空

我是星星我会发光i·2020-07-28 21:42

深入理解Spark：核心思想与源码分析. 2.3　Spark基本设计思想

2.3Spark基本设计思想2.3.1Spark模块设计整个Spark主要由以下模块组成：SparkCore：Spark的核心功能实现，包括：SparkContext的初始化（DriverApplication

weixin_33995481·2020-07-28 18:41

Spark学习（1）——初识spark

Spark包含了大数据领域常见的各种计算框架；比如SparkCore勇于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX

Mbappe·2020-07-28 15:25

浪院长 | spark streaming的使用心得

其实，想用好sparkstreaming掌握sparkcore，sparkrpc，spark任务调度，spark并行度等原理还非常有必要。

大数据星球-浪尖·2020-07-28 10:37

SparkCore快速入门及介绍

什么是RDD弹性、分布式、数据集（数据存储在内存）弹性的，RDD中的数据可以保存在内存中或磁盘里面分布式存储，可以用于分布式计算集合，可以存放很多元素一个不可变，可分区，里面的元素可并行计算的集合RDD的主要属性数据集的基本组成但是一个组分片或一个分区列表，每个分片都会被一个计算任务处理，分区数量决定并发度。用户可以在创建RDD是指定RDD的分片个数，如果没有指定，那么久采用默认值（cpu盒数）一

lhh学bg·2020-07-28 09:57

SparkCore进阶:键值对RDD数据分区器,Hash与Ranger自定义分区,文件类数据读取与保存,文件系统类数据库数据读取与保存,RDD编程进阶,累加器,广播变量（调优策略）,RDD相关概念关系

接上篇文章第2章2.8:SparkCore之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDDCheckPoint

DougLeaMrConcurrency·2020-07-28 09:16

Spark Streaming快速入门

SparkStreaming一、概述http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSparkStreaming是SparkCore

Mcy2017·2020-07-28 08:27

sparkCore Api常用算子使用

packagesparkjava;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.

骑着毛驴开大奔·2020-07-28 05:02

初识sparkCore

一、概念RDD(ResilientDistributedDataset)，弹性分布式数据集，是分布式内存的一个抽象概念。二、RDD的五大特性1、RDD是由一系列的partition组成的。partition一般有三种方式产生（1）从Scala集合中创建，通过调用SparkContext#makeRDD或SparkContext#parallelize是可以指定partition个数的，若指定了具体

LiryZlian·2020-07-28 03:20

[Spark进阶]--再识spark高阶架构

SparkEcoSystem几乎都是以SparkCore为核心而构建起来的，那么，先看看SparkCore的高阶架构：分别介绍下几个概念1、DriverProgramsAdriverprogramisanapplicationthatusesSparkasalibrary.ItprovidesthedataprocessingcodethatSparkexecutesontheworkernode

highfei2011·2020-07-27 23:17

SPARK CORE(python编程)

一、SPARKCORE的使用1.在JUPYTER网页上创建新的ipynb文件2.环境准备代码importosimportsysspark_home=os.environ.get('SPARK_HOME'

VanChaoi·2020-07-27 17:46

SparkCore-RDD 练习

1.原始数据如下：*格式：timestampprovincecityuseridadid*某个时间点某个省份某个城市某个用户某个广告 151660914386767641615166091438699475181516609143869178712151660914386928929*注意：•用户ID范围:0-99•省份、城市ID相同：0-9•adid:0-192.需求：统计每一个省份点击TOP3

似梦似意境·2020-07-27 16:27

SparkCore 累加器和广播变量(Spark编程进阶)

本章介绍前几章没有提及的Spark编程的各种进阶特性，会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcastvariable)。累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。在已有的RDD转化操作的基础上，我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。为了扩展可用的工具范围，本章会介绍Spark与外部程序交互的方式，比如如何与用R语言编

似梦似意境·2020-07-27 16:27

SparkCore-RDD编程详解

1.编程模型在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count,collect等)，或者是向存储系统保存数据(saveAsTextFile等)。在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运

似梦似意境·2020-07-27 16:26

Spark深入解析（十二）：SparkCore之RDD中的函数传递

目录传递一个方法传递一个属性在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。传递一个方法1．创建一个类classSearch(s:String){//过滤出包含字符串的数据defisMatch(s:String):Boolean={s.contai

老王的小知识·2020-07-27 14:47

SparkCore | Rdd依赖关系| 数据读取保存| 广播变量和累加器

Spark中三大数据结构：RDD；广播变量:分布式只读共享变量；累加器：分布式只写共享变量；线程和进程之间1.RDD中的函数传递自己定义一些RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。传递一个方法classSearch(query:String){//extendsSerializabl

weixin_38166557·2020-07-27 13:13

Spark系列--SparkCore(三)RDD基本操作

前言RDD的基本操作分为两种，一种是转换Transformation，一种是行动ActionRDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。各算子的详细代码示例，参考如下：Spark算子使用示例一、常

淡淡的倔强·2020-07-27 13:27

Spark 笔录

运行模式2.1集群角色1.Master和Worker2.Driver和Executor2.2Local模式2.3Spark核心概念2.4Standalone模式2.5Yarn模式2.6集中运行模式对比三、SparkCore3.1RDD3.2RDD

马本不想再等了·2020-07-27 12:50

SparkCore之RDD中的函数传递

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。下面我们看几个例子：1传递一个方法1．创建一个类classSearch(query:String){//过滤出包含字符串的数据defisMatch(s:String):Boolean={s.contain

不稳定记忆·2020-07-27 11:42

Spark入门

SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复与内存系统交互等模块。

MXC肖某某·2020-07-21 14:00

SparkCore

一、概述1，定义RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。2，RDD的特点RDD表示制度的分区的数据集，对RDD进行改动，只能通过RDD的转换操作，由一个RDD得到一个新的RDD，新的RDD包含了从其他RDD衍生所必须的信息。RDDs之间存在依赖，R

MXC肖某某·2020-07-21 14:00

Spark---spark Sql建立临时表进行查询

这个时候直接建立临时表并查询即可当外部文件非json文件，只是简单的结构性数据的时候，需要先用sparkcore的

一只生活丰富的程序猿·2020-07-16 06:34

Spark（Python）学习（三）

RDD编程RDD编程指的是SparkCore编程RDD创建（1）通过文件系统加载数据来创建RDDSpark的SparkContext通过“.textFile()”读取数据，生成内存中的RDD。

雨山林稀·2020-07-16 06:23

大数据常用组件 Maven 依赖, 已根据CDH兼容版本

主要包括,sparkcore,sql,stream,kafka,ml.Hbase,HdfsClient,Scala.org.apache.hbasehbase-common2.1.9org.apache.hbasehbase-client2.1.9org.apache.commonscommons-lang33.9com.thoughtworks.paranamerparanamer2.8org

DJH2717·2020-07-15 17:00

aeluwl2038·2020-07-15 14:36

[0.0.0] 大型spark项目实战

参考电商用户行为分析大数据平台-中华石杉DT大数据梦工厂-王家林spark官网文档场景在项目实战中理解：1、sparkcore、sql、streaming以及机器学习与图计算相关的知识点2、性能调优、troubleshooting

彭宇成·2020-07-15 13:03

Apache SparkStreaming

SparkStreaminghttp://spark.apache.org/docs/latest/streaming-programming-guide.html#overviewSparkStreaming是SparkCore

非常爱非常·2020-07-15 08:06

SparkStreaming StructuredStreaming Flink Storm 对比

SparkStreaming2.StructuredStreaming延迟数据处理Watermark容错性3.FlinkFlink分层API3.场景1.SparkStreamingSparkStreaming是SparkCore

孟知之·2020-07-15 07:00

Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

RDD的三个问题1.RDD到底是怎么生成的2.具体执行的时候，是否和基于SparkCore上的RDD有所不同，runtime级别的3.运行之后我们对RDD如何处理。

阳光男孩spark·2020-07-15 02:52

Spark系列--Spark Streaming(二)IDEA编写Spark Streaming--NetWordCount程序

一、IDEA编写NetWordCount在原有的SparkCore项目基础上，添加SparkStreaming项目依赖： org.apache.spark spark-streaming_2.11 ${

淡淡的倔强·2020-07-15 01:54

SparkCore 流量统计

packagecom.xzdream.sparkimportorg.apache.spark.{SparkConf,SparkContext}/***LogApp*/objectSparkContextApp{defmain(args:Array[String]):Unit={valsparkConf=newSparkConf();sparkConf.setAppName("LogApp").se

袁河之滨·2020-07-15 00:40

疯狂Spark之SparkCore入门

什么是SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写，方便快速编程。Spark与MapReduce的区别都

千锋教育官方博客·2020-07-14 04:39

spark（一）

2.Spark模块Sparkcore//核心模块SparkSQL//SQLSparkStreaming//流计算SparkMLlib//机器学习Spar

高国才·2020-07-14 03:45

疯狂Spark之SparkCore入门

什么是SparkApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写，方便快速编程。Spark与MapReduce的区别都

QF大数据·2020-07-13 09:29

推荐频道

sparkcore

Spark:RDD操作和持久化

SparkCore：RDD Persistence持久化策略， persist和cache算子

SparkCore基础（一）

SparkCore（16）：Spark内存管理机制1.6之前和1.6+

【Spark】SparkCore入门解析（五）

【Spark】SparkCore入门解析（二）

【Spark】SparkCore入门解析（四）

Spark Streaming 入门

Spark Steaming快速入门

Spark Core面试篇01

Spark深入解析（十四）：SparkCore之RDD的持久化/缓存、容错机制Checkpoint

Delta元数据解析

不能错过的Delta元数据解析！

基于 Spark 的数据分析实践

SparkCore:RDD-API史上最详细操作(内含面试题)

SparkCore:RDD史上最详细的解释

SparkCore-RDD编程进阶

深入理解Spark：核心思想与源码分析. 2.3 Spark基本设计思想

Spark学习（1）——初识spark

浪院长 | spark streaming的使用心得

SparkCore快速入门及介绍

SparkCore进阶:键值对RDD数据分区器,Hash与Ranger自定义分区,文件类数据读取与保存,文件系统类数据库数据读取与保存,RDD编程进阶,累加器,广播变量（调优策略）,RDD相关概念关系

Spark Streaming快速入门

sparkCore Api常用算子使用

初识sparkCore

[Spark进阶]--再识spark高阶架构

SPARK CORE(python编程)

SparkCore-RDD 练习

SparkCore 累加器和广播变量(Spark编程进阶)

SparkCore-RDD编程详解

Spark深入解析（十二）：SparkCore之RDD中的函数传递

SparkCore | Rdd依赖关系| 数据读取保存| 广播变量和累加器

Spark系列--SparkCore(三)RDD基本操作

Spark 笔录

SparkCore之RDD中的函数传递

Spark入门

SparkCore

Spark---spark Sql建立临时表进行查询

Spark（Python）学习（三）

大数据常用组件 Maven 依赖, 已根据CDH兼容版本

Spark面试相关

[0.0.0] 大型spark项目实战

Apache SparkStreaming

SparkStreaming StructuredStreaming Flink Storm 对比

Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

Spark系列--Spark Streaming(二)IDEA编写Spark Streaming--NetWordCount程序

SparkCore 流量统计

疯狂Spark之SparkCore入门

spark（一）

疯狂Spark之SparkCore入门

深入理解Spark：核心思想与源码分析. 2.3　Spark基本设计思想