【SparkCore】RDD的持久化与缓存（HDFS与内存磁盘）

spark开发环境搭建（基于idea 和maven） DemonHunter211 Hadoop
使用idea构建maven管理的spark项目，默认已经装好了idea和Scala,mac安装Scala那么使用idea新建maven管理的spark项目有以下几步:scala插件的安装全局JDK和Library的设置配置全局的ScalaSDK新建maven项目属于你的”HelloWorld!”导入spark依赖编写sprak代码打包在spark上运行1.scala插件的安装首先在欢迎界面点击Co
Java-Spark系列1-spark概述只是甲大数据和数据仓库 #Spark spark big data Spark概述
文章目录一.大数据技术栈二.Spark概述2.1MapReduce框架局限性2.2Hadoop生态圈中的各种框架2.3Spark2.3.1Spark的优势2.3.2Spark特点2.3.3SPRAK2新特性一.大数据技术栈如下图，当前的一个大数据技术栈:如上所示:数据采集，一般通过Sqoop或Flume将关系型数据库数据同步到hadoop平台。底层存储，采集到的数据存储在hdfs上，分布式进行存储
PySpark：结构化流 starry0001 spark Python spark python
PySpark三：结构化流很多人应该已经听说过spark中的Streaming数据这个概念，这也是sprak的亮点之一。这章我们就来简单的介绍spark中Streaming的概念以及pyspark中Streaming数据的一些简单操作方法。如果是直接观看这篇文章的朋友可以先观看一下我之前的两篇文章，里面会有Pyspark基础的操作语法和hadoop环境的配置(不配置hadoop环境的话是无法运行这
PySpark实战一之入门 Younger成大数据
1、PySpark的编程模型分三个模块：数据输入：通过SparkContext对象，完成数据输入数据处理计算：输入数据后得到RDD对象，对RDD对象的成员方法进行迭代计算数据输出：最后通过RDD对象的成员方法，完成数据输出，将结果输出到list、元组、字典、文本文件、数据库等2、如何安装PySpark库pipinstallpyspark注：sprak支持环境变量，通过入参告诉spark，pytho
Python结合Sprak实现计算曲线与X轴上方的面积
目录思路代码提高计算的效率有n组标本(1,2,3,4),每组由m个(,,...)元素(,)组成(m值不定),.各组样本的分布曲线如下图所示.通过程序近似实现各曲线与oc,cd直线围成的⾯积.思路可以将图像分成若干个梯形，每个梯形的底边长为(Xn+1-Xn-1)，面积为矩形的一半，其面积=(底边长X高)/2，即S=(Xn+1-Xn-1)*（Yn+1+Yn+2），对于整个图形，面积为所有梯形面积之和。
Spark小Demo，连接mongo，并处理密码或者用户名带特殊符号 Alex_81D 大数据
sprak小demo，用spark连接mongodb，并且处理密码或者用户名带特殊符号的方法importjava.net.URLEncoderimportcom.mongodb.spark.MongoSparkimportcom.mongodb.spark.config.ReadConfigimportorg.apache.spark.sql.SparkSessionimportorg.junit
sprak执行jar包，java.io.IOException: No FileSystem for scheme: g ZJ18712852367
scala代码实现wordcount，IDEA下执行成功：objectWordCountByScala{defmain(args:Array[String]):Unit={valconf=newSparkConf();conf.setAppName("WordCountSpark")conf.setMaster("local")valsc=newSparkContext(conf);valrdd1
Spark 参数说明 weixin_33711641
Sprak参数有两种设置方式，一种是在代码中直接设置，一种是在提交任务时设置。代码中的优先级高于提交任务。1、num-executors参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默
Spark-stream基础---sparkStreaming和Kafka整合wordCount单词计数一行数据 Spark 数据开发
项目sprak-stream与kafak整合wordCount在IDEA上接收kafka传来的数据，并进行单词统计linux端打开kafka//1.先打开zookeeper（3台）zkServer.shstart//2.在打开kafka(3台)bin/kafka-server-start.shconfig/server.properties&//3.创建生产者bin/kafka-console-p
sprak 序列化相关错误 tpts 大数据
在提交spark任务的过程中，如果设置了使用kryo进行序列化，即:conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer")可能会遇到以下异常：com.esotericsoftware.kryo.KryoException:java.lang.UnsupportedOperationExceptionSeri
CentOS8 安装 sprak2.4.5 爱多娇 spark
下载地址http://spark.apache.org/downloads.html下载文件spark-2.4.5-bin-without-hadoop-scala-2.12.tgz。scala版本是2.12的，不带hadoop的，[[email protected]]#bin/spark-shellUsingScalaversion2.12.10(JavaHotSpot(TM)64-Bit
RDDs, Spark Memory, and Execution BarackHusseinObama Hadoop 原理学习
弹性分布式数据集(RDDs)目的/动机Sprak的实现https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf2014ACMDoctoralDissertationAward(MateiZaharia,Sparkcreator,Databrickscofounder)为什么需要一个“新”的计算方法很多现有的集
Spark学习笔记1 wangmin
ApacheSparkisafastandgeneral-purposeclustercomputingsystem.spark提供了JavaScalaPythonand的API。在examples/src/main目录下有Java和Scala例子，用bin/run-example运行。通过运行：./bin/spark-shell–masterlocal[2]来进行交互式的操作，这是学习sprak
Spark运行架构 ppmoon
基础概念RDD：弹性分布式数据集（ResilientDistributedDataset）它是分布式内存的抽象概念，可以理解成spark的对象，在spark当中都是对RDD进行读写，计算，是sprak当中的核心。DAG：DirectedAcyclicGraph（有向无环图）这个比较好理解，在图论当中，如果从一个点触发经过若干条边以后，没有回到这个点，就是有向无环图。DAG在spark当中主要是反应
单机部署spark环境 Alex_81D 大数据 Linux
最近需要搭建单机版sprak环境，分享一下： 1.首先准备软件包下载地址：https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz2.解压到对应目录后，修改配置文件（前提Java已经安装过了）解压的Linux命令：tar -zxvf spark-2.4.3-bin-hadoop2.7
Linux下远程连接Jupyter+pyspark部署教程 RayCchou
博主最近试在服务器上进行spark编程，因此，在开始编程作业之前，要先搭建一个便利的编程环境，这样才能做到舒心地开发。本文主要有以下内容：1、python多版本管理利器-pythonbrew2、Jupyternotebooks安装与使用以及远程连接方法3、Jupyter连接pyspark，实现web端sprak开发一、python多版本管理利器-pythonbrew在利用python进行编程开发的
Kafka-2.11-0.11.0.0对接spark streaming序列化问题 Demon_gu Spark
Kafka_2.11-0.11.0.0sprak-streaming-kafka-0-10_2.11报错信息如下java.io.NotSerializableException:org.apache.kafka.clients.consumer.ConsumerRecordSerializationstack:-objectnotserializable(class:org.apache.kafk
Hive的优化历程 Tardis1 Hive
公司的系统想要转型，由我和项目经理两个人来完成从传统的数据库向HIVE+HADOOP_+SPARK，用以满足日益膨胀的大量数据。对于将数据存储在Hive，进行了以下的优化:1,Hive的引擎目前为止有三种，分别为MR,TEZ,SPRAK.由于公司用的是Hive1.2.1,spark是老版本1.6.2,我查了hiveonspark的网页后发现这个hiveversion不支持我目前这个版本的spark
Sprak Java 推荐算法的思路和实现 Tardis1 小结 spark
推荐算法在org.apache.spark.ml.recommendation或者org.apache.spark.mlib.recommendation下面相比于org.apache.spark.mlib.recommendation面向RDD算子来计算，org.apache.spark.ml.recommendation面向DataFrame来计算，往后spark会逐渐采用dataframe来
Sprak学习之RDD五大特性大鼓花 Spark
RDDResillientDistributedDataset即为弹性分布式数据集在spark中有五大特性1：alistofpartiotioner有着partiotioner集合partiotioner是一个具体概念指在一个节点中的连续的空间。一个partiotioner肯定使在一个节点上，但是一个节点上会有着好几个partiotioner.2:afunctionforpartiotioner每
spark开发环境搭建（基于idea 和maven）双斜杠少年 idea spark scala 11.1 编译器 5.5 spark
使用idea构建maven管理的spark项目，默认已经装好了idea和Scala,mac安装Scala那么使用idea新建maven管理的spark项目有以下几步:scala插件的安装全局JDK和Library的设置配置全局的ScalaSDK新建maven项目属于你的”HelloWorld!”导入spark依赖编写sprak代码打包在spark上运行1.scala插件的安装首先在欢迎界面点击Co
大数据工具：Spark配置遇到的坑 Utopi_a
遇到的问题：在配置spark的时候，启动spark-shell正常启动和使用，但是使用脚本start-all.sh启动所有的服务时遇到问题，抛出Java异常：Unsupportedmajor.minorversion51.0原因分析看了sprak启动脚本代码，基本上就是config加载相关环境变量（Hadoop相关以及$SPARK_HOME等的需要配置好，其他spark相关的配置在conf/spa
Spark-Spark Streaming例子整理(三) youdianjinjin
一、解密SparkStreaming另类在线实验二、瞬间理解SparkStreaming本质Spark源码定制，自己动手改进Spark源码，通常在电信、金融、教育、医疗、互联网等领域都有自己不同的业务，如果Sprak官方版本没有你需要的业务功能，你自己可以定制、扩展Spark的功能，满足公司的业务需要。选择SparkStreaming框架源码研究、二次开发的原因1、Spark起初只有SparkCo
[置顶] Spark定制版1：通过案例对SparkStreaming透彻理解三板斧之一 qq_21234493 spark SparkStreaming
本节课通过二个部分阐述SparkStreaming的理解：一、解密SparkStreaming另类在线实验二、瞬间理解SparkStreaming本质Spark源码定制，自己动手改进Spark源码，通常在电信、金融、教育、医疗、互联网等领域都有自己不同的业务，如果Sprak官方版本没有你需要的业务功能，你自己可以定制、扩展Spark的功能，满足公司的业务需要。选择SparkStreaming框架源
解决flex4 spark 找不到外观错误 neil89
spark组件为了提高性能adobe做了很多努力，同时也给我们带来了很多“麻烦”，sprak与mx组件相比改动却是挺大的。在一个module中使用spark的TextArea（动态创建TextArea）会报找不到TextArea的外观，即找不到TextArea的皮肤类TextAreaSkin，出现这个问题的原因是由于spark组件只编译使用的组件皮肤，因此动态创建的组件的皮肤就没有编
Repeater使用简介 yunzhongxia 简介
mx组件中的Repeater类似与sprak中的DataGroup,可以根据数据源循环一些组件，例如：一组RadionButton。网上的很多例子都是用mxml写的，本文将主要介绍用as来编写Repeater。 1 先定义好Repeater所
Repeater使用简介 yunzhongxia 简介
mx组件中的Repeater类似与sprak中的DataGroup,可以根据数据源循环一些组件，例如：一组RadionButton。网上的很多例子都是用mxml写的，本文将主要介绍用as来编写Repeater。 1 先定义好Repeater所
解决flex4 spark 找不到外观错误 shlei
阅读更多spark组件为了提高性能adobe做了很多努力，同时也给我们带来了很多“麻烦”，sprak与mx组件相比改动却是挺大的。在一个module中使用spark的TextArea（动态创建TextArea）会报找不到TextArea的外观，即找不到TextArea的皮肤类TextAreaSkin，出现这个问题的原因是由于spark组件只编译使用的组件皮肤，因此动态创建的组件的皮肤就没有编译进去
解决flex4 spark 找不到外观错误 shlei spark
spark组件为了提高性能adobe做了很多努力，同时也给我们带来了很多“麻烦”，sprak与mx组件相比改动却是挺大的。在一个module中使用spark的TextArea（动态创建TextArea）会报找不到TextArea的外观，即找不到TextArea的皮肤类TextAr
解决flex4 spark 找不到外观错误 yunzhongxia spark
spark组件为了提高性能adobe做了很多努力，同时也给我们带来了很多“麻烦”，sprak与mx组件相比改动却是挺大的。在一个module中使用spark的TextArea（动态创建TextArea）会报找不到TextArea的外观，即找不到TextArea的皮肤类TextArea
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

持久化级别	说明
MEMORY_ONLY(默认)	将RDD以非序列化的Java对象存储在JVM中。如果没有足够的内存存储RDD，则某些分区将不会被缓存，每次需要时都会重新计算。这是默认级别。
MEMORY_AND_DISK (开发中可以使用这个)	将RDD以非序列化的Java对象存储在JVM中。如果数据在内存中放不下，则溢写到磁盘上．需要时则会从磁盘上读取
MEMORY_ONLY_SER (Java and Scala)	将RDD以序列化的Java对象(每个分区一个字节数组)的方式存储．这通常比非序列化对象(deserialized objects)更具空间效率，特别是在使用快速序列化的情况下，但是这种方式读取数据会消耗更多的CPU。
MEMORY_AND_DISK_SER (Java and Scala)	与MEMORY_ONLY_SER类似，但如果数据在内存中放不下，则溢写到磁盘上，而不是每次需要重新计算它们。
DISK_ONLY	将RDD分区存储在磁盘上。
MEMORY_ONLY_2, MEMORY_AND_DISK_2等	与上面的储存级别相同，将持久化数据存为两份，备份每个分区存储在两个集群节点上。
OFF_HEAP(实验中)	与MEMORY_ONLY_SER类似，但将数据存储在堆外内存中。 (即不是直接存储在JVM内存中) 如：Tachyon-分布式内存存储系统、Alluxio - Open Source Memory Speed Virtual Distributed Storage

【SparkCore】RDD的持久化与缓存（HDFS与内存磁盘）

内存或磁盘

介绍

持久化/缓存API详解

代码

存储级别

总结

HDFS

介绍

代码

总结

你可能感兴趣的:(Sprak)