E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习
Spark学习
—— (4) 基本使用(Python)
Spark支持Java、Python、Scala、R语法,可以通过spark-shell(Scala)或pyspark(Python)进行交互式的操作,也可以用spark-submit提交用Java、Python、Scala编写的应用。为了学习Spark的使用,本文不涉及原理,仅仅介绍Spark中Python的基本使用,为之后学习Spark的使用打下基础。本文使用部分全部来自官方参考文档Quick
zhierzyc
·
2019-04-26 09:58
大数据学习记录
Spark学习
之Spark调优与调试(二)
下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个RDD合并到一个步骤中时。当RDD不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行。上一篇博文结尾处输出的谱系图使用不同缩进等级来展示RDD是否会在物理步骤中进行流水线执行。在物理执行时,执行计划输出的缩进等级与其父节点相同的RDD会与其父节点在同一个步骤中进行流水线执行。例如,当计算coun
|旧市拾荒|
·
2019-04-21 21:00
Spark学习
之Spark调优与调试(一)
一、使用SparkConf配置Spark对Spark进行性能调优,通常就是修改Spark应用的运行时配置选项。Spark中最主要的配置机制是通过SparkConf类对Spark进行配置。当创建出一个SparkContext时,就需要创建出一个SparkConf的实例。importorg.apache.spark.SparkContextimportorg.apache.spark.SparkCon
|旧市拾荒|
·
2019-04-21 21:00
Spark学习
之在集群上运行Spark
一、简介Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。好在编写用于在集群上并行执行的Spark应用所使用的API跟本地单机模式下的完全一样。也就是说,你可以在小数据集上利用本地模式快速开发并验证你的应用,然后无需修改代码就可以在大规模集群上运行。首先介绍分布式Spark应用的运行环境架构,然后讨论在集群上运行Spark应用时的一些配置项。Spark可以在各种
|旧市拾荒|
·
2019-04-19 16:00
(九)
Spark学习
笔记之Spark on Yarn
文章目录SparkonyarnSparkonyarn的配置资源分配CPU资源内存资源分配资源资源分配的限制提交模式Client模式下的AM,Driver资源分配Cluster模式下AM,Driver分配的资源executor的资源分配SparkonyarnSpark支持可插拔的集群管理器(standalone,yarn),集群管理器负责启动executor进程。Spark支持四种集群管理器模式:s
DeaSun
·
2019-04-19 13:44
Spark
(五)
Spark学习
笔记之广播&累加器
文章目录spark共享变量实战广播变量BroadcastVariables累加器(Accumulator)spark共享变量实战通常,spark程序计算的时候,传递的函数是在远程集群节点上执行的,在函数中使用的所有变量副本会传递到远程节点,计算任务使用变量副本进行计算。这些变量被复制到每台机器上,对远程机器上的变量的更新不会返回到driver程序。因此,跨任务支持通用的读写共享将是低效的。但是,s
DeaSun
·
2019-04-18 23:01
Spark
(四)
Spark学习
笔记之缓存持久化
文章目录缓存实战项目中如何选择存储级别缓存实战缓存和持久化是RDD计算过程中的一种调优技术。缓存和持久化可以保存中间计算结果,以便在后续的stage重用总使用,而不需要再次从头计算。这些中间结果以RDD的形式保存在内存中,或者磁盘中。StorageLevel描述了RDD是如何被持久化的,可以提供:RDD持久化磁盘还是内存存储;RDD持久化手使用了off-leap;RDD是否需要被序列化;Stora
DeaSun
·
2019-04-18 23:55
Spark
(三)
Spark学习
笔记之分区
文章目录RDD分区partition概念partition的相关属性查看RDDPartition信息RDD的初始分区transformation操作对分区的影响分区的设置分区器HashPartitionerRangePartitionerCustomPartitionerRDD分区partition概念在处理大数据时,由于数据量太大,以至于单个节点无法完全存储、计算。所以这些数据需要分割成多个数据
DeaSun
·
2019-04-18 23:58
Spark
(二)
Spark学习
笔记之RDD
文章目录RDD(ResilientDistributedDataset,弹性分布式数据集)特点操作类型Transformation操作窄依赖宽依赖action操作创建RDD使用集合创建RDD从外部数据源创建RDD读取本地文件读取HDFS上的数据提交应用程序到Spark集群spark算子scalajavaTransformationmap和flatmap算子filter算子distinct算子map
DeaSun
·
2019-04-18 23:03
Spark
Spark学习
之编程进阶总结(二)
五、基于分区进行操作基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为每个元素都配置一次的工作。Spark提供基于分区的map和foreach,让你的部分代码只对RDD的每个分区运行一次,这样可以帮助降低这些操作的代价。当基于分区操作RDD时,Spark会为函数提供该分区中的元素的迭代器。返回值方面,也返回一个迭
|旧市拾荒|
·
2019-04-16 21:00
Spark学习
之编程进阶总结(一)
一、简介这次介绍前面没有提及的Spark编程的各种进阶特性,会介绍两种类型的共享变量:累加器(accumulator)与广播变量(broadcastvariable)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。在已有的RDD转化操作的基础上,我们为类似查询数据库这样需要很大配置代价的任务引入了批操作。为了扩展可用的工具范围,还会简单介绍Spark与外部程序交互的方式,比如如何与用
|旧市拾荒|
·
2019-04-16 21:00
Spark学习
之数据读取与保存总结(二)
8、Hadoop输入输出格式除了Spark封装的格式之外,也可以与任何Hadoop支持的格式交互。Spark支持新旧两套Hadoop文件API,提供了很大的灵活性。要使用新版的HadoopAPI读入一个文件,需要告诉Spark一些东西。newAPIHadoopFile接收一个路径以及三个类。第一个类是“格式”类,代表输入格式。相似的函数hadoopFile()则用于使用旧的API实现的Hadoop
|旧市拾荒|
·
2019-04-15 18:00
Spark学习
之数据读取与保存总结(一)
一、动机我们已经学了很多在Spark中对已分发的数据执行的操作。到目前为止,所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的。但有时候,数据量可能大到无法放在一台机器中,这时就需要探索别的数据读取和保存的方法了。Spark及其生态系统提供了很多可选方案。本章会介绍以下三类常见的数据源。•文件格式与文件系统:对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、AmazonS3等
|旧市拾荒|
·
2019-04-15 18:00
Spark学习
之键值对操作总结
键值对RDD是Spark中许多操作所需要的常见数据类型。键值对RDD通常用来进行聚合计算。我们一般要先通过一些初始ETL(抽取、转化、装载)操作来将数据转化为键值对形式。键值对RDD提供了一些新的操作接口(比如统计每个产品的评论,将数据中键相同的分为一组,将两个不同的RDD进行分组合并等)。我们也会讨论用来让用户控制键值对RDD在各节点上分布情况的高级特性:分区。有时,使用可控的分区方式把常被一起
|旧市拾荒|
·
2019-04-02 16:00
Spark学习
之RDD编程总结
Spark对数据的核心抽象——弹性分布式数据集(ResilientDistributedDataset,简称RDD)。RDD其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。一、RDD基础Spark中的RDD就是一个不可变的分布式对象集合。每个RDD
|旧市拾荒|
·
2019-03-30 20:00
Spark学习
(十):DataFrame
DataFrame能够方便处理大规模结构化数据。在ScalaAPI中,DataFrame只是Dataset[Row]的类型别名。(参考原文)下面展示几个DataFrame的基础用法,适合小白入门,包括:创建DataFrame设置新的字段名添加新列改变元素类型选择列例程importjava.io.Fileimportorg.apache.spark.sql.SparkSessionobjectDat
CocoMama190227
·
2019-03-22 15:16
Spark学习
(九):分布式矩阵
十余天没有学习Spark了,不是我在偷懒,而是前段时间一直在研究形态学算法提取波形的问题。现在算法差不多搞定啦,但是用Python开发的,有空有能力时再补上Spark的程序。还是先来记录一下分布式矩阵的用法吧~一般采用分布式矩阵进行存储都在数据量非常大的情况下进行,处理速度和效率与其存储格式息息相关。MLlib提供了四种分布式矩阵存储形式,分别为:行矩阵,带有行索引的行矩阵,坐标矩阵和块矩阵,据说
CocoMama190227
·
2019-03-20 16:13
Spark学习
(五):协同过滤
因为一直在搞算法开发,所以还是对算法比较感兴趣,学习Spark的过程,也顺带练习一下自己没用过的小算法。没有Java经验,没有Hadoop经验,没有SQL经验,对一些运行机制的理解还是不深,系统学习太枯燥,通过例程慢慢感悟吧!这次的参考书目是《SparkMLlib机器学习实践》,这本书也很好,没有太深奥的理论和繁琐的解释,有很多实用小程序,初学者上手很棒!之前做相似度用的比较多的是欧式距离,余弦相
CocoMama190227
·
2019-03-20 16:57
spark学习
笔记--RDD基础
文章目录创建RDDRDD操作转化操作map(func)flatMap(func)filter(func)sample集合操作union、intersection、subtract、cartesian去重distinct()行动操作reduce、fold、aggregatecount()take(n)、top(n)collect()foreach(func)持久化persistcacheRDD是一个
xFayChen
·
2019-03-15 16:22
大数据
spark学习
- 数据倾斜
文章目录Examplespark数据倾斜现象数据倾斜原因发现数据倾斜数据倾斜Solution1–使用reduceByKey数据倾斜Solution2–两阶段聚合数据倾斜Solution3–扩增数据数据倾斜Solution4–MapSideJoinExamplespark数据倾斜现象单个Executor执行时间久OOMExecutorDriverTimeout数据倾斜原因发现数据倾斜使用sample
-无妄-
·
2019-03-05 16:08
Spark学习笔记
Spark学习
(八):scala矩阵的基本操作
Breeze是scala用的数值处理库,spark的底层的向量和矩阵是基于Breeze的。本文对矩阵的基本操作做简单介绍,代码主要参考博文,根据自己的习惯做了一些修改。importbreeze.linalg._importbreeze.numerics._importorg.apache.log4j.{Level,Logger}importorg.apache.spark.{SparkConf,S
CocoMama190227
·
2019-03-05 16:54
Python &
Spark学习
笔记系列 【第三章】例子:Python+Spark+Hbase
这里我的原始数据在Hbase里,以下会介绍两种方式可以通过Spark达到操作Hbase的效果。第一种:Spark直连HBase代码如下,但是这里我遇到了一个问题,就是下边代码中使用到的org.apache.hadoop.hbase.io.ImmutableBytesWritable,我使用IDEA本地运行提示找不到这个类,报错是:java.lang.ClassNotFoundException:o
其实我是真性情
·
2019-03-04 10:55
Spark
一些awesome网站
1、zabbix、ansible、nginx朱双印个人日志2、nginxNginx高性能Web服务器3、docker系列docker系列-jsonhcloocode-docker系列4、Spark系列
Spark
江畔独步
·
2019-03-01 15:20
运维
Spark学习
(二):SparkConf和SparkContext
通过创建SparkConf对象来配置应用,然后基于这个SparkConf创建一个SparkContext对象。驱动器程序通过SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。一旦有了SparkContext,就可以用它来创建RDD。创建SparkContext的基本方法(在Scala中初始化Spark):valconf=newSparkConf().setMaster
CocoMama190227
·
2019-03-01 14:24
Spark学习
(三):迭代器Iterator
本文内容主要参考网上一篇博文,对原文程序做了一点点改动,点击阅读原文。迭代器Iterator提供了一种访问集合的方法,可以通过while或者for循环来实现对迭代器的遍历objectIterator_test{defmain(args:Array[String]):Unit={valiter=Iterator("Hadoop","Spark","Scala")while(iter.hasNext)
CocoMama190227
·
2019-03-01 14:05
spark学习
- Spark体系结构和源代码解析
文章目录Spark简介Spark简介为何会诞生Spark?Spark为何快?Spark特点Spark多语言支持Spark体系结构和源代码解析弹性分布式数据集RDDRDD属性和特点RDD.scala解析RDDExample宽依赖和窄依赖宽依赖和窄依赖StageStage执行优化Spark执行流程Spark执行流程Yarn资源调度过程SparkonYarnSpark内存模型Yarn资源调度过程Spar
-无妄-
·
2019-02-28 16:13
Spark学习笔记
【
Spark学习
笔记】1、Java-Maven-Spark项目环境搭建
现在学习个新技术,虽然网上资料多得很,但是质量参差不齐!恕在下愚昧,实在想不懂那些都不验证帖子里技术的正确性就直接转载的那些人,心里是怎么想的!你要是感觉帖子好,请默默的收藏到你的收藏夹里,等你确定帖子内容没错的时候你再转载好不好?你不知道你这样做,对这个技术的新手来说,无疑是灾难!你埋那么多坑,是怕别人学会了超越你吗?哎,言归正传,以下是我自己的学习总结,如果有哪里有错误、有问题,欢迎批评指正,
hellboy0621
·
2019-02-28 12:26
Java
Maven
Spark
Python &
Spark学习
笔记系列 【第二章】例子:单词统计+文件存储
一般Spark上来好像都是单词统计,这里我也写一个,之后再带上点其他的函数,Spark和Python语法是真的难理解,这里我把我的理解都写在程序代码注解上了,直接上代码frompysparkimportSparkContext,SparkConfimportos#没有这句会报错os.environ['JAVA_HOME']='D:\Java\jdk1.8.0_92'#没有这句最后一行代码访问HDF
其实我是真性情
·
2019-02-22 10:06
Spark
Python &
Spark学习
笔记系列 【第一章】环境搭建 pyspark安装
Python语言怎么安装这里就不写了,网上有好多,IDEA安装是我按的Python插件如下图:安装Python语言环境和插件以后,还要安装pyspark类库,因为默认Python是不带这些类库的。这里安装遇到一个小坑,简单说下。如果网络没问题的话可以直接cmd进入命令行,时候输入命令pipinstallpyspark,就可以安装了。但是默认是pyspark的latest版本,我写帖子的时候最后一版
其实我是真性情
·
2019-02-14 11:47
Spark
Python &
Spark学习
笔记系列---目录
接下来会按学习步骤写下所有Python与
Spark学习
中遇到的坑。
其实我是真性情
·
2019-02-14 10:03
Spark
Spark学习
笔记(2)通信分析
什么是RPC通信RPC是指远程过程调用,也就是说两台服务器A,B,一个应用部署在A服务器上,想要调用B服务器上应用提供的函数或者方法,由于不在同一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。SparkRPC通信Spark1.6+推出以RPCEnv,RPCEndopoint,RPCEndpointRef为核心的新型架构下的通信方式。具体实现方式又Akka和Netty两种方
灯火gg
·
2019-01-30 12:10
Spark学习
笔记: Spark Streaming
背景很多重要的应用要处理大量在线流式数据,并返回近似实时的结果,比如社交网络趋势追踪,网站指标统计,广告系统。所以需要具备分布式流式处理框架的基本特征,包括良好的扩展性(百级别节点)和低延迟(秒级别)。批处理MapReduce和SparkCore都是批处理:需要收集数据,然后分批处理,这样一般会有一定的延时。流式处理数据收集后,直接处理。流式计算框架SparkStreaming是微批(微小批处理)
GaryBigPig
·
2019-01-24 23:02
Spark
Spark学习
笔记:Spark SQL
背景从Spark1.0开始,SparkSQL成为Spark生态系统一员,是专门处理结构化数据(比如DB,Json)的Spark组件。它提供了2种操作数据的方式:1)SQLQueries;2)DataFrames/DatasetsAPI。SparkSQL=Schema+RDD,RDD可以表达所有的数据格式(包括结构化和非结构化),SparkSQL只表达结构化的数据。SparkSQL可以更快地编写和运
GaryBigPig
·
2019-01-23 00:00
Spark
Spark学习
笔记:程序设计
基本流程创建SparkContext对象封装了spark执行环境的上下文信息,必须有且只有一个;创建RDD可从Scala集合或Hadoop数据集上创建,利用Context对象的API创建RDD,可以将HBase表、MySQL表、本地文件等数据映射成RDD;在RDD之上进行Transformation和ActionSpark提供了多种Transformation和Action函数返回结果结果保存到H
GaryBigPig
·
2019-01-21 22:40
Spark
SparkConf、spark-submit以及spark-defaults.conf
北风网
spark学习
笔记SparkConf、spark-submit以及spark-defaults.confspark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性
htfenght
·
2019-01-14 16:47
大数据(hadoop
spark)
Spark学习
笔记
导入必要的包frompysparkimportSparkConf,SparkContext上传本地文件到hdfshadoopfs-copyFromLocal/data/data.txt/spark/加载文件数据lines=sc.textFile('hdfs://localhost:9000/spark/data.txt)统计单词数量wordCount=lines.flatMap(lambdalin
alpha18
·
2019-01-12 15:53
spark学习
:(一)虚拟机安装及软件要求
1Linux虚拟机的安装参考:https://blog.csdn.net/ProgrammingWay/article/details/78237856采用的是VMWare,CentOS6.9。因为是在自己电脑上进行实验,故架设三台虚拟机,分别命名为master(192.168.xxx.001),slave1(192.168.xxx.002),slave2(192.168.xxx.003)。每台虚
Yang838020787
·
2019-01-04 10:25
大数据
py
spark学习
笔记: 一些环境配置问题
使用pyspark一些环境配置问题基本配置安装spark后,还需要修改Spark的配置文件spark-env.shcd/usr/local/sparkcp./conf/spark-env.sh.template./conf/spark-env.sh编辑spark-env.sh文件(vim./conf/spark-env.sh),在第一行添加以下配置信息:exportSPARK_DIST_CLASS
Never-Giveup
·
2019-01-01 21:40
大数据PySpark学习笔记
大数据学习网站
都是些精华网站,有助于个人提升小象学院
Spark学习
问答http://wenda.chinahadoop.cn/question/4244http://wenda.chinahadoop.cn/feature
寇寇寇先森
·
2018-12-29 15:04
Spark学习
笔记(一):关于RDD
RDD基础RDD(ResilientDistributedDataset),即弹性分布式数据集。它是分布在多个计算机节点上、可并行操作的元素集合,是Spark主要的编程抽象。RDD是不可变的分布式对象集合,每个RDD都被分为多个分区、可以运行在集群中不同的节点上。它是Spark对数据的核心抽象,Spark中对数据的操作,不外乎就是创建RDD、转化已有的RDD以及调用RDD操作进行求值。创建RDD创
CarlTortoise
·
2018-12-20 11:27
Spark学习笔记
Spark学习
之使用Spark SQL读取数据库
本文主要介绍利用Spark中通过Spark中通过JDBC连接数据库以及连接Hive读写数据的方法。1.通过JDBC连接mysql数据库在MysqlShell环境中,输入下面SQL语句完成数据库和表的创建;要想顺利连接MySQL数据库,还需要使用MySQL数据库驱动程序。请到MySQL官网下载MySQL官网下载MySQL的JDBC驱动程序,。把该jar包放在Spark的安装目录“/usr/local
纪文啊!
·
2018-12-07 12:08
Spark
Spark学习
(拾)- Spark Streaming进阶与案例实战
文章目录实战之updateStateByKey算子的使用Checkpointing何时启用检查点实战之将统计结果写入到MySQL数据库中实战之窗口函数的使用实战之黑名单过滤实战之SparkStreaming整合SparkSQL操作实战之updateStateByKey算子的使用updateStateByKey操作允许您在使用新信息不断更新状态的同时维护任意状态。要使用它,您需要执行两个步骤。1、定
-无妄-
·
2018-12-06 17:38
Spark学习笔记
Spark学习
(玖)- Spark Streaming核心概念与编程
文章目录Sparkstreaming以及基本工作原理核心概念之StreamingContext核心概念之DStream核心概念之InputDStreams和Receivers基本资源高级资源核心概念之Transformation和OutputOperationssparkstreaming中有状态转化操作?介绍无状态转换的例子:有状态转换基于窗口的转化操作检查点机制驱动器程序容错并行度案例实战之S
-无妄-
·
2018-12-06 15:20
Spark学习笔记
Spark学习
(柒)- Spark SQL扩展和总结
文章目录SparkSQL使用场景SparkSQL原理SQLAnalyzerSQLOptimizerSQLOptimizer谓词下推SQLOptimizer列值裁剪SQLPlannerSparkSQL加载数据1)RDDDataFrame/Dataset2)LocalCloud(HDFS/S3)DataFrame与SQL的对比SchemaSaveMode处理复杂的JSON数据SQL的覆盖程度外部数据源
-无妄-
·
2018-12-05 15:37
Spark学习笔记
py
spark学习
笔记(一):Spark Web UI的使用
SparkWebUI是学习调试spark任务的入口,查看sparkUI任务日志也是一项必备技能。启动pyspark以后,在本地浏览器访问localhost:4040界面,就会看到spark的任务UI界面,查看各任务的信息。其中IP和port可以在pyspark启动的时候进行指定,也可以通过其它方式进行配置。SparkContext是Spark应用程序的入口。所有的Sparkjob都从SparkCo
Never-Giveup
·
2018-12-04 11:36
大数据PySpark学习笔记
Spark学习
(陆)- Spark操作外部数据源
文章目录产生背景概念目标操作Parquet文件数据操作Hive表数据操作MySQL表数据操作MySQL的数据方法一:操作MySQL的数据方法二:操作MySQL的数据方法三:Hive和MySQL综合使用产生背景每个Spark应用程序从读取数据开始,到保存数据结束加载和保存数据是不容易的比如大数据场景解析关系型数据库需要用工具如sqoop将数据转到hbase等。解析原始数据也不容易:text/json
-无妄-
·
2018-12-03 15:55
Spark学习笔记
Spark学习
(伍)- DateFrame&Dataset
文章目录DataFrame产生背景DataFrame概述DataFrame和RDD的对比DataFrame基本API操作DataFrame与RDD互操作方式DataFrameAPI操作案例实战DataSet概述及使用DataFrame产生背景DataFrame它不是SparkSQL提出的,而是早起在R、Pandas语言就已经有了的。SparkRDDAPIvsMapReduceAPIThreshol
-无妄-
·
2018-12-03 15:48
Spark学习笔记
Spark学习
(肆)- 从Hive平滑过渡到Spark SQL
文章目录SQLContext的使用HiveContext的使用SparkSession的使用spark-shell&spark-sql的使用spark-shellspark-sqlthriftserver&beeline的使用jdbc方式编程访问SQLContext的使用Spark1.x中SparkSQL的入口点:SQLContextvalsc:SparkContext//AnexistingSp
-无妄-
·
2018-12-03 15:52
Spark学习笔记
py
spark学习
之自定义分区
数据格式:http://bigdata.xiaoniu.com/laoWangbigdata:代表科目laoWang:代表教师,一个老师可以教授不同的科目目的:按照不同的科目,按照访问量教师进行排序。frompysparkimportSparkContext,SparkConfconf=SparkConf()sc=SparkContext(conf=conf)defMyPartition(x):s
植与恋恋
·
2018-12-02 14:56
spark
spark学习
之pyspark中aggregate()的使用
aggregate():这个函数需要三个zeroValue,seqOp,combOp。zeroValue是初始值,形式是(x,y);seqOp和combOP是两个方法,其中seqOp方法是对每个分区操作,然后combOp对每个分区的结果进行操作。>>>data=[1,2,3,4,5,6,7,8,9]>>>rdd=sc.parallelize(data,2)#分成了两个分区,第一个分区中存放的是1,
植与恋恋
·
2018-11-24 16:16
spark
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他