E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parallelize
Spark 程序设计
一、SparkShellonClientscala>varrdd=sc.
parallelize
(1to100,3)rdd:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD
溯水心生
·
2021-04-23 10:47
初窥Spark
MapReduce——分布式计算系统h:1h;1h:h:2三、Yarn——资源调度系统ResourceManager和NodeManagerSpark一、spark集群结构RDD——弹性分布式数据集rdd=sc.
parallelize
不知如何
·
2021-01-13 23:44
大数据
大数据
spark
pyspark的使用
文章目录一、连接pyspark先启动hadoop和spark创建SparkContext方式1:通过pyspark下的shell.py方式2:自行创建二、创建RDD并行集合sc.
parallelize
(
anonymox
·
2020-11-13 22:12
#
——spark
spark中RDD、DataFrame创建及互相转换
1.RDD创建方式
parallelize
从一个Seq集合创建RDD。
yakcy
·
2020-09-17 06:00
大数据
spark RDD基础装换操作--distinct操作
scala>valrddData=sc.
parallelize
(Array("Alice","Nick","Alice","Kotlin","Catalina","Catalina"),3)rddData
钟兴宇
·
2020-09-16 13:12
spark
spark
Spark笛卡尔积实现方案描述
newSparkConf().setAppName("tst_cartesian").setMaster("local")valsc=newSparkContext(conf)//valpairs=sc.
parallelize
willyan2007
·
2020-09-16 11:51
Spark
Spark中的排序SortBy
1、Tuple类型valproducts=sc.
parallelize
(List("屏保2010","支架201000","酒精棉52000","吸氧机50001000"))valproductData
jim8973
·
2020-09-16 05:21
spark
spark转换算子求交集SCALA实现(insertsection)
importorg.apache.spark.rdd.RDDobjectMyTransformation_scala_3{defmyInsertsection(sc:SparkContext):String={valRDD1=sc.
parallelize
WJN不忘初心
·
2020-09-16 00:27
Spark API 之 countByValue
返回的类型为Map[K,V],K:元素的值,V:元素对应的的个数demo1:vala=sc.
parallelize
(List("a","b","c","d","a","a","a","c","c"),2
学习笔记记录不为别人只为自己
·
2020-09-15 23:36
sparkAPI使用案例
python spark 通过key来统计不同values个数
>>>rdd=sc.
parallelize
([("a","1"),("b",1),("a",1),("a",1)])>>>rdd.distinct().countByKey().items()[('a'
djph26741
·
2020-09-15 22:34
大数据
python
Spark转换算子
JavaSparkContextsc=newJavaSparkContext(conf);Listlist=Arrays.asList(1,2,3,4,5,6,7,8,9,10);JavaRDDintRDD=sc.
parallelize
syc0616
·
2020-09-15 21:52
spark
Spark RDD Key-Value基本转换和动作运算实例
创建Key-ValueRDDkvRDD1=sc.
parallelize
([(3,6),(6,9),(3,4),(5,6),(1,2)])转换:取key和value>>>kvRDD1.collect()[
大鱼-瓶邪
·
2020-09-15 21:56
Spark
机器学习
数理统计
常用Spark算子总结
RDD的创建和保存1.1textFile从HDFS中读取一个文本文件1.2makeRDD、
parallelize
都会创建一个新的ParallelCollectionRDD对象。
妖皇裂天
·
2020-09-15 13:13
Spark快速大数据分析——第六章Spark编程进阶——数值RDD的操作
valconf=newSparkConf().setMaster("local").setAppName("PairRDD")valsc=newSparkContext(conf)vallines=sc.
parallelize
软件手
·
2020-09-15 03:17
Spark
Spark中rdd的创建方式
Spark的创建方式spark根据使用的是java或scala的语言,有几种创建方式java中RDD的创建方式java中可以使用以下方式创建rdd1.使用textFile读取一个文件创建;2.使用
parallelize
一颗向上的草莓
·
2020-09-14 02:42
spark
Spark RDD之三种创建方式
使用三种方式创建RDD使用SparkContext的
parallelize
()方法序列化本地数据集合创建RDD。使用外界的数据源创建RDD,比如说本地文件系统,分布式文件系统HDFS等等。
Jeremy_Lee123
·
2020-09-14 02:17
Spark详解
spark
rdd不能嵌套rdd
df_all.show()a=[(1,df_all)]rdd=sc.
parallelize
(a)报错Py4JError:Anerroroccurredwhilecallingo131.
金帛文武在南京
·
2020-09-12 04:45
Spark
Spark源码解读(6)——Shuffle过程
Shuffle应该说是SparkCore中较为复杂的部分,本文主要从一个最简单的WordCount例子出发分析Spark的Shuffle过程:1,概述sc.
parallelize
(1to1000).map
scalahome
·
2020-09-11 16:06
spark
Spark集合操作API之交并集、笛卡尔积、Join
1、交并集、笛卡尔积valrdd1:RDD[Int]=sc.
parallelize
(List(1,2,3,4,5))valrdd2:RDD[Int]=sc.
parallelize
(List(3,4,5,6,7
看朱成碧_lzh
·
2020-09-11 15:59
Spark
spark
数据分析
scala
api
大数据
Spark RDD 笛卡尔积
SparkRDD笛卡尔积valleft=sc.
parallelize
(List(1,2,3))valright=sc.
parallelize
(List(3,4,5,6))valout=leftunionright
大数据的未来
·
2020-09-11 10:27
【Spark大数据处理技术】RDD及编程接口:(一)
//spark-shell默认已创建好scvallinks=sc.
parallelize
(Array(('A',Array('D')),('B',Array('A')),('C',Array('A','
varuy322
·
2020-09-11 04:37
scala
spark
spark学习笔记总结--算子
Transformation***************************************************************1、集合中创建RDD,Spark主要提供了两中函数:
parallelize
北京小辉
·
2020-09-11 03:13
Spark RDD 练习
1、创建一个1-10数组的RDD,将所有元素*2形成新的RDDscala>valrdd1=sc.
parallelize
(1to10)rdd1:org.apache.spark.rdd.RDD[Int]=
神说要有光,于是就有了我
·
2020-09-11 00:39
大数据
#
Spark
#
SparkSQL
map与flatMap的区别
spark版本:spark2.0.2scala版本:2.11.8服务器版本:CentOS6.7对比map和flatMap在RDD中的使用:valrdd1=sc.
parallelize
(Seq(("onetwothreefourfivesixseven
aomao4913
·
2020-09-11 00:14
kafka
常用命令:valrdd1=sc.
parallelize
(List(('a',1),('a',2)))valrdd=sc.textFile(“/usr/local/spark/tmp/char.data"
iteye_1344
·
2020-09-10 22:11
kafka
java
大数据
scala交互式操作 reduceByKey mapValues
scala>valc=sc.
parallelize
(List("aaa","b","b","c"))c:org.apache.spark.rdd.RDD[String]=ParallelCollectionRDD
关山难越_谁悲失路之人
·
2020-08-26 08:26
scala
Spark RDD的转换
从集合中创建RDD,Spark主要提供了两种函数:
parallelize
和makeRDD单值Value1.map(func)案例:作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成
郑永乐
·
2020-08-24 17:13
Spark
RDD编程
还可以用
parallelize
读取程序中已有的一个集合,例子如下:lines=sc.
parallelize
(['pandas','ilikepandas'])Paste_Image.png3.RDD操作
hz82114280
·
2020-08-24 17:07
spark 协方差计算
Vectors.dense(5.0,6.0,1.0),Vectors.dense(2.0,4.0,7.0),Vectors.dense(3.0,6.0,5.0))rdd是可以直接算协方差的rddData=sc.
parallelize
zhangxinyu0827
·
2020-08-23 22:36
spark
RDD的依赖关系,以及造成的stage的划分
一:RDD的依赖关系1.在代码中观察valdata=Array(1,2,3,4,5)valdistData=sc.
parallelize
(data)valresultRDD=distData.flatMap
总角之宴
·
2020-08-23 04:17
大数据总结
Spark:combineByKey算子
combineByKey是Transformation算子且有shuffle传入三个函数第一个函数将value取出来分区内聚合相同key的value追加聚合后相同(类型一致)key的value追加 vala=sc.
parallelize
茂密头发的源猴
·
2020-08-23 03:08
spark
简单的combineByKey算子【看完就懂系列】
setAppName("CbkDemo")valsc=newSparkContext(conf)sc.setLogLevel("error")valrdd:RDD[(String,Double)]=sc.
parallelize
乔治大哥
·
2020-08-23 02:59
#
bigdata_Spark
spark中算子详解:combineByKey
这是本篇文章最重要的点)第二个函数,是对每个分区进行操作第三个函数,在第二个函数对每个分区操作产生结果后,对所有分区的结果进行聚合下面是具体的例子通过scala集合产生一个rddscala>valrdd1=sc.
parallelize
一刻轻狂
·
2020-08-23 01:59
spark
combineByKey算子求解平均值实例
不同场景平均值算法求平均值系列之一:valinput=sc.
parallelize
(Seq(("t1",1),("t1",2),("t1",3),("t2",2),("t2",5)))valresult
andyliuzhii
·
2020-08-23 01:57
Spark中map与flatMap
>>>rdd=sc.
parallelize
(["b","a","c
Harvard_Fly
·
2020-08-22 23:55
spark矩阵向量-矩阵矩阵相乘
_valparamatrix1=sc.
parallelize
(List(Vector(2,2,4),Vector(3,2,1),Vector(1,3,2)))//首先,在sparkshell中将一个矩阵按照行进行并行化
果然好吃
·
2020-08-22 22:09
spark RDD 详解
sc.setCheckpointDir("my_directory_name")vala=sc.
parallelize
(1to4)a.checkpointa.count最近看了一个RDD各种操作的文章,
果然好吃
·
2020-08-22 22:38
Spark函数之count、countByKey和countByValue
123valc=sc.
parallelize
(List("Gnu","Cat","Rat","Dog"),2)c.countres2:Long=4countByKey与count类似,但是是以key为单位进行统计
影密卫
·
2020-08-22 19:19
Spark API 之 count
count()函数:返回在Rdd中的所有元素(与分区partition没关系)demo:valrdd1=sc.
parallelize
(List("a","b","c","d"),2)rdd1.count
学习笔记记录不为别人只为自己
·
2020-08-22 17:20
sparkAPI使用案例
Spark之广播变量的简单使用
objectbroadcastApp{defmain(args:Array[String]):Unit={valconf=newSparkConf()valsc=newSparkContext(conf)valrdd1=sc.
parallelize
实力不允许偷懒
·
2020-08-22 17:49
Spark
Spark2.2 广播变量broadcast原理及源码剖析
List[Int](1,2,3);valfactorBroadcast=sc.broadcast(factor)valnums=Array(1,2,3,4,5,6,7,8,9)valnumsRdd=sc.
parallelize
生命不息丶折腾不止
·
2020-08-22 15:45
spark
Spark中RDD的sortBy排序的5种实现方法
可以指定对键还是value进行排序,sortBy可以通过下面5中方式实现排序假如数据的格式如下,list中元素中分别为名称、单价、数量,字符之间用空格连接,要实现按照单价和数量降序valproducts=sc.
parallelize
muyingmiao
·
2020-08-22 02:30
Spark
spark sortBy sortByKey实战详解
1.最简单的排序假设有个RDD[Int]类型的数据,需要按数据大小进行排序,那这个排序算最简单的:sc.
parallelize
(Array(1,3,2,4,6,5)).sortBy(x=>x).collect
bitcarmanlee
·
2020-08-22 01:23
spark
spark打印RDD的值
valconf=newSparkConf().setAppName("myspark").setMaster("local")valsc=newSparkContext(conf)valdata=sc.
parallelize
Cola、
·
2020-08-21 05:42
spark
spark RDD相关总结(一)
func)案例作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成需求:创建一个1-10数组的RDD,将所有元素2形成新的RDD(1)创建scala>varsource=sc.
parallelize
没有合适的昵称
·
2020-08-18 12:43
spark
SPARK里的reduce(),fold(),以及aggregate()
num=sc.
parallelize
([1,2,3,4])sum=num.reduce(lambdax,y:x+y)fold()与reduce()类似,接收与reduce接收的函数签名相同的函数,另外再加上一个初始值作为第一次调用的结果
天涯__
·
2020-08-17 17:29
SPARK
parallelize
中指定partition个数的详解
valrdd=sc.
parallelize
(List(1,2,3,4,5,6,7),3)生成RDD的时候,RDD中的partition是如何决定的defparallelize[T:ClassTag](seq
qq_21355765
·
2020-08-14 10:25
spark
parallelize
partition数量
Spark逻辑执行图
上一章例子中的
parallelize
()相当于createRDD()。对RDD进行一系列的transformation()操作,每一个transfor
ccj_zj
·
2020-08-14 09:17
Spark RDD 分区数
SparkRDD分区数基础知识本地模式伪集群模式其他模式产生rdd的几种方式:通过scala集合方式
parallelize
生成rdd通过textFile方式生成的rdd从HBase的数据表转换为RDD通过获取
爱吃甜食_
·
2020-08-14 09:26
Spark
SparkContext的
parallelize
的参数
在一个Spark程序的开始部分,有好多是用sparkContext的
parallelize
制作RDD的,是ParallelCollectionRDD,创建一个并行集合。
小尼人00
·
2020-08-14 07:52
Hadoop
/
数据挖掘
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他