E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parallelize
2018-11-17 Spark算子练习
常用Transformation(即转换,延迟加载)通过并行化scala集合创建RDDvalrdd1=sc.
parallelize
(Array(1,2,3,4,5,6,7,8))查看该rdd的分区数量rdd1
Albert陈凯
·
2019-12-23 16:59
Spark中reduceByKey()和groupByKey()的区别
valwords=Array("one","two","two","three","three","three")valwordPairsRDD=sc.
parallelize
(words).map(word
小小少年Boy
·
2019-12-22 23:04
spark convert RDD[Map] to DataFrame
inputvalmapRDD:RDD[Map[String,String]]=sc.
parallelize
(Seq(Map("name"->"zhangsan","age"->"18","addr"->
breeze_lsw
·
2019-12-19 02:16
图解RDD血缘关系
需求有三个RDD,分别是rddA,rddB,rddC.取数据1,2,3,4,5并且分成三个分区,对输入的数据的每一个数据*2,只取大于6的数据.代码valrddA=sc.
parallelize
(List
楚码小生
·
2019-12-18 12:13
spark
大数据
rdd
Hadoop - Spark & PySpark
image.pngPythonvs.Scalaimage.pngRDDConcept:SparkContext:image.pngimage.pngTransformRDD'simage.pngExample:rdd=sc.
parallelize
Xiangyuan_Ren
·
2019-12-18 02:35
Spark源码:构建处理链
SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkContext.
parallelize
Jorvi
·
2019-12-17 15:33
Spark-Core RDD行动算子
scala>valrdd1=sc.
parallelize
(1to100)scala>rdd1.reduce(_+_)res0:Int=5050scala>valrdd2=sc.
parallelize
(Array
hyunbar
·
2019-12-16 12:00
RDD or DF获取分区编号和数据
例如:valrdd=sc.
parallelize
(1to10,5)首先看一下
parallelize
方法/**DistributealocalScalacollectiontoformanRDD.
灯火gg
·
2019-12-16 00:41
Spark-Core RDD转换算子-双Value型交互
1、union(otherDataSet)作用:求并集.对源RDD和参数RDD求并集后返回一个新的RDDscala>valrdd1=sc.
parallelize
(1to6)scala>valrdd2=sc.
parallelize
hyunbar
·
2019-12-15 19:00
scala中分组的算子的用法
valrdd=sc.
parallelize
(List(("tom",1),("jerry",3),("kitty",2),("tom",2)))//1.根据传入的参数进行分组valrdd1:RDD[(String
梁衍
·
2019-12-10 19:00
Spark RDD 函数大全(1-10)
举例:scala>vala=sc.
parallelize
(1to9,3)scala>valb=a.map(x=>x*2)
起个什么呢称呢
·
2019-12-06 14:46
机器学习信仰之决策树
假设随机变量X是一个取有限个数的离散随机变量,其概率分布为:其概率P(X=xi)=pi,(i=1,2,...,n)因此随机变量X的熵:curDate=startDateall_user_data=sc.
parallelize
一个人的场域
·
2019-11-03 09:28
PY => PySpark-Spark Core(RDD)
RDD:弹性分布式数据集(ResilienntDistributedDatasets)转为格式RDD的几种方式:1.
parallelize
:rdd=sc.
parallelize
([1,2,3,4,5])
Cython_lin
·
2019-10-31 08:29
rdd
spark
python
Spark常用RDD算子总结
常见RDD算子(非Key-Vaue型)mapmap作用在RDD分区的每一个元素上scala>valnums=sc.
parallelize
(List(1,2,3))nums:org.apache.spark.rdd.RDD
Jiede1
·
2019-10-07 12:01
Spark
大数据
spark
大数据
sortByKey引发的疑问(job,shuffle,cache)
Justforfun,写了一个demo,valrdd=sc.
parallelize
(Seq((1,"a"),(2,"c"),(3,"b"),(2,"c")))valsorted=rdd.sortByKey
Wish大人
·
2019-09-27 12:18
spark
intellij-idea
PySpark Rdd操作
SparkConfconf=SparkConf().setAppName("rdd_trans")sc=SparkContext(conf=conf)print(sc.version)#创建rdd=sc.
parallelize
Npcccccc
·
2019-09-23 15:28
python
大数据
spark基础--rdd的生成
使用
parallelize
创建RDD也可以使用makeRDD来创建RDD。通过查看源码可以发现,makeRDD执行的时候,也是在调用
parallelize
函数,二者无区别。
xiao酒窝
·
2019-09-21 22:15
rdd
spark
Spark
Spark-RDD操作(26个常用函数附实例)
/bin/spark-shell(2)创建RDDvalrdd=sc.
parallelize
(Array(1,2,3,4,5,6,8))或者valrdd1=sc.makeRDD(Array(1,2,3,4,5,6,8
王怀宇
·
2019-09-06 16:00
Spark Core 实现排序的三种方式
原文链接:https://my.oschina.net/dreamness/blog/3094234一、普通的实现方式valdata:RDD[String]=sc.
parallelize
(Array("
chilai4545
·
2019-08-18 23:00
pyspark rdd api :
parallelize
()、collect()和glom()
parallelize
()函数将一个List列表转化为了一个RDD对象,collect()函数将这个RDD对象转化为了一个List列表。
emm_simon
·
2019-07-11 15:19
Spark | RDD编码
RDDs创建valrdd=sc.
parallelize
(Array(1,2,3,4),4)rdd.count()rdd.foreach(print)rdd.foreach(println)valrdd=
icebreakeros
·
2019-07-06 14:08
创建RDD
由一个已经存在的Scala集合创建,集合并行化,而从集合中创建RDD,Spark主要提供了两种函数:
parallelize
和makeRDD。
upuptop
·
2019-07-02 00:00
好程序员大数据教程分享TextFile分区问题
valrdd1=sc.
parallelize
(List(2,3,4,1,7,5,6,9,8))获取分区的个数:rdd1.partitions.length,在spark-shell中没有指定分区的个数获取的是默认分区数
好程序员IT
·
2019-06-27 16:26
大数据培训
好程序员
TextFile
生产常用Spark累加器剖析之四
生产常用Spark累加器剖析之四现象描述valacc=sc.accumulator(0,“ErrorAccumulator”)valdata=sc.
parallelize
(1to10)valnewData
Stitch_x
·
2019-06-26 21:44
Spark
spark
spark快速大数据分析之学习记录(五)
risilientdistributeddataset)弹性分布式数据集,简单理解成不可变的分布式的元素集合2.创建RDD【python】创建RDD有两种:外部读取文件和自定义传递集合给SparkContextshell命令:lines=sc.
parallelize
KYkankankan
·
2019-06-24 23:07
Spark
Spark-广播变量(Broadcast Variables)
newSparkConf().setAppName("BroadcastApp").setMaster("local[2]")valsc=newSparkContext(sparkConf)valdata=sc.
parallelize
潇洒-人生
·
2019-05-14 14:52
大数据
spark
spark
sc.
parallelize
获得的RDD分区是怎么划分的
sc.
parallelize
数据分区划分1.
parallelize
方法分区相关核心代码defparallelize[T:ClassTag](seq:Seq[T],传入数据numSlices:Int=defaultParallelism
潇洒-人生
·
2019-05-08 13:02
大数据
spark
spark
spark scala 对dataframe进行过滤----filter方法使用
valdf=sc.
parallelize
(Seq(("a",1),("a",2),("b",2),("b",3),("c",1))).toDF("id","num")对整数类型过滤逻辑运算符:>,2)df.filter
SuperBoy_Liang
·
2019-04-04 17:10
spark
Hadoop相关
RDD中JOIN的使用
JOIN在SparkCore中的使用1.innerjoininnerjoin,只返回左右都匹配上的>>>data2=sc.
parallelize
(range(6,15)).map(lambdaline:
Data_IT_Farmer
·
2019-03-30 11:01
Spark
Spark - RDD/DF/DS性能测试
Log10(UUID.randomUUID().toString,num)}})valcount=rdd.count()}elseif(typ==1){valrdd=spark.sparkContext.
parallelize
大猪大猪
·
2019-03-28 19:40
5.Spark Core 应用解析之RDD常用行动操作
count,reduce,collect等方法真正执行数据的计算部分1.reduce(func)通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的scala>valrdd1=sc.
parallelize
HG_Harvey
·
2019-02-27 18:41
Spark
Spark
将string类型的数据类型转换为spark rdd时报错的解决方法
StructTypecannotacceptobject%rintype%s”%(obj,type(obj)))...s=str(tree)y=str(YESTERDAY)list0=[s,y]outRes=self.sc.
parallelize
gavenyeah
·
2019-02-18 09:57
spark数据类型
RDD创建RDD读取文件sc.textFile并行化sc.
parallelize
其他方式RDD操作TransfermationunionintersectiondistinctgroupByKeyreduceByKeysortByKeyjoinleftOuterJoinrightOuterJoinaggregateActionreducecountfirsttaketakeSampletakeOr
007在学机器学习
·
2019-01-17 17:19
spark
Spark RDD 之 pair (k.v) 操作
,"sparkiscool");valstrRDD=sc.
parallelize
(strArray);vallenRDD=strRDD.flatMap(l=>l.spli
颓废的大饼
·
2019-01-14 16:39
Spark
Spark
解决 No module named 'resource' 问题
以下是我运行的一段代码stringJSONRDD=sc.
parallelize
(("""{"id":"123","name":"Katie","age":19,"eyeColor":"brown"}""
yeverwen
·
2018-12-20 14:15
python
配置环境
Spark
pyspark
sparkRDD函数详解
举例:scala>vala=sc.
parallelize
(1to9,3)scala>valb=a.map(x=>x*2)sca
CoderBoom
·
2018-12-02 22:17
大数据
spark
sparkRDD函数详解
举例:scala>vala=sc.
parallelize
(1to9,3)scala>valb=a.map(x=>x*2)sca
CoderBoom
·
2018-12-02 22:17
大数据
spark
spark学习之pyspark中aggregate()的使用
>>>data=[1,2,3,4,5,6,7,8,9]>>>rdd=sc.
parallelize
(data,2)#分成了两个分区,第一个分区中存放的是1,
植与恋恋
·
2018-11-24 16:16
spark
(二十七)Spark广播变量的简单应用
广播变量我们通过一个commonJoin和broadcastJoin的例子来讲述:1.普通joinscala>valpersonInfo=sc.
parallelize
(Array(("G301","hello
白面葫芦娃92
·
2018-11-12 16:04
大数据学习之路74-mapPartitionsWithIndex的使用
valarr=Array(1,2,3,4,5,6,7,8,9)valrdd1=sc.
parallelize
(arr,
爱米酱
·
2018-09-11 09:48
大数据
【SQL】spark sql 不等值 join
记录每次购买商品和日期基于SparkSQL中的不等值join实现orders和products的匹配,统计每个订单中商品对应当时的价格缓慢变化的商品价格表旺仔牛奶,发生过一次价格变更scala>valproducts=sc.
parallelize
巧克力黒
·
2018-09-06 10:27
spark
不等值连接
non
Spark
spark RDD创建方式:
parallelize
,makeRDD,textFile
parallelize
调用SparkContext的
parallelize
(),将一个存在的集合,变成一个RDD,这种方式试用于学习spark和做一些spark的测试scala版本?
hellozhxy
·
2018-08-31 09:10
spark
Spark 之 重新设置分区的个数repartition()。
在经过我们自己的逻辑计算后,得到的最后的结果数据并不是很大,同时想把它输出为一个文件,同理相反想把她输出为多个文件,这时repartition(num)就可以解决:demo:scala>vara=sc.
parallelize
改变世界等我们
·
2018-08-13 17:42
sparkAPI使用案例
Spark核心编程-RDD转换操作
publicstaticvoidmapTest(JavaSparkContextsc){Listwords=Arrays.asList("hello","world");JavaRDDwordsRDD=sc.
parallelize
Anbang713
·
2018-08-11 16:56
大数据/Spark/Spark
Core
Spark核心编程-RDD创建操作
一、并行化集合创建操作通过SparkContext的
parallelize
方法,在一个已经存在的scala集合上创建的Seq对象,集合的对象将会被
Anbang713
·
2018-08-11 11:46
大数据/Spark/Spark
Core
Spark32个常用算子总结
如
parallelize
(1to10,3),map函数执行10次,而m
Fortuna_i
·
2018-08-09 14:44
Spark
RDD
算子
Transformation
Action
Spark
SparkCL
Spark基础:(二)Spark RDD编程
用户可以通过两种方式创建RDD:(1)读取外部数据集====》sc.textFile(inputfile)(2)驱动器程序中对一个集合进行并行化===》sc.
parallelize
(List(“pandas
雪泪寒飞起来
·
2018-08-03 22:00
Spark
【菜鸟系列】spark常用算子总结(java)--union,intersection,coalesce,repartition,cartesian,distinct
/***union*合并*/JavaRDDrdd1=jsc.
parallelize
(Arrays.asList(1,2,3,4,5,6,7),2);JavaRDDrdd2=jsc.
parallelize
Java_Soldier
·
2018-06-08 16:10
spark
take top takeOrdered 的基本使用方法
TakeTakeOrderedTop").getOrCreate()valsc=spark.sparkContext//take,不对数据进行排序,返回rdd中从0到N的下标表示的值valrdd1=sc.
parallelize
南山黑
·
2018-05-24 16:56
机器学习
Spring
sparkmlib
Spark-Scala常用函数
()读取外部数据源2、map()遍历每条数据处理3、mapvalues(_+10)传入一个函数,类似于map方法,不过这里只是对元组中的value进行计算4、keysvaluesvalrdd1=sc.
parallelize
DoveYoung8
·
2018-05-18 10:46
spark
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他