E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parallelize
RDD详解
上一章例子中的
parallelize
()相当于createRDD()。对RDD进行一系列的transformation()操作,每一个transformation()会产生一个或多个包
王书兴
·
2016-03-15 11:34
图解Spark Transformation算子
1.join#joinx=sc.
parallelize
([('C',4),('B',3),('
白 杨
·
2016-02-26 21:55
Spark
&&
Hadoop
图解Spark Transformation算子
1.countByKey#countByKey x=sc.
parallelize
([('B',
ZCF1002797280
·
2016-02-26 21:00
spark
flatmap
算子
mapValues
groupwith
spark快速大数据分析之读书笔记-flatmap与map的区别
val rdd = sc.
parallelize
(List("coffee panda","
sucre
·
2016-02-23 21:00
scala
map
flatmap
spark RDD 算子运行过程及分类
1、输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,
parallelize
方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,
张欢19933
·
2016-02-19 11:00
spark
RDD
分类
算子运行过程
spark快速大数据分析之读书笔记
创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的
parallelize
()方法。val lines = sc.textFi
sucre
·
2016-02-18 20:00
spark
spark源码走读(2)
SparkContext(master,appName)主要是在SparkContext类中,会按照传递的参数;初始化SparkConf对象valarr=Array(1,2,3,4,5)valarr1=sc.
parallelize
rongyongfeikai2
·
2016-01-22 12:00
Spark API 详解/大白话解释 之 groupBy、groupByKey
groupBy(function)function返回key,传入的RDD的各个元素根据这个key进行分组vala=sc.
parallelize
(1to9,3)a.groupBy(x=>{if(x%2=
guotong1988
·
2016-01-21 18:57
Spark
Spark API 详解/大白话解释 之 groupBy、groupByKey
groupBy(function)function返回key,传入的RDD的各个元素根据这个key进行分组vala=sc.
parallelize
(1to9,3) a.groupBy(x=>{if(x%2
guotong1988
·
2016-01-21 18:00
spark
Spark API 详解/大白话解释 之 reduce、reduceByKey
valc=sc.
parallelize
(1to10)c.reduce((x,y)=>x+y)//结果55具体过程,RDD有12345678910个元素,1+2=33+3
guotong1988
·
2016-01-21 15:25
spark
Spark
Spark API 详解/大白话解释 之 reduce、reduceByKey
valc=sc.
parallelize
(1to10) c.reduce((x,y)=>x+y)//结果55具体过程,RDD有12345678910个元素,1+2=33+
guotong1988
·
2016-01-21 15:00
spark
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
举例:vala=sc.
parallelize
(1to9,3)valb=a.map(x=>x*2)//x=>x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值a.collect//结果Array
guotong1988
·
2016-01-21 14:12
Spark
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
举例:vala=sc.
parallelize
(1to9,3) valb=a.map(x=>x*2)//x=>x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值 a.collect//结果Array
guotong1988
·
2016-01-21 14:00
spark
spark RDD 基本操作
1.map:对当前元素做一个映射valarray=Array(1,2,3)valrdd=sc.
parallelize
(array).map(r=>2*r)2.filter:过滤出符合条件的元组valarray
eiffel_0311
·
2016-01-06 10:38
spark
动手实战创建RDD的三种方式--(视频笔记)
1、通过scala集合(数组,range) valcollection=sc.
parallelize
(1to10000)2、在hdfs或者hbasevalhdfsData=sc.textFile("hdfs
逸新
·
2015-12-28 19:00
spark reduceByKey()和 reduceByKey(,para)的时间差
importtimet=[]foriinrange(1,10000000000): t.append((i,i))tsc=sc.
parallelize
(t)deffun1(d): t1=time.time
Kadima
·
2015-12-23 00:00
spark
Spark Programming Guide
RDDs(ResilientDistributedDatasets),有两种方式可以创建RDDs:序列化一个存在的集合 valdata=Array(1,2,3,4,5) valdistData=sc.
parallelize
OiteBody
·
2015-12-07 17:00
Spark 读取文件中文乱码解决
valfiles=Source.fromFile("i:\\1\\1.txt","gbk").toList valrddt=sc.
parallelize
(files) rddt
see_you_again
·
2015-11-18 14:00
Spark Transformations介绍
scala> val a = sc.
parallelize
(1 to 9, 3) a: org.apache.spark.rdd.RDD[Int] = Parall
·
2015-11-13 08:21
transform
【knowledgebase】如何知道partition数
: 1、通过SparkUI查看Task执行的partition数 当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目 val someRDD = sc.
parallelize
·
2015-11-12 21:23
partition
Foods Keep Younger, Strong And Healthy
来源:http://www.howbeauty.org/anti-aging/223204.htm To keep healthy, strong and younger, in
parallelize
·
2015-11-12 20:47
health
spark使用
parallelize
方法创建RDD
通过调用SparkContext的
parallelize
方法,在一个已经存在的Scala集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。
南若安好
·
2015-11-09 14:02
spark
Oracle PARALLEL_INDEX与索引并发(待测试)
The PARALLEL_INDEX hint instructs the optimizer to use the specified number of concurrent servers to
parallelize
·
2015-11-08 14:08
oracle
map与mapPartitions
测试一下: val data = sc.
parallelize
(1 to 6,3) def mapTest(param1:Int):Int={ println("by map,data
·
2015-10-31 11:04
partition
aggregateByKey
, b:Int) : Int ={ math.max(a,b) } def comb(a:Int, b:Int) : Int ={ a + b } val data = sc.
parallelize
·
2015-10-31 11:04
key
intersection
测试一下: val data1 = sc.
parallelize
(1 to 20,1) val data2 = sc.
parallelize
(1 to 5,2) val data3 = data1
·
2015-10-31 11:04
intersect
union
val data1 = sc.
parallelize
(1 to 20) data1.partitions.length val data2 = sc.
parallelize
(25 to 30) data2
·
2015-10-31 11:04
UNION
Spark Shell各种操作及详细说明
并行化scala集合(
Parallelize
) //加载数据1~10valnum=sc.
parallelize
(1to10)//每个数据项乘以2,注意_*2记为一个函数(fun)valdoublenum
m635674608
·
2015-10-24 00:00
Spark RDD Union
frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("spark_app_union")sc=SparkContext(conf=conf)rdd1=sc.
parallelize
demigelemiao
·
2015-10-19 16:00
spark计算平均值
对于Array(('a',1),('a',2),('b',3),('a',4),('a',15))如何计算平均值呢:原来通过计算两边,第一遍计算总次数vala=sc.
parallelize
(data).
luckuan1985
·
2015-08-11 12:00
【Spark】RDD操作详解1——Transformation和Actions概况
输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,
parallelize
方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为
JasonDing
·
2015-07-11 22:28
【Spark】RDD操作详解1——Transformation和Actions概况
输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,
parallelize
方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为
JasonDing1354
·
2015-07-11 22:00
spark
Spark Transformations之mapValues
举例:scala> val a = sc.
parallelize
(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2
幻想vs理想
·
2015-06-25 10:00
Spark Transformations之mapValues
举例:scala> val a = sc.
parallelize
(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2
幻想vs理想
·
2015-06-24 20:00
Spark之Transformation和Action
1、RDD的两种类型操作 RDD的创建: (SparkContext)sc.
parallelize
(collection)//将一个集合转换成RDD sc.textFile("path.."
datapro
·
2015-06-23 18:00
spark
action
transformation
Parallelized Collections
parallelize
用来利用cpu并行的处理数据Parallelizedcollectionsarecreatedbycalling SparkContext’s
parallelize
methodonanexistingcollectioninyourdriverprogram
幻想vs理想
·
2015-06-12 19:00
spark常用RDD介绍及Demo
): Returnanewdistributeddatasetformedbypassingeachelementofthesourcethroughafunctionfunc.vallist=sc.
parallelize
va_key
·
2015-06-02 20:00
Spark把执行结果写入到mysql中
阅读更多sc.
parallelize
(List((stattime,"pv",1L),(stattime,"ip",2L),(stattime,"uv",3L),(stattime,"newuser",
sxyqhyt
·
2015-04-24 18:00
spark
scala
mysql
Spark把执行结果写入到mysql中
sc.
parallelize
(List((stattime,"pv",1L), (stattime,"ip",2L), (stattime
sxyqhyt
·
2015-04-24 18:00
scala
mysql
spark
Spark读取Hbase中的数据_云帆大数据分享
Spark读取Hbase中的数据大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用
parallelize
函数直接从集合中获取数据,并存入RDD中;Java版本如下:1JavaRDD
yunfanhadoop
·
2015-04-07 15:39
hadoop
spark
大数据
云计算
hdfs
【Spark六十五】slice、partition和inputsplit
slice和paritition是spark中的通用概念,表示一个原始数据块;比如使用SparkContext.
parallelize
方法可以把一个元素集合(不论多少元素)可以分解为多个分区(partition
bit1129
·
2015-02-15 22:00
partition
【Spark六十五】slice、partition和inputsplit
slice和paritition是spark中的通用概念,表示一个原始数据块;比如使用SparkContext.
parallelize
方法可以把一个元素集合(不论多少元素)可以分解为多个分区(partition
bit1129
·
2015-02-15 22:00
partition
Spark GraphX示例
._ val users: RDD[(VertexId, (String, String))] = sc.
parallelize
(Array((3L, ("rxin", "student")), (7L
南洋牧师
·
2015-02-03 17:00
Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和co
首先以spark的本地模式测试sparkAPI,以local的方式运行spark-shell:先从
parallelize
入手吧:map操作后结果:下面看下filter操作:filter执行结果:我们用最正宗的
stark_summer
·
2015-01-27 15:00
map
filter
sc
spark-shell
parallelize
Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect
首先以spark的本地模式测试sparkAPI,以local的方式运行spark-shell:先从
parallelize
入手吧:map操作后结果: 下面看下filter操作:filter执行结果:我们用最正宗的
Stark_Summer
·
2015-01-27 15:00
map
filter
sc
spark-shell
parallelize
Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect
首先以spark的本地模式测试sparkAPI,以local的方式运行spark-shell:先从
parallelize
入手吧:map操作后结果: 下面看下filter操作:filter执行结果:我们用最正宗的
Stark_Summer
·
2015-01-27 15:00
map
filter
sc
spark-shell
parallelize
Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect
首先以spark的本地模式测试sparkAPI,以local的方式运行spark-shell:先从
parallelize
入手吧:map操作后结果:下面看下filter操作:filter执行结果:我们用最正宗的
stark_summer
·
2015-01-22 12:00
map
filter
sc
parallelize
spark-shell
【Spark十四】深入Spark RDD第三部分RDD基本API
val rdd = sc.
parallelize
(List(("A",3),("C",6),("A",1),("B&
bit1129
·
2015-01-05 22:00
spark
【Spark十四】深入Spark RDD第三部分RDD基本API
val rdd = sc.
parallelize
(List(("A",3),("C",6),("A",1),("B&
bit1129
·
2015-01-05 22:00
spark
【Spark十四】深入Spark RDD第三部分RDD基本API
val rdd = sc.
parallelize
(List(("A",3),("C",6),("A",1),("B&
bit1129
·
2015-01-05 22:00
spark
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他