parallelize 第8页

RDD详解

上一章例子中的parallelize()相当于createRDD()。对RDD进行一系列的transformation()操作，每一个transformation()会产生一个或多个包

王书兴·2016-03-15 11:34

图解Spark Transformation算子

1.join#joinx=sc.parallelize([('C',4),('B',3),('

白杨·2016-02-26 21:55

图解Spark Transformation算子

1.countByKey#countByKey x=sc.parallelize([('B',

ZCF1002797280·2016-02-26 21:00

spark快速大数据分析之读书笔记-flatmap与map的区别

val rdd = sc.parallelize(List("coffee panda","

sucre·2016-02-23 21:00

spark RDD 算子运行过程及分类

1、输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，

张欢19933·2016-02-19 11:00

spark快速大数据分析之读书笔记

创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize()方法。val lines = sc.textFi

sucre·2016-02-18 20:00

spark源码走读（2）

SparkContext(master,appName)主要是在SparkContext类中，会按照传递的参数；初始化SparkConf对象valarr=Array(1,2,3,4,5)valarr1=sc.parallelize

rongyongfeikai2·2016-01-22 12:00

Spark API 详解/大白话解释之 groupBy、groupByKey

groupBy(function)function返回key，传入的RDD的各个元素根据这个key进行分组vala=sc.parallelize(1to9,3)a.groupBy(x=>{if(x%2=

guotong1988·2016-01-21 18:57

Spark API 详解/大白话解释之 groupBy、groupByKey

groupBy(function)function返回key，传入的RDD的各个元素根据这个key进行分组vala=sc.parallelize(1to9,3) a.groupBy(x=>{if(x%2

guotong1988·2016-01-21 18:00

Spark API 详解/大白话解释之 reduce、reduceByKey

valc=sc.parallelize(1to10)c.reduce((x,y)=>x+y)//结果55具体过程，RDD有12345678910个元素，1+2=33+3

guotong1988·2016-01-21 15:25

Spark API 详解/大白话解释之 reduce、reduceByKey

valc=sc.parallelize(1to10) c.reduce((x,y)=>x+y)//结果55具体过程，RDD有12345678910个元素，1+2=33+

guotong1988·2016-01-21 15:00

Spark API 详解/大白话解释之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues

举例：vala=sc.parallelize(1to9,3)valb=a.map(x=>x*2)//x=>x*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值a.collect//结果Array

guotong1988·2016-01-21 14:12

Spark API 详解/大白话解释之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues

举例：vala=sc.parallelize(1to9,3) valb=a.map(x=>x*2)//x=>x*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值 a.collect//结果Array

guotong1988·2016-01-21 14:00

spark RDD 基本操作

1.map:对当前元素做一个映射valarray=Array(1,2,3)valrdd=sc.parallelize(array).map(r=>2*r)2.filter:过滤出符合条件的元组valarray

eiffel_0311·2016-01-06 10:38

动手实战创建RDD的三种方式--（视频笔记）

1、通过scala集合（数组，range） valcollection=sc.parallelize(1to10000)2、在hdfs或者hbasevalhdfsData=sc.textFile("hdfs

逸新·2015-12-28 19:00

spark reduceByKey()和 reduceByKey(,para)的时间差

importtimet=[]foriinrange(1,10000000000): t.append((i,i))tsc=sc.parallelize(t)deffun1(d): t1=time.time

Kadima·2015-12-23 00:00

Spark Programming Guide

RDDs(ResilientDistributedDatasets)，有两种方式可以创建RDDs：序列化一个存在的集合 valdata=Array(1,2,3,4,5) valdistData=sc.parallelize

OiteBody·2015-12-07 17:00

Spark 读取文件中文乱码解决

valfiles=Source.fromFile("i:\\1\\1.txt","gbk").toList valrddt=sc.parallelize(files) rddt

see_you_again·2015-11-18 14:00

Spark Transformations介绍

scala> val a = sc.parallelize(1 to 9, 3) a: org.apache.spark.rdd.RDD[Int] = Parall

·2015-11-13 08:21

【knowledgebase】如何知道partition数

： 1、通过SparkUI查看Task执行的partition数当一个stage执行时，能通过SparkUI界面查看到指定stage的partiton数目 val someRDD = sc.parallelize

·2015-11-12 21:23

Foods Keep Younger, Strong And Healthy

来源:http://www.howbeauty.org/anti-aging/223204.htm To keep healthy, strong and younger, in parallelize

·2015-11-12 20:47

spark使用parallelize方法创建RDD

通过调用SparkContext的parallelize方法，在一个已经存在的Scala集合上创建的（一个Seq对象）。集合的对象将会被拷贝，创建出一个可以被并行操作的分布式数据集。

南若安好·2015-11-09 14:02

Oracle PARALLEL_INDEX与索引并发（待测试）

The PARALLEL_INDEX hint instructs the optimizer to use the specified number of concurrent servers to parallelize

·2015-11-08 14:08

map与mapPartitions

测试一下： val data = sc.parallelize(1 to 6,3) def mapTest(param1:Int):Int={ println("by map,data

·2015-10-31 11:04

aggregateByKey

, b:Int) : Int ={ math.max(a,b) } def comb(a:Int, b:Int) : Int ={ a + b } val data = sc.parallelize

·2015-10-31 11:04

intersection

测试一下： val data1 = sc.parallelize(1 to 20,1) val data2 = sc.parallelize(1 to 5,2) val data3 = data1

·2015-10-31 11:04

union

val data1 = sc.parallelize(1 to 20) data1.partitions.length val data2 = sc.parallelize(25 to 30) data2

·2015-10-31 11:04

Spark Shell各种操作及详细说明

并行化scala集合(Parallelize) //加载数据1~10valnum=sc.parallelize(1to10)//每个数据项乘以2,注意_*2记为一个函数(fun)valdoublenum

m635674608·2015-10-24 00:00

Spark RDD Union

frompysparkimportSparkConf,SparkContextconf=SparkConf().setAppName("spark_app_union")sc=SparkContext(conf=conf)rdd1=sc.parallelize

demigelemiao·2015-10-19 16:00

spark计算平均值

对于Array(('a',1),('a',2),('b',3),('a',4),('a',15))如何计算平均值呢：原来通过计算两边，第一遍计算总次数vala=sc.parallelize(data).

luckuan1985·2015-08-11 12:00

【Spark】RDD操作详解1——Transformation和Actions概况

输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为

JasonDing·2015-07-11 22:28

【Spark】RDD操作详解1——Transformation和Actions概况

输入：在Spark程序运行中，数据从外部数据空间（如分布式存储：textFile读取HDFS等，parallelize方法输入Scala集合或数据）输入Spark，数据进入Spark运行时数据空间，转化为

JasonDing1354·2015-07-11 22:00

Spark Transformations之mapValues

举例：scala> val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2

幻想vs理想·2015-06-25 10:00

Spark Transformations之mapValues

举例：scala> val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2

幻想vs理想·2015-06-24 20:00

Spark之Transformation和Action

1、RDD的两种类型操作 RDD的创建： (SparkContext)sc.parallelize(collection)//将一个集合转换成RDD sc.textFile("path.."

datapro·2015-06-23 18:00

Parallelized Collections

parallelize用来利用cpu并行的处理数据Parallelizedcollectionsarecreatedbycalling SparkContext’s parallelize methodonanexistingcollectioninyourdriverprogram

幻想vs理想·2015-06-12 19:00

spark常用RDD介绍及Demo

): Returnanewdistributeddatasetformedbypassingeachelementofthesourcethroughafunctionfunc.vallist=sc.parallelize

va_key·2015-06-02 20:00

Spark把执行结果写入到mysql中

sxyqhyt·2015-04-24 18:00

Spark把执行结果写入到mysql中

sc.parallelize(List((stattime,"pv",1L), (stattime,"ip",2L), (stattime

sxyqhyt·2015-04-24 18:00

Spark读取Hbase中的数据_云帆大数据分享

Spark读取Hbase中的数据大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下：1JavaRDD

yunfanhadoop·2015-04-07 15:39

【Spark六十五】slice、partition和inputsplit

slice和paritition是spark中的通用概念，表示一个原始数据块；比如使用SparkContext.parallelize方法可以把一个元素集合(不论多少元素）可以分解为多个分区(partition

bit1129·2015-02-15 22:00

【Spark六十五】slice、partition和inputsplit

slice和paritition是spark中的通用概念，表示一个原始数据块；比如使用SparkContext.parallelize方法可以把一个元素集合(不论多少元素）可以分解为多个分区(partition

bit1129·2015-02-15 22:00

Spark GraphX示例

._ val users: RDD[(VertexId, (String, String))] = sc.parallelize(Array((3L, ("rxin", "student")), (7L

南洋牧师·2015-02-03 17:00

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和co

首先以spark的本地模式测试sparkAPI，以local的方式运行spark-shell：先从parallelize入手吧：map操作后结果：下面看下filter操作：filter执行结果：我们用最正宗的

stark_summer·2015-01-27 15:00

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

首先以spark的本地模式测试sparkAPI，以local的方式运行spark-shell：先从parallelize入手吧：map操作后结果：下面看下filter操作：filter执行结果：我们用最正宗的

Stark_Summer·2015-01-27 15:00

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

首先以spark的本地模式测试sparkAPI，以local的方式运行spark-shell：先从parallelize入手吧：map操作后结果：下面看下filter操作：filter执行结果：我们用最正宗的

Stark_Summer·2015-01-27 15:00

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

首先以spark的本地模式测试sparkAPI，以local的方式运行spark-shell：先从parallelize入手吧：map操作后结果：下面看下filter操作：filter执行结果：我们用最正宗的

stark_summer·2015-01-22 12:00

【Spark十四】深入Spark RDD第三部分RDD基本API

val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B&

bit1129·2015-01-05 22:00

【Spark十四】深入Spark RDD第三部分RDD基本API

val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B&

bit1129·2015-01-05 22:00

【Spark十四】深入Spark RDD第三部分RDD基本API

val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B&

bit1129·2015-01-05 22:00

推荐频道

parallelize

RDD详解

图解Spark Transformation算子

图解Spark Transformation算子

spark快速大数据分析之读书笔记-flatmap与map的区别

spark RDD 算子运行过程及分类

spark快速大数据分析之读书笔记

spark源码走读（2）

Spark API 详解/大白话解释 之 groupBy、groupByKey

Spark API 详解/大白话解释 之 groupBy、groupByKey

Spark API 详解/大白话解释 之 reduce、reduceByKey

Spark API 详解/大白话解释 之 reduce、reduceByKey

Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues

Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues

spark RDD 基本操作

动手实战创建RDD的三种方式--（视频笔记）

spark reduceByKey()和 reduceByKey(,para)的时间差

Spark Programming Guide

Spark 读取文件中文乱码解决

Spark Transformations介绍

【knowledgebase】如何知道partition数

Foods Keep Younger, Strong And Healthy

spark使用parallelize方法创建RDD

Oracle PARALLEL_INDEX与索引并发（待测试）

map与mapPartitions

aggregateByKey

intersection

union

Spark Shell各种操作及详细说明

Spark RDD Union

spark计算平均值

【Spark】RDD操作详解1——Transformation和Actions概况

【Spark】RDD操作详解1——Transformation和Actions概况

Spark Transformations之mapValues

Spark Transformations之mapValues

Spark之Transformation和Action

Parallelized Collections

spark常用RDD介绍及Demo

Spark把执行结果写入到mysql中

Spark把执行结果写入到mysql中

Spark读取Hbase中的数据_云帆大数据分享

【Spark六十五】slice、partition和inputsplit

【Spark六十五】slice、partition和inputsplit

Spark GraphX示例

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和co

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

【Spark十四】深入Spark RDD第三部分RDD基本API

【Spark十四】深入Spark RDD第三部分RDD基本API

【Spark十四】深入Spark RDD第三部分RDD基本API

Spark API 详解/大白话解释之 groupBy、groupByKey

Spark API 详解/大白话解释之 groupBy、groupByKey

Spark API 详解/大白话解释之 reduce、reduceByKey

Spark API 详解/大白话解释之 reduce、reduceByKey

Spark API 详解/大白话解释之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues

Spark API 详解/大白话解释之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues