parallelize 第5页

RDD、DataFrame、DataSet的生成与互相转换

RDDRDD和DataSet的转换RDD转DataSetDataSet转RDDDataFrame与DataSet的转换DataFrame转DataSetDataSet转DataFrameRDD的生成使用parallelize

b1gx·2020-07-21 23:40

Spark spark-shell操作

是只读的记录分区的集合，只能通过在其他RDD执行确定的转换操作（如map、join和groupby）而创建，然而这些限制使得实现容错的开销很低.创建RDD的两种方法:1.并行化集合valdata=sc.parallelize

hongxiao2016·2020-07-15 14:56

pyspark之DataFrame操作大全

DataFrame().columnsfrompyspark.sqlimportRowdf=sc.parallelize([Row(name='Alice',age=5,height=80),Row(name

zhengzaifeidelushang·2020-07-15 12:46

pyspark rdd def partitionBy自定义partitionFunc

当然我们也可以来自定义：data=sc.parallelize(['1','2','3',]).map(lambdax:(x,

gavenyeah·2020-07-15 11:50

StructType can not accept object %r in type %s" % (obj, type(obj)))

StructTypecannotacceptobject%rintype%s”%(obj,type(obj)))...s=str(tree)y=str(YESTERDAY)list0=[s,y]outRes=self.sc.parallelize

gavenyeah·2020-07-15 11:50

scala编写spark报错java.lang.ArrayIndexOutOfBoundsException: 10582

valrdd1=sc.textFile("C:\\Users\\Administrator\\Desktop\\test.txt")换其他方式创建RDD，同样报错：sc.parallelize(List

cat__hadoop·2020-07-13 15:01

spark Shell 启动和提交任务

spark-shell--masterspark://192.168.56.2121:7077--executor-memory512m--total-executor-cores2scala>sc.parallelize

lehuai·2020-07-12 15:01

Spark RDD操作API -- Actions

reduce(func)对RDD进行聚合操作>>>rdd=sc.parallelize([1,2,3,4,5])>>>rdd.reduce(lambdax,y:x+y)15collect()获取RDD的数据

taokeblog·2020-07-12 00:11

使用spark来模拟硬币正反面概率

newSparkConf().setAppName("SimpleApplication").setMaster("local")valsc=newSparkContext(conf)valtimes=10000sc.parallelize

奈文摩尔定律·2020-07-10 19:40

SparkRDD函数详解

举例：scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)sca

NicholasEcho·2020-07-10 10:57

Spark基础入门（一）--------RDD基础

（一）、RDD定义不可变分布式对象集合比如下图是RDD1的数据，它的Redcord是数字，分布在三个节点上，并且其内容不可变创建RDD有两种方式：1)Driver中分发（parallelize方法）通过

写代码的可可·2020-07-10 02:55

通过spark.default.parallelism谈Spark并行度

官网关于spark.default.parallelism参数说明：对于reduceByKey和join这些分布式shuffle算子操作，取决于它的父RDD中分区数的最大值对于没有父RDD的的算子，比如parallelize

大数据学习与分享·2020-07-10 00:55

RDD操作详解（一）基本转换

举例：scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)scala

Running_Tiger·2020-07-10 00:05

RDD的操作

RDD的创建三种创建方式从内存中创建使用parallelizevalrdd=sc.parallelize(Array(1,2,3,4,5,6,7,8))使用makeRDDvalrdd1=sc.makeRDD

.Mr Zhang·2020-07-06 12:04

spark 启动流程源码解析

setAppName("SUM");conf.setMaster("local[3]")valsize=1024*1024*1024;valsc=newSparkContext(conf);valdata=sc.parallelize

stuliper·2020-07-05 13:17

spark入门到精通

1、对于sparkobject类型的类，直接拿来用就好了，不用new2、rddjoinvallist1=List(1,2)vallist2=List(2,3)valt1=sc.parallelize(list1

laogooooog·2020-07-02 07:04

[Spark进阶]--map 和 flatMap 简要说明

1、举例说明先看一下例子，输入2行数据：valrdd=sc.parallelize(Seq("Rosesarered","Violetsareblue"))//linesrdd.collectres0:

highfei2011·2020-07-02 02:44

Spark性能优化

（2）java的String对象，比其内部的原始数据要多出四十多个字节（3）java集合类型，（4）元素类型为原始数据类型（如int）的集合2、判断程序消耗了多少内存（1）设置RDD的并行度，1：在parallelize

蠟筆小噺没有烦恼·2020-07-01 13:52

Spark---aggregate（聚合）

1创建RDD分区数为2scala>valrdd1=sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)rdd1:org.apache.spark.rdd.RDD[Int]=

谢瑞·2020-06-30 01:06

Spark入门（Python）--1.1 RDD基础

最简单的方式就是把程序中一个已经存在的集合传给SparkContext的parallelize()方法。这种方法适合在shell

大尾巴狼呀·2020-06-29 17:10

spark RDD基础装换操作--coalesce操作

scala>valrddData1=sc.parallelize(1to100,10)rddData1:org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD

钟兴宇·2020-06-29 09:49

pyspark单词计数

pyspark#进入shell本地模式#输入数据data=["hello","world","hello","world"]#将collection的data转为spark中的rdd并进行操作rdd=sc.parallelize

醉糊涂仙·2020-06-26 23:43

kubernetes源码阅读之工具函数Parallelize使用

kubernetes是个开源的容器管理项目,里面有很多很有用的工具函数和工具接口，下面就介绍一下。第一天先介绍一个并发的工具函数：packageparalizeimport("sync")typeDoWorkPieceFuncfunc(pieceint)//Parallelizeisaverysimpleframeworkthatallowforparallelizing//Nindependen

u010278923·2020-06-26 22:23

Spark应用程序运行日志查看

println("seq:"+a+"\t"+b)math.max(a,b)}defcomb(a:Int,b:Int):Int={println("comb:"+a+"\t"+b)a+b}vardata11=sc.parallelize

sunbow0·2020-06-26 15:14

spark-RDD(弹性分布式数据集)

创建RDD两种办法:常用(读取外部数据集):testFile把程序中一个已有的集合传给parallelize，不常用，占内存:sc.parallelize(List(“a”,”c”))RDD的持久化也称为缓存

成功路上的慢跑鞋·2020-06-25 07:24

《深入理解Spark》之并行度和参数(spark.default.parallelism)之间的关系

{SparkConf,SparkContext}classT1{deff1(sc:SparkContext):Unit={valrdd=sc.parallelize(1to100,10)println(

lyzx_in_csdn·2020-06-24 11:42

CS190 Scalable Machine Learning Spark -word count 实战

MLSparkPysparkwordcount实战用sc.parallelize创建一个基本的RDDwordsList=['cat','elephant','rat','rat','cat']wordsRDD

简简单单书写·2020-06-22 13:54

Spark调优秘诀

可以自行设置Rdd的并行度，有两种方式：第一，在parallelize(),textFile()等外部数据源方法中传入第二个参数，设置rdd的task/partition的数量；第二个用sparkconf.set

Baron_ND·2020-06-21 17:46

关于spark中rdd.sortByKey的简单分析

所以我写下了这么一段代码：sc.parallelize(data).flatMap(dealFu

淡泊宁静_3652·2020-06-19 16:37

Spark 算子

1.Value型(1)输入、输出分区一对一map//将数据逐个迭代，生成新的值或键值对valrdd1=sc.parallelize(1to3,3)rdd1.map(x=>(x,1))flatMap//合并每个分区中的元素

Finok·2020-04-02 16:09

spark mysql jdbc Unknown MySQL server host

valdata=sc.parallelize(List(("192.168.34.5","pc",5,12)))valurl="jdbc:mysql://ip:端口/数据库?

z_star·2020-04-01 03:33

[Spark Shell]各种操作及详细说明

utm_source=tuicool&utm_medium=referral并行化scala集合(Parallelize)//加载数据1~10valnum=sc.parallelize(1to10)//

葡萄喃喃呓语·2020-03-26 15:34

Spark Transformations and Actions

valrdd0=sc.parallelize(Array((1,1),(1,2),(1,3),(2,1),(2,2),(2,3)),3)valrdd1=rdd0.groupByKey()rdd1.collectres0

尘世中一介迷途小码农·2020-03-21 05:01

Spark菜鸟的进阶之路之RDD编程二

1、创建RDDSpark提供了两种创建RDD的方式：（1）读取外部数据集（2）在驱动程序中对一个集合进行并行化创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize

独行者独行者·2020-03-19 09:33

RDD如何设置分区数

设置分区输出：valrdd1:RDD[Int]=sc.parallelize(1to10,4)如果设置成4，则输出4个分区文件。如果设置成5，则输出5个分区文件。

chenyanlong_v·2020-03-15 14:10

spark RDD 编程

Spark也可以支持文本文件，SequenceFile文件和其他符合HadoopInputFormat格式的文件2：调用SparkContext的parallelize方法，在Driver中一个已经存在的集合

起个什么呢称呢·2020-02-24 23:43

RDD take 和 takeOrdered 方法

on-sparks-rdds-take-and-takeordered-methodsInordertoexplainhoworderingworkswecreateanRDDwithintegersfrom0to99:valmyRdd=sc.parallelize

朱小虎XiaohuZhu·2020-02-22 03:32

spark中常用转换操作keys 、values和mapValues

1.keys功能：返回所有键值对的key示例vallist=List("hadoop","spark","hive","spark")valrdd=sc.parallelize(list)valpairRdd

宥宁·2020-02-14 17:00

cogroup是什么

valrdd1=sc.parallelize(Array(("aa",1),("bb",2),("cc",6)))valrdd2=sc.parallelize(Array(("aa",3),("dd",

达微·2020-02-12 00:28

cogroup

valrdd1=sc.parallelize(Array(("aa",1),("bb",2),("cc",6)))valrdd2=sc.parallelize(Array(("aa",3),("dd",

流浪山人·2020-02-07 08:10

关于RDD缓存命令需要导入的包

//在使用缓存命令之前，需要导入一个包importorg.apache.spark.storage.StorageLevelvalx=sc.parallelize(List(1,2,3,4))x.persist

守护者20091776·2020-02-07 04:30

Spark API 之 map、mapPartitions、mapValues、flatMap、flatMapValues详解

https://blog.csdn.net/helloxiaozhe/article/details/804929331、创建一个RDD变量，通过help函数，查看相关函数定义和例子：>>>a=sc.parallelize

哈萨K·2020-02-05 21:00

RDD转化操作记录（持续更新）

vala=sc.parallelize(1to9,3)valb=a.map(x=>x*2)//x=>x*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值a.collect//结果Array[

Caper123·2020-01-26 23:00

RDD Partition/Partitioner

RDD的生成方式共有三种：从Scala集合中创建，通过调用sc.makeRDD()和sc.parallelize()生成加载外部数

GakkiLove·2020-01-07 18:58

4.RDD操作之Transform

比如：scala>vala=sc.parallelize(1to9,3)scala>valb=a.map(x=>x*2)//map()是Transform函数scala>b.

百里登峰·2020-01-07 15:00

SPARK[RDD之创建函数]

hdfs://master:9000/entry/201707/*")vallocalFile=sc.textFile("/usr/log/applog/entry*")valparallel=sc.parallelize

北风第一支·2020-01-02 18:08

spark-rdd

rddResilientDistributedDataSets容错的并行的数据结果transform和action算子https://blog.csdn.net/zzh118/article/details/52048521transfrom操作：parallelize

点点渔火·2020-01-01 06:42

spark初步

实例1vartext=sc.parallelize(Seq("a","b","c","a","b","b"))text.filter(_.contains("a")).countvarwc=text.flatMap

冰_茶·2019-12-26 17:56

[译]Spark编程指南（二）

并行集合在驱动程序中已存在的集合上调用SparkContext的parallelize方法可创建并行集

steanxy·2019-12-25 06:11

Spark详解02Job 逻辑执行图

上一章例子中的parallelize()相当于createRDD()。对RDD进行一系列的transformation()操作，每一个tra

Albert陈凯·2019-12-24 23:07

推荐频道

parallelize