E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parallelize
Spark-Scala常用函数
()读取外部数据源2、map()遍历每条数据处理3、mapvalues(_+10)传入一个函数,类似于map方法,不过这里只是对元组中的value进行计算4、keysvaluesvalrdd1=sc.
parallelize
DoveYoung8
·
2018-05-18 10:46
spark
spark RDD 的map与flatmap区别说明
flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD例子:valrdd=sc.
parallelize
(List("coffeepanda","happypanda"
菜鸟级的IT之路
·
2018-05-06 23:09
SPARK学习
RDD使用
通过
parallelize
或makeRDD将单机数据创建为分布式RDD。4.基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建RDD的两种
夜下探戈
·
2018-04-25 15:16
bigdata
pyspark里面RDD的操作
HadoopDatasets或文本文件,比如通过SparkContext.textFile()读取的数据因为RDD的俩种不同类型,所以我们使用文件有不同方式1.并行化集合是通过调用SparkContext的
parallelize
Se_cure
·
2018-04-10 17:34
大数据
Spark大数据分析——pyspark(二)
.__/\_,_/_//_/\_\version2.1.0/_/>>>rdd=sc.
parallelize
({('panda',0),('pink',3),('pirate',3),('panda',1
令狐公子
·
2018-04-03 15:57
Hadoop
Spark
PySpark学习笔记(2)——RDD基本操作
1.创建一个简单的RDD在PySpark中,有两种方式可以创建RDD,一种是用.
parallelize
()集合(元素list或array)创建RDD,另一种是通过引用位于本地或外部的某个文件(支持.txt
飞鸟2010
·
2018-03-14 16:20
PySpark
RDD
PySpark学习笔记
pyspark github算例 计算平均数
代码下载frompysparkimportSparkContextif__name__=="__main__":sc=SparkContext('local','word_count')nums=sc.
parallelize
luoganttcc
·
2018-02-24 17:51
spark
RDD
pv_rdd.union(uv_rdd)printunion_rdd.collect()#[('2015-08-28',69197),('2015-08-28',39007)]#是不对,运行都没有结果#sc.
parallelize
Cincinnati_De
·
2017-12-19 22:11
spark 两个rdd求交集,差集,并集
先生成两个rddscala>valrdd1=sc.
parallelize
(List("a","b","c"))rdd1:org.apache.spark.rdd.RDD
bitcarmanlee
·
2017-11-24 22:50
spark
Spark RDD
Spark的所有工作都是围绕RDD进行创建创建RDD有两种方法:并行驱动程序中的现有集合:调用
parallelize
方法引用外部
wangdy12
·
2017-10-25 11:12
spark创建RDD方式
调用SparkContext的
parallelize
()方法进行创建并行化的数据集合。
青于蓝胜于蓝
·
2017-10-08 15:45
spark
spark2.x由浅入深深到底系列七之RDD python api详解二
先创建一个RDD:conf = SparkConf().setAppName("appName").setMaster("local")sc = SparkContext(conf=conf)
parallelize
_rdd
tangweiqun
·
2017-09-23 22:23
api
python
spark
rdd
python
api
Spark RDD基础(二)之常见的转化操作和行动操作及持久化
1.1元素转化操作map()map接受一个函数,把这个函数用于RDD的每个元素,将函数的返回结果作为结果RDD中对应元素的值,map的返回值类型不需要和输入类型一样#计算RDD中各值的平方nums=sc.
parallelize
光与热
·
2017-08-27 20:30
spark
Spark学习
RDD的创建方式1)从Hadoop文件系统输入创建,如HDFS,HIVE,HBase;2)从父RDD转换得到新的RDD,如常见的transformation3)通过
parallelize
或者makeRDD
wei906
·
2017-07-11 11:04
spark学习
rdd行动操作
valrdd1=sc.
parallelize
(1to9,3)valrdd2=rdd1.reduce(_+_)rdd2:Int=452)collectcollect是将数据集中的所有元素以一个array的形式返回
大数据spark
·
2017-05-11 09:19
spark
rdd常见转换操作
1)mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD,RDD之间的元素是一对一关系valrdd1=sc.
parallelize
(1to9,3)valrdd2=rdd1.map(
大数据spark
·
2017-05-08 09:30
spark
spark dataframe API 整理
1,从列表中创建dataframe列表的每一个元素转换成Row对象,利用
parallelize
()函数将列表转换成RDD,toDF()函数将RDD转换成dataframefrompyspark.sqlimportRowl
ZhanYunQI
·
2017-04-27 14:00
spark
sql
从零开始学习Spark(四)键值对操作
valpairs=sc.
parallelize
(List((1,1
C就要毕业了
·
2017-04-23 15:31
大数据学习笔记(七)-运行spark脚本【原创】
/spark-shell然后就可以运行脚本了scala>vala=sc.
parallelize
(1to9,3)a:org.apache.spark.rdd.RD
zhenggm
·
2017-04-06 14:00
spark
shell
scala
大数据学习笔记(七)-运行spark脚本【原创】
/spark-shell然后就可以运行脚本了scala>vala=sc.
parallelize
(1to9,3)a:org.apache.spark.rdd.RD
zhenggm
·
2017-04-06 14:00
spark
shell
scala
大数据学习笔记(七)-运行spark脚本【原创】
/spark-shell然后就可以运行脚本了scala>vala=sc.
parallelize
(1to9,3)a:org.apache.spark.rdd.RD
zhenggm
·
2017-04-06 14:00
spark
shell
scala
SparkRDDNote
sc.
parallelize
(Seq(....))将一个本地的scala集合构造一个分布式的RDD默认两个分区如果传递
时待吾
·
2017-03-24 20:22
Spark transformation操作
对一个集合调用SparkContext的
parallelize
方法,集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。
HNXYDQ
·
2017-03-19 01:24
Spark
spark算子join讲解
注意:是内连接2.产生两个RDDvalrdd1=sc.
parallelize
(Array(("aa",1),("bb"
RiverCode
·
2017-03-08 19:57
Spark算子
Spark中print用法
1.完整代码示例及结果2.spark生成一个RDD这里我们生成的RDD是一个ListRDDvallistRDD=sc.
parallelize
(List(1,2,3,4))3.查看输入listRDDParallelCollectionRDD
RiverCode
·
2017-03-02 09:23
Spark
pySpark记录
1、combineByKey使用x=sc.
parallelize
([('B',1),('B',2),('A',3),('A',4),('A',5)])createCombiner=(lambdael:str
走一步
·
2017-02-21 16:55
python
spark
map与flatMap的区别
spark版本:spark2.0.2scala版本:2.11.8服务器版本:CentOS6.7对比map和flatMap在RDD中的使用:valrdd1=sc.
parallelize
(Seq(("onetwothreefourfivesixseven
强迫症重症患者
·
2017-02-08 14:00
spark:map mapPartitions flatmap
举例:scala>vala=sc.
parallelize
(1to9,3)scala>valb=a.map(x=>x*2)scala>a.collectres10:Array[Int]=Array(1,2,3,4,5,6,7,8,9
hxpjava1
·
2016-12-26 21:18
spark
spark-DataFrame学习记录-[2]解决spark-dataframe的JOIN操作之后产生重复列(Reference '***' is ambiguous问题解决)
【1】转帖部分转自:http://blog.csdn.net/sparkexpert/article/details/52837269如分别创建两个DF,其结果如下: valdf=sc.
parallelize
hjw199089
·
2016-12-09 00:00
[3]Spark
Spark (Python版) 零基础学习笔记(五)—— Spark RDDs编程
RDD基础概念创建RDD创建RDD的方法:1.载入外部数据集2.分布一个对象的集合前边几次的笔记已经提到过多次了,因此,这里只列出几个注意事项:1.利用sc.
parallelize
创建RDD一般只适用于在测试的时候使用
哇哇小仔
·
2016-11-29 11:47
Python
spark
pyspark
大数据
spark中的map与flatMap的一些见解
理解扁平化可以举个简单例子valarr=sc.
parallelize
(Array(("A",1),("B",2),("C",3)))arr.flatmap(x=>(x._1+x._2)).foreach
do_what_you_can_do
·
2016-11-14 07:34
20161114
Spark (Python版) 零基础学习笔记(二)—— Spark Transformations总结及举例
1.map(func)将func函数作用到数据集的每个元素,生成一个新的分布式的数据集并返回>>>a=sc.
parallelize
(('a','b','c'))>>>a.map(lambdax:x+'1
哇哇小仔
·
2016-11-13 06:52
Python
spark
pyspark
大数据
Spark读取Hbase中的数据
原文地址:http://www.iteblog.com/archives/1051大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用
parallelize
函数直接从集合中获取数据
富的只剩下代码
·
2016-07-22 00:38
spark
Spark RDD操作(Python)总结
Spark提供了很多Transformation用于创建RDD,总结如下(Python)map(func)将原RDD中每个元素代入带入func1 2 3 >>>rdd=sc.
parallelize
([1,2,3
sinat_29581293
·
2016-05-24 08:00
Spark笔记:复杂RDD的API的理解(下)
然后对返回的每个元素都生成一个对应原键的键值对记录这个方法我最开始接触时候,总是感觉很诧异,不是太理解,现在回想起来主要原因是我接触的第一个flatMapValues的例子是这样的,代码如下:valrddPair:RDD[(String,Int)]=sc.
parallelize
夏天的森林
·
2016-05-23 21:00
Spark笔记:复杂RDD的API的理解(下)
然后对返回的每个元素都生成一个对应原键的键值对记录这个方法我最开始接触时候,总是感觉很诧异,不是太理解,现在回想起来主要原因是我接触的第一个flatMapValues的例子是这样的,代码如下:valrddPair:RDD[(String,Int)]=sc.
parallelize
夏天的森林
·
2016-05-23 21:00
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用
parallelize
函数直接从集合中获取数据,并存入RDD中;Java版本如下:JavaRDDmyRDD=sc.
parallelize
Wei-L
·
2016-05-21 11:03
Big
Data
spark快速大数据分析之读书笔记
创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的
parallelize
()方法。val lines = sc.textFi
sinat_29581293
·
2016-05-21 09:00
Spark应用程序运行日志查看
) math.max(a,b) } defcomb(a:Int,b:Int):Int={ println("comb:"+a+"\t"+b) a+b } vardata11=sc.
parallelize
sunbow0
·
2016-05-20 20:00
spark
MLlib
Spark笔记简单实例演示
spark-shell--masterlocal[1] #启动一个本地模式的spark应用 2代表的两个线程//
parallelize
演示valnum=sc.
parallelize
(1to10)valdoublenum
q383700092
·
2016-05-11 21:00
Spark笔记
spark-shell实现PageRank
talkischeap,showcodeScala代码实现:val links = sc.
parallelize
(Array( ('a', Array('d')), ('b', Array('a'))
宋挺
·
2016-05-04 14:00
scala
迭代
pagerank
spark-shell
spark sample
//
parallelize
演示valnum=sc.
parallelize
(1to10)valdoublenum=num.map(_*2)valthreenum=doublenum.filter(_%3=
泡海椒
·
2016-05-02 09:00
Spark 基础 —— map(mapValues)
valanimals=sc.
parallelize
(List("Dog","Cat","Tiger"),2) valm1=animals.map(x=>(x.length,x)) valm2=m1
lanchunhui
·
2016-04-21 22:00
《Spark MLlib 机器学习》勘误(持续更新)
《SparkMLlib机器学习》勘误(持续更新) 1、 P10原文:valz=sc.
parallelize
(List(1,2,3,4,5,6),2)z.aggreateByKey(0)(math.max
sunbow0
·
2016-04-18 14:00
spark
MLlib
spark 修改分区(存储结果需要)
修改分区就行了val rdd1 = sc.
parallelize
(Array(1,2,3,4,5,6,7,8))# 查看分区数rdd1.partitions.length# 改成1个分区val rdd2
残阳飞雪
·
2016-04-18 10:00
RDD的创建 操作类型 缓存
一、创建1、外部数据源读取hdfssc.textFile("文件路径")hbaseamasons3....2、来自于本身的集合sc.
parallelize
(List(1,2,3)) ParalleziedCollection
feierxiaoyezi
·
2016-04-01 14:00
Spark Serializable与KryoRegistrator比较
一、示例代码 List> mapList = buildMapArray(); List>>> collect = javaSparkContext.
parallelize
momisabuilder
·
2016-03-24 10:00
Spark 多个RDD产生一个最终RDD 最终RDD使用注意事项
JavaPairRDD pairRDD1 = javaSparkContext.
parallelize
(Arrays.asList("2016-02-25", "2016
momisabuilder
·
2016-03-23 14:00
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用
parallelize
函数直接从集合中获取数据,并存入RDD中;Java版本如下:1JavaRDDmyRDD=sc.
parallelize
攀峰者
·
2016-03-20 15:26
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、fla...
举例:vala=sc.
parallelize
(1to9,3)valb=a.map(x=>x*2)//x=>x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值a.collect//结果Array
a414129902
·
2016-03-15 15:53
spark
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他