E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parallelize
PySpark数据分析基础:PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(1)
dfDataFrame[a:bigint,b:double,c:string,d:date,e:timestamp]####通过由元组列表组成的RDD创建rdd=spark.sparkContext.
parallelize
2401_84181368
·
2024-09-07 08:46
程序员
数据分析
数据挖掘
spark键值对的链接
sys.argv)==2:master=sys.argv[1]try:sc.stop()except:passsc=SparkContext(master,'test')storeAddress=sc.
parallelize
yanghedada
·
2024-02-10 09:27
pyspark学习-自定义udf
frompyspark.sqlimportSparkSession,Rowif__name__=='__main__':spark=SparkSession.builder.getOrCreate()num=spark.sparkContext.
parallelize
heiqizero
·
2024-02-01 09:07
spark
spark
pyspark学习-RDD转换和动作
#RDD创建#1.
parallelize
方法:创建RDD,参数为list,返回RDDsc.
parallelize
(param:list)#demosc.
parallelize
(['tom','jack'
heiqizero
·
2024-01-26 02:39
spark
spark
python
Spark groupByKey和reduceByKey
我们通过简单的WC看看两者的区别groupByKey实现WCscala>valrdd=sc.
parallelize
(List(1,1,2,2,3,3)).map((_,1))rdd:org.apache.spark.rdd.RDD
喵星人ZC
·
2024-01-22 09:23
pyspark
("pysparkversion"+str(sc.version))mapsc=sparkcontext,parallelizecreatesanRDDfromthepassedobjectx=sc.
parallelize
Tim在路上
·
2024-01-14 10:43
Spark原理——逻辑执行图
newSparkConf().setMaster("local[6]").setAppName("wordCount_source")valsc=newSparkContext(conf)valtextRDD=sc.
parallelize
我像影子一样
·
2024-01-13 09:17
Spark
大数据
spark
大数据
Spark原理——总体介绍
setMaster("local[6]").setAppName("wordCount_source")valsc=newSparkContext(conf)//2.创建数据集valtextRDD=sc.
parallelize
我像影子一样
·
2024-01-13 09:17
Spark
大数据
spark
大数据
RDD算子——转换操作(Transformations )【map、flatMap、reduceByKey】
一、mapmap算子#spark-shellsc.
parallelize
(Seq(1,2,3)).map(num=>num*10).collect()#IDEA@TestdefmapTest():Unit
我像影子一样
·
2024-01-13 09:47
Spark
大数据
spark
大数据
Spark原理——运行过程
运行过程逻辑图是什么怎么生成具体怎么生成valtextRDD=sc.
parallelize
(Seq("HadoopSpark","HadoopFlume","SparkSqoop"))valsplitRDD
我像影子一样
·
2024-01-13 09:44
Spark
大数据
spark
大数据
Spark中Rdd算子和Action算子--学习笔记
):根据f函数中的判断条件对rdd追踪的数据进行过滤保留条件为True对应的rdd数据"""frompysparkimportSparkContextsc=SparkContext()rdd1=sc.
parallelize
祈愿lucky
·
2024-01-12 23:24
大数据
spark
学习
笔记
一文详解pyspark常用算子与API
rdd.glom()对rdd的数据进行嵌套,嵌套按照分区来进行rdd=sc.
parallelize
([1,2,3,4,5,6,7,8,9],2)print(rdd.glom().collect())输出
不负长风
·
2024-01-01 10:25
数据分析
spark
Spark的这些事(三)——spark常用的Transformations 和Actions
valinput=sc.
parallelize
(List(1,2,3,4))valresult1=input.map(x=>x*x)val
数据社
·
2023-12-21 07:12
spark的键值对的行动操作
local"iflen(sys.argv)==2:master=sys.argv[1]try:sc.stop()except:passsc=SparkContext(master,'test')RDD1=sc.
parallelize
yanghedada
·
2023-12-16 10:03
Spark常见算子汇总
从外部存储创建RDD从集合中创建RDD从其他RDD创建textfile调用SparkContext.textFile()方法,从外部存储中读取数据来创建RDDparallelize调用SparkContext的
parallelize
话数Science
·
2023-12-06 21:05
大数据
面试
Spark
spark
大数据
Spark SQL,DF,RDD cache常用方式
RDD中的cache调用cache方法valtestRDD=sc.
parallelize
(Seq(elementA,elementB,elementC)).map(x=>(x._1,x._2)).setName
高达一号
·
2023-11-29 07:19
Spark
spark
sql
java
spark的算子
rdd=sc.
parallelize
([1,2,3,4,5])result=rdd.map(lambdax:x*2)#re
地球魔
·
2023-11-24 07:49
spark
数据库
大数据
如何避免spark dataframe的JOIN操作之后产生重复列(Reference '***' is ambiguous问题解决)
如下:如分别创建两个DF,其结果如下:valdf=sc.
parallelize
(Array(("one","A",1),("one","B",2),("two","A",3),("two","B",4)
sparkexpert
·
2023-11-16 00:46
Spark
hive
Reference
is
ambigu
join
重复列
Spark---数据计算
=SparkConf().setMaster("local[*]").setAppName("test_spark")sc=SparkContext(conf=conf)#准备一个RDDrdd=sc.
parallelize
velpro_!
·
2023-10-16 06:31
spark
python
spark中使用flatmap报错:TypeError: ‘int‘ object is not subscriptable
1、背景描述菜鸟笔者在运行下面代码时发生了报错:frompysparkimportSparkContextsc=SparkContext("local","apple1012")rdd=sc.
parallelize
电光火石尔
·
2023-10-13 14:19
spark
javascript
前端
RDD编程(python版)总结
一、RDD创建方式包括:
parallelize
、textFile1.
parallelize
:将一个已存在的集合生成RDD。
呼啦呼啦悦
·
2023-10-12 21:32
spark
python
Spark 杂记--- 键值对操作RDD
scala版:scala>vallines=sc.
parallelize
(List("pandas","ilikepandas"));lines:org.apache.spark.rdd.RDD[String
秋风小凉鱼
·
2023-10-10 16:44
Spark学习之路
PySpark将Vector拆分为列
一种可能的方法是转换为RDD和从RDD转换:frompyspark.ml.linalgimportVectorsdf=sc.
parallelize
([("assert",Vectors.dense([1,2,3
浅笑古今
·
2023-10-09 00:51
pyspark
2023_Spark_实验十:RDD基础算子操作
Ø练习1://通过并行化生成rddvalrdd1=sc.
parallelize
(List(5,6,4,7,3,8,2,9,1,10))//对rdd1里的每一个元素乘2然后排序valrdd2=rdd1.map
pblh123
·
2023-09-20 20:37
Scala
spark
android
大数据
pyspark MLlib基本使用
使用方法MLlib中包含能够在集群上运行良好的并行算法,如kmeans、分布式RF、交替最小二乘等,这能够让MLib中的每个算法都能够适用于大规模数据集也可以将同一算法的不同参数列表通过
parallelize
littletomatodonkey
·
2023-09-20 05:22
分布式计算
python相关
机器学习
pyspark
MLlib
python
机器学习
pyspark 的dataframe操作
'my_first_app_name')\.getOrCreate()2.创建dataframe2.1.从变量创建#生成以逗号分隔的数据stringCSVRDD=spark.sparkContext.
parallelize
李洪良_948d
·
2023-09-11 13:54
图解RDD血缘关系
需求有三个RDD,分别是rddA,rddB,rddC.取数据1,2,3,4,5并且分成三个分区,对输入的数据的每一个数据*2,只取大于6的数据.代码valrddA=sc.
parallelize
(List
heasy
·
2023-09-10 07:48
pyspark学习42-43:删除重复行、删除有空值的行、填充空值、filter过滤数据
视频42-431、删除重复行df=spark.read.csv('/sql/customers.csv',header=True)>>>frompyspark.sqlimportRow>>>df=sc.
parallelize
斯特兰奇
·
2023-09-06 13:51
pyspark
spark
sql
【Spark】PySpark的RDD与DataFrame的转换与使用
RDD与DataFrameRDD1.SparkSession2.RDD2.1创建RDD2.1.1读取文本文件2.1.2通过
parallelize
和range2.2操作RDDRDD的两类算子:RDD的持久化储存
浮汐
·
2023-09-03 06:41
Spark
spark运行报错Please install psutil to have better support with spilling
记录一下错误,在windows上面运行spark报错words=sc.
parallelize
(['scala','java','hadoop','spark','scala','hadoop','spark
Panda4u
·
2023-08-31 03:09
spark
windows
python
PySpark RDD 之 filter
>>>rdd=sc.
parallelize
([1,2,3,4,5])>>>rdd.filter(lambdax:x%2==0).collect()[2,4]3.
G_scsd
·
2023-08-30 04:53
pyspark
pyspark
filter
spark scala 对RDD进行过滤----filter使用方法
现有一个rdd:RDD[(String,Int)]valrdd=sc.
parallelize
(Seq(("a",1),("a",2),("b",2),("b",3),("c",1)))过滤条件逻辑运算符
supersalome
·
2023-08-30 04:53
spark
scala编程
scala
spark
spark - rdd/df/ds 性能测试
Log10(UUID.randomUUID().toString,num)}})valcount=rdd.count()}elseif(typ==1){valrdd=spark.sparkContext.
parallelize
大猪大猪
·
2023-08-26 23:06
pyspark中RDD常用操作
SparkConf().setAppName("lg").setMaster('local[4]')#local[4]表示用4个内核在本地运行sc=SparkContext.getOrCreate(conf)1.
parallelize
zhuzuwei
·
2023-08-26 17:25
pyspark
理解RDD的reduceByKey与groupByKey
valconf=newSparkConf().setAppName("word-count").setMaster("local");valsc=newSparkContext(conf)valrdd=sc.
parallelize
Julian Win
·
2023-08-26 17:54
大数据
Spark
PySpark 之 map
>>>rdd=sc.
parallelize
(["b","a","c"])>>>sorted
m0_67402970
·
2023-08-26 08:55
java
java
后端
PySpark RDD
创建RDD在PySpark中,基于Scala的创建RDD的方法有两种:第一种是通过元组创建:importpysparkdata1=sc.
parallelize
(("a",2))data2=sc.makeRDD
GakkiLove
·
2023-08-22 13:12
RDD-Resilient Distributed Datasets 弹性分布式数据集
valparams=sc.
parallelize
(1to10)valresult=params.map(perfor
Jesse Pan
·
2023-08-19 23:46
Spark
Spark
RDD
Hadoop
pyspark RDD reduce、reduceByKey、reduceByKeyLocally用法
reduceReducestheelementsofthisRDDusingthespecifiedcommutativeandassociativebinaryoperator.Currentlyreducespartitionslocally.a=sc.
parallelize
NoOne-csdn
·
2023-08-18 12:19
pyspark
Spark大数据技术与应用
1.创建普通RDD1.1设置日志级别sc.setLogLevel("WRAN")sc.setlogLevel("INFO")1.2创建RDD的快捷方式1.2.1从集合中创建RDD(
parallelize
她似晚风般温柔789
·
2023-08-14 10:06
Scala
bigdata
spark
big
data
scala
Spark之中map与flatMap的区别
val rdd = sc.
parallelize
(List("coffee panda","happy panda","happiest p
u013063153
·
2023-08-12 12:53
Spark
RDD基本操作(Python)
RDD基本转换运算创建RDD最简单的方式是使用SparkContext的
parallelize
方法intRDD=sc.
parallelize
([3,1,2,5,5])intRDD.collect()由于
老肥码码码
·
2023-08-09 09:28
Python
关于Python中pyspark的使用
SparkContextconf=SparkConf().setMaster("local[*]").setAppName("test_spark")sc=SparkContext(conf=conf)rdd1=sc.
parallelize
我有一只小柴犬!
·
2023-08-06 16:26
python
大数据
数据挖掘
Spark-Core 计算基础核心(四) 概念及原理介绍
类型的数据,转换算子都是lazy模式,直到遇见执行算子才执行执行算子:无返回或者返回一个非RDD类型的数据持久化算子:将数据持久化或者缓存到内存中,持久化和缓存都是lazy模式的转换算子创建:从集合:
parallelize
章云邰
·
2023-08-03 13:12
PySpark大数据分析(2):RDD操作
最直接的创建方式就是通过SprakContext的
parallelize
()方法,将一个已有集合变为RDD:>>>lines=sc.
parallelize
(['wor
唐犁
·
2023-08-03 11:45
大数据处理
大数据
数据分析
Spark
Python
RDD
源码跟踪,案例详解Spark的分区规则
RDD-textFile二、指定分区规则 1.从集合中创建RDD指定分区-makeRDD 2.读取外部存储系统创建RDD指定分区-textFile一、默认分区规则 spark中有三种创建RDD的方式:从集合中创建(
parallelize
阿年、嗯啊
·
2023-07-31 08:46
Spark
spark
默认分区规则
指定分区
源码跟踪
区内数据的确定
spark - rdd/df/ds 性能测试
Log10(UUID.randomUUID().toString,num)}})valcount=rdd.count()}elseif(typ==1){valrdd=spark.sparkContext.
parallelize
大猪大猪
·
2023-07-26 14:47
[nlp] 数据并行 & 模型并行
数据并行数据并行DP模型并行有2种:pipeline并行,张量并行模型并行——pipeline并行:把不同的layer放到不同的gpumodel.
parallelize
()模型并行——张量并行:把同一个
心心喵
·
2023-07-19 21:40
nlp
自然语言处理
人工智能
reduce、reduceByKey详解
valc=sc.
parallelize
(1to10)c.reduce((x,y)=>x+y)//结果5512具体过程,RDD有12345678910个元素,1+2=33
专注于大数据技术栈
·
2023-06-19 07:31
Spark大数据处理讲课笔记3.3 掌握RDD分区
目录零、本讲学习目标一、RRD分区(一)RDD分区概念(二)RDD分区作用二、RDD分区数量(一)RDD分区原则(二)影响分区的因素(三)使用
parallelize
()方法创建RDD时的分区数量1、指定分区数量
贫坤户~濰小城
·
2023-06-15 21:40
大数据
spark
hadoop
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他