E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
parallelize
[nlp] 数据并行 & 模型并行
数据并行数据并行DP模型并行有2种:pipeline并行,张量并行模型并行——pipeline并行:把不同的layer放到不同的gpumodel.
parallelize
()模型并行——张量并行:把同一个
心心喵
·
2023-07-19 21:40
nlp
自然语言处理
人工智能
reduce、reduceByKey详解
valc=sc.
parallelize
(1to10)c.reduce((x,y)=>x+y)//结果5512具体过程,RDD有12345678910个元素,1+2=33
专注于大数据技术栈
·
2023-06-19 07:31
Spark大数据处理讲课笔记3.3 掌握RDD分区
目录零、本讲学习目标一、RRD分区(一)RDD分区概念(二)RDD分区作用二、RDD分区数量(一)RDD分区原则(二)影响分区的因素(三)使用
parallelize
()方法创建RDD时的分区数量1、指定分区数量
贫坤户~濰小城
·
2023-06-15 21:40
大数据
spark
hadoop
Spark大数据处理学习笔记(3.1)掌握RDD的创建
1.1.2启动HDFS服务1.1.3上传文件到HDFS1.2启动SparkShell1.2.1启动Spark服务1.2.2启动SparkShell二、创建RDD2.1通过并行集合创建RDD2.1.1利用`
parallelize
Kox2021
·
2023-06-12 04:47
#
Spark大数据处理学习笔记
spark
学习
笔记
Spark RDD的创建
准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)通过并行集合创建RDD1、利用`
parallelize
梁辰兴
·
2023-06-09 03:30
大数据处理
spark
大数据
hadoop
Spark源码:Job的Stage划分
SparkJob_Demo").setMaster("local[*]");valsparkContext:SparkContext=newSparkContext(conf);sparkContext.
parallelize
Jorvi
·
2023-04-20 02:25
Spark源码:提交Tasks
SparkJob_Demo").setMaster("local[*]")valsparkContext:SparkContext=newSparkContext(conf)sparkContext.
parallelize
Jorvi
·
2023-04-19 08:59
如何使用spark实现topN的获取
方法1:按照key对数据进行聚合(groupByKey)将value转换为数组,利用sortBy或者sortWith进行排序valrddData1=sparkSession.
parallelize
(Array
scott_alpha
·
2023-04-18 01:06
Spark大数据处理讲课笔记3.1 掌握RDD的创建
准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)通过并行集合创建RDD1、利用`
parallelize
howard2005
·
2023-04-14 10:14
Spark大数据处理讲课笔记
spark
大数据
hadoop
RDD操作—— 键值对RDD(Pair RDD)
scala>valpairRDD=sc.
parallelize
(List("thisisdemo","howdoyoudo","fine
_羊羽_
·
2023-04-10 10:32
pyspark 对RDD的相关api
1、aggregate,可以用来求平均值如下示例rdd2=spark.sparkContext.
parallelize
([1,2,3,4,5,6,7,8,9,10])seqop=(lambdax,y:(
maketubu7
·
2023-04-07 05:10
spark
python
Spark宽窄依赖之间的案例
conf.setAppName("day03")conf.setMaster("local")valsc=newSparkContext(conf)sc.setLogLevel("error");valrdd1=sc.
parallelize
smile@Sky
·
2023-04-06 19:32
Spark基础学习笔记:创建RDD
)准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
tooolik
·
2023-04-06 14:05
spark
学习
big
data
PySpark-DataFrame条件筛选
目录示例DataFrame.where条件筛选.filter过滤.isin过滤funcs.when()示例DataFrame#创建一个SparkDataFramerdd=sc.
parallelize
([
旺仔的算法coding笔记
·
2023-04-03 07:41
大数据
spark报错illegal cyclic reference involving object InterfaceAudience
valfs=FileSystem.get(sparkSession.sparkContext.hadoopConfiguration)第二次使用2.sparkSession.sparkContext.
parallelize
荣晓
·
2023-04-03 03:13
scala
spark
spark
scala
sparkcore的join
先准备两个rdd数据scala>vala=sc.
parallelize
(Array(("A","a1"),("B","b1"),("C","c1"),("E","e1")))a:org.apache.spark.rdd.RDD
大数据修行
·
2023-03-31 13:57
Spark文档总结
appName).setMaster(master)newSparkContext(conf)RDD可以由Hadoop文件系统(hdfs://)、本地文件、AmazonS3(s3a://)等创建或者使用sc.
parallelize
jingy_ella
·
2023-03-30 22:24
spark jdbc 写入mysql 遇到序列化问题 Caused by: java.io.NotSerializableException: com.mysql.jdbc.JDBC4PreparedStatement
代码如下:valdata=sc.
parallelize
(List(("192.168.34.5","pc",5,12)))valurl="jdbc:mysql://ip:端口/数据库?"
z_star
·
2023-03-27 10:18
3 RDDs基本操作之Transformations
Transformations(转换)从之前的RDD构建一个新的RDD,像map()和filter()map()map()接收函数,把函数应用到RDD的每一个元素,返回新RDDvallines=sc.
parallelize
Achaichai
·
2023-03-25 22:52
PySpark库
导入库frompysparkimportSparkConf,SparkContextsc=SparkContext.getOrCreate()创建RDDdata=sc.
parallelize
([('Amber
JUNjianshuZHU
·
2023-03-22 03:27
Spark 常用算子及代码
sc.
parallelize
和sc.markRDDparallelize()源码defparallelize[T:ClassTag](seq:Seq[T],numSlices:Int=defaultParallelism
coderrrrrrrrr
·
2023-03-17 13:35
RDD分区数量
假设:服务器是2vcoremaster-local[5]那么:1.
parallelize
(list,numSlices=5)分区数由numSlices参数决定,如果没有指定该参数,则由local[5]决定
kangwq2017
·
2023-03-15 12:04
hadoop
hadoop
spark
黑猴子的家:Spark RDD SequenceFile文件输入输出(数据读取与保存的主要方式之一)
scala>valdata=sc.
parallelize
(List((2,"aa"),(3,"bb"),(4,"cc"
黑猴子的家
·
2023-03-10 03:16
Spark-算子-Active
函数中的curr参数,并不是value,而是一整条数据*2.reduce整体上的结果,只有一个*/@Testdefreduce():Unit={valtuple:(String,Double)=sc.
parallelize
Demons_LLL
·
2023-02-06 20:57
【RDD】创建RDD及读取文件
创建RDDSparkshell提供了SparkContext变量sc,使用sc.
parallelize
()创建RDD。
leeshutao
·
2023-02-03 12:34
Spark
scala
Spark:创建RDD
主要特征二、做好准备工作(一)准备文件1、准备本地系统文件2、启动HDFS服务3、上传文件到HDFS(二)启动SparkShell1、启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
mu_kui
·
2023-02-03 12:27
spark
big
data
java
Spark基础:创建RDD
文章目录一、RDD讲述(一)RDD概念二、RDD例题(一)创建文件1、准备本地系统文件2.启动集群3、上传文件到HDFS(二)启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
兮若耶
·
2023-02-03 12:27
spark
big
data
hdfs
Spark源码-spark算子-1-构建RDD的算子
构建RDD的算子1.概述2.RDD创建方式2.1.根据驱动程序中现有并行化集合创建RDD2.1.1.
parallelize
方式创建RDD2.2.根据外部存储系统中的数据集创建RDD2.2.1.textFile
zdaiqing
·
2023-02-03 12:26
源码
Spark
大数据
spark
大数据
scala
RDD的创建
valrdd=sc.
parallelize
(List(1,2,3,4,5,6)rdd.countvalrdd=sc.paralleliz
Connie_2022
·
2023-02-03 12:25
大数据
Spark学习笔记10:创建RDD
准备文件1、准备本地系统文件2、启动HDFS服务3、准备HDFS系统文件(二)启动SparkShell1、启动Spark服务2、启动SparkShell三、创建RDD(一)从对象集合创建RDD1、利用
parallelize
balabalalibala
·
2023-02-03 12:54
Spark
spark
学习
big
data
详解 Spark RDD 的转换操作与行动操作
对一个集合进行并行化操作Spark创建RDD最简单的方式就是把已经存在的集合传给
parallelize
()方法,不过,这种方式在开发中并不常用,毕竟需
Data跳动
·
2023-01-31 14:50
Spark
spark
hadoop
big
data
使用sparkContext.
parallelize
创建RDD
使用sparkContext.
parallelize
创建RDDIfyouareusingscala,getSparkContextobjectfromSparkSessionandusesparkContext.
parallelize
坤坤子的世界
·
2023-01-14 09:35
spark
RDD
spark
scala
创建 Spark RDD的不同方式
创建SparkRDD的不同方式SparkRDD可以使用Scala和Pyspark语言以多种方式创建,例如,可以使用sparkContext.
parallelize
()从文本文件、另一个RDD、DataFrame
坤坤子的世界
·
2022-12-25 06:01
RDD
spark
spark中filter函数的一个用法
valdf1=sc.
parallelize
(Seq((1,"abcd"),(2,"defg"),(3,"ghij"),(4,"xyzz"),(5,"lmnop"),(6,"pqrst"),(7,"wxyz
阿莫_glistening
·
2022-12-15 11:54
Spark集群初级
spark
大数据
big
data
【pyspark】常用api(1)
x=sc.
parallelize
(['A','A','B'])y=sc.
parallelize
(['D','C','A'])z=x.subtract(y)print('x和y的差集是:',z.collect
littlemichelle
·
2022-12-15 09:16
Hive
&
Sql
&
Spark
spark
大数据
分布式
Spark 创建Dataframe和创建空的DataFrame
_创建case-class的Rddvalrdd:RDD[Person]=sc.
parallelize
(Array(Person("fanghailiang",29),Person("sunyu",28)
瑾明达2号
·
2022-11-20 17:25
spark
spark
Spark之创建Rdd、DataFrame、Dataset
一、RDD1.1通过本地集合创建RDDvalseq1=Seq(1001,"liming",24,95)valseq2=Seq(1,2,3)//可以不指定分区数valrdd1:RDD[Any]=sc.
parallelize
大数据翻身
·
2022-11-20 17:20
spark
大数据
数据分析
Spark创建空的df
最近有需求用到了这个,在此记录一下1valdf:DataFrame=session.sparkContext.
parallelize
(List(("1585457624919318528","450",
南风知我意丿
·
2022-11-20 17:34
#
Spark-SQL
spark
reduceByKey实现(key,value)生成(key,list(value))
sc.
parallelize
(Array(("red","zero"),("yellow","one"),("red","two"))).groupByKey().collect.foreach(println
fir_dameng
·
2022-10-30 19:48
大数据开发
reduceByKey
groupByKey
spark
scala
rdd
spark 算子详解 java_Spark算子讲解(一)
例如:valrdd1=sc.
parallelize
(Array(1,2,3,4,5,6),2)valrdd2=sc.
parallelize
(Array(1,2,3,4,5
weixin_33945547
·
2022-09-22 22:20
spark
算子详解
java
Spark RDD的分区规则详解
SparkRDD的分区规则一.RDD中数据来源二.读取内存数据分区规则三.读取文件数据分区规则3.1分区数量的计算规则3.2数据分配到哪个分区规则一.RDD中数据来源2个地方:本地集合或外部数据源sc.
parallelize
卡农c
·
2022-07-07 15:51
大数据
spark
键值对RDD
键值对RDD1.创建pairRDD直接创建pairRDD=sc.
parallelize
([(2,5),(8,9),(4,5)])pairRDD.collect()[(2,5),(8,9),(4,5)]从文件中加载
Panda4u
·
2022-06-12 09:08
hadoop
spark
大数据
Spark学习笔记(3) - 关于Spark常用的transform算子的一些总结⭐️⭐️⭐️
本章节代码实现CSDN:wangt的博客☁️Github:https://github.com/lovewangtzq❤️微信公众号:大数据初学者b站:我学不会Spark创建RDD的三种方法valrdd1=sc.
parallelize
兀坐晴窗独饮茶
·
2022-06-07 21:35
批处理框架
大数据专栏
Spark
算子
spark
transform
算子
spark之map与flatmap的区别
具体示例我们可以看如下的例子:valarr=sc.
parallelize
(Array("a1","b2","c3"))使用map:arr.map(x=>x).foreach(println)输出结果为:
小木胆
·
2022-02-17 03:20
Spark RDD API
1.aggregate:先进行局部聚合,在进行全局聚合valz=sc.
parallelize
(List(1,2,3,4,5,6),2)z.mapPartitionsWithIndex(myfunc).collectres28
不愿透露姓名的李某某
·
2022-02-03 00:44
RDD_数据源与数据位置
1.
parallelize
2/makeRDD3.textFile4.saveAsTextFilemakeRDD底层使用的就是
parallelize
,从内存中生成数据defmakeRDD[T:ClassTag
OoZzzy
·
2021-11-27 12:47
Spark
java
spring
cloud
架构
一行Spark代码的诞生记(深度剖析Spark架构)
valsssjiao=newSparkContext(newSparkConf().setAppName("sssjiao").setMaster("yarn-cluster")).
parallelize
一名叫大蕉的程序员
·
2021-06-14 14:59
快乐大数据第8课 Spark计算引擎概述
(一)本地模式启动在node01上cd~/apps/spark2.2bin/spark-shell定义变量valrdd=sc.
parallelize
(1to100,3)#生成三个分区,每个分区中的数值是
快乐大数据
·
2021-06-09 10:21
2RDD编程
sc.textFile用于从文件中读取,sc.
parallelize
用于python对象生成rdd1.1通过文件系统加载产生Spark的SparkContext通过textFile()读取数据生成内存中的
barriers
·
2021-06-09 04:45
Spark在local模式下运行日志分析
).setMaster("local[2]")/valspark=newSparkContext(conf);valslices=100;valn=1000*slicesvalcount=spark.
parallelize
蠟筆小噺没有烦恼
·
2021-05-14 03:16
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他