Spark的shell界面操作(RDD算子类型:转换算子,执行算子,控制算子)

目录

一、HADOOP和Spark生态圈

二、Spark Shell  中算子的操作  (转换算子,执行算子,控制算子)

2.1、Tansformation算子/函数    延迟执行   转换算子

2.2、Action                        立刻执行  行动算子

2.3、控制算子  主要是为了对数据进行缓存    详细介绍:https://blog.csdn.net/qq_44472134/article/details/104166577

三、进入shell界面操作算子的两种进入方式(spark的三种模式安装 链接:https://blog.csdn.net/qq_44472134/article/details/104339585)

3.1、spark基于standload的进入方式

3.2、spark基于yarn调度的进入方式


一、HADOOP和Spark生态圈

二、Spark Shell  中算子的操作  (转换算子,执行算子,控制算子)

2.1、Tansformation算子/函数    延迟执行   转换算子

1、map     窄依赖
2、filter     窄依赖
3、flatMap  窄依赖
4、coalesce         (分区数,true)  rdd7.partitions.size   查看rdd的分区数     val rdd5=rdd4.coalesce(3,true)
可以增加分区,可以减少分区,有 shuffle(一个父RDD到多个子RDD)  所以是宽依赖
5、repartition      (分区数)     不管允不允许都会进行 shuffle     val rdd5=rdd4.repartition(4)
可以增加分区,可以减少分区,有shuffle  所以是宽依赖  分区
6、groupByKey() RDD[String,Iterable(Int)]
7、reduceBykey(_+_) val rdd8=rdd7.reduceByKey(_+_)     宽依赖
8、sortBykey()   根据K排序,要求RDD 中必须是KV的,宽依赖
9、sortBy(_._2,false)  以value排序,进行倒序排序
 

2.2、Action                        立刻执行  行动算子

1、collect
2、sum()    返回Double类型
3、rdd15.reduce(_+_)    返回的是int类型
4、rdd15.take(N)      取前N位
     rdd1.takeOrdered(N)   升序排好序之后 取前N位
     rdd1.top(N)                  降序 排好序之后 取前N位
     rdd1.first                      直接取出来首位
     rdd1.count                    查看rdd中有多少元素

2.3、控制算子  主要是为了对数据进行缓存    详细介绍:https://blog.csdn.net/qq_44472134/article/details/104166577

三、进入shell界面操作算子的两种进入方式(spark的三种模式安装 链接:https://blog.csdn.net/qq_44472134/article/details/104339585)

3.1、spark基于standload的进入方式

spark/bin 目录下   ./spark-shell   回车 

3.2、spark基于yarn调度的进入方式

spark/bin 目录下   spark-shell --master yarn-client    进yarn spark  shell界面的
 

你可能感兴趣的:(#,Spark,Core)