Spark从入门到精通第六课：RDD中的常用算子全面剖析

1、概述

分类：
    Transformations 和Actions  以及 持久化算子

Transformations ：
    将一个RDD转换成另一个RDD
    所有的Transformation都是lazy的，只有发生action是才会触发计算

Action：
    这类算子会触发 SparkContext提交作业
    一个action算子就是一个job(作业)

问题：
    spark官网说这样设置算子会使spark运行地更加的高效，请问这是为什么呢？

    答：假设执行一个rdda.map().reduce()的操作，如果作为转换算子map()也触发计算，则肯定得将    
        结果写出来，降低效率。第二则是由于lineage的关系。

持久化算子：
    略
    参考：https://blog.csdn.net/pengzonglu7292/article/details/79485271

2、Transformations中的算子

1、map && flatMap
    scala> sc.makeRDD(List("hello spark","hello hive")).flatMap(_.split("     
        ")).map((_,1)).reduceByKey(_+_).collect
    res1: Array[(String, Int)] = Array((hive,1), (spark,1), (hello,2))
    总结：
        map     一进一出
        flatMap 一进多出
        flatMap会将String看成是一个字符数组，不会将Array[String]看成字符数组


2、mapValues &&    flatMapValues
    对k-v型rdd的value进行map和flatMap
操作：
    scala>  sc.makeRDD(List("hello" -> 1)).mapValues(_+1).collect
    res2: Array[(String, Int)] = Array((hello,2)) 

    scala>  sc.makeRDD(Array(2 -> "hive on spark")).flatMapValues(_.split(" ")).collect
    res3: Array[(Int, String)] = Array((2,hive), (2,on), (2,spark))
         

3、filter && distinct
    filter:对rdd数据过滤
操作：
    scala> sc.parallelize(1 to 9).filter(_%2==0).collect
    res4: Array[Int] = Array(2, 4, 6, 8)

    distinct:会对数据进行去重
    scala>  sc.makeRDD(List(2,3,2,4)).distinct.collect
    res5: Array[Int] = Array(4, 2, 3)


4、sample && glom
    sample:对rdd数据进行抽样
    第一个参数：是否放回，true放回，false不放回
    第二个参数：抽样比例，大概比例，并非精准按比例抽样
    第三个参数：种子数，可忽略
操作：
    scala> sc.parallelize(1 to 100).sample(true,0.1).collect
    res6: Array[Int] = Array(9, 22, 30, 37, 43, 51, 74, 83)  
    
    glom: 将一个分区所有数据装入Array中，这样rdd中每一个分区就只包含一个数组
操作：
    scala> sc.makeRDD(1 to 10,3).glom().collect()
    res7: Array[Array[Int]] = Array(Array(1, 2, 3), Array(4, 5, 6), Array(7, 8, 9, 10))


5、coalesce && repartition  
    coalesce默认不shuffle，开启shuffle第2个参数设为true
    repartition默认shuffle，无第2参数，故无法关闭shuffle
    注：
        由于增大分区必需开启shuffle，故用repartition增大分区，coalesce减小分区        
操作：
    scala>  sc.makeRDD(1 to 10,2).coalesce(1).partitions.size
    res8: Int = 1
    scala>  sc.makeRDD(1 to 10,2).repartition(3).partitions.size
    res9: Int = 3   

问题：
    shuffle作为一个昂贵的操作，我们一定要尽可能的规避shuffle？
答：
    一般情况下尽可能规避shuffle没有错，但在分区数据倾斜的情况下，利用重分区算子开启
    shuffle，就能起到平均分区数据的作用。
    

6、intersection && subtract && union
    intersection：返回两个RDD的交集，并且去重。分数区等于max{两个父rdd分区数}
操作：
    scala> sc.makeRDD(Array(1,1,3),3).intersection(sc.makeRDD(Array(1,1,4),2)).collect
    res10: Array[Int] = Array(1)

    subtract:返回两个rdd的差集，不去重。谁调用分区数和谁一致
操作：
    scala> sc.makeRDD(Array(1,2,2),2).subtract(sc.makeRDD(Array(1,3,3),3)).collect
    res11: Array[Int] = Array(2, 2)
    scala> sc.makeRDD(Array(1,3,3),2).subtract(sc.makeRDD(Array(1,2,2),3)).collect
    res12: Array[Int] = Array(3, 3)

    union:返回两个rdd的并集，不去重。合并后分区数等于两父rdd之和。
操作：
    scala> sc.makeRDD(1 to 4,3).union(sc.makeRDD(5 to 10,2)).collect
    res13: Array[Int] = Array(5, 6, 7, 8, 9, 10, 1, 2, 3, 4)

 
7、mapPartitions  &&  mapPartitionsWithIndex
    mapPartitions:和map一样，只不过操作的数据是一个分区。在操作数据库时应用广泛
操作：
    scala> val a=sc.makeRDD(1 to 5,2).mapPartitions(
     | x =>{                //x代表一个分区的所有数据
     | var list=List()
     | var i=0
     | while(x.hasNext){
     | i+=x.next()        //将每个分区数据相加
     | }
     | (i::list).iterator
     | }
     | ).collect
    res14: Array[Int] = Array(3, 12)
    
    mapPartitionsWithIndex:与mapPartitions相比，该算子有两个参数，第一个参数为分区索引
操作：
    scala>  sc.makeRDD(1 to 5,2).mapPartitionsWithIndex(
     | (index,x) => {
     | var list=List()
     | var i=0
     | while(x.hasNext){
     | i+=x.next()
     | }
     | ((index,i)::list).iterator
     | }
     | ).collect
res15: Array[(Int, Int)] = Array((0,3), (1,12))


8、zip  && zipPartitions && zipWithIndex &&zipWithUniqueId
    zip:两个rdd合并成一个k-v型的rdd，要求两个rdd分区数和对应分区内元素个数一致，否则异常
操作：
    scala>  sc.makeRDD(1 to 3,2).zip(sc.makeRDD(4 to 6,2)).collect
    res16: Array[(Int, Int)] = Array((1,4), (2,5), (3,6))

    zipPartitions:将两个rdd合并成一个k-v形式rdd，要求两个rdd分区数一致，否则异常
操作：
    略

    zipWithIndex:将rdd中的元素和索引号形成键值对，返回一个新的rdd
操作：
    scala>  sc.makeRDD(1 to 3,2).zipWithIndex().collect    #和分区无关
    res17: Array[(Int, Long)] = Array((1,0), (2,1), (3,2))

    zipWithUniqueId:将rdd中的元素与唯一id形成键值对，返回一个新的rdd
    唯一id生成算法：
        分区内第一个元素：唯一id为分区号
        分区内非首个元素：唯一id为前一个元素id + rdd总共的分区数
操作：
    scala>  sc.makeRDD(1 to 5,2).zipWithUniqueId().collect
    res18: Array[(Int, Long)] = Array((1,0), (2,2), (3,1), (4,3), (5,5))

    
9、randomSplit
    将一个RDD切分成多个RDD,返回一个RDD数组
操作：
    scala>val sr = sc.makeRDD(1 to 10).randomSplit(Array(1.0,2.0,3.0))
    scala> sr(0).collect
    res19: Array[Int] = Array()                                                      
    scala> sr(1).collect
    res20: Array[Int] = Array(3, 6, 10)
    scala> sr(2).collect
    res21: Array[Int] = Array(1, 2, 4, 5, 7, 8, 9)
解释：
    该算子的第一个函数为权重(要求double类型),权重越高的RDD，划分到数据的几率越大。
    第二个参数为种子，可以忽略。


   

10、foldByKey && groupByKey   && groupBy 
    foldByKey:将rdd中的键值对根据key将value折叠
操作：
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),("spark",0))).foldByKey(0)(_+_).collect    
    res22: Array[(String, Int)] = Array((spark,2), (hello,3))    //key相加后再加0
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),("spark",0))).foldByKey(1)(_+_).collect     
    res23: Array[(String, Int)] = Array((spark,4), (hello,5))    //key相加后再加1
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),    ("spark",0))).foldByKey(0)(_*_).collect    
    res24: Array[(String, Int)] = Array((spark,0), (hello,0))    //key相乘后再乘0
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),("spark",0))).foldByKey(1)(_*_).collect     
    res25: Array[(String, Int)] = Array((spark,0), (hello,2))    //key相乘后再加1

    groupByKey:按key分组，value放入集合中，唯一参数可以是分区数或分区函数或不传
操作：
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark"
        ,2),("spark",0))).groupByKey().collect
    res26: Array[(String, Iterable[Int])] = Array((spark,CompactBuffer(2, 0)), 
    (hello,CompactBuffer(1, 2)))

    groupBy:按分区函数分组，key-value放入集合中
操作：
    scala> sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),("spark",0))).groupBy(x     
        => x._1).collect
    res3: Array[(String, Iterable[(String, Int)])] = 
        Array((spark,CompactBuffer((spark,2), (spark,0))), (hello,CompactBuffer((hello,1), (hello,2))))

11、reduceByKey  &&  reduceByKeyLocally
    reduceByKey:按key对value进行运算，
操作：
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),("spark",0))).reduceByKey((_+_),2).collect    //指定分区数
    res27: Array[(String, Int)] = Array((hello,3), (spark,2))
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),("spark",0))).reduceByKey(_+_).collect    
    res28: Array[(String, Int)] = Array((spark,2), (hello,3))
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),("spark",0))).reduceByKey(new org.apache.spark.HashPartitioner(2),(_+_)).collect
    res29: Array[(String, Int)] = Array((hello,3), (spark,2))    //指定分区函数

    reduceByKeyLocally:按key对value进行运算，返回一个map集合
操作：
    scala>  sc.makeRDD(Array(("hello",1),("hello",2),("spark",2),
        ("spark",0))).reduceByKeyLocally(_+_)
    res30: scala.collection.Map[String,Int] = Map(spark -> 2, hello -> 3)


12、partitionBy  && cogroup
    partitionBy:根据传入的分区函数对key-value行的rdd重新进行分区
操作：
    scala>  sc.makeRDD(Array(("hello",1),("spark",1),("hive",2))).partitionBy(new     org.apache.spark.HashPartitioner(3)).partitions.size
    res31: Int = 3

    cogroup:相当于全外连接，参数可以有多个
操作：
    scala>  sc.makeRDD(Array((1,"a"),(2,"b"))).cogroup(sc.makeRDD(Array((1,"aa"),(3,"c")))).collect
    res32: Array[(Int, (Iterable[String], Iterable[String]))] = Array((1,(CompactBuffer(a),CompactBuffer(aa))), (2,(CompactBuffer(b),CompactBuffer())), (3,(CompactBuffer(),CompactBuffer(c))))

    可以2个以上的rdd join

13、join && leftOuterJoin && rightOuterJoin && fullOuterJoin
    scala> sc.makeRDD(Array((1,"zhang3"),(3,"li4"))).join((sc.makeRDD(Array((1,"19"),(2,20))))).collect
    res33: Array[(Int, (String, Any))] = Array((1,(zhang3,19)))

    scala> sc.makeRDD(Array((1,"zhang3"),(3,"li4"))).leftOuterJoin((sc.makeRDD(Array((1,"19"),(2,20))))).collect
    res34: Array[(Int, (String, Option[Any]))] = Array((1,(zhang3,Some(19))), (3,(li4,None)))

    scala> sc.makeRDD(Array((1,"zhang3"),(3,"li4"))).rightOuterJoin((sc.makeRDD(Array((1,"19"),(2,20))))).collect
    res35: Array[(Int, (Option[String], Any))] = Array((1,(Some(zhang3),19)), (2,(None,20)))

    scala> sc.makeRDD(Array((1,"zhang3"),(3,"li4"))).fullOuterJoin((sc.makeRDD(Array((1,"19"),(2,20))))).collect
    res36: Array[(Int, (Option[String], Option[Any]))] = Array((1,(Some(zhang3),Some(19))), (2,(None,Some(20))), (3,(Some(li4),None)))


14、sortBy   &&  sortByKey
sortBy:
    参数1：排序函数   参数2：排序方式，默认true升序  参数3：排序后的分区数
    只有第一个参数是必须要传入的，底层调用了sortByKey
操作：
    scala> sc.makeRDD(Array(2,3,1,4,5)).sortBy(x=> x).collect
    res7: Array[Int] = Array(1, 2, 3, 4, 5)
    scala> sc.makeRDD(Array(2,3,1,4,5)).sortBy(x=> x,false).collect
    res8: Array[Int] = Array(5, 4, 3, 2, 1)
    scala> sc.makeRDD(Array(2,3,1,4,5)).sortBy(x=> x,false,3).collect
    res9: Array[Int] = Array(5, 4, 3, 2, 1)

sortByKey：
    按k-v型rdd的key排序
    参数1：排序方式，默认true升序   参数2：排序后的分区数
操作：
    scala> sc.makeRDD(Array((2,"lily"),(1,"lucy"),(3,"cindy"))).sortByKey().collect
    res10: Array[(Int, String)] = Array((1,lucy), (2,lily), (3,cindy))

    scala> sc.makeRDD(Array((2,"lily"),(1,"lucy"),(3,"cindy"))).sortByKey(false,2).collect
    res11: Array[(Int, String)] = Array((3,cindy), (2,lily), (1,lucy))


sortBy &&  sortByKey:
    虽然他们是transformations算子，但他们仍然会触发作业。

3、Actions算子

1、first  &&  take  && top  &&  takeOrdered  
first:返回一个元素
    scala> sc.makeRDD(1 to 10).first()
    res37: Int = 1

take:返回前n个元素
    scala> sc.makeRDD(1 to 10).take(2)
    res38: Array[Int] = Array(1, 2)

top:按照默认顺序(降序)取前n个元素
    scala> sc.makeRDD(1 to 10).top(2)
    res39: Array[Int] = Array(10, 9)

takeOrdered:按照升序取前n个元素
    scala> sc.makeRDD(1 to 10).takeOrdered(2)
    res40: Array[Int] = Array(1, 2)


2、collect  &&  count  && reduce
collect:将一个rdd转成数组，返回到driver端
    scala> sc.makeRDD(List(1,2,3,4)).collect
    res41: Array[Int] = Array(1, 2, 3, 4)
count:返回rdd中元素的数量
    scala> sc.makeRDD(List(1,2,3,4)).count
    res42: Long = 4
reduce:对rdd中的元素进行二元计算
    scala> sc.makeRDD(1 to 10).reduce(_+_)
    res43: Int = 55 



3、foreach &&  lookup  &&  foreachPartition
foreach:打印rdd中的元素
    scala> sc.makeRDD(1 to 10).foreach(print)
    67891012345
lookup:给出key值，返回value
    scala> sc.makeRDD(Array((1,"zhang3"),(3,"li4"))).lookup(1)
    res44: Seq[String] = WrappedArray(zhang3)
foreachPartition：
    

4、countByKey   
countByKey:返回k-v中每个key出现的次数
    scala> sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("B",3))).countByKey
    res45: scala.collection.Map[String,Long] = Map(A -> 2, B -> 3)

5、saveAsTextFile  &&  saveAsObjectFile  &&  saveAsHadoopFile  &&  saveAsHadoopDataset
    这几个算子都可以指定特定的对应的codec
saveAsTextFile：
    将rdd数据保存在文件系统中，一个分区对应一个文件
操作：
    scala> sc.parallelize(1 to 10,2).saveAsTextFile("hdfs://Linux001/data/")    
    [root@Linux001 ~]# hdfs dfs -ls /data
    Found 3 items
    -rw-r--r--   1 root supergroup          0 2019-05-25 11:21 /data/a.txt/_SUCCESS
    -rw-r--r--   1 root supergroup          4 2019-05-25 11:21 /data/a.txt/part-00000
    -rw-r--r--   1 root supergroup          6 2019-05-25 11:21 /data/a.txt/part-00001
    [root@Linux001 ~]# hdfs dfs -cat /data/part-00000
    1
    2
    [root@Linux001 ~]# hdfs dfs -cat /data/part-00001
    3
    4
    5

saveAsObjectFile：将rdd数据保存在文件系统中，一个分区对应一个文件
操作：
    和saveAsTextFile一样，略

【计算机网络】第 3 问：电路交换、报文交换、分组交换之间的区别？孤独打铁匠Julian #计算机408考研面试计算机网络计算机网络网络
电路交换、报文交换、分组交换之间的区别？省流图详解电路交换电路交换的优点电路交换的缺点建立连接时间长的原因报文交换报文交换的优点报文交换的缺点分组交换分组交换的优点分组交换的缺点比较总结省流图详解电路交换在进行数据传输前，两个结点之间必须先建立一条专用（双方独占）的物理通信路径（由通信双方之间的交换设备和链路逐段连接而成），该路径可能经过许多中间结点。这一路径在整个数据传输期间一直被独占，直到通信
C#WPF控件TextBlock详解未来无限 C#WPF程序设计 c#wpf 控件 TextBlock 回车换行多行显示强制回车换行
本文讲解WPF控件TextBlock。目录定义常用属性实例如何实现自动换行？如何强制回车换行？
C#WPF窗口类 Window详解未来无限 C#WPF程序设计 c#wpf window 类详解
本文详解C#WPF窗口类Window。目录定义Window窗体属性Window窗体事件实例演示定义WPF中的Window继承于ContentControl，内部可以承载一个Content，当然，借助于ItemsControl或Panel，Content也可以向下添加多个
自动化测试 —— Pytest fixture及conftest详解咖啡加剁椒③ 软件测试 pytest 功能测试软件测试自动化测试程序人生职场和发展
前言fixture是在测试函数运行前后，由pytest执行的外壳函数。fixture中的代码可以定制，满足多变的测试需求，包括定义传入测试中的数据集、配置测试前系统的初始状态、为批量测试提供数据源等等。fixture是pytest的精髓所在，类似unittest中setup/teardown，但是比它们要强大、灵活很多，它的优势是可以跨文件共享。一、Pytestfixture1.pytestfix
Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
Unity3D 制作MMORPG 3D地图编辑器详解 Thomas_YXQ 3d 编辑器 Unity3D 游戏开发 unity 开发语言
前言在MMORPG游戏中，地图编辑器是一个非常重要的工具，可以帮助开发者快速创建复杂的游戏地图。本文将详细介绍如何使用Unity3D制作一个简单的MMORPG3D地图编辑器。对惹，这里有一个游戏开发交流小组，希望大家可以点击进来一起交流一下开发经验呀！创建地图编辑器界面首先，我们需要创建一个新的Unity项目，并在场景中创建一个空的GameObject作为地图编辑器的主要控制器。然后，我们可以使用
【Git安装及使用学习笔记】可可西里啊零零散散的学习笔记 git 学习笔记 c++qt5
Git学习笔记Git安装Git创建本地版本库以及提交文件使用Git提交代码到码云使用Git从码云拉取代码参考博客Git安装这里参考Git详细安装教程（详解Git安装过程的每一个步骤）Git创建本地版本库以及提交文件1.查看git版本信息：git--version2.设置对应用户名与邮箱地址gitconfig--globaluser.name"your_usernamegitconfig--glob
DCGAN中的生成器和识别器代码详解 YYLin-AI DCGAN 深度学习 celeba tensorflow
#DCGAN中的生成器我自己写的有一个封装好的用于生成器和识别器的卷积操作但是在这个代码中我没有使用我自己的代码#原因想绍一下tensorflow自带的函数所以找了一个以前在书上的代码申明一下这个不是原创但是原来代码中有几处不符合DCGAN的要求所以就做了一些修改转载链接没有就直接写成原创建议看代码之前先看看DCGAN的特点，然后再看代码中如何实这些特点的这样会更有帮助DCGAN（深度卷积的对抗生
html版本号 webpack_html-webpack-plugin详解 weixin_39994949 html版本号 webpack
引言最近在react项目中初次用到了html-webapck-plugin插件，用到该插件的两个主要作用：为html文件中引入的外部资源如script、link动态添加每次compile后的hash，防止引用缓存的外部文件问题可以生成创建html入口文件，比如单页面可以生成一个html文件入口，配置N个html-webpack-plugin可以生成N个页面入口有了这种插件，那么在项目中遇到类似上面
webpack-loader详解奶昔不会射手 webpack 前端 node.js
一、loader的分类1.pre:前置loader2.normal:普通loader3.inline:内联loader4.post:后置loader二、执行顺序pre>normal>inline>post,相同类型的loader执行顺序为：从右到左，从下到上module:{rules:[{enforce:"pre",//通过这个参数来定义loader的类型，默认是normal类型test:/\.j
Java学习笔记04：Java_数组 JasonYangQ Java java
文章目录1.数组1.1数组介绍1.2数组的定义格式1.2.1第一种格式1.2.2第二种格式1.3数组的动态初始化1.3.1什么是动态初始化1.3.2动态初始化格式1.3.3动态初始化格式详解1.4数组元素访问1.4.1什么是索引1.4.2访问数组元素格式1.4.3示例代码1.5内存分配1.5.1内存概述1.5.2java中的内存分配1.9数组的静态初始化1.9.1什么是静态初始化1.9.2静态初始
npm 常用命令详解马卫斌前端工程师 npm
npm（NodePackageManager）是Node.js的包管理器，它允许用户方便地安装、共享和管理Node.js项目中的依赖。以下是一些npm常用命令的详解：1.查看npm版本npm-v这个命令用于查看本地已安装的npm版本。2.初始化项目npminit运行这个命令会引导你创建一个package.json文件，该文件包含了项目的元数据，如名称、版本、描述、作者等信息以及项目的依赖配置。若要
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
抖音返利平台哪个最高？叫什么？详解抖音返利平台哪个最高全网优惠分享
我想大家都在疑惑抖音返利平台哪个最高？叫什么？今天就为大家详解抖音返利平台哪个最高1.氧惠你平时在淘宝买东西，你通过氧惠依然是去淘宝买东西，你平时是在拼多多买东西，你通过氧惠还是去拼多多买东西，该在哪里买还是在哪里买，该买什么还是买什么。但是通过氧惠，不仅可以省钱，还可以赚钱，只要用户注册氧惠就可以享受超级折扣特权。比如你正常充话费是不是没有折扣？充100就是100，就算便宜也就便宜几毛钱，而在氧
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
【WPF应用5】WPF中的TextBlock控件：属性与事件详解及示例白话Learning WPF wpf
在WPF（WindowsPresentationFoundation）开发中，TextBlock控件是一个常用的元素，用于显示静态或动态文本内容。它提供了丰富的属性和事件，使得开发者能够灵活地控制文本的显示样式和响应用户的交互行为。本文将详细介绍TextBlock控件的属性和事件，并提供一个完整的示例程序。1.TextBlock控件的基本属性TextBlock控件的属性可以分为布局属性、外观属性、
【设计模式】单例模式详解略知java的景初 JAVA 设计模式 java 设计模式
单例模式：定义：确保一个类在任何情况下都绝对只有一个实例，并提供一个全局访问点。为了防止出现重复的创建。单例模式是JAVA中最简单的设计模式之一。属于创建型设计模式，它提供了一种创建对象的最佳方式。这种模式涉及到一个单一的类，该类负责创建自己的对象，同时确保只有一个对象被创建。这个类提供了访问唯一对象的方法，可以直接访问，不需要new。饿汉式：程序起始就初始化对象。publicclassHungr
软件评测师写作专栏之指令流水线知识01 昊洋_写作的匠心
各位学员大家好，相信大家在学习计算机系统构成及硬件基础知识时，感觉指令流水线这部分比较难，其实只要大家掌握了解题方法，很快就可以定位出正确答案，接下来就带领大家一起来学习一下！1、例题：某指令流水线由4段组成，各段所需的时间如下图所示。连续输入8条指令时的吞吐率（单位时间内流水线所完成的任务数或输出的结果数）为（）？例题1A、8/56ΔtB、8/32ΔtC、8/28ΔtD、8/24Δt【昊洋详解】
npm 包管理工具：常用命令详解与使用指南 LXHYouth node.js npm node.js
npm常用命令的更详细解释和使用场景：npminit详细说明：此命令用于初始化一个新的Node.js项目。它会创建一个package.json文件，其中包含项目的基本信息，如名称、版本、描述、入口点（mainfile）、测试命令、git仓库地址等。这个文件是项目的心脏，记录了项目的元数据和依赖关系。使用示例：在命令行中输入npminit，然后根据提示填写项目信息。如果你想要快速生成一个默认的pac
.net framework日志和.net core的区别详解白话Learning C#/.net .net .netcore c#
在软件开发过程中，日志记录是一个非常重要的功能，它可以帮助开发人员了解应用程序的运行状况，跟踪错误和性能问题，以及进行应用程序的调试。.NETFramework和.NETCore都是微软推出的应用程序开发框架，它们都提供了日志记录的功能，但是两者之间存在一些区别。1.实现方式1.1日志记录在.NETFramework中的实现.NETFramework使用System.Diagnostics命名空间
LeetCode_32_困难_最长有效括号 Lins号丹 LeetCode进阶之路 leetcode 算法
文章目录1.题目2.思路及代码实现详解（Java）2.1动态规划2.2不需要额外空间的算法1.题目给你一个只包含'('和')'的字符串，找出最长有效（格式正确且连续）括号子串的长度。示例1：输入：s=s=s="(()"输出：222解释：最长有效括号子串是"()"示例2：输入：s=s=s=")()())"输出：444解释：最长有效括号子串是"()()"示例3：输入：s=s=s=""输出：000提示：
TCP重传机制详解——03DSACK 没有理想的不伤心 Linux TCP tcp/ip 网络服务器
TCP重传机制详解——03DSACK什么是DSACKDSACK是指"DuplicateSelectiveAcknowledgment"，即重复选择性确认。在TCP通信中，DSACK机制允许接收方向发送方发送有关重复数据包的信息，以帮助发送方更准确地处理重传和丢包情况。当接收方收到重复的数据包时，会发送DSACK选项给发送方，告知发送方已经接收到了重复的数据包。发送方收到DSACK选项后，可以根据这
Linux笔记之ldd命令详解努力脱单的害羞男孩 Linux笔记 linux 笔记服务器
Linux笔记之ldd命令详解codereview!ldd是一个用于查看可执行文件或共享库所依赖的共享库的命令。它可以帮助你了解可执行文件或库与系统上安装的共享库之间的依赖关系。下面是ldd命令的详细解释：语法：ldd[选项][可执行文件或共享库]常用选项：-v：显示详细信息，包括符号版本信息。-u：显示未使用的直接依赖项。-d：执行数据重定位并报告缺失的对象。-r：执行数据和函数重定位，并报告缺
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
Debezium日常分享系列之：Debezium2.5稳定版本之MySQL连接器配置示例和Connector参数详解最笨的羊羊日常分享专栏 Debezium日常分享系列 Debezium2.5稳定版本 MySQL连接器配置示例 Connector参数详解
Debezium日常分享系列之：Debezium2.5稳定版本之MySQL连接器配置示例和Connector参数详解一、MySQL连接器配置示例二、添加连接器配置三、连接器属性四、必须的连接器配置属性五、高级MySQL连接器配置属性六、Debezium连接器数据库架构历史配置属性七、用于配置生产者和消费者客户端的传递数据库架构历史属性八、Debezium连接器Kafka信号配置属性九、Debezi
Linux mkswap命令教程：如何设置Linux交换区（附实例详解和注意事项）我要下东西噢 linux linux 运维服务器
Linuxmkswap命令介绍mkswap命令用于在设备或文件上设置Linux交换区。设备参数通常是磁盘分区（例如/dev/sdb7），但也可以是文件。Linux内核不查看分区ID，但许多安装脚本假定十六进制类型82（LINUX_SWAP）的分区是交换分区。Linuxmkswap命令适用的Linux版本mkswap命令适用于所有主流的Linux发行版，包括Debian、Ubuntu、Alpine、
Redis基础命令集详解——新手入门必备 Jz_Stu Redis redis
Redis基础命令集详解——新手入门必备文章目录Redis基础命令集详解——新手入门必备前言一、Redis安装与连接二、Redis数据类型及基本命令1、String（字符串）2、List（列表）可模拟双向列表（左进右出|右进左出）和栈（左进左出|右进右出）3、Set（集合）4、Hash（哈希）5、SortedSet（有序集合）6、其他功能性命令三、事务与批量操作总结前言Redis（RemoteDi
Flink 面试题总结及答案 wending-Y Flink 入门到实践 flink 大数据
基础state的分类keystate和operatestatestate的重分布Flink状态管理详解：KeyedState和OperatorListState深度解析-掘金checkpoint和savepointhttps://zhuanlan.zhihu.com/p/79526638flinkjob的容错策略如果在没有持续消息输出的情况下，如何定时输出主要是现实有可能不会一直有消息输入，但是要
springboot中get post put delete 请求区别详解 developerFBI JAVA Springboot java
Spring4.3中引进了｛@GetMapping、@PostMapping、@PutMapping、@DeleteMapping、@PatchMapping｝来帮助简化常用的HTTP方法的映射并更好地表达被注解方法的语义。1.@GetMapping：处理get请求，传统的RequestMapping来编写应该是@RequestMapping(value=“/get/{id}”,method=Re
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

Spark从入门到精通第六课：RDD中的常用算子全面剖析

1、概述

2、Transformations中的算子

3、Actions算子

你可能感兴趣的:(Spark,Spark技术详解,RDD,Spark)