Spark on yarn

Spark-Core(四) - Shuffle剖析&&ByKey算子解析&&Spark中的监控&&广播变量、累加器

一、Spark-Core（三）回顾

1.1、Spark on yarn的运行方式

二、Shuffle的剖析

2.1、2.1、IDEA下使用repartition和coalesce对用户进行分组
2.2、coalesce和repartition在生产上的使用
2.3、reduceByKey和groupByKey的区别
2.4、图解reduceByKey和groupByKey
2.5、reduceByKey和groupByKey的源码&&aggregateByKey
2.6、collect vs collectAsMap源码剖析

三、Spark中的监控描述

3.1、监控参数配置&&在Spark shell中测试
3.2、 REST API的方式&&具体使用&&REST API信息保存位置

四、RDD中的重要变量

4.1、共享变量
4.2、广播变量
- 4.2.1、普通的join
- 4.2.2、BroadCast Join
4.3、计数器(Accumulator)

一、Spark-Core（三）回顾

1、主要讲了cache操作，重点：宽窄依赖的定义，在容错方面的差异；key-value编程的时候以key作为基础条件

1.1、Spark on yarn的运行方式

1、主要运行方式：local[2] -->最简单的开发方式，就是一个local几的问题；Yarn的时候要有一个HADOOP_CONF_DIR目录；

问题：使用yarn模式的时候需不要在 $SPARK_HOME/conf/slaves下配置主机名，不需要；只需要提交的机器是gateway，(指的是在$ SPARK_HOME/conf/spark-env.sh这下面配置了文件即可)；跑yarn的时候只需要这台机器做一个客户端即可；

误区：在$spark_home/sbin/start-all.sh或者start-master.sh start-slaves.sh；这种模式在生产上基本不会使用，spark on yarn不需要启动这些东西，slaves中也不需要配置东西；情况：让业务人员跑一种情况spark on yarn，他竟然问了，你们生产上怎么没有spark运行节点，是不是要把spark集群上的节点启动起来。

底层原理根本没有掌握，所以才会出现上述情况，本课程基本都是使用local[2]的场景，生产上基本使用的都是spark on yarn场景，不需要启动任何spark几点；

只需要gateway+spark-submit运行即可；重点：并不需要运行spark节点。

二、Shuffle的剖析

1、有一些操作在spark中触发事件叫做shuffle，这个操作主要是重新分发数据，如何理解？

提供一些通话记录，统计今天打了多少个电话、打出去了多少个电话；在通讯录界面，有通话时间、通话时常、通讯人。本质就是一个Word count；

(天时间+拨打，1) -->reduceByKey
相同的天时间+拨打 ==> shuffle到同一个reduce上去，不这样做你能进行累加操作吗？

shuffle就是一组具有共同特征的数据分发到一个节点上进行操作，如下进行图解：

key相同，把value的数据分到一起去

如何理解跨Partition进行分组？

如上图：partition2的数据可能分到不同的地方去了；

数据在不同的节点上，肯定会涉及到数据的拷贝，会涉及到磁盘的IO和网络的IO；所以shuffle是一个复杂的和使用昂贵的操作。绝大多数涉及shuffle的场景都会存在数据倾斜的可能性。

背景：

为了理解在shuffle的过程中到底发生了什么，我们以reduceByKey的操作去进行理解，reduceByKey的操作会生成一个新的RDD，一个key所对应的值都会combined into the key，就是相同的key都会被分配到一个reduce上去处理；并不是所有的value值在相同的partition上或者相同机器上的，但是他们必须要在同一个地点协同工作。

产生shuffle的算子：

比如：repartition系列的操作：repartition和coalesce，ByKey系列：reduceByKey、groupByKey；Join系列：cogroup和join

性能影响：

这个shuffle是一个昂贵的操作因为涉及磁盘IO、网络IO、数据的序列化；为了组织数据shuffle，spark会产生一系列的task（stage），包括map task和reduce task去聚合数据。这种方式来自于MapReduce

本质上的，结果是保存在内存上的除非扛不住，涉及一些排序的会写到一个文件上去，相关的排序数据是map端输出的；

shuffle在大数据计算中是一个性能杀手也是一个瓶颈所在。

scala> val info=sc.textFile("file:///home/hadoop/data/ruozeinput.txt")
info: org.apache.spark.rdd.RDD[String] = file:///home/hadoop/data/ruozeinput.txt MapPartitionsRDD[4] at textFile at <console>:24

scala> info.partitions.length
res1: Int = 2

scala> val info1=info.coalesce(1)
info1: org.apache.spark.rdd.RDD[String] = CoalescedRDD[5] at coalesce at <console>:25

scala> info1.partitions.length
res2: Int = 1

//coalesce此处是不起作用的
scala> val info2=info.coalesce(4)
info2: org.apache.spark.rdd.RDD[String] = CoalescedRDD[6] at coalesce at <console>:25

scala> info2.partitions.length
res3: Int = 2

//需要在coalesce后加上一个true这个设置的分区数才能够生效：
scala> val info3=info.coalesce(4,true)
info3: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[10] at coalesce at <console>:25

scala> info3.partitions.length
res4: Int = 4

在RDD.scala中查看repartition和coalesce方法：

1、查看coalesce方法：
分区数numpartition可传可不传，shuffle可传可不传：
 def coalesce(numPartitions: Int, shuffle: Boolean = false,
               partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
              (implicit ord: Ordering[T] = null)
      : RDD[T] = withScope {

2、查看repartition方法：
调用的就是coalesce，repartition是肯定经过shuffle的：
  def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
    coalesce(numPartitions, shuffle = true)
  }

info3.collect对应的DAG图：

repartition(5)带来的区别：

scala> val info4 = info.repartition(5)
info4: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[14] at repartition at <console>:25

scala> info4.collect
res6: Array[String] = Array(hello       hello   hello, world    world, john)

解析：为什么读进来是2，因为info.partitions.length的长度为2；然后又设置的repartition是5，所以另外一个是5.
2个分区变成5个分区增加了数据的并行度，如果降低分区数，你可以考虑使用coalesce

repartition在源码中的体现：

 /**
   * Return a new RDD that is reduced into `numPartitions` partitions.
   *
   * This results in a narrow dependency, e.g. if you go from 1000 partitions
   * to 100 partitions, there will not be a shuffle, instead each of the 100
   * new partitions will claim 10 of the current partitions. If a larger number
   * of partitions is requested, it will stay at the current number of partitions.
   *
   * However, if you're doing a drastic coalesce, e.g. to numPartitions = 1,
   * this may result in your computation taking place on fewer nodes than
   * you like (e.g. one node in the case of numPartitions = 1). To avoid this,
   * you can pass shuffle = true. This will add a shuffle step, but means the
   * current upstream partitions will be executed in parallel (per whatever
   * the current partitioning is).

2.1、IDEA下使用repartition和coalesce对用户进行分组

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable.ListBuffer

object RepartitionApp {
  def main(args: Array[String]): Unit = {
      val sparkConf = new SparkConf().setAppName("RepartitionApp").setMaster("local[2]")
      val sc = new SparkContext(sparkConf)
		
		//sc.parallelize的时候设置并行度：
      val students = sc.parallelize(List("17er","老二","本泽马","zz","jeff","woodtree"),3)
	
	//mapPartitionWithIndex：分分区的时候给分区加个编号，入参肯定是一个tuple，val stus = new ListBuffer[String]，创建一个长度内容都可变的集合，对分区进行迭代，有的话给它拿出来放到学生里面去，需要把分区中的数据拿出来，再看看他是哪个组的
      students.mapPartitionsWithIndex((index,partition) => {
        val stus = new ListBuffer[String]
        while(partition.hasNext){
          stus += "~~~" + partition.next() + "，在哪个组：" + (index+1)
        }
        //返回可迭代的学生对象
        stus.iterator
      }).foreach(println)
      	//foreach进行打印
      	
      sc.stop()
  }

}

输出结果：
~~~17er，在哪个组：1
~~~老二，在哪个组：1
~~~本泽马，在哪个组：2
~~~zz，在哪个组：2
~~~jeff，在哪个组：3
~~~woodtree，在哪个组：3

从3个组变成2个组：

比如此时部门裁员，裁成2个组：

•students.mapPartitionsWithIndex((index,partition) ==>

--> 修改成如下显示：
 students.coalesce(2).mapPartitionsWithIndex((index,partition) => {

裁员前是3各组，修改成5个组：

students.repartition(5).mapPartitionsWithIndex((index,partition)
输出结果：
~~~17er，在哪个组：2
~~~老二，在哪个组：3
~~~jeff，在哪个组：3
~~~本泽马，在哪个组：4
~~~woodtree，在哪个组：4
~~~zz，在哪个组：5

students.coalesce(5,true).mapPartitionsWithIndex((index,partition) => {
输出结果：
~~~17er，在哪个组：2
~~~老二，在哪个组：3
~~~jeff，在哪个组：3
~~~zz，在哪个组：5
~~~本泽马，在哪个组：4
~~~woodtree，在哪个组：4

六个元素，并行度是3，分区是5，分组起始位置为什么是2

mapPartitionWithIndex中主要有一个index可以拿到的是partition的位置。

2.2、coalesce和repartition在生产上的使用

coalesce vs repartition

思考：
1、假设ARDD转换为BRDD，ARDD中有300个分区，每一个分区中的记录只有1条id=100的，此时做了一个filter操作，id>99的；

2、filter是窄依赖，A中有多少分区数B中就有多少分区数，也就是在RDDB中有300个partition；

3、原来每一个partition中有10万条数据，现在过滤完后每一个partition中只有1条数据，输出300个文件每个文件中1条数据这个肯定是不合适的，如果此时在输出的文件中做一个操作；

4、coalesce(1)，对数据进行收敛，这样的话对于小文件来说的话就会好很多。

假设出来的文件很大，把coalesce调大就行了；

repartition的话可以把数据打散，提升并行度。

2.3、reduceByKey和groupByKey的区别

1、reduceByKey手写一个wc：

scala> sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_)
res2: org.apache.spark.rdd.RDD[(String, Int)] = ShuffledRDD[4] at reduceByKey at <console>:25

2、groupByKey的数据结构&&输出：

1、groupByKey的数据结构：
scala> sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).groupByKey()
res5: org.apache.spark.rdd.RDD[(String, Iterable[Int])] = ShuffledRDD[14] at groupByKey at <console>:25

//数据结构剖析：key是string类型，value是一个可迭代的Iterable[Int]，我们应该通过这个Iterable[Int]的value联想到reduce上去；

查看reducer.java源码，看到这个数据结构和它确实挺相似的：在reduce中这个values中放了很多个1
void reduce(K2 key, Iterator<V2> values,
              OutputCollector<K3, V3> output, Reporter reporter)
    throws IOException;


//groupByKey的输出结果：
(john,CompactBuffer(1))
(hello,CompactBuffer(1, 1, 1))
(world,CompactBuffer(1, 1))
20/06/13 09:54:14 INFO Executor

groupByKey的这种数据结构怎么对value值求和？

先在IDEA中对代码进行开发测试，然后放到spark-shell中去执行：

1、在IDEA中根据代码提示进行开发：
     sc.textFile("hdfs://hadoop004:9000/data/input/ruozeinput.txt")
         .flatMap(_.split("\t"))
         .map((_,1))
         .groupByKey()
         .map( x=>(x._1,x._2.sum))
         .foreach(println)



2、放到Spark-shell中去执行得到如下的结果
scala> sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).groupByKey().map(x =>(x._1,x._2.sum)).foreach(println) 
[Stage 0:>                                                          (0 + 2) / 2](john,1)
(hello,3)
(world,2)

3、在UI界面中去查看信息：

groupByKey和reduceByKey在UI界面中体现的区别：

1、groupByKey如下体现：

2、reduceByKey如下体现：

两者的区别：

1、从DAG图上看，没有太大的差别，需要观察的一个是数据量，reduceByKey shuffle的数据要比groupByKey shuffle的少；

2、在工作中，需要优先使用reduceByKey，reduceByKey在本地就做了一个聚合的操作，聚合的结果再经过shuffle所以数据量要少一些。

2.4、图解reduceByKey和groupByKey

数据准备，假设有3个map的数据：
1：(a,1) (b,1)
2：(a,1) (b,1) (a,1) (b,1)
3：(a,1) (b,1) (a,1) (b,1) (a,1) (b,1)

1、groupByKey的shuffle过程：

2、reduceByKey在Map端会进行一个本地的聚合，减少了shuffle数据量（减少了数据分发的数据量）：

所以为什么么reduceByKey是152B，而groupByKey是172B

有些方法使用reduceByKey解决不了的话应该怎么办？
combine是在map端的，还需要引出一个算子：

2.5、reduceByKey和groupByKey的源码&&aggregateByKey

1、查看groupByKey方法：
 def groupByKey(): RDD[(K, Iterable[V])] = self.withScope {
    groupByKey(defaultPartitioner(self))
  }

2、再点击groupByKey中去：
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])] = self.withScope {
    // groupByKey shouldn't use map side combine because map side combine does not
    // reduce the amount of data shuffled and requires all map side data be inserted
    // into a hash table, leading to more objects in the old gen.
    val createCombiner = (v: V) => CompactBuffer(v)
    val mergeValue = (buf: CompactBuffer[V], v: V) => buf += v
    val mergeCombiners = (c1: CompactBuffer[V], c2: CompactBuffer[V]) => c1 ++= c2
    val bufs = combineByKeyWithClassTag[CompactBuffer[V]](
      createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine = false)
    bufs.asInstanceOf[RDD[(K, Iterable[V])]]
  }

//查看到这个方法定义中，mapSideCombine = false，map端的聚合再groupByKey中默认是没有开启的

1、查看reduceByKey方法：
 def reduceByKey(func: (V, V) => V): RDD[(K, V)] = self.withScope {
    reduceByKey(defaultPartitioner(self), func)
  }

它的底层调用的是combineByKeyWithClassTag，在这个方法中， mapSideCombine: Boolean = true,这个参数默认定义的是true

2.6、collect vs collectAsMap源码剖析

1、collect源码：在RDD.scala中体现

方法定义：返回值就是数组类型，这个方法只能被用于返回数组结果少的，因为所有的数据都会被加载到机器内存中；数据量一旦多系统就会报OOM的错误，然后崩溃。
每一个action就会触发一个算子，只要算子的底层调用的是runJob，那它就是action；

重要：语法定义：
Array.concat(results: *) --> 在Scala04中 printn(sum(1.to(10) :*)) 中有所体现：

:_*把results转换成一个可变参数，在concat后面接的才是可变参数：Array[String] *


   * Return an array that contains all of the elements in this RDD.

   * @note This method should only be used if the resulting array is expected to be small, as
   * all the data is loaded into the driver's memory.
   */
  def collect(): Array[T] = withScope {
    val results = sc.runJob(this, (iter: Iterator[T]) => iter.toArray)
    Array.concat(results: _*)
  }

collect仅仅适用于数据量少的场景，一旦数据量多的话就会系统就会报错，OOM

2、collectAsMap的源码：在PairRDDFunctions.scala中

  /**
   * Return the key-value pairs in this RDD to the master as a Map.
   *
   * Warning: this doesn't return a multimap (so if you have multiple values to the same key, only
   *          one value per key is preserved in the map returned)
   *
   * @note this method should only be used if the resulting data is expected to be small, as
   * all the data is loaded into the driver's memory.
   */
  def collectAsMap(): Map[K, V] = self.withScope {
  //获取所有的数据
    val data = self.collect()
    //声明一个HashMap
    val map = new mutable.HashMap[K, V]
    //设置map的长度
    map.sizeHint(data.length)
    //循环将数据放进去
    data.foreach { pair => map.put(pair._1, pair._2) }
    map
  }

区别和具体使用体现可以查看这篇博客：

https://blog.csdn.net/zhanglong_4444/article/details/87159299

三、Spark中的监控描述

1、首先我们启动一个spark-shell，去触发一个job，sc.parallelize(List(1,2,3,4,5,6,7)).cunt；此时通过UI界面去查看，一个action触发一个stage，一个stage中又有4个task；对于一个任务来说，我们需要关注的是这个任务启动的时间有多久，任务运行的周期是多久？

模拟业务场景：我们在本地运行这个spark任务，中途退出，再次启动spark-shell，还能否看见这个任务（是否完成、失败）；半夜在运行Spark任务，假设该任务结束了或者是挂了，就没有这个界面的信息了；

–》所以对于一个作业来说，需要引出一个监控的概念，用于监控作业的完成情况：

网址：http://spark.apache.org/docs/latest/monitoring.html

官网释义：

每一个SparkContext都会启动一个Web UI，默认的端口是4040，这个应用上展示了很多有用的信息：
1、一系列调度的stages和tasks
2、RDD的大小和内存使用情况
3、环境相关信息
4、正在运行的executor的信息

你能够通过http://4040网址访问到应用程序相关信息，如果你的机器上启动了多个SparkContext的话，这个端口号会依次进行递增；

这些信息仅仅只能够在应用程序的生命周期中被访问到，意思是如果spark-shell关了，这些信息就无法被访问到了。

你要去看Web UI信息的话，在启动应用程序之前设置一个参数：set spark.eventLog.enabled to true；它会记录这些事件信息，把这些信息保存在内存中。

但是单单这个参数的修改是满足不了业务需求产生监控相关的东西。

viewing after the fact

1、通过Spark提供的history服务来访问UI，提供了应用程序的已经存在的事件日志；

2、进入到$SPARK_HOME/sbin目录下，使用命令：./sbin/start-history-server.sh；

3、这个命令会列出完成的、重试的、未完成的应用程序信息，在默认的ip/hostname:18080端口下；

4、当使用文件系统提供类时（查看spark.history.provider），这个基础日志目录一定要被应用通过spark.history.fs.logDirectory这个参数进行配置，能够包含子目录，每一个子目录都代表了一个应用程序的event log

5、Spark job本身一定要配置log events，记录他们通过相同的分享方式，同一个写目录；举例：如果一个服务被配置在了这个目录下：hdfs://namenode/shared/spark-logs，接下来的client的存储目录都在这个下：

第一步：spark.eventLog.enabled true
第二步：spark.eventLog.dir hdfs://namenode/shared/spark-logs 参数开启以后，上设置hdfs的存储目录

Environment Variables（环境变量）

以Spark.history开头的都需要配置到SPARK_HISTORY_OPTS中去；

3.1、监控参数配置&&在Spark shell中测试

1、编辑$SPARK_HOME/conf/spark-defaults.conf这份文件，没有这份文件就先拷贝一下，cp spark-defaults.conf.template spark-defaults.conf，然后进行编辑：

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://hadoop004:9000/spark_directory

2、同理对$SPARK_HOME/conf/spark-env.sh这份文件进行编辑，进入到编辑模式；注意这个目录：/spark_directory要在hdfs上有

SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop004:9000/spark_dir
ectory"

3、这些配置完成后，进入到$SPARK_HOME/sbin目录下，进行启动history服务：

[hadoop@hadoop004 sbin]$ ./start-history-server.sh 
starting org.apache.spark.deploy.history.HistoryServer, logging to /home/hadoop/app/spark/logs/spark-hadoop-org.apache.spark.deploy.history.HistoryServer-1-hadoop004.out
[hadoop@hadoop004 sbin]$ pwd
/home/hadoop/app/spark/sbin

4、去到Web UI上进行查看：

此时我们去到Spark-shell中去运行几个job：

此时我们去到spark-history中是查看不到我们正在运行的job的，需要我们把spark-shell这个命令框给kill掉，它才会显示历史的job状况：

history服务下记录的信息和spark 4040端口页面下展示的信息是一样的：

注意事项：

1、我们在18080端口上点击头部是可以进行排序的，这很容易去鉴别数据倾斜；进入到tasks后，直接点击duration。

2、这个history server显示的包括完成和未完成的作业；

3、未完成的作业会根据事件进行控制

4、通过sc.stop()把spark作业停下来

3.2、REST API的方式&&具体使用&&REST API信息保存位置

1、返回应用程序执行的结果，对于运行中的程序，使用history server去访问到JSON，使用如下网址：http://xxx:18080/api/v1/

2、一个应用程序通过application ID被引用；当我们使用spark on yarn的时候，每一个应用程序都能有多次尝试，多次尝试ID只针对cluster模式，不对client模式生效。

进入到Web UI界面上去进行查看

Web UI网址：http://hadoop004:18080/api/v1/applications

返回的是一个JSON串的信息，如果之前spark-shell运行了，中断一次再运行，那就会产生两个JSON串信息；返回的是一个JSON数组，拿到的是所有的应用程序；

1、hadoop004:18080/api/vi 此时是没有任何显示的
2、hadoop004:18080/api/v1/application 返回一个json数组，拿到的是所有的应用程序

1、因为我们先后分别两次启动了spark-shell，所以是两个app-id
[ {
  "id" : "local-1592214299829",
  "name" : "Spark shell",
  "attempts" : [ {
    "startTime" : "2020-06-15T09:44:58.631GMT",
    "endTime" : "2020-06-15T11:46:02.161GMT",
    "lastUpdated" : "2020-06-15T11:46:02.229GMT",
    "duration" : 7263530,
    "sparkUser" : "hadoop",
    "completed" : true,
    "appSparkVersion" : "2.4.2",
    "lastUpdatedEpoch" : 1592221562229,
    "startTimeEpoch" : 1592214298631,
    "endTimeEpoch" : 1592221562161
  } ]
}, {
  "id" : "local-1592212202350",
  "name" : "Spark shell",
  "attempts" : [ {
    "startTime" : "2020-06-15T09:10:01.266GMT",
    "endTime" : "2020-06-15T09:39:20.794GMT",
    "lastUpdated" : "2020-06-15T09:39:20.855GMT",
    "duration" : 1759528,
    "sparkUser" : "hadoop",
    "completed" : true,
    "appSparkVersion" : "2.4.2",
    "lastUpdatedEpoch" : 1592213960855,
    "startTimeEpoch" : 1592212201266,
    "endTimeEpoch" : 1592213960794
  } ]
} ]

2、hadoop004:18080/api/v1/applications/appid 查看这个程序是否在运行

3、跟上app-id/jobs：

hadoop004:18080/api/v1/applications/app-id/jobs 列出app-id下的所有job信息：

http://hadoop004:18080/api/v1/applications/local-1592235456125/jobs

[ {
  "jobId" : 1,
  "name" : "count at :25",
  "submissionTime" : "2020-06-15T15:45:16.940GMT",
  "completionTime" : "2020-06-15T15:45:17.024GMT",
  "stageIds" : [ 2 ],
  "status" : "SUCCEEDED",
  "numTasks" : 2,
  "numActiveTasks" : 0,
  "numCompletedTasks" : 2,
  "numSkippedTasks" : 0,
  "numFailedTasks" : 0,
  "numKilledTasks" : 0,
  "numCompletedIndices" : 2,
  "numActiveStages" : 0,
  "numCompletedStages" : 1,
  "numSkippedStages" : 0,
  "numFailedStages" : 0,
  "killedTasksSummary" : { }
}, {
  "jobId" : 0,
  "name" : "collect at :25",
  "submissionTime" : "2020-06-15T15:39:11.307GMT",
  "completionTime" : "2020-06-15T15:39:12.192GMT",
  "stageIds" : [ 0, 1 ],
  "status" : "SUCCEEDED",
  "numTasks" : 4,
  "numActiveTasks" : 0,
  "numCompletedTasks" : 4,
  "numSkippedTasks" : 0,
  "numFailedTasks" : 0,
  "numKilledTasks" : 0,
  "numCompletedIndices" : 4,
  "numActiveStages" : 0,
  "numCompletedStages" : 2,
  "numSkippedStages" : 0,
  "numFailedStages" : 0,
  "killedTasksSummary" : { }
} ]


//我在这个spark-shell中启动了使用action算子触发了两个job；
第一个job：
sc.textFile("file:///home/hadoop/data/ruozeinput.txt").flatMap(_.split("\t")).map((_,1)).reduceByKey(_+_).collect

sc.parallelize(List(1,2,3,4,5,6,7)).count

4、也可以在jobs后面跟上[job-id]

这个的一般使用场景：服务搭建好，前端配合，设计好UI接口，然后再告诉前端接口。

Metrics：一般是用不到的

主要关注点：HistoryServer和RestAPI

REST API信息在HDFS上的保存位置：

1、jps命令查看到HistoryServer就会一个java进程，ps -ef|grep 端口号：

[hadoop@hadoop004 ~]$ jps
7970 DataNode
14947 HistoryServer

[hadoop@hadoop004 ~]$ ps -ef|grep 14947 
hadoop    14947      1  0 17:15 ?        00:01:45 /usr/java/jdk1.8.0_45/bin/java -cp /home/hadoop/app/spark/conf/:/home/hadoop/app/spark/jars/*:/home/hadoop/app/hadoop/etc/hadoop/ -Dspark.history.fs.logDirectory=hdfs://hadoop004:9000/spark_directory -Xmx1g org.apache.spark.deploy.history.HistoryServer
hadoop    25423  25352  0 23:56 pts/1    00:00:00 grep 14947

2、HistoryServer不用的话使用命令停止：./stop-history-server.sh

3、记录的日志保存在这个位置：[hadoop@hadoop004 ~]$ hdfs dfs -text hdfs://hadoop004:9000/spark_directory/local-1592212202350

这个读取出来的信息就是JSON，我们在REST API上查看到的JSON信息就是此处解析出来的。

我去到hdfs上读取这段信息的时候还出现了报错：

Permission denied when trying to open /webhdfs/v1/spark_directory/local-1592212202350?op=GET_BLOCK_LOCATIONS: Forbidden

四、RDD中的重要变量

4.1、共享变量
4.2、广播变量
- 4.2.1、普通的join
- 4.2.2、BroadCast Join
4.3、计数器(Accumulator)

四、RDD中的重要变量

4.1、共享变量

当一个算子map\reduce执行在远端机器中，每一个函数中都是有一个副本的；算子里面用到了一个外部的数据，这种情况会把数据拷贝到所有的机器上去；
Spark中跨task读写共享变量（多线程）这种方式效率不高

val value = new HashMap()
val rdd = ...
rdd.foreach(x =>{
	value //...
})

4.2、广播变量

Map join把数据分发到集群中的缓存上去；广播变量允许编程人员保存一份变量cache到机器上，而不是一个task一个task这样的拷贝；

假设value这个变量10m，foreach中有1000个task，当内部使用到了外部的变量，这个变量要拷贝到所有的task中去，100*10m = 1G，需要在内存中耗费很高的资源；

广播变量不是每一个task一个副本，而是每一个机器一个副本；

scala> val broadcastvar = sc.broadcast(Array(1,2,3))
broadcastvar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(6)

scala> broadcastvar.value
res6: Array[Int] = Array(1, 2, 3)

这么简单的方式在生产上肯定是行不通的，生产上至少是要进行join的：

4.2.1、普通的join

4.2.2、BroadCast Join

4.3、计数器(Accmulator)

顾名思义：就是一个计数的作用

累加器是一个变量，仅仅支持add操作，也就是说它只能够加；它底层就是实现了一个MapReduce中的counter或者sum；

对于一个用户来说，你能够创建一个带名字的和不带名字的计数器；longAccmulator中可以传参数，也可以不传参数

  /**
   * Create and register a long accumulator, which starts with 0 and accumulates inputs by `add`.
   */
  def longAccumulator: LongAccumulator = {
    val acc = new LongAccumulator
    register(acc)
    acc
  }

  /**
   * Create and register a long accumulator, which starts with 0 and accumulates inputs by `add`.
   */
  def longAccumulator(name: String): LongAccumulator = {
    val acc = new LongAccumulator
    register(acc, name)
    acc
  }

再点进registry中，跳转到如下：
  /**
   * Register the given accumulator with given name.
   *
   * @note Accumulators must be registered before use, or it will throw exception.
   */
  def register(acc: AccumulatorV2[_, _], name: String): Unit = {
    acc.register(this, name = Option(name))
  }

还是启动一个Spark-shell，进行测试，官方案例：

scala> val accum = sc.longAccumulator("My Accumulator")
accum: org.apache.spark.util.LongAccumulator = LongAccumulator(id: 75, name: Some(My Accumulator), value: 0)

scala> sc.parallelize(Array(1,2,3,4)).foreach( x => accum.add(x))

scala> accum.value
res4: Long = 10

你可能感兴趣的:(Spark-Core实战班)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2.0践行没有你的参与就不完美 x秀丽x
亲爱的伙伴们早上好，今天早上我们开了一次班委竞选的会议，全程只有20多个人参与，宫班本着对大家负责任的态度告诉我们，此次竞选作废，原因是这没有达到2.0的100%参会要求，如果没有大家的参与那么这个班委选出来还有什么意义，这说明选出来的人也是不一定是我们大家心目中认可的那个人，所以为了让大家的这个90天能够更好的激发出自己的的“做”的能力，那么要从第一次竞选班委的会议开始做到100%出席会议，竞选
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
2018-12-16 宝妈林秀云
2018年12月16日星期日天气晴本来今天是要参加读经班的，小宝贝昨天晚上突然发烧了，所以就没办法参加。同时今天也是小宝贝的生日，因为发烧她爸爸就不买蛋糕给她过生日了。就给她买了榴莲披萨当蛋糕。姐姐还为她做了生日贺卡，这个生日贺卡姐姐可是花了很长时间才完成的。吃完披萨准备上楼了，这时杨欣也想跟我们一起上楼，就被奶奶叫住说：“不要上楼了要准备睡觉了”。本来我想小宝贝可能会吵着跟杨欣一起玩。出乎我的意
不要偷走他人的声音天天_27d6
朱会利焦点讲师班五期洛阳坚持分享第634天《来访者才是主角》2018.08.02今天的中级班课堂上，老师再一次给我们强调了咨询目标的建立过程中，作为咨询师一定要明白，我们只是在协助来访者解决他自身的问题，所以一切以来访者为主，他想解决的问题才是咨询的目标。所以如果在谈话的过程中，出现了我们感觉不是我们想要的答案的时候，我们不是再极力去引导来访者按照我们的思路走，而是觉察自己的预设并且进行调整，谨言
2018-12-07 旅一06丁琪琪
旅管一班6组学号链接06丁琪琪16家国鑫26孟令慧30王思宁36温红丽46朱赵筱楠
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
《度五行》生活报报甲午62：不通痛苦，太通也痛苦，要健康快乐，需要通体舒畅。 YangduSam2021
220809壬寅戊申甲午，《度.生活五行》:天干土克水，水生木，木克土。地支寅申冲，寅午合。20220809，周二，兴大上海六班2512天，西交大2013上海班3212天，后TA15332天，度生活619天，今天拜访了一家有趣且当红产业的新创公司AK。AK一开始从事深海新能源储存与供电设备的研发生产制造，2年前开始做移动与家庭储能设备的研发生产制造。觉得有趣是因为这是笔者认知里用科技做降维打击的公
多子女家庭问题 3e5c5362403c
杨宁宁焦点解决网络初17中19坚持分享589天（2021.3.20）本周约练我1次，总计166次，读书打卡第256天案例督导收获：【家有老大篇】被爱与高期待下的独舞家里的第一个孩子往往集万千宠爱于一身。爸爸妈妈、爷爷奶奶、姥姥姥爷的目光都聚焦在他的身上。在这种光环下长大的孩子，就如小皇帝一般，衣来伸手、饭来张口。拥有爱的同时，也意味着拥有了更高的被期待，父母会花血本给你报各种各样的早教班，给你买各
九月班级管理工作反思追梦蜂
这个月应该算是最难的一个月，我已N年没当班主任，然后我又开始当了。职称是一方面，想到我如果退休了，不能再接触学生了，那该是多么遗憾的事！我的学生梁*铭是我的榜样，她那么努力，那么拼，那么上进，为什么我不行？虽然我面临的工作很难，但是高考数学也不容易。她拿下来了！满分150分她考了146分！我目睹她的艰辛，她的拼搏！还有，我要为我的孩子做榜样，如何竭尽全力，实现梦想。还有，服务，为社会做事，也是会有
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
【创客文案社】第三期写手招募筱瑶123
创客文案社第三期写手招募开始了。要求：1：注册一个月以上2：本身热爱写作3：有时间参与接单投稿参与方式：可以关注公众号：写作灵感；也可以通过其他转发文章的文友帮忙拉入群；也可以简信我。参与之后的文友，会先进入新人班，进行基本的试稿与培训，先接一些比较简单的单子；在这里可以一边赚钱，一边学习。不知不觉，来三四个月了，也发现了很多很有意思的现象。1：在上写一篇文章，基本都是几毛钱，多的也不过几块钱的收
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
中学生父母的修养再简单不过了
我是一个中学生的父母，我有许多心情，偶尔彷徨，偶尔愤怒，偶尔欣喜，偶尔还会感伤，我彷徨的是。他仿佛瞬间长大了，失去了我的掌控，从而愤怒他不再和我那么亲近，第一次告诉我说，你根本就不懂我，欣喜的是，我经常看到的小一些人，已经以我察觉不到的速度慢慢的蜕变成一棵树，虽然不够枝繁叶茂，但是已经有很多分支，绿叶还有开叉了，我感觉自己并没有老去，但孩子却已经有自己的世界。他会说，不准随便进他的房间，不要乱问班
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
2022-04-07 静待花开1975
昨天因为收作业的事情狠狠批评了四班的三个课代表，其中一个觉得很委屈，直接要跟我撂挑子了，经我软硬兼施，又撤回了辞职的决定。今天早读课，刚进教室，发现作业就已经整整齐齐交上来，而且已经开始组织早读了。下午收积累本，也是很快就有了结果。看来，适当的批评还是有必要的，出错不怕，怕的是不吸取经验教训，一错再错。
李小珍嵩县焦点初级班二期坚持分享第8天2019.3.6 快乐的老黄牛
换一个角度思考－－没有一件事只有负面意义当我们遭遇困境时，往往将眼光集中在所失去或是不好的部分，殊不知，每件事的发生都是上天给我们的礼物，只是有的礼物包装得丑陋，不合你的意或是让你的情绪低落，感到挫败罢了。很多事情都不是我们看到，所听到的那样，换种角度去思维，去看事情，会见到不同或是较深层次的那样？
翰林学府大一班观察日记——我是最棒的 CherishH
观察时间：近一周观察地点：教室户外观察对象：王雨珍观察教师：郇秀恒观察实录：开学以来，王雨珍小朋友一直都是一个很文静的小女孩，总是一个人静静的坐在那里，只有周围的小朋友带动她，她才会慢慢的发言，融入小集体。早上还哭哭啼啼的找妈妈，不愿意与妈妈分开，区域活动的时候也是站在哪看其他小朋友玩了一会，才融入进来，是个性格很内向的宝贝。慢慢走过来，说老师…我也想玩，老师给穿上小画衣以后，开心的画起来啦而且很
329王不林【1期3班】刻意练习day15 王不林不林
【分析】1、描写对象是母亲，她已年迈，她常做的事，是摇纺车。2、开头运用听觉，引发联想以及比喻，并为下文写母亲摇纺车做了铺垫。3、写院子和露水，表明了地点和时间。4、描写人时，运用了很多动词，比如摇、垫、屈、压，使摇纺车这个动作更加形象。5、运用了比喻，说母亲摇纺车的这个声音是乡曲。表达了思乡，思念母亲。【刻意练习】如今，我一听见“喵~喵~”的声音，脑子里便浮现出一只小猫，软软的，像那织围巾的毛线
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
阿里巴巴商品搜索API返回值实战解析 weixin_43841111 api java 前端 javascript
在解析阿里巴巴中国站商品搜索API返回值并进行实战时，可以从以下几个方面入手：一、了解API返回值的结构基本信息返回值通常包含商品的标题、价格、库存、图片链接等基本信息。这些信息对于了解商品的概况非常重要。例如，商品标题可以让你快速了解商品的名称和特点，价格信息可以帮助你进行价格比较和成本核算。详细描述可能包括商品的详细描述、规格参数、使用方法等。这些信息对于深入了解商品的特性和功能非常有帮助。比
让你过得越来越好的几点建议素缘之美
越拼的人因为身边的人很拼或者很优秀，所以，一定要挤进优秀的圈子越长大，我们感觉与人的差距越大，于是就狠下心来，报名各种培训班来学习，或者买各种励志成长的书来看再懒的人都有上进的时候，与其未来我们学不动的时候学，还不如乘现在逼自己一把，努力的去学习提升自己10年，20年后，你就能在优秀的圈子里混的顺风顺水这是永久不变的规律！！！不是鸡汤，社会在进步，你不去学习，不进步你会被淘汰的养成主动学习习惯，逼
《教育信息化2.0素养提升》思考与总结———2019兴成长4⃣️班宁都5940李娟
迎来了美好的假期生活。你可以放松。但是不可以向自己的惰性妥协。你决定不了太阳几点升起，但你可以决定你何时起床。暑假前一个星期很喜欢这样的生活。上午逛逛超市，中午陪爸妈吃饭。下午午觉或者看看书。洗洗衣服干干活。晚上七点钟开始去上课。晚上回来看看电视。熬夜、这样的生活。没有压力。没有目的。没有成果。看似乎一切都可以。这样的生活最多只能过一个星期。暑假的第一个星期学校就开始安排个为教师的素养提升以及自身
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。