airfan92

分布式空间分析引擎-Simba架构分析与源码阅读之SpatialJoin实现与总结

在分区器和索引部分铺垫了很多，其实Simba中Spatial join算子的部分是真正利用前面的结构来有效降低计算量的逻辑，也是simba最大的亮点。simba主要实现了三类spatial join算子：

KNN query：select * from table IN KNN ($target) within ($k);

Distance join：SELECT * FROM R JOIN S ON (R.x - S.x) * (R.x - S.x) + (R.y - S.y) * (R.y - S.y)
<= 10.0 * 10.0

KNN join：SELECT * FROM point1 AS p1 KNN JOIN point2 AS p2 ON POINT(p2.x, p2.y) IN KNN(POINT(p1.x, p1.y), 10).
出于篇幅原因，本章会对每类算子选择一个算子具体讲述代码和算法原理，对于其余算子仅会分析代码实现，具体的算法原理可以参考simba的论文。在本章的介绍中，会把参数join的两部分数据分别用leftRDD和rightRDD表示。

KNN Query

Simba基于two-level index对KNN Query进行了特别的优化，值得注意的是，不同的索引对于KNN Query的优化方式有所不同，作者所实现的效果最好的KNN算子需要配合提前建立RTree索引。另外KNN query算子并没有作为单独一个类出现，KNN query部分代码放在了org.apache.spark.sql.simba.index.IndexedRelationScan类的doExceute()函数的RTreeIndexedRelation优化逻辑的部分，在由physicalPlan生成RDD的时候执行。KNN Query算子的主要逻辑如下：

1）首先会根据global index未给定点找到最近的几个partition，然后调用knnGlobalPrune方法粗略找到第一个KNN候选集。在knnGlobalPrune方法中会首先调用PartitionPruningRDD，基于给定的paritionID裁剪不满足要求的partition；然后在裁剪后的每个分区内部调用local inedx的KNN方法找到最近的k个点，再把每个裁剪分区的k个点进行归并，去距离最近的k个，生成候选集tmp_ans，并计算候选集与点之间的距离theta作为第二次的裁剪；

def knnGlobalPrune(global_part: Set[Int]): Array[InternalRow] = {
                  val pruned = new PartitionPruningRDD(rtree._indexedRDD, global_part.contains)
                  pruned.flatMap{ packed =>
                    var tmp_ans = Array[(Shape, Int)]()
                    if (packed.index.asInstanceOf[RTree] != null) {
                      tmp_ans = packed.index.asInstanceOf[RTree]
                        .kNN(query_point, k, keepSame = false)
                    }
                    tmp_ans.map(x => packed.data(x._2))
                  }.takeOrdered(k)(ord)
                }
                // first prune, get k partitions, but partitions may not be final partitions
                val global_part1 = rtree.global_rtree.kNN(query_point, k, keepSame = false).map(_._2).toSet
                val tmp_ans = knnGlobalPrune(global_part1) // to get a safe and tighter bound
                val theta = evalDist(tmp_ans.last, query_point, column_keys, rtree.isPoint)

采用上面这样的逻辑的原因是：首先选择与目标点最近的、含有至少k个点的partition，以这些parition到目标点的最远距离theta作为裁剪依据。到目标点的距离大于theta的分区内的点一定不属于到目标点最近的k个点。

上图中每个矩形代表一个数据分区，步骤1）就是找到深灰色的部分，并计算红色圆形的半径，深灰色内至少含有k点，所以到目标点最近的k个点一定全部位于红色圆形内的部分，也就一定位于浅灰色的分区内，步骤2）就是找到浅灰色分区的部分。

2）计算到半径theta之后，simba会调用global index的circleRange方法找到半径为theta圆相交的partitionID，进行裁剪得到第二个候选集tmp_knn_res；第3行部分的逻辑可以看做一个懒加载，如果两部分重合就不再计算，不重合说明数据可能位于红色圈内、深灰色矩形之外，需要继续计算。

val global_part2 = rtree.global_rtree.circleRange(query_point, theta).
                  map(_._2).toSet -- global_part1
val tmp_knn_res = if (global_part2.isEmpty) tmp_ans
                else knnGlobalPrune(global_part2).union(tmp_ans).sorted(ord).take(k)

3）在裁剪失败（候选集为空）或者上一步的结果大于给定阈值的场景下，会尝试利用global index的range方法计算所有与给定点的MBR相交的部分进行计算。

var global_part = rtree.global_rtree.range(queryMBR).map(_._2).toSeq
              if (cir_ranges.nonEmpty){ // circle range
                global_part = global_part.intersect(
                  rtree.global_rtree.circleRangeConj(cir_ranges).map(_._2)
                )
              }
val pruned = new PartitionPruningRDD(rtree._indexedRDD, global_part.contains)

Distance Join

Distance Join部分代码位于org.apache.spark.sql.simba.execution.join包中，实现了DJSpark、CDJSpark、RDJSpark、BDJSpark四类Distance Join算子。

DJSpark

DJSpark的思路与SpatialHadoop的思路一致：1）分别对参与join的leftRDD和rightRDD按key值进行分桶；2）对各个分桶内的数据做两两组合，每个分桶的数据与其他分桶数据组合做nested loop join；3）数据合并。对应地simba中的算法实现如下：

1）分别把leftRDD和rightRDD进行STR分区（对应于hadoop的分桶），并对rightRDD建立RTree索引：

val (left_partitioned, left_mbr_bound) = STRPartition(left_rdd, dimension, num_partitions,
      sample_rate, transfer_threshold, max_entries_per_node)
val (right_partitioned, right_mbr_bound) = STRPartition(right_rdd, dimension, num_partitions,
      sample_rate, transfer_threshold, max_entries_per_node)
val right_rt = RTree(right_mbr_bound.zip(Array.fill[Int](right_mbr_bound.length)(0))
      .map(x => (x._1._1, x._1._2, x._2)), max_entries_per_node)

2）对与leftRDD的每个数据分区，根据RTree索引找到rightRDD中所有距离小于给定值的分区，并对这些分区对进行编号（tot）：

left_mbr_bound.foreach { now =>
      val res = right_rt.circleRange(now._1, r)
      val tmp_arr = mutable.ArrayBuffer[Int]()
      res.foreach {x =>
        if (right_dup(x._2) == null) right_dup(x._2) = Array(tot)
        else right_dup(x._2) = right_dup(x._2) :+ tot
        tmp_arr += tot
        tot += 1
      }
      left_dup(now._2) = tmp_arr.toArray
    }

3）对leftRDD和rightRDD的数据分区按归属于哪些分区对进行重分区，依据步骤2）生成的分区对编号生成左右两个新分区left_dup_partitioned和right_dup_partitioned，并执行zipPartitions算子，对相同编号的两个分区进行聚合：

val left_dup_rdd = left_partitioned.mapPartitionsWithIndex { (id, iter) =>
      iter.flatMap {now =>
        val tmp_list = bc_left_dup.value(id)
        if (tmp_list != null) tmp_list.map(x => (x, now))
        else Array[(Int, (Point, InternalRow))]()
      }
    }
    val right_dup_rdd = right_partitioned.mapPartitionsWithIndex { (id, iter) =>
      iter.flatMap {now =>
        val tmp_list = bc_right_dup.value(id)
        if (tmp_list != null) tmp_list.map(x => (x, now))
        else Array[(Int, (Point, InternalRow))]()
      }
    }
    val left_dup_partitioned = MapDPartition(left_dup_rdd, tot).map(_._2)
    val right_dup_partitioned = MapDPartition(right_dup_rdd, tot).map(_._2)
    left_dup_partitioned.zipPartitions(right_dup_partitioned) {(leftIter, rightIter) =>
      val ans = mutable.ListBuffer[InternalRow]()
      val right_data = rightIter.toArray
      if (right_data.nonEmpty) {
        val right_index = RTree(right_data.map(_._1).zipWithIndex, max_entries_per_node)
        leftIter.foreach {now =>
          ans ++= right_index.circleRange(now._1, r)
            .map(x => new JoinedRow(now._2, right_data(x._2)._2))
        }
      }
      ans.iterator
    }

CDJSpark

CDJSpark是一种基于笛卡尔积的Distance Join算法，实现思路非常简单：

left.execute().cartesian(right.execute()).mapPartitions { iter =>
      val joinedRow = new JoinedRow
      iter.filter { row =>
        val point1 = ShapeUtils.getShape(left_key, left.output, row._1).asInstanceOf[Point]
        val point2 = ShapeUtils.getShape(right_key, right.output, row._2).asInstanceOf[Point]
        point1.minDist(point2) <= r
      }.map(row => joinedRow(row._1, row._2))
    }

先进行笛卡尔积，然后根据是否满足DIstance条件对结果filter。

RDJSpark

RDJSpark是simba的基于two-level index实现的Distance Join方法，实现思路如下：

1）将leftRDD基于STR分区器进行分区，并在划分出的MBR块上建立RTree索引：

val (left_partitioned, left_mbr_bound) =
      STRPartition(left_rdd, dimension, num_partitions, sample_rate,
        transfer_threshold, max_entries_per_node)
    val left_part_size = left_partitioned.mapPartitions {
      iter => Array(iter.length).iterator
    }.collect()
    val left_rt = RTree(left_mbr_bound.zip(left_part_size).map(x => (x._1._1, x._1._2, x._2)),
      max_entries_per_node)

2）将建立的global index广播出去：
val bc_rt = sparkContext.broadcast(left_rt)

3）leftRDD的通过索引为rightRDD每个数据点找到距离满足条件的候选MBR，生成right_dup=>(left partitionID, candidate point)；

val right_dup = right_rdd.flatMap {x =>
      bc_rt.value.circleRange(x._1, r).map(now => (now._2, x))
    }

4）leftRDD与rightRDD执行zippartition算子，在同一个数据分区内的数据，通过local index进行distance join。

BDJSpark

BDJSpark的思路与DJSpark的思路基本一致，可以看做是DJSpark的弱化版，因为在BDJSpark中仅仅将数据分桶两两组合，但并没有建立Rtree索引进行加速。代码逻辑如下：

1）数据分桶（分区），并将分桶两两组合：

val tot_rdd = left.execute().map((0, _)).union(right.execute().map((1, _)))
    val tot_dup_rdd = tot_rdd.flatMap {x =>
      val rand_no = new Random().nextInt(num_partitions)
      var ans = mutable.ListBuffer[(Int, (Int, InternalRow))]()
      if (x._1 == 0) {
        val base = rand_no * num_partitions
        for (i <- 0 until num_partitions)
          ans += ((base + i, x))
      } else {
        for (i <- 0 until num_partitions)
          ans += ((i * num_partitions + rand_no, x))
      }
      ans
    }
    val tot_dup_partitioned = MapDPartition(tot_dup_rdd, num_partitions * num_partitions)

2）每个分桶对进行nested loop join:

left_data.foreach {left =>
        right_data.foreach {right =>
          if (left._1.minDist(right._1) <= r) {
            joined_ans += new JoinedRow(left._2, right._2)
          }
        }
      }

相比于CDJSpark仅仅是做了下分区，没有做笛卡尔积。

KNN Join

KNN Join的代码位于org.apache.spark.sql.simba.execution.join包中，实现了CKJSpark、RKJSpark、BKJSpark、VKJSpark、ZKJSpark五类KNN Join算子。

BKJSpark

BKJSpark的思路是将数据进行分桶，然后将分桶两两组合进行数据分区内的过滤计算。代码逻辑如下：

1）数据分桶（分区），并将分桶两两组合：

val tot_rdd = left.execute().map((0, _)).union(right.execute().map((1, _)))
    val tot_dup_rdd = tot_rdd.flatMap {x =>
      val rand_no = new Random().nextInt(num_partitions)
      val ans = mutable.ListBuffer[(Int, (Int, InternalRow))]()
      if (x._1 == 0) {
        val base = rand_no * num_partitions
        for (i <- 0 until num_partitions)
          ans += ((base + i, x))
      } else {
        for (i <- 0 until num_partitions)
          ans += ((i * num_partitions + rand_no, x))
      }
      ans
    }
    val tot_dup_partitioned = MapDPartition(tot_dup_rdd, num_partitions * num_partitions)

2）对每个分桶对内的数据两两组合，计算KNN，并通过reduceByKey算子聚合KNN结果：

left_data.foreach(left => {
        var pq = new BoundedPriorityQueue[(InternalRow, Double)](k)(new DisOrdering)
        right_data.foreach(right => pq += ((right._2, right._1.minDist(left._1))))
        joined_ans += ((left._2, pq.toArray))
      })
      joined_ans.iterator
    }.reduceByKey((left, right) => (left ++ right).sortWith(_._2 < _._2).take(k), num_partitions)
      .flatMap {
        now => now._2.map(x => new JoinedRow(now._1, x._1))
      }

CKJSpark

CKJSpark的思路是对leftRDD与rightRDD进行笛卡尔积来计算KNN结果：1）leftRDD与rightRDD计算笛卡尔积；2）笛卡尔积的结果计算每对left tuple与right tuple的距离；3）执行reduceByKey对于leftRDD的每个key找到距离最小的k个right key。

override protected def doExecute(): RDD[InternalRow] = {
    val left_rdd = left.execute()
    val right_rdd = right.execute()
    left_rdd.map(row =>
      (ShapeUtils.getShape(left_key, left.output, row).asInstanceOf[Point], row)
    ).cartesian(right_rdd).map {
      case (l: (Point, InternalRow), r: InternalRow) =>
        val tmp_point = ShapeUtils.getShape(right_key, right.output, r).asInstanceOf[Point]
        l._2 -> List((tmp_point.minDist(l._1), r))
    }.reduceByKey {
      case (l_list: Seq[(Double, InternalRow)], r_list: Seq[(Double, InternalRow)]) =>
        (l_list ++ r_list).sortWith(_._1 < _._1).take(k)
    }.flatMapValues(list => list).mapPartitions { iter =>
      val joinedRow = new JoinedRow
      iter.map(r => joinedRow(r._1, r._2._2))
    }
  }

RKJSpark

RKJSpark是基于simba的two-level index实现的KNN join算子，他的主要思路如下：

1）对leftRDD基于STR分区器进行分区，对rightRDD进行抽样并建立RTree索引：

val right_sampled = right_rdd
      .sample(withReplacement = false, sample_rate, System.currentTimeMillis())
      .map(_._1).collect().zipWithIndex
    val right_rt = RTree(right_sampled, max_entries_per_node)
    val dimension = right_sampled.head._1.coord.length
    val (left_partitioned, left_mbr_bound) =
      STRPartition(left_rdd, dimension, num_partitions, sample_rate,
        transfer_threshold, max_entries_per_node)

2）在已经被分区的leftRDD的每个分区内部基于STR算法重新划分MBR，这是为了缩小MBR的划分粒度，达到更好的优化效果。

val refined_mbr_bound = left_partitioned.mapPartitionsWithIndex {(id, iter) =>
      if (iter.hasNext) {
        val data = iter.map(_._1).toArray
        def recursiveGroupPoint(entries: Array[Point], cur_dim: Int, until_dim: Int)
        : Array[(Point, Double)] = {
          val len = entries.length.toDouble
          val grouped = entries.sortWith(_.coord(cur_dim) < _.coord(cur_dim))
            .grouped(Math.ceil(len / dim(cur_dim)).toInt).toArray
          if (cur_dim < until_dim) grouped.flatMap(now => recursiveGroupPoint(now, cur_dim + 1, until_dim))
          else grouped.map {list =>
            val min = new Array[Double](dimension).map(x => Double.MaxValue)
            val max = new Array[Double](dimension).map(x => Double.MinValue)
            list.foreach { now =>
              for (i <- min.indices) min(i) = Math.min(min(i), now.coord(i))
              for (i <- max.indices) max(i) = Math.max(max(i), now.coord(i))
            }
            val mbr = MBR(new Point(min), new Point(max))
            var cur_max = 0.0
            list.foreach(now => {
              val cur_dis = mbr.centroid.minDist(now)
              if (cur_dis > cur_max) cur_max = cur_dis
            })
            (mbr.centroid, cur_max)
          }
        }
        recursiveGroupPoint(data, 0, dimension - 1).map(x => (x._1, x._2, id)).iterator
      } else Array().iterator
    }.collect()

3）为步骤2）中生成的每个mbr依据RTree索引计算过滤阈值，过滤阈值的计算方法涉及复杂证明，请参照原论文：

val theta = new Array[Double](refined_mbr_bound.length)
    for (i <- refined_mbr_bound.indices) {
      val query = refined_mbr_bound(i)._1
      val knn_mbr_ans = right_rt.kNN(query, k, keepSame = false)
      theta(i) = knn_mbr_ans.last._1.minDist(query) + (refined_mbr_bound(i)._2 * 2.0)
    }

4）rightRDD过滤在任一mbr的theta阈值范围内的数据并重分区，使分区id与leftRDD一致：

val right_dup = right_rdd.flatMap(x => {
      var list = mutable.ListBuffer[(Int, (Point, InternalRow))]()
      val set = new mutable.HashSet[Int]()
      for (i <- refined_mbr_bound.indices) {
        val pid = refined_mbr_bound(i)._3
        if (!set.contains(pid) && refined_mbr_bound(i)._1.minDist(x._1) < bc_theta.value(i)) {
          list += ((pid, x))
          set += pid
        }
      }
      list
    })
val right_dup_partitioned = MapDPartition(right_dup, left_mbr_bound.length).map(_._2)

5）对leftRDD与过滤后的rightRDD执行zipPartition算子，在每个分区内部基于RTree索引进行KNN运算，汇总得到最终计算结果：

left_partitioned.zipPartitions(right_dup_partitioned) {
      (leftIter, rightIter) =>
        val ans = mutable.ListBuffer[InternalRow]()
        val right_data = rightIter.toArray
        if (right_data.length > 0) {
          val right_index = RTree(right_data.map(_._1).zipWithIndex, max_entries_per_node)
          leftIter.foreach(now =>
            ans ++= right_index.kNN(now._1, k, keepSame = false)
              .map(x => new JoinedRow(now._2, right_data(x._2)._2))
          )
        }
        ans.iterator
    }

VKJSpark

VKJSpark的思路与RKJSpark有类似之处：首先对数据分区，然后为leftRDD的每个分区，根据rightRDD的分区与该分区的最小距离是否大于本分区内找到的KNN阈值找到匹配的数据分区集合，然后对leftRDD的每个数据分区与对应找到的分区集合计算结果并汇总。其代码逻辑如下：

1）对数据进行分区，Voronoi diagram是地理领域一个非常经典的空间划分方法：

val pivots = generatePivots(left_rdd.map(_._1).union(right_rdd.map(_._1)), num_of_pivots)
    val bc_pivots = sparkContext.broadcast(pivots)
    val left_with_pivots = left_rdd.mapPartitions(iter => iter.map(x => {
      var nearestDist = Double.MaxValue
      var ans = -1
      val point = x._1
      val local_pivots = bc_pivots.value
      for (i <- local_pivots.indices){
        val dist = point.minDist(local_pivots(i))
        if (dist < nearestDist) {
          nearestDist = dist
          ans = i
        }
      }
      (ans, x)
    }))
    val right_with_pivots = right_rdd.mapPartitions(iter => iter.map(x => {
      var nearestDist = Double.MaxValue
      var ans = -1
      val point = x._1
      val local_pivots = bc_pivots.value
      for (i <- local_pivots.indices){
        val dist = point.minDist(local_pivots(i))
        if (dist < nearestDist) {
          nearestDist = dist
          ans = i
        }
      }
      (ans, x)
    }))
    // calculate the number of records in every partition of the left table
    val cell_size = left_with_pivots.aggregate(Array.fill[Int](num_of_pivots)(0))((tmp, now) => {
      tmp(now._1) += 1
      tmp
    }, (left, right) => {
      left.zip(right).map(x => x._1 + x._2)
    })
    val (grouping, pivot_to_group) = geoGrouping(pivots, cell_size, num_partitions)
    val left_partitioned = VoronoiPartition(left_with_pivots, pivot_to_group, num_partitions)
    val right_partitioned = VoronoiPartition(right_with_pivots, pivot_to_group, num_partitions)

首先生成给定数目的轴值：先随机生成第一个轴值，然后每次选取与选定轴值较远的点作为下一个轴值，直至得到所有的轴值。然后分别对leftRDD与rightRDD根据与各个轴值的远近划定分区。

2）然后为leftRDD的每个分区，根据rightRDD的分区与该分区的最小距离是否大于本分区内找到的KNN阈值找到匹配的数据分区集合。由于leftRDD与rightRDD由相同轴值、相同pivot_to_group数组进行分区，所以每个分区的数据具有相同的数据域和分区id。

val right_dup = right_partitioned.mapPartitions{iter => {
      var ans = mutable.ListBuffer[(Int, ((Point, Int), InternalRow))]()
      while (iter.hasNext) {
        val now = iter.next()
        for (left <- 0 until num_partitions)
          if (now._2._1.minDist(bc_pivots.value(now._1)) >= lower_bounds(left)(now._1)) {
            ans += ((left, ((now._2._1, now._1), now._2._2)))
          }
      }
      ans.toArray.iterator
    }}

3）对leftRDD与rightRDD执行zipPartition算子，在同分区内进行计算，并汇总结果。
总结来说，个人认为VKJSpark相对于RKJSpark的劣势有两点：

轴值与分区数的选定存在很大随机性，且很大影响算法性能；

基于数据分区整体距离的分区过滤方法与RKJSpark相比存在劣势，且需要进行比较多的预计算。

ZKJSpark

ZKJSpark是一个非常有趣的KNN Join算法，最终是由李飞飞等人在2012年提出，发表在论文《Efficient Parallel kNN Joins for Large Data in MapReduce》中，simba中基于Spark实现了这个算法。之前介绍的几种算法面向的场景是准确计算KNN的结果，而ZKJSpark面向的场景则是快速给出KNN的一个估计结果，所给出的结果与真实结果差异较小。

ZKJSpark算法的主要思路是：1）将高维数据通过ZValue转化为一维数据；2）将一维数据排序分组，对于leftRDD每个分组的数据，根据ZValue结果二分查找到KNN范围对应的rightRDD分组集合；3）将每个leftRDD分区与找到的rightRDD分区集合的数据组合计算，并汇总KNN结果；4）将原始的leftRDD与rightRDD进行多次移位，防止ZValue的突变破坏数据聚集性，并将多次移位的结果汇总。下面结合代码详细介绍这种算法的逻辑：

1）首先生成一种随机移位矩阵，移位矩阵的维度为设定的移位次数参数；

private def genRandomShiftVectors(dimension : Int, shift : Int): Array[Array[Int]] = {
    val r = new Random(System.currentTimeMillis)
    val ans = Array.ofDim[Int](shift + 1, dimension)
    for (i <- 0 to shift)
      for (j <- 0 until dimension) {
        if (i == 0) ans(i)(j) = 0
        else ans(i)(j) = Math.abs(r.nextInt(100))
      }
    ans
  }

2）对数据进行移位，并对移位的数按上述算法逻辑计算KNN结果：

var joined_rdd = zKNNPerIter(left_rdd, right_rdd, k, shift_vec(0))
    for (i <- 1 to num_shifts)
      joined_rdd = joined_rdd.union(zKNNPerIter(left_rdd, right_rdd, k, shift_vec(i)))

3）对多次移位得到的数据调用reduceByKey算子，去重以及取距离最近的前k个得到最终结果。

joined_rdd.reduceByKey((left, right) =>
      (left ++ right).distinct.sortWith(_._2 < _._2).take(k), num_partition).flatMap(now => {
      val ans = mutable.ListBuffer[InternalRow]()
      now._2.foreach(x => ans += new JoinedRow(now._1, x._1))
      ans
    })

接口层设计

Simba的接口层对Spark sql的SparkSession 和sessionState类进行了封装，所以在API层面能够完全复用spark DataSet的原生SQL查询的API。除此之外，simba还基于SQLDataSet重写了自己的DataSet类，使simba通过DataSet类调用spatial join算子。所以simba支持sql两种调用方式：

1）封装SQLDataSet而带来的Spark SQL原生的sql调用方式：
val res = simba.sql("SELECT * FROM b")

2）通过重写DataSet类而为spatial类算子增加的DataSet API类调用方式：

import simbaSession.implicits._
    import simbaSession.simbaImplicits._
    val ps = (0 until 10000).map(x => PointData(Point(Array(x.toDouble, x.toDouble)), x + 1)).toDS
    ps.knn("p", Array(1.0, 1.0), 4).show()

分析与总结

Simba的内容大体介绍完了，可以看出simba的几乎所有优化，包括分区器、索引、谓词下推等等，都是面向spatial join服务的，所以这里重点针对spatial join做个总结。

图4 spatial join类算法的分桶、组合计算、归并结合的通用做法示意

总结来说，simba在spatial operator的解决思路既与其他空间计算引擎有类似之处：对参与运算数据分区（分桶），将数据分区进行组合计算，合并结果。也通过自己的two-level机制，通过索引或者ZValue排序去除了一部分无需参与运算的分区组合（对比于基础方案直接将分区两两组合，对所有的分区组合计算），从而进一步减少了计算量。这种思想是值得借鉴的。

个人觉得Simba也有一些可能需要改进的地方：

1）有很多需要调节的参数，这些参数会极大地影响性能，然而又需要根据具体数据集仔细设定，比如：生成分区数，构建索引时的取样率，树索引构建时的单节点容量、分区器单分组内的最大数据量等。

2）simba在生成分区，构建索引的时候会做随机抽样，抽取数据的均匀性会影响索引的构建质量、分区的划分合理性等等。这就给结果带来了一定的随机性，可能多次查询之间的性能差异很大。

在设定了合适的参数，随机抽样的结果能很好地反应数据整体分布的情况下，理论上数据分布的越均匀，simba相对于常规算法（数据分桶，组合运算）的优势会越明显；数据热点问题越严重，simba的优势会越小一些。

你可能感兴趣的:(#,Simba,Spark,SQL,分布式,空间计算,OLAP)

求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
理解TCP连接中的进程阻塞与CPU调度机制 109702008 编程 #C语言网络 tcp/ip 网络人工智能
引言在计算机网络通信中，TCP连接的建立是一个经典的三次握手过程。当用户调用connect()函数发起连接时，内核会发送SYN报文并等待对方的SYN-ACK响应。此时，调用进程通常会进入阻塞状态，暂停执行直至连接成功或超时。这一机制看似简单，但其背后的内核实现却涉及进程调度、等待队列管理和CPU资源分配等复杂操作。本文将深入探讨阻塞状态的实现原理，并解析CPU在进程阻塞期间的行为。一、进程阻塞的实
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
计算机网络技术 CZZDg 计算机网络
目录一.网络概述1.网络的概念2.网络发展是3.网络的四要素4.网络功能5.网络类型6.网络协议与标准7.网络中常见的概念8.网络拓补结构二.网络模型1.分层思想2.OSI七层模型3.TCP/IP五层模型4.数据的封装与解封装过程三.IP地址1.进制转换2.IP地址定义3.IP地址组成成分4.IP地址分类5.地址划分6、相关概念一.网络概述1.网络的概念两个主机通过传输介质和通信协议实现通信和资源
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
C++设计秘籍：为什么所有参数都需类型转换时，非成员函数才是王道？讳疾忌医丶 c++前端开发语言
当所有参数都需要类型转换时，为什么要选择非成员函数？在C++的世界里，有一个看似简单却蕴含深意的设计原则：当所有参数（包括被this指针所指的那个隐式参数）皆须进行类型转换时，请为此采用非成员函数实现。这个原则背后隐藏着C++类型系统的精妙设计，也揭示了成员函数与非成员函数在处理隐式类型转换时的本质差异。想象一下，你正在设计一个数学计算库，需要支持整数与有理数的混合运算。如果你天真地将所有操作都实
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
【unity编辑器开发与拓展EditorGUILayoyt和GUILayoyt】死也不注释 Unity编辑器开发与拓展笔记 unity 编辑器游戏引擎
EditorGUILayout与GUILayout的核心区别及使用场景详解一、对比表特性GUILayoutEditorGUILayout命名空间UnityEngineUnityEditor使用场景运行时UI+编辑器扩展仅限编辑器扩展控件风格基础游戏风格（无编辑器优化）原生Unity编辑器风格布局复杂度基础流式布局高级自动布局（带标签对齐/间距优化）序列化支持❌不支持✅直接支持SerializedP
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。