lisacumt

spark-单条记录含有多个号码的人员信息，把有交集号码的合并。

实现具体功能，如下图：

合并前的增量和历史数据有红色一对，和绿色一对的号码是相同的。

因此可以认定，id是 10001 和 10003 是同一人。10002和10004是同一人。

最终取较小的id作为人员id，分别是合并结果集中的10001 和 10002。两个最后合并后的人员均有7个（8-1）各号码。

（一）读取数据

具体读取数据库的代码需要自行取消注释（默认是本地测试状态）。

DatabaseToFilesystem.scala

import com.test.utils.{Constants, LocalFileUtils, PropertyUtil, StringUtil}
import org.apache.hadoop.io.compress.GzipCodec
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

import java.io.File
import java.util.Properties
import scala.collection.mutable
import scala.collection.mutable.Set

/**
 * 读取数据库的数据，把结果放到hdfs（如果使用本地测试则放置在项目目录下）的目录中
 * 生成forMerge目录
 * id：号码1 证件2 号码3 ...
 * idea本地调试参数：conf/test.properties tmp_data/preProcess/
 */
object DatabaseToFilesystem {
  def main(args: Array[String]): Unit = {
    val textFilePath = args(0)
    val hdfsPath = args(1)

    val properties = PropertyUtil.getProperties(textFilePath)
    val jdbcProps = new Properties()
    jdbcProps.put("url", properties.getProperty("url"))
    jdbcProps.put("driver", properties.getProperty("driver"))
    jdbcProps.put("user", properties.getProperty("user"))
    jdbcProps.put("password", properties.getProperty("password"))

    val sparkConf = new SparkConf()
    /**
     * 生产环境使用
     */
    //    val spark = SparkSession.builder().appName("Preprocess").enableHiveSupport().config(sparkConf).getOrCreate()
    //    测试需要在run configuration 添加参数：conf/test.properties tmp_data/preprocess

    //    分区表使用，用于加快数据读取
    val predicates =
      Array(
        "19900101" -> "20050101",
        "20050101" -> "20060101",
        "20060101" -> "20070101",
        "20070101" -> "20080101",
        "20080101" -> "20090101",
        "20090101" -> "20100101",
        "20100101" -> "20110101",
        "20110101" -> "20120101",
        "20120101" -> "20130101",
        "20130101" -> "20140101",
        "20140101" -> "20150101",
        "20150101" -> "20160101",
        "20160101" -> "20170101",
        "20170101" -> "20180101",
        "20180101" -> "20190101",
        "20190101" -> "20200101",
        "20200101" -> "20210101",
        "20210101" -> "20220101",
        "20220101" -> "20230101",
        "20230101" -> "20240101",
        "20240101" -> "20250101",
        "20250101" -> "20260101",
        "20260101" -> "20270101",
        "20270101" -> "20280101",
        "20280101" -> "20290101",
        "20290101" -> "20300101",
        "20300101" -> "20310101",
        "20310101" -> "20320101",
        "20320101" -> "20330101",
        "20330101" -> "20340101",
        "20340101" -> "20350101",
        "20350101" -> "20360101",
        "20360101" -> "20370101",
        "20370101" -> "20380101",
        "20380101" -> "20390101",
        "20390101" -> "20400101",
        "20400101" -> "20410101",
        "20410101" -> "20420101",
        "20420101" -> "20430101",
        "20430101" -> "20440101",
        "20440101" -> "20450101",
        "20450101" -> "20460101",
        "20460101" -> "20470101",
        "20470101" -> "20480101",
        "20480101" -> "20490101",
        "20490101" -> "20500101"
      ).map {
        case (start, end) =>
          s"slrq >= '$start'::date AND slrq < '$end'::date"
      }

    /**
     * 生产环境读取数据库
     *
     */
/*
    val increaseRdd: RDD[(String, mutable.Set[String])]
    = spark.read.jdbc(jdbcProps.getProperty("url"), tableName, predicates, jdbcProps).rdd.map(r => {
      val recordId = getStrDefault(r.getAs[String]("mr_id_sq"))
      val sfzh = getStrDefault(r.getAs[String]("sfzjxx"))
      val gazj = getStrDefault(r.getAs[String]("gazjxx"))
      val xczj = getStrDefault(r.getAs[String]("xczjxx"))
      var sbzj = getStrDefault(r.getAs[String]("sbzjxx"))
      val set = Set(sfzh, gazj, xczj, sbzj).filter(StringUtil.isNotNull(_))
      (recordId, set)
    }).filter(x => x._2 != null && !x._2.isEmpty).repartition(10).cache()
*/

    /**
     * 测试环境使用
     */
    val spark = SparkSession.builder().appName("Preprocess").master("local[*]").config(sparkConf).getOrCreate()
    val tableName = properties.getProperty("tableName")

    /**
     * 以下是测试代码
     * 手动生成数据
     */
    val sc = spark.sparkContext
    val resultPath = "tmp_data/result/history"
    LocalFileUtils.deleteDir(new File(resultPath))
    //  测试代码:初始化历史的内容-begin
    val histroyList = List(
      ("10001", Set("sfzh10001", "gazj10001", "xczj10001", "sbzj10001"))
    )
    val historyRdd = sc.makeRDD(histroyList)
    println("historyRdd: ")
    historyRdd.foreach(println)
    historyRdd.map(ele => {
      val id = ele._1
      val hmString = ele._2.toList.sorted.mkString(" ")
      id + ":" + hmString
    })
      .saveAsTextFile(resultPath, classOf[GzipCodec])
    //  测试代码:初始化历史的内容-end

    LocalFileUtils.deleteDir(new File(hdfsPath))
    val increaseList = List(
      ("10002", Set("sfzh10002", "gazj10002", "xczj10002", "sbzj10002"))
      , ("10003", Set("sfzh10001", "gazj10003", "xczj10003", "sbzj10003"))
      , ("10004", Set("sfzh10002", "gazj10004", "xczj10004", "sbzj10004"))
    )
    val increaseRdd = sc.makeRDD(increaseList) // 测试代码
    println("increaseRdd: ")
    increaseRdd.foreach(println)
    increaseRdd.map(ele => {
      val id = ele._1
      val hmSet = ele._2
      //  替换掉字符串中的空格
      val regStr = "\\s"
      val hmString = hmSet.map(hm => hm.replaceAll(regStr, "")).toList.sorted.mkString(" ")
      id + ":" + hmString
    })
      //      .saveAsTextFile(hdfsPath + "/merge", classOf[GzipCodec]);
      .saveAsTextFile(hdfsPath + "/forMerge", classOf[GzipCodec]); // 测试代码
  }

  def getStrDefault(str: String): String = {
    if (str == null) null else str
  }
}

（二）id聚合主程序

IDsMergeFunc.scala - 合并程序功能类

import com.test.utils.{Constants, LocalFileUtils, MD5Util, StringsRandom}
import org.apache.hadoop.io.compress.GzipCodec
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel

import java.util
import java.util.StringTokenizer
import scala.collection.mutable
import scala.collection.mutable.{ArrayBuffer, ListBuffer, Set}

class IDsMergeFunc {
  /*  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local[*]").setAppName("IDsMergeTesting")); // 测试代码
    sc.setLogLevel("WARN")
  }*/

  /**
   * 将 ID：号码1 号码2 号码3 ... 格式的数据解析成为RDD[String]): RDD[(String, mutable.Set[String])]的格式
   *
   * @param lineRdd
   * @return
   */
  def parseTextLine(lineRdd: RDD[String]): RDD[(String, mutable.Set[String])] = {
    lineRdd.map(line => {
      val lineArr = line.split(":")
      val id = lineArr(0)
      val hmsStr = lineArr(1)
      val hmsSet = new mutable.HashSet[String]()
      val st = new StringTokenizer(hmsStr)
      while (st.hasMoreTokens) {
        hmsSet += st.nextToken()
      }
      (id, hmsSet)
    })
  }

  /**
   * 将 号码 信息编码成为数字信息，见减小数据计算时候的内存占用量
   *
   * @param lineRdd            需要编码的rdd
   * @param defaultParallelism 并行度
   * @param idmergeOutput      数据输出根目录
   * @param threshould         阈值，用于过滤掉太长（异常的）的数据
   */
  def encodeIds(lineRdd: RDD[(String, (mutable.Set[String], String))], defaultParallelism: Int, idmergeOutput: String, threshould: Int): Unit = {
    val lineEncodingPath = idmergeOutput + "lineEncoded"
    val hmEncodingPath = idmergeOutput + "hmEncoded"
    //    lineRdd.foreach(println)

    val hmRdd: RDD[String] =
      lineRdd.map(ele => {
        val hmList = ele._2._1.toList
        hmList
      }).filter(hmList => hmList.length < threshould /*&& arr.length >1*/).flatMap(x => x)
        .repartition(defaultParallelism)
        .persist(StorageLevel.MEMORY_AND_DISK_SER);
    //    println("data-flatmap: ")
    //    data.flatMap(ele=>ele).zipWithIndex().sortBy(x=>x._2,ascending = true,numPartitions = 1).foreach(println)

    val hnEncodingRdd = hmRdd.distinct()
      .zipWithIndex()
      .repartition(defaultParallelism)
      .persist(StorageLevel.MEMORY_AND_DISK_SER);

    hnEncodingRdd.map {
      case (hm, code) =>
        s"$hm ${code.toInt}";
    }.saveAsTextFile(hmEncodingPath, classOf[GzipCodec]);

    val hmIdPair: RDD[(String, (String, String))] =
      lineRdd.flatMap(ele => {
        val id = ele._1
        val hmSet = ele._2._1
        val bz = ele._2._2
        val res = new mutable.ListBuffer[(String, (String, String))]
        for (hm <- hmSet) {
          res.append((hm, (id, bz)))
        }
        res
      }).partitionBy(new HashPartitioner(defaultParallelism))

    hmIdPair.join(hnEncodingRdd).map(e => {
      val hm = e._1
      val id = e._2._1._1
      val bz = e._2._1._2
      val idbz = id + "|" + bz
      val hmEncoding = e._2._2
      (idbz, hmEncoding)
    }).groupByKey(defaultParallelism)
      .map { case (idbz, hmArr) =>
        idbz ++ ":" ++ hmArr.toList.sorted.mkString(" ")
      }
      .saveAsTextFile(lineEncodingPath, classOf[GzipCodec]);
  }

  /**
   * 用于将 ID:编码号码1 编码号码2 编码号码3 ... 转化为 ID:号码1 号码2 号码3 ...
   *
   * @param idHmEncodedRawRdd   id和编码号码的的rdd
   * @param hmEncodedRawRdd     号码和编码号码的rdd
   * @param defaultParallelism  并行度
   * @param idmergeResultOutput 数据根目录
   * @param threshould          阈值
   */
  def decodeIds(idHmEncodedRawRdd: RDD[(String, mutable.Set[String])]
                , hmEncodedRawRdd: RDD[(String, String)]
                , defaultParallelism: Int, idmergeResultOutput: String, threshould: Int): Unit = {
    val idHmEncodedFlatRdd: RDD[(String, String)] =
      idHmEncodedRawRdd
        .flatMap(ele => {
          val id = ele._1
          val hmEncodedSet = ele._2
          val tmpArr = new ArrayBuffer[(String, String)]()
          for (hmEncoded <- hmEncodedSet) {
            tmpArr.append((hmEncoded, id))
          }
          tmpArr
        })
        .partitionBy(new HashPartitioner(defaultParallelism))
        .persist(StorageLevel.MEMORY_AND_DISK_SER);
    //    println("idHmEncodedFlatRdd: ")
    //    idHmEncodedFlatRdd.sortBy(x => (x._2, x._1), ascending = true, numPartitions = 1).foreach(println)

    val hmEncoderPreRdd: RDD[(String, String)] =
      hmEncodedRawRdd
        .map(ele => {
          val hm = ele._1
          val hmEncoded = ele._2
          (hmEncoded, hm)
        })
        .partitionBy(new HashPartitioner(defaultParallelism))
        .persist(StorageLevel.MEMORY_AND_DISK_SER);
    //    println("hmEncoderPreRdd: ")
    //    hmEncoderPreRdd.foreach(println)


    val rdd = idHmEncodedFlatRdd.join(hmEncoderPreRdd)
      .map(ele => {
        val id = ele._2._1
        val hm = ele._2._2
        //  此处转为含有单个号码的Set方便下一步进行聚合的，取集合的合集
        (id, Set(hm))
      })
    rdd.reduceByKey(_ ++ _)
      .filter(ele => {
        val hmSet = ele._2
        hmSet.size < threshould
      })
      .map(ele => {
        val id = ele._1
        val hmSet = ele._2.toList.sorted
        val idsSB = new StringBuilder();
        val hmString = hmSet.mkString(" ")
        val line = id + ":" + hmString
        line
      })
      //      .foreach(println)
      .saveAsTextFile(idmergeResultOutput + "new/", classOf[GzipCodec]);
  }

  /**
   * 历史和新增合并后并添加标志 "i"-新增的  或者  "h"-历史的
   *
   * @param historyLine        历史的已生成的id和号码的数据
   * @param increaseLine       需要新增计算的id和号码的数据
   * @param defaultParallelism 并行度
   * @return 历史和新增合并后的rdd(注意此处并不祛重，不涉及shuffer)
   */
  def idsMix(historyLine: RDD[(String, mutable.Set[String])], increaseLine: RDD[(String, mutable.Set[String])]
             , defaultParallelism: Int): RDD[(String, (mutable.Set[String], String))] = {
    var hisLine: RDD[(String, (mutable.Set[String], String))] = null
    var incLine: RDD[(String, (mutable.Set[String], String))] = null
    if (historyLine != null && !historyLine.isEmpty()) {
      hisLine = historyLine.map(ele => {
        val id = ele._1
        val hmSet = ele._2
        val bz = "h"
        (id, (hmSet, bz))
      })
    }
    if (increaseLine != null || !increaseLine.isEmpty()) {
      incLine = increaseLine.map(ele => {
        val id = ele._1
        val hmSet = ele._2
        val bz = "i"
        (id, (hmSet, bz))
      })
    }
    //    ready to encode hm information
    val preRdd: RDD[(String, (mutable.Set[String], String))] =
      hisLine.union(incLine).repartition(defaultParallelism)
    preRdd
  }

  /**
   * 主计算过程
   *
   * @param mixRdd             混合的数据（含历史的和新增的）
   * @param IDsMergeOutput     结果输出根路径
   * @param defaultParallelism 并行度
   * @param threshold          阈值
   */
  def idsMerge(mixRdd: RDD[(String, (mutable.Set[String], String))]
               , IDsMergeOutput: String, defaultParallelism: Int, threshold: Int) {
    val IDsMergeOutputPath = IDsMergeOutput + "loop"
    val idFlatRddInit: RDD[(String, (mutable.Set[String], String, Int, String))] =
      mixRdd.flatMap(ele => {
        val id = ele._1
        val bz = ele._2._2
        val hmSet = ele._2._1
        val tmpList = new ListBuffer[(String, (mutable.Set[String], String, Int, String))]
        for (hm <- hmSet) {
          tmpList.append((hm, (hmSet, id, 0, bz)))
        }
        tmpList
      }).repartition(defaultParallelism)

    var idFlatRdd = idFlatRddInit;
    var loopCount = 0;
    while (true) {
      //   pre_rdd:RDD[(String, (mutable.Set[String], Int, String))]
      //   聚合计算，并生成聚合次数。
      idFlatRdd = idFlatRdd
        .reduceByKey((x, y) => {
          //  两个set 相互聚合
          val xyset = x._1.union(y._1);
          val xySize = xyset.size;
          val xSize = x._1.size;
          val ySize = y._1.size;
          var id = ""
          var bz = ""
          if ("i".equals(x._4) && "i".equals(y._4)) {
            //  前后两条都代表（不一定是）增量数据，历史数据的id取较小者
            id = if (x._2 > y._2) y._2 else x._2
            bz = "i"
          } else if ("i".equals(x._4) && "h".equals(y._4)) {
            //  x代表增量数据，y是历史数据。有历史数据的id 优先使用历史数据id
            id = y._2
            bz = "h"
          } else if ("h".equals(x._4) && "i".equals(y._4)) {
            //  x代表历史数据，y是增量数据。有历史数据的id 优先使用历史数据id
            id = x._2
            bz = "h"
          } else if ("h".equals(x._4) && "h".equals(y._4)) {
            //  前后两条都代表（不一定是）历史数据，历史数据的id取较小者(遗留：这里会造成已经生成的Id消失的问题！！！)
            id = if (x._2 > y._2) y._2 else x._2
            bz = "h"
          }
          if (xySize.equals(xSize) || xySize.equals(ySize)) {
            (xyset, id, Math.max(x._3, y._3), bz)
          } else {
            (xyset, id, Math.min(x._3, y._3) + 1, bz)
          }
        })
        .cache();
      //   idsFlat.sortBy(x=>x._1,ascending = true,numPartitions = 1).foreach(println)

      //  对于循环次数超过聚合次数的情况，说明数据已经聚合完毕，需要落到磁盘。
      idFlatRdd
        //   .sortBy(x=>x._1,ascending = true,numPartitions = 1)
        .filter(f => {
          val mergeTimes = f._2._3
          (mergeTimes + 1).equals(loopCount) && f._2._1.size <= threshold;
        })
        .map(xo => {
          val id = xo._2._2
          val idList = xo._2._1.toList.sorted.mkString(" ")
          id + ":" + idList
        }).distinct()
        //   .sortBy(x=>x._1,ascending = true,numPartitions = 1).foreach(x=>println(loopCount+" -> "+x))
        .saveAsTextFile(IDsMergeOutput + f"loop-$loopCount%3d".replaceAll(" ", "0"), classOf[GzipCodec]);

      //   对于还需要继续进行聚合的数据需要进行裂变。
      idFlatRdd = idFlatRdd
        .filter(ele => {
          val mergeTimes = ele._2._3
          (mergeTimes + 1 >= loopCount) && ele._2._1.size < threshold
        }).flatMap(ele => {
        val arr = new ArrayBuffer[(String, (mutable.Set[String], String, Int, String))]()
        val hmSet = ele._2._1
        val id = ele._2._2
        val mergeTimes = ele._2._3
        val bz = ele._2._4
        hmSet.foreach(hm => {
          arr.append((hm, (hmSet, id, mergeTimes, bz)))
        })
        arr
      })
      //      println("final idsFlat.length: "+idsFlat.collect().length)
      //      idsFlat.sortBy(x=>(x._2._1.toString(),x._1),ascending = true,numPartitions = 1).foreach(x=>println(loopCount+" -> "+x))
      loopCount = loopCount + 1;
      if (idFlatRdd.isEmpty()) {
        //   退出条件
        return
      }
    }
  }

}

IDsMergeEntry.scala - 合并程序入口类

import com.test.utils.{Constants, LocalFileUtils}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
import com.test.IDsMergeInOne.IDsMergeFunc

import java.io.File
import java.util.StringTokenizer
import scala.collection.mutable

/**
 * 把有相同证件id的多条数据融合为1条数据，最终生成的数据在hdfs的new目录下
 * 生成数据格式 证件id1+空格+证件id2+....
 * idea本地调试参数：tmp_data/preProcess/ tmp_data/merge/ tmp_data/result/ 10
 */
object IDsMergeEntry {
  def main(args: Array[String]): Unit = {
    val incrPath = args(0)
    val idsMergeOutputParent = args(1)
    val resultPathParent = args(2)
    val threshold = args(3).toInt
    val incrFiles = incrPath + "forMerge/*.gz"
    val histFiles = resultPathParent + "history/*.gz"
    val newFiles=resultPathParent+"new/"

    //    val sc = new SparkContext( new SparkConf().setAppName("IDsMerge"));
    //    测试需要在run configuration
    //    添加参数：tmp_data/preprocess/forMerge/*.gz tmp_data/result/history/*.gz tmp_data/merge/ 10
    val sc = new SparkContext(new SparkConf().setMaster("local[*]").setAppName("IDsMerge")); // 测试代码
    sc.setLogLevel("WARN")
    LocalFileUtils.deleteDir(new File(idsMergeOutputParent))
    LocalFileUtils.deleteDir(new File(newFiles))

    val defaultParallelism = sc.defaultParallelism

    val worker = new IDsMergeFunc();

    val incrSrcRdd: RDD[String] = sc.textFile(incrFiles)
    val incrPreRdd: RDD[(String, mutable.Set[String])] = worker.parseTextLine(incrSrcRdd)
    //    println("incrPreRdd: ")
    //    incrPreRdd.foreach(println)
    //    (10003,Set(sbzj10003, gazj10003, sfzh10001, xczj10003))
    //    (10004,Set(xczj10004, gazj10004, sbzj10004, sfzh10002))
    //    (10002,Set(sfzh10002, xczj10002, sbzj10002, gazj10002))

    val histSrcRdd: RDD[String] = sc.textFile(histFiles)
    val histPreRdd: RDD[(String, mutable.Set[String])] = worker.parseTextLine(histSrcRdd)
    //    println("histPreRdd: ")
    //    histPreRdd.foreach(println)
    //    (10001,Set(gazj10001, xczj10001, sbzj10001, sfzh10001))


    val mixRdd: RDD[(String, (mutable.Set[String], String))] =
      worker.idsMix(histPreRdd, incrPreRdd, defaultParallelism)


    worker.encodeIds(mixRdd, sc.defaultParallelism, idsMergeOutputParent, threshold);

    val lineEncodedRawRdd: RDD[String] = sc.textFile(idsMergeOutputParent + "lineEncoded/*.gz")
    //    println("lineEncodedRawRdd: ")
    //    lineEncodedRawRdd.foreach(println)
    //    10002|i:1 4 6 10
    //    10004|i:6 7 9 12
    //    10003|i:2 3 5 11
    //    10001|h:0 2 8 13

    val lineEncodedPreRdd = worker.parseTextLine(lineEncodedRawRdd).map(line => {
      val idbz = line._1
      val idbzArr = idbz.split("\\|")
      val id = idbzArr(0)
      val bz = idbzArr(1)
      val hmEncodedSet = line._2
      (id, (hmEncodedSet, bz))
    })
    //    println("lineEncodedPreRdd: ")
    //    lineEncodedPreRdd.sortBy(ele => ele._1, ascending = true, numPartitions = 1).foreach(println)
    //    (10001,(Set(0, 8, 2, 13),h))
    //    (10002,(Set(4, 1, 10, 6),i))
    //    (10003,(Set(3, 5, 2, 11),i))
    //    (10004,(Set(9, 6, 7, 12),i))

    val hmEncodingRawRdd = sc.textFile(idsMergeOutputParent + "hmEncoded/*.gz");
    val hmEncodingPreRdd = hmEncodingRawRdd.map(line => {
      val lineArr = line.split(" ")
      val hm = lineArr(0)
      val hmEncoded = lineArr(1)
      (hm, hmEncoded)
    })
    //    println("hmEncodingPreRdd: ")
    //    hmEncodingPreRdd.sortBy(ele => ele._2.toInt, ascending = true, numPartitions = 1).foreach(println)
    //    (gazj10001,0)
    //    (xczj10002,1)
    //    (sfzh10001,2)
    //    (xczj10003,3)
    //    (gazj10002,4)
    //    (gazj10003,5)
    //    (sfzh10002,6)
    //    (xczj10004,7)
    //    (sbzj10001,8)
    //    (gazj10004,9)
    //    (sbzj10002,10)
    //    (sbzj10003,11)
    //    (sbzj10004,12)
    //    (xczj10001,13)

    worker.idsMerge(lineEncodedPreRdd, idsMergeOutputParent + "resultEncoded/", defaultParallelism, threshold);
    val resultEncodedRawRdd = sc.textFile(idsMergeOutputParent + "resultEncoded/*/*.gz");
    val resultEncodedPreRdd = worker.parseTextLine(resultEncodedRawRdd)
    //    println("resultEncodedPreRdd: ")
    //    resultEncodedPreRdd.sortBy(line=>line._1).foreach(println)
    //    (10001,Set(3, 0, 8, 5, 2, 13, 11))
    //    (10002,Set(4, 1, 10, 9, 6, 7, 12))

    worker.decodeIds(resultEncodedPreRdd, hmEncodingPreRdd, defaultParallelism, resultPathParent, threshold)
    //    val resultDecodingRawRdd = sc.textFile(idsMergeOutputParent + "resultDecoded/*.gz");
    //    println("resultDecodedRawRdd: ")
    //    resultDecodingRawRdd.sortBy(line=>line.split(":")(0),ascending = true,numPartitions = 1).foreach(println)
    //    10001:gazj10001 gazj10003 sbzj10001 sbzj10003 sfzh10001 xczj10001 xczj10003
    //    10002:gazj10002 gazj10004 sbzj10002 sbzj10004 sfzh10002 xczj10002 xczj10004

    sc.stop
  }

}

（三）数据写回数据库

具体写回数据库的代码需要自行取消注释（默认是本地测试状态）。

FilesystemToDatabase.scala

import com.test.utils.{Constants, JDBCUtil, PropertyUtil, StringUtil}
import org.apache.hadoop.io.compress.GzipCodec
import org.apache.spark.SparkConf
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

/**
 * 把IDsMergeEntry生成的数据写入数据库表中
 * idea本地调试参数：conf/test.properties tmp_data/result/
 */
object FilesystemToDatabase {
  def main(args: Array[String]): Unit = {
    println("args====" + args.mkString(","))
    val jdbcConfigPath=args(0)
    val resultPath = args(1)
    val resultFile=resultPath+"new/*.gz"
    val properties = PropertyUtil.getProperties(jdbcConfigPath)
    println("properties====" + properties)

    //    val spark = SparkSession.builder().config(new SparkConf().setAppName("HdfsToGauss")).enableHiveSupport().getOrCreate()
    val spark = SparkSession.builder().master("local[*]").config(new SparkConf().setAppName("HdfsToDatabase")).getOrCreate() // 测试
    val sc = spark.sparkContext

    import spark.implicits._
    val resultDF: DataFrame = sc.textFile(resultFile)
      .flatMap(ele => {
        val arr = ele.split(":")
        val id = arr(0)
        val hmListStr = arr(1)
        hmListStr.split(" ").map(hm => {
          (id, hm.trim)
        })
      }).toDF("id", "hm")

//    resultDF.show()
//      +-----+---------+
//      |   id|       hm|
//      +-----+---------+
//      |10001|gazj10001|
//      |10001|gazj10003|
//      |10001|sbzj10001|
//      |10001|sbzj10003|
//      |10001|sfzh10001|
//      |10001|xczj10001|
//      |10001|xczj10003|
//      |10002|gazj10002|
//      |10002|gazj10004|
//      |10002|sbzj10002|
//      |10002|sbzj10004|
//      |10002|sfzh10002|
//      |10002|xczj10002|
//      |10002|xczj10004|
//      +-----+---------+

//    写入数据库
/*        resultDF.write.format("jdbc").mode(SaveMode.Overwrite)
          .option("driver",properties.getProperty("driver"))
          .option("url", properties.getProperty("url"))
          .option("dbtable","newimportdata.ryxx_mx")
          .option("user", properties.getProperty("user"))
          .option("password", properties.getProperty("password"))
          .option("batchsize",4000)
          .save()*/

    sc.stop
  }
}

项目目录结构

数据存储结构目录

本项目github地址：

GitHub - lschampion/IdsMerge-adv: merge ids

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

spark-单条记录含有多个号码的人员信息，把有交集号码的合并。

你可能感兴趣的:(spark,大数据)