来自遥远的水星

Spark(十六)【SparkStreaming基本使用】

一. SparkStreaming简介
- 1. 相关术语
- 2. SparkStreaming概念
- 3. SparkStreaming架构
- 4. 背压机制
二. Dstream入门
- 1. WordCount案例实操
- 2. WordCount解析
- 3. web UI
- 注意
三. Dstream创建
- 1. RDD队列（测试使用）
- 2. 自定义数据源
- 3. Kafka直连
  - 案例
  - 实现数据零丢失
四. DStream转化 (API)
- 无状态转化
  - Transform
  - 双流 join
- 有状态转化(重要)
  - UpdateStateByKey
  - WindowOperations 窗口
  - window窗口
五. 程序优雅关闭

一. SparkStreaming简介

1. 相关术语

流式数据：指数据源源不断。

实时数据：当前正在产生的数据。

离线数据：过去（不是当下产生的）已经产生的数据。

实时计算：理想上，实时计算一定是对实时数据的计算，理想期望立刻当前计算出结果(要在公司规定的时效范围内)。

离线计算：计算通常需要划分一段时间。

总结：离线计算和实时计算主要通过计算的时效性进行区分，实时在不同的公司，有相对参考的标准。

2. SparkStreaming概念

SparkStreaming可以用来进行实时计算，Spark Streaming用于流式数据的处理，但是SparkStreaming是一个准（接近）实时计算的框架。

SparkStreaming在进行实时计算时，采用的是微批次(区别于流式)计算。

使用DStream作为最基本的数据抽象。DStream会将一段时间采集到的数据，封装为一个RDD进行计算处理。

3. SparkStreaming架构

SparkStreaming程序在架构上整体分为两块

数据接受模块：启动一个Excutor运行Reciever程序，Reciever程序会将指定时间间隔收到的一批数据，进行存储，存储后，将这批数据的id，发送给Driver。

数据处理模块(Driver)： Driver端有RecieverTracer，不断接受 Reciever发送的已经收到的一批数据的ID，之后，通过JobGenerator,将这批数据，提交为一个Job，提交Job后，会启动Excutor运算这批数据。这批数据在运算时，会有Reciever所在的Excutor发送过来，运行结束后将结果返回给Driver。

4. 背压机制

Spark Streaming可以动态控制数据接收速率来适配集群数据处理能力。

背压机制（即Spark Streaming Backpressure）: 根据JobScheduler反馈作业的执行信息来动态调整Receiver数据接收率。

把spark.streaming.backpressure.enabled 参数设置为ture,开启背压机制后Spark Streaming会根据延迟动态去kafka消费数据,上限由spark.streaming.kafka.maxRatePerPartition参数控制，所以两个参数一般会一起使用。

二. Dstream入门

1. WordCount案例实操

需求：使用netcat工具向9999端口不断的发送数据，通过SparkStreaming读取端口数据并统计不同单词出现的次数。

① 添加pom依赖


    org.apache.spark
    spark-streaming_2.12
    3.0.0

② 代码实现

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * @description: WordCount入门案例
 * @author: HaoWu
 * @create: 2020年08月10日
 */
object WordCountTest {
  def main(args: Array[String]): Unit = {

    //1.初始化Spark配置信息
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamWordCount")

    //2.初始化SparkStreamingContext，3秒统计一次，可以设置多个级别：Milliseconds,Seconds,Minutes
    val ssc = new StreamingContext(sparkConf, Seconds(3))

    //3.通过监控端口创建DStream，读进来的数据为一行行
    val lineStreams = ssc.socketTextStream("hadoop102", 9999)
    //4.处理DStream
    //将每一行数据做切分，形成一个个单词
    val wordStreams = lineStreams.flatMap(_.split(" "))

    //将单词映射成元组（word,1）
    val wordAndOneStreams = wordStreams.map((_, 1))

    //将相同的单词次数做统计
    val wordAndCountStreams = wordAndOneStreams.reduceByKey(_+_)

    //打印
    wordAndCountStreams.print()
     
    //5.启动SparkStreamingContext
    ssc.start()
    ssc.awaitTermination()
  }
}

③在hadoop102节点启动nc工具发送数据，同时启动SparkStreaming程序

nc -lk hadoop102 9999

结果

-------------------------------------------
Time: 1597053684000 ms
-------------------------------------------
(,1)
(as,1)
(fdaf,1)
(sa,1)

-------------------------------------------
Time: 1597053686000 ms
-------------------------------------------

-------------------------------------------
Time: 1597053688000 ms
-------------------------------------------

2. WordCount解析

Discretized Stream是Spark Streaming的基础抽象，代表持续性的数据流和经过各种Spark原语操作后的结果数据流。在内部实现上，DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据。

3. web UI

注意

SparkStream程序运行要启动两个线程，最少需要2个CPU，不然程序无法启动。
Receiver、Driver各启动一个excupu。本地测试的设置为“local[*]”

三. Dstream创建

1. RDD队列（测试使用）

测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理，测试使用验证数据处理的逻辑

需求：循环创建几个RDD，将RDD放入队列。通过SparkStream创建Dstream，计算WordCount。

queueStream函数签名

 def queueStream[T: ClassTag](
      queue: Queue[RDD[T]],   // 传入的队列
      oneAtATime: Boolean,  // 在一个周期内，是否只允许采集一个RDD
      defaultRDD: RDD[T]  // 队列空了时，是否返回一个默认的RDD，可以设置为null，不返回
    ): InputDStream[T] = {
    new QueueInputDStream(this, queue, oneAtATime, defaultRDD)
  }

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import scala.collection.mutable
/**
 * @description: RDD队列创建DStream
 * @author: HaoWu
 * @create: 2020年08月10日
 */
object WordCountSeqTest {
  def main(args: Array[String]): Unit = {
    //1.创建SparkStreamingContext
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDDSeqApp")
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(2))
    //2.创建可变RDD队列
    val que: mutable.Queue[RDD[String]] = new mutable.Queue[RDD[String]]()
    //3.创建DStream
    val dStream: InputDStream[String] = ssc.queueStream(que, oneAtATime = false)
    //4.DStream的逻辑处理
    val result: DStream[(String, Int)] = dStream.flatMap(_.split(",")).map((_, 1)).reduceByKey(_ + _)
    //5.打印
    result.print(100)
    //6.运行程序
    ssc.start()
    val rdd = ssc.sparkContext.makeRDD(List("sada", "dafa", "adfafa", "fafda"))
    //7.往队列中每一秒添加一个RDD
    println("Start启动.....")
    for (i <- 1 to 10) {
      que.+=(rdd)
      Thread.sleep(1000)
    }
    ssc.awaitTermination()
  }
}

结果

Start启动
-------------------------------------------
Time: 1597055400000 ms
-------------------------------------------
(dafa,1)
(fafda,1)
(adfafa,1)
(sada,1)

-------------------------------------------
Time: 1597055402000 ms
-------------------------------------------
(dafa,2)
(fafda,2)
(adfafa,2)
(sada,2)

2. 自定义数据源

使用：需要继承Receiver，并实现onStart、onStop方法来自定义数据源采集。

继承Receiver

/*
	StorageLevel: 数据存储的级别！存内存，还是存磁盘等！
    T： 每次收的数据的类型
*/
abstract class Receiver[T](val storageLevel: StorageLevel) extends Serializable

实现onStart方法

在收数据之前，运行一些指定的安装操作

def onStart() {
	//1.在收数据时，onStart()不能被阻塞！
	//2.必须新开启一个线程收数据！
	//3.收到数据后，可以调用store()来存储数据！
      }

实现Onstop方法

在停止接收数据之前，清理组件

注意：在发生异常时，可以调用restart()重启接收器，还可以调用stop()彻底停止收数据

需求：自定义数据源，实现监控某个端口号，获取该端口号内容。

代码

import java.io.{BufferedInputStream, BufferedReader, InputStreamReader}
import java.net.Socket
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.receiver.Receiver


class MyCustomReceiver(var hostname: String, var port: Int) extends Receiver[String](StorageLevel.MEMORY_ONLY) {
  var socket: Socket = null
  var reader: BufferedReader = null

  /**
   * 重写onStart方法
   */
  override def onStart(): Unit = {
    //异常处理
    try {
      socket = new Socket(hostname, port)
    } catch {
      case e: ConnectException => {
        restart("重试~~~~");
        return
      }
    }
    println("Socket已经连接上~~~~~")
    //获取reader
    reader = new BufferedReader(new InputStreamReader(socket.getInputStream))
    //开始接收数据
    recevie()
  }

  /**
   * 新建一个线程接收数据
   */
  def recevie(): Unit = {
    new Thread("Socket Receiver ThreadName") {
      //设置当前线程为守护线程    当前线程依附于 Receiver所在的main线程！
      // 如果一个JVM中，只有守护线程，JVM就会关闭！
      setDaemon(true)
      override def run(): Unit = {
        //异常处理
        try {
          println("开始接收:" + hostname + ":" + port + "  的数据")
          var line = reader.readLine()
          while (socket != null && line != null) {
            //存储数据
            store(line)
            line = reader.readLine()
          }
        } catch {
          case e: Exception => e.getMessage
        } finally {
          onStop();
          restart("重启Receiver~~~")
        }

      }
    }.start()
  }

  /**
   * 关闭资源
   */
  override def onStop(): Unit = {
    if (socket != null) {
      socket.close()
      socket = null
    }

    if (reader != null) {
      reader.close()
      reader = null
    }
  }
}

测试

object CostumReceiver extends {
  def main(args: Array[String]): Unit = {
   val conf = new SparkConf().setMaster("local[*]").setAppName("CostumReceive")
    val ssc: StreamingContext = new StreamingContext(conf,Seconds(2))
    //创建自定义Receiver
    val receiver: CostumeReceiver = new CostumeReceiver("hadoop102",9999)
    //创建DStream
    val dStream: ReceiverInputDStream[String] = ssc.receiverStream(receiver)
    val result = dStream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    result.print(100)
    ssc.start()
    ssc.awaitTermination()
  }
}

3. Kafka直连

好处

由Excutor直接去Kafka读取数据，减少数据的网络IO传输！

Reciver只需要将一个采集周期采集的数据的元数据信息，发送给Excutor即可！

案例

pom依赖


     org.apache.spark
     spark-streaming-kafka-0-10_2.12
     3.0.0


    com.fasterxml.jackson.core
    jackson-core
    2.10.1

代码

import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * @description: SparkStreaming直连消费Kafka数据
 * @author: HaoWu
 * @create: 2020年08月10日
 */
object SparkStreamingKafkaTest {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("CostumReceive")
    val ssc: StreamingContext = new StreamingContext(conf, Seconds(2))
    //设置消费kafka的参数，可以参考kafka.consumer.ConsumerConfig类中配置说明
    val kafkaParams: Map[String, Object] = Map[String, Object](
      "bootstrap.servers" -> "hadoop102:9092,hadoop103:9092,hadoop104:9092", //zookeeper的host，port
      "group.id" -> "g3", //消费者组
      "enable.auto.commit" -> "true", //是否自动提交
      "auto.commit.interval.ms" -> "500", //500ms自动提交offset
      "key.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
      "value.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
      "auto.offset.reset" -> "earliest"//第一次运行，从最初始偏移量开始消费数据
    )

    //使用工具类创建DStream，消费topic test1的数据
    val ds: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
      ssc,
      LocationStrategies.PreferConsistent,
      //订阅主题
      ConsumerStrategies.Subscribe[String, String](List("test1"),
        kafkaParams))

    //逻辑处理
    val result: DStream[(String, Int)] = ds.flatMap(record => record.value().split(" ")).map((_, 1)).reduceByKey(_ + _)
    result.print(100)
    //运行程序
    ssc.start()
    ssc.awaitTermination()
  }
}

测试

启动zk集群，kafka集群，向test1主题添加数据

[root@hadoop102 kafka]$ bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic test1
>fasdf a
>asf as
>asf sa

实现数据零丢失

spark官网：sparkstreaming集成kafka

方法一：checkpoint实现

①取消基于时间的自动提交，改为手动提交

②在消费逻辑真正执行完后，再手动提交

Spark在手动取消offset提交后，允许设置一个checkpoint目录，在程序崩溃之前，可以将崩溃时，程序的状态（包含offset）保存到目录中！

在程序重启后，可以选择重建状态！保证从之前未消费的位置继续消费

缺点：小文件，重建会启动很多没用的任务

代码实现

import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}

/**
 * @description: 保证数据不丢失
 * @author: HaoWu
 * @create: 2020年08月10日
 */
object KafkaTest {
  def main(args: Array[String]): Unit = {
    /**
     *  程序异常重建SparkStreamingContext
     */
    def rebuild(): StreamingContext = {
      val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("My app")
      val ssc: StreamingContext = new StreamingContext(conf, Seconds(2))
      //设置checkpoint目录
      ssc.checkpoint("kafka")
      //TODO 消费参数配置
      val kafkaParams: Map[String, Object] = Map[String, Object](
        "bootstrap.servers" -> "hadoop102:9092",
        //      "client.id" -> "c4",
        "group.id" -> "g1",
        "enable.auto.commit" -> "false",
        "auto.commit.interval.ms" -> "500",
        "key.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
        "value.deserializer" -> "org.apache.kafka.common.serialization.StringDeserializer",
        "auto.offset.reset" -> "earliest"
      )
      //TODO 消费数据穿建 DStream
      val ds: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String, String](
        ssc,
        LocationStrategies.PreferConsistent,
        ConsumerStrategies.Subscribe[String, String](List("test1"),
          kafkaParams))
      //TODO 消费逻辑
      val ds1: DStream[String] = ds.flatMap(record => record.value().split(" "))
      //模拟消费异常
      val result: DStream[(String, Int)] = ds1.map(x => {
//        if (x == "d") {
//          throw new UnknownError("程序异常~~~~~~~~~")
//        }
        (x, 1)
      }).reduceByKey(_ + _)
      //打印
      result.print(100)
      ssc
    }
    
    // 重建context  防止进程崩溃，进程崩溃后，重建程序
    val ssc: StreamingContext = StreamingContext.getActiveOrCreate("kafka", rebuild)
    //运行程序
    ssc.start()
    ssc.awaitTermination()
  }
}

方法二：手动提交offset

不丢数据，可能数据重复

四. DStream转化 (API)

无状态转化：每个批次单独处理自己批次中的的RDD。

有状态转化：跨批次之间的转化，当前批次的RDD计算需要和之前的批次的结果做累加。

无状态转化

reduceByKey：只针对单个批次的RDD做转化。

map：RDD的map操作

Transform

将当前批次的RDD[T] => RDD[U]

def transform[U: ClassTag](transformFunc: RDD[T] => RDD[U]): DStream[U] =

    //转换为RDD操作
    val ds1: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop102", 9999)
    //4.处理DStream
    val ds2: DStream[(String, Int)] = ds1.transform(rdd => {
      val value: RDD[(String, Int)] = rdd.flatMap(_.split(" ")).map((_, 1))
      value
    })

双流 join

可以实现双流join，实质就是对2个流各个批次的RDD进行join

前提：两个流的批次大小一致，DS中的元素必须是K-V结构，拉链操作

    //3.通过监控端口创建DStream，读进来的数据为一行行
    val ds1: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop102", 9999)
    val ds2: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop103", 8888)
    //4.处理DStream
    val ds11: DStream[(String, Int)] = ds1.flatMap(_.split(" ")).map((_, 1))
    val ds22: DStream[(String, String)] = ds2.flatMap(_.split(" ")).map((_, "aa"))
    //5.双流join
    val result: DStream[(String, (Int, String))] = ds11.join(ds22)
    //打印
    result.print(100)

有状态转化(重要)

UpdateStateByKey

流计算中累加wordcount可以使用这个算子

函数签名

 //Seq[V]:当前批次的相同key的values集合
 //Option[S]:之前批次的结果，可以通过
 def updateStateByKey[S: ClassTag](
      updateFunc: (Seq[V], Option[S]) => Option[S]
    ): DStream[(K, S)] =

案例：求截止到当前时间单词的个数（wordcount）

/**
 * @description: **UpdateStateByKey**案例
 * @author: HaoWu
 * @create: 2020年08月10日
 */
object NoStatusTest {
  def main(args: Array[String]): Unit = {
    //1.初始化Spark配置信息
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamWordCount")
    //2.初始化SparkStreamingContext，3秒统计一次，可以设置多个级别：Milliseconds,Seconds,Minutes
    val ssc = new StreamingContext(sparkConf, Seconds(3))
    //设置checkpoint，保存状态
    ssc.checkpoint("./updatestate")
    //通过监控端口创建DStream，读进来的数据为一行
    val ds: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop102", 9999)
    //转化为K-V类型
    val ds1: DStream[(String, Int)] = ds.flatMap(_.split(" ")).map((_, 1))
    val result: DStream[(String, Int)] = ds1.updateStateByKey((seq: Seq[Int], option: Option[Int]) => {
      var sum: Int = seq.sum
      val value: Int = option.getOrElse(0)
      sum += value
      Some(sum)
    })
    //打印
    result.print(100)
    //5.启动SparkStreamingContext
    ssc.start()
    ssc.awaitTermination()
  }
}

结果

-------------------------------------------
Time: 1597142208000 ms
-------------------------------------------
(a,7)
(b,3)

-------------------------------------------
Time: 1597142211000 ms
-------------------------------------------
(a,9)
(ab,1)
(b,4)

-------------------------------------------
Time: 1597142214000 ms
-------------------------------------------
(a,10)
(ab,2)
(b,5)

注意：

①RDD是K-V

②updateFunc参数里面参数声明泛型[]，返回结果用Some包装

③设置checkpoint

WindowOperations 窗口

Window Operations可以设置窗口的大小和滑动窗口的间隔来动态的获取当前Steaming的允许状态。所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长。

窗口时长：计算内容的时间范围。

滑动步长：隔多久触发一次计算。

注意：这两者都必须为采集周期大小的整数倍。

两种实现

①每个窗口单独统计窗口内部数据，每次滑动，重新计算（无状态）

  def reduceByWindow(
      //窗口内的归约计算
      reduceFunc: (T, T) => T, 
      //窗口大小
      windowDuration: Duration,
      //步长
      slideDuration: Duration
    ): DStream[T] = ssc.withScope {
    this.reduce(reduceFunc).window(windowDuration, slideDuration).reduce(reduceFunc)
  }

②当前窗口和之前窗口有重叠，会使用之前的窗口的数据和当前窗口计算（有状态）

def reduceByKeyAndWindow(
    // old window 和新进入的values进行运算(上图的窗口B绿色部分)
      reduceFunc: (V, V) => V,
    // old window和离开的values进行运算(上图的窗口A的黄色部分)
      invReduceFunc: (V, V) => V,
    //窗口大小
      windowDuration: Duration,
    //步长
      slideDuration: Duration = self.slideDuration,
      numPartitions: Int = ssc.sc.defaultParallelism,
      filterFunc: ((K, V)) => Boolean = null
    ): DStream[(K, V)] = ssc.withScope {
    reduceByKeyAndWindow(
      reduceFunc, invReduceFunc, windowDuration,
      slideDuration, defaultPartitioner(numPartitions), filterFunc
    )
  }

案例：每间隔5分钟，统计最近1h所有的单词统计

实现一：无状态

    //1.初始化Spark配置信息
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamWordCount")
    //2.初始化SparkStreamingContext，3秒统计一次，可以设置多个级别：Milliseconds,Seconds,Minutes
    val ssc = new StreamingContext(sparkConf, Seconds(3))
    //通过监控端口创建DStream，读进来的数据为一行
    val ds: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop102", 9999)
    //转化为K-V类型
    val ds1: DStream[(String, Int)] = ds.flatMap(_.split(" ")).map((_, 1))
    val result: DStream[(String, Int)] = ds1.reduceByKeyAndWindow((_ + _), windowDuration = Seconds(4), Seconds(2))
    //打印
    result.print(100)
    //5.启动SparkStreamingContext
    ssc.start()
    ssc.awaitTermination()

实现二：有状态

需要设置检查点

        //1.初始化Spark配置信息
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("StreamWordCount")
    //2.初始化SparkStreamingContext，3秒统计一次，可以设置多个级别：Milliseconds,Seconds,Minutes
    val ssc = new StreamingContext(sparkConf, Seconds(3))
    //需要上一个window计算的结果，设置检查点
    ssc.checkpoint("updateStateByKey1")
    // DS[String] :  输入流中的每行数据
    val ds: ReceiverInputDStream[String] = context.socketTextStream("hadoop103", 3333)
    val result: DStream[(String, Int)] = ds.flatMap(_.split(" ")).map((_, 1))
      .reduceByKeyAndWindow((_+_),(_ - _),windowDuration=Seconds(4),filterFunc=_._2 != 0)
    result.print(100)
    //运行程序
    context.start()
    context.awaitTermination()

window窗口

定义DS的窗口，之后DS的算子都是在窗口中运算

  def window(windowDuration: Duration, slideDuration: Duration): DStream[T] = ssc.withScope {
    new WindowedDStream(this, windowDuration, slideDuration)
  }

ds.window(窗口大小，滑动步长)

五. 程序优雅关闭

流式任务需要7*24小时执行，但是有时涉及到升级代码需要主动停止程序，但是分布式程序，没办法做到一个个进程去杀死，所有配置优雅的关闭就显得至关重要了。使用外部文件系统来控制内部程序关闭

MonitorStop类：启动一个线程检查是否停止程序

import java.net.URI
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.spark.streaming.{StreamingContext, StreamingContextState}

class MonitorStop(ssc: StreamingContext) extends Runnable {

  override def run(): Unit = {
    val fs: FileSystem = FileSystem.get(new URI("hdfs://linux1:9000"), new Configuration(), "root")

    while (true) {
      try
        Thread.sleep(5000)
      catch {
        case e: InterruptedException =>
          e.printStackTrace()
      }
      val state: StreamingContextState = ssc.getState
       // 读取一个标记（数据库，文件系统）/应用程序/_stop
      val bool: Boolean = fs.exists(new Path("hdfs://linux1:9000/stopSpark"))
      if (bool) {
        if (state == StreamingContextState.ACTIVE) {
          ssc.stop(stopSparkContext = true, stopGracefully = true)
          System.exit(0)
        }
      }
    }
  }
}

SparkTest

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkTest {
  def createSSC(): _root_.org.apache.spark.streaming.StreamingContext = {

    val update: (Seq[Int], Option[Int]) => Some[Int] = (values: Seq[Int], status: Option[Int]) => {

      //当前批次内容的计算
      val sum: Int = values.sum

      //取出状态信息中上一次状态
      val lastStatu: Int = status.getOrElse(0)

      Some(sum + lastStatu)
    }

    val sparkConf: SparkConf = new SparkConf().setMaster("local[4]").setAppName("SparkTest")

    //设置优雅的关闭
    sparkConf.set("spark.streaming.stopGracefullyOnShutdown", "true")

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    ssc.checkpoint("./ck")

    val line: ReceiverInputDStream[String] = ssc.socketTextStream("linux1", 9999)

    val word: DStream[String] = line.flatMap(_.split(" "))

    val wordAndOne: DStream[(String, Int)] = word.map((_, 1))

    val wordAndCount: DStream[(String, Int)] = wordAndOne.updateStateByKey(update)

    wordAndCount.print()

    ssc
  }

  def main(args: Array[String]): Unit = {

    val ssc: StreamingContext = StreamingContext.getActiveOrCreate("./ck", () => createSSC())

    new Thread(new MonitorStop(ssc)).start()
    ssc.start()
    ssc.awaitTermination()
  }
}

练手示例

  /*
      优雅地关闭
   */
  @Test
  def test5() : Unit ={

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("My app")

    val context = new StreamingContext(conf, Seconds(2))

    // DS[String] :  输入流中的每行数据
    val ds: ReceiverInputDStream[String] = context.socketTextStream("hadoop103", 3333)

    val result: DStream[(String, Int)] = ds.window(Seconds(4),Seconds(2))
      .flatMap(_.split(" ")).map((_, 1))
      .reduceByKey(_+_)
    result.foreachRDD(rdd => println(rdd.collect().mkString(",")))
    //运行程序
    context.start()
	
    //启动分线程，执行关闭
    new Thread(){

      //判断是否需要关闭
      def ifShouldNotStop():Boolean={
          // 读取一个标记（数据库，文件系统）/应用程序/_stop
          true
      }
      //关闭
      override def run(): Unit = {

        while(ifShouldNotStop()){
            Thread.sleep(5000)
        }

        // 关闭   stopGraceFully: 等收到的数据计算完成后再关闭
        context.stop(true,true)

      }
    }.start()

     // 当前线程阻塞，后续的代码都不会执行！
    context.awaitTermination()
  }
}

你可能感兴趣的:(Spark(十六)【SparkStreaming基本使用】)

linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
赠晶晶在平凡中重新出发
逐伊衫望伊泪伊人雨中别离去莫再想莫再追莫要寸断再回味十六年六十年弹指挥间青鬓颜且浅行且珍惜待到山花烂漫时图片发自App
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
现代汉语粗糙版文学史与经典学习搬运工
第十六章文学史与经典文学史的兴起在西方,虽然从亚里士多德开始,在人类的著述中已经可以找到文学史概念与写作方式的萌芽,但是,人们一般认为17世纪后期到18世纪是现代文学史写作真正开始的时期。长达百年波及整个欧洲的“古今之争”孕育出文学研究的历史意识,现代意义上的文学史观念在这场影响深远的论争中初见端倪。从18世纪晚期到19世纪初,由于席勒、弗·施莱格尔和赫尔德等人的介入,文学史研究逐渐变得复杂和成熟
华杉版资治通鉴【1837】崔祐甫糊弄皇帝。2023-02-20 华杉2009
7、常衮性格刚强急躁，为政苛刻琐碎，不合众心。当时，群臣早晚临丧哭哀，常衮哭得站不稳，随从有时就上前扶着他。中书舍人崔祐甫指给大家看，说：“臣子在国君灵柩前哭泣，有要人搀扶的礼节吗！”常衮听见，更加怀恨。会议讨论群臣丧服，常衮认为：“按礼制，臣为君穿丧服三年。汉文帝权衡缩短，仍然要穿三十六日。高宗以来，都遵循汉制。到了玄宗、肃宗之丧，开始只穿二十七日。如今先帝遗诏说：‘天下吏人，三日脱下丧服。’古
阅读《别说你懂思维导图》21～23章day27 Ling宝尔
合理期待——思维导图的应用效果很多人问我，思维导图真的有用么？我常常回答，如果你觉得是它“没用”，一定是因为你没“用”，有“用”才“有用”。实际上，学习思维导图和学习木工、驾驶等技能型学习一样，都要经历从了解到应用、从应用到受益的过程。在使用前，我们很多人的思维处于“无意识的低效”状态，经过一段时间的学习，虽然掌握了思维导图的基本使用方法，但可能并没有太好的效果，这个阶段可称为“有意识的低效”状态
《结婚十六年感赋》灵隐济癫
弹指光阴逝，成婚十六年。相亲酬旧约，作伴惜良缘。不羡鸳鸯侣，当如鸾凤仙。齐眉情缱绻，携手意缠绵。
史上最全git命令,git回滚,git命令大全騒周其他 git
git命令大全一、Git整体理解二、由暂存区本地仓库三、由本地仓->远程仓库四、冲突处理五、Git分支操作六、bug的分支七、feature分支八、暂存的使用九、远程仓的操作十、标签的使用十一、Git配置全局信息十二、Linux的一些简单操作和一些符号的解释十三、符号解释十四、显示安装详细信息十五、gitconfig十六、Gitclone十七、Gitinit十八、gitstatus十九、gitre
责任与平衡 wangjb_a9e9
共修功课第十六天：婚姻是责任跟平衡，面对现实的问题，你是否承担起自己的责任，平衡到彼此之间的关系呢？引导：婚姻是一种责任跟平衡，与爱人与孩子之间的平衡。这里面有太多平衡，我们没有办法掌握，所以我们痛苦。从一个人的生活变成两个人生活要调整双方相处时间的平衡，同样道理，现在由两个人到有孩子的时候，那个平衡更难拿捏。自己愿意承担的责任，内心可以生发出力量。比如，陪孩子参加读书会，上辅导班。如果是别人给的
踩咸菜小豆本子
听到这个名字，你是不是觉得很奇怪，咸菜怎么是用来踩的呢？你小时候洗完澡站在浴巾上，两只脚用力踩浴巾，还让我给你唱《采蘑菇的小男孩》你还记得么？对了，这回说的就是那个用脚丫子用力“踩”的踩咸菜。我小的时候家家户户都要踩咸菜。时间大概就是这几天（今天11月23号，农历十月十六）开始准备咸菜的菜。这种菜的学名叫雪里蕻，也叫雪菜。我小时候在农场长大，你外公和你外婆会种很大一片的雪里蕻。到了雪里蕻长大成熟的
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spring @Async 深度解读：默认线程池执行器的配置与优化小码快撩 spring java 前端
在Spring中，@Async注解用于异步执行方法。默认情况下，@Async注解的任务是由一个线程池执行的。然而，这个默认的线程池是如何初始化的呢？本文将深入探讨这一过程，帮助你理解Spring异步任务背后的线程池执行器的初始化原理。1.@Async的基本使用首先，让我们快速回顾一下@Async的基本用法。@Async通常用于标注在需要异步执行的方法上，比如：@Servicepublicclass
python使用MD5 18.程序员哈希算法算法
一、要使用Python进行MD5加密，可以使用Python标准库中的hashlib模块。二、案例importhashlibstring="Hello,World!"#要进行加密的字符串hash_object=hashlib.md5(string.encode())#将字符串编码并进行MD5加密hash_hex=hash_object.hexdigest()#获取加密后的十六进制字符串print(h
【合伙人来信】它真的可以让一切问题迎刃而解吗？创业者知世
我叫张玲，今年35岁了，是两个孩子的母亲。我二十六岁结婚，婚后两年生活稳定了才要孩子，第一胎七个月的时候我在婆婆的强烈要求下辞职回家待产，因为生孩子的时候赶上老家秋收，所以从待产到坐月子都是我自己一个人。在大宝半岁的时候我准备出去工作，请婆婆从老家过来帮我带孩子，每个月给她开3000块工资，但是被她拒绝了，后来由老公出面和她聊，她才勉为其难的同意。近年二胎政策开放，婆婆一直催我再生一个，说要凑齐儿
道德经·第二十六章李问寸
原文：重为轻根，静为躁君，是以君子终日行，不离辎重；虽有荣观燕处，超然。奈何以万乘之主，而以身轻天下？轻则失本，躁则失君。译文：厚重是轻率的根本，静定是躁动的主宰。因此君子终日行走，不离开载装行李的车辆。虽然有美食胜景吸引着他，却能安然处之。为什么大国的君主，还要轻率躁动以治天下呢？轻率就会失去根本；急躁就会丧失主导。此章宣讲根的教法，道法自然就是归根，复性就是道法自然。什么是根呢？对于树来讲，根
CTF常见编码及加解密（超全）第二篇不会代码的小徐编码密码网络安全密码学预编码
HTML实体编码简述：字符实体是用一个编号写入HTML代码中来代替一个字符，在使用浏览器访问网页时会将这个编号解析还原为字符以供阅读。举例：highlighter-HTML明文：hello，world.十进制：hello，world.十六进制：hel
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
老子76 程三板2
第七十六章[原文]人之生也柔弱，其死也坚强。草木之生也柔脆，其死也枯槁。故坚强者死之徒，柔弱者生之徒。是以兵强则灭，木强则折。强大处下，柔弱处上。[译文]人活着的时候身体是柔软的，死了以后身体就变得僵硬。草木生长时是柔软脆弱的，死了以后就变得干硬枯槁了。所以坚强的东西属于死亡的一类，柔弱的东西属于生长的一类。因此，用兵逞强就会遭到灭亡，树木强大了就会遭到砍伐摧折。凡是强大的，总是处于下位，凡是柔弱
2018.3.6 人弋三寿
2018年3月6日星期二晴亲子日记第一百五十六篇今天是周二，下班回到家女儿已经做完作业了。我问女儿:“作业做完有没有检查一下，错了可是要受罚的，”女儿点点头肯定的说:“都检查过了，没有错的。”检查了一下数学又粗心错了两道题。我说:“没办法，错两题罚两页口算天天练，”女儿知道自己错了乖乖的接受了惩罚。
读王荣生《写作教学教什么》（六十六）教与学相长
阅读与写作，是中学语文教学的两大域，“读”“写”的分工是必要的。首先，阅读与写作的心理机制不同，相应的教学自然也应与其自身规律相适应。其次，阅读与写作的教学目标不同。阅读是吸收，是积累，目标可以略高；写作是表达难度大，故只要求“实用性”与“普适性”。第三，从实际语言来看，现实中许多阅读完全不需要写作的介入。许多阅读活动读者的感受本身就是目的，就是收获，自不必借写作来实现。
十五的月亮十六圆-2022-09-11 吴理数
今天是农历八月十六，宁波人的中秋节，今天三件事，忙碌而充实。一、游泳。早晨5：30，自然醒来，6：00出发去同山脚水库。有人管着，车不能进去，于是停在林家村口，步行十分钟到水库。途中管理人员主动打招呼，你车停在村口啊，我说是，他说那里比较合适，然后又说起，街道的领导说，老林，你人管不住，难道汽车也管不住吗，确实也理解他的难言之苦，所以，也自觉点，不开车进去。到了水库大坝，正好遇到高中同学沈跃军的哥
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
魔力感恩（第十六期第6天）爱之旅心理孙建芳
1、我非常感谢晨跑循序渐进，晨跑的好感觉终于回来了，当运动手表显示1万步时，身体出的汗都变成喜悦的笑！感谢[爱心]2、我非常感谢先生先生工作认真，讲究生活品质，注意生活细节，却也能包容我的“粗矿”（哈哈，这是他给我的评价）。很幸运此生能遇见。感谢[爱心]3、我非常感谢周末周末出去或待家里，或一起看电视或读书，或他做家务我晒太阳，都是最好的相守，我们全然享受轻松的周末。感谢[爱心]4、我非常感谢女儿
2022-07-14 竹影起舞正听风
今天是壬寅年六月十六，星期四。任城区天气，小雨转多云，26至34度，北风二级，空气优，指数40。凌晨四点多起夜一次，看了一会手机，又渐渐入睡了，一直睡到八点多。睡眠时间长度可以，但质量不好，多梦。连日阴天多雨，哪哪都潮湿不堪，给人一种不适的感觉。老公，早饭后去医院就诊了，我去院子移栽花木，洋桔梗栽在地上，排水不出，已经开始打蔫了。又摘了十几个蟠桃，阴天多雨，裂口增多，还滋生了许多蚂蚁。提前摘下，还
Prometheus运维六 PromQL查询语言详解及操作安顾里 Prometheus 监控类大数据 kubernetes 运维 linux
海阔凭鱼跃，天高任鸟飞Prometheus官网：https://prometheus.io/文章目录1.什么是PromQL?2.PromQL的基本使用2.1时间序列选择器2.1.1瞬时向量选择器2.2区间向量选择器2.2.1范围向量选择器2.2.2时间位移操作2.2.3使用聚合操作2.3标量和字符串3.PromQL操作符4.内置常用函数5.HTTPAPI操作PromQL6.使用建议1.什么是Pro
365的第二百二十六天——《有啥》斯妩
有啥？抖音里一直流行男性藏私房钱，春节孩子的压岁钱，别人理财账户的钱……反正层出不穷，自己的不免俗套，看见晒账户结算利率3.125%就去翻看自己那个存钱2000的账户，一直5%的结算利率，哪怕账户的钱没有比别人多，但是利率比别人高，心里就平衡了。有啥？是一种质疑，回答者是对自己的一个证明。后来回想，我真的要回答这个问题吗？何必去计较与证明呢？因为是自己的永远都是自己的，而别人的永远也不会变到我的口
51单片机：P3.3口输入/P 1口输出实验 li星野单片机
51单片机：P3.3口输入/P1口输出实验一、实验内容1P3.3口做输入口，外接一脉冲,每输入一个脉冲,P1口按十六进制除2（乘2）。2.P1口做输出口，P1口接的8个发光二极管L1—L8按十六进制除2（乘2）方式点亮。二、仿真图三、代码实现C语言实现：#include#includesbitKEY=P3^3;voiddelay10ms(void);voidmain(){charnum=0xfe;
《栩栩若生》栩栩若生
《栩栩若生....》.......我出生于1993年。....那时候爸妈刚从农村出来，在城里开了间早点铺子维持生计。妈妈每天凌晨两点就要起床和面蒸包子馒头，怀孕了都不知道。她误以为要绝经了，还去药店抓了活血药吃。结果肚子见了天的大，她害怕得了大病，去医院一看，嚯，怀孕六个月了！妈妈一下就懵了！她当年四十六岁，和爸爸已经有了两个孩子。大女儿二十二岁，小儿子十九岁了。换句话说，两口子不但儿女双全，都等
python 标准库之openpyxl的常规操作真的学不了一点。。。 Python学习 python
目录openpyxl（Excel文件处理模块）读sheet读sheet中单元格合并单元格openpyxl模块基本用法安装方法基本使用读取Excel文档（一）获取工作表（二）获取单元格（三）获取行和列写入Excel文档（一）写入单元格（二）保存文件设置单元格样式（一）字体（二）对齐方式（三）边框（四）设置行高和列宽（五）合并和拆分单元格openpyxl(Excel文件处理模块)读sheet读取Exc
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开