fseast

（六）Spark——Spark Streaming

一、Spark Streaming 概述

1. Spark Streaming是什么

Spark Streaming 是 Spark 核心 API 的扩展, 用于构建弹性, 高吞吐量, 容错的在线数据流的流式处理程序. 总之一句话: Spark Streaming 用于流式数据的处理。
数据可以来源于多种数据源: Kafka, Flume, Kinesis, 或者 TCP 套接字. 接收到的数据可以使用 Spark 的负责元语来处理, 尤其是那些高阶函数像: map, reduce, join, 和window。
最终, 被处理的数据可以发布到 FS, 数据库或者在线dashboards。
另外Spark Streaming也能和MLlib（机器学习）以及Graphx完美融合.

在 Spark Streaming 中，处理数据的单位是一批而不是单条，而数据采集却是逐条进行的，因此 Spark Streaming 系统需要设置时间间隔使得数据汇总到一定的量后再一并操作，这个间隔就是批处理间隔。批处理间隔是 Spark Streaming 的核心概念和关键参数，它决定了 Spark Streaming 提交作业的频率和数据处理的延迟，同时也影响着数据处理的吞吐量和性能。

Spark Streaming 提供了一个高级抽象: discretized stream(DStream), DStream 表示一个连续的数据流。
DStream 可以由来自数据源的输入数据流来创建, 也可以通过在其他的 DStream 上应用一些高阶操作来得到。

在内部，一个DSteam 是由一个 RDD 序列来表示的。

2. Spark Streaming特点

易用
通过高阶函数来构建应用
容错
易整合到 Spark 体系中
缺点
Spark Streaming 是一种“微量批处理”架构, 和其他基于“一次处理一条记录”架构的系统相比, 它的延迟会相对高一些。

3. Spark Streaming 架构

3.1 背压机制

Spark 1.5以前版本，用户如果要限制 Receiver 的数据接收速率，可以通过设置静态配制参数 spark.streaming.receiver.maxRate 的值来实现，此举虽然可以通过限制接收速率，来适配当前的处理能力，防止内存溢出，但也会引入其它问题。比如：producer数据生产高于maxRate，当前集群处理能力也高于maxRate，这就会造成资源利用率下降等问题。
为了更好的协调数据接收速率与资源处理能力，1.5版本开始 Spark Streaming 可以动态控制数据接收速率来适配集群数据处理能力。背压机制（即Spark Streaming Backpressure）: 根据 JobScheduler 反馈作业的执行信息来动态调整 Receiver 数据接收率。
通过属性spark.streaming.backpressure.enabled来控制是否启用backpressure机制，默认值false，即不启用。

二、DStream 入门

1. WordCount 案例

需求：
使用 netcat 工具向 9999 端口不断的发送数据，通过 Spark Streaming 读取端口数据并统计不同单词出现的次数。
添加依赖：

        
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-streaming_2.11artifactId>
            <version>2.1.1version>
        dependency>

编写代码

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}

object WordCount1 {
  def main(args: Array[String]): Unit = {
    //1. 创建 StreamingContext
    val conf = new SparkConf().setMaster("local[2]").setAppName("WordCount1")
    //第二个参数处理的周期，这里就是设置每3秒处理一次
    val ssc = new StreamingContext(conf,Seconds(3))   
    
    //2. 核心数据集 ：DStreaming ，这里得到的就是一行一行的数据
    val socketStream: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop102",9999)
    //3. 对DStreaming 做各种操作
    val wordCountDStream = socketStream.flatMap(_.split(" "))
      .map((_,1))
      .reduceByKey(_+_)
    
    //4. 最终数据的处理：打印，打印100行
    wordCountDStream.print(100)
    //5. 启动 StreamingContext
    ssc.start()
    //6. 阻止当前线程退出
    ssc.awaitTermination()
  }

}

测试
（1）在hadoop102 上启动 netcat：

[fseast@hadoop102 ~]$ nc -lk 9999

如果没有安装 netcat 则需安装，安装命令为：

[fseast@hadoop102 ~]$ sudo yum install -y nc

（2）运行代码，并在netcat 命令输入窗口输入单词

[fseast@hadoop102 ~]$ nc -lk 9999
hello test test hello dd
test dd

（3）查看输出结果，程序每3秒钟统计一次数据的输入情况。（只统计每3秒之间的数据情况，不包括前面的数据情况，这是无状态转换操作，下面有关于这个的解释）

-------------------------------------------
Time: 1569236436000 ms
-------------------------------------------
(dd,1)
(hello,2)
(test,2)

-------------------------------------------
Time: 1569236439000 ms
-------------------------------------------

-------------------------------------------
Time: 1569236442000 ms
-------------------------------------------
(dd,1)
(test,1)

需要注意的点：
• 一旦StreamingContext已经启动, 则不能再添加添加新的 streaming computations
• 一旦一个StreamingContext已经停止(StreamingContext.stop()), 他也不能再重启
• 在一个 JVM 内, 同一时间只能启动一个StreamingContext
• stop() 的方式停止StreamingContext, 也会把SparkContext停掉. 如果仅仅想停止StreamingContext, 则应该这样: stop(false)
• 一个SparkContext可以重用去创建多个StreamingContext, 前提是以前的StreamingContext已经停掉,并且SparkContext没有被停掉。

2. WordCount 案例解析

Discretized Stream(DStream) 是 Spark Streaming 提供的基本抽象, 表示持续性的数据流, 可以来自输入数据, 也可以是其他的 DStream 转换得到. 在内部, 一个 DSteam 用连续的一系列的 RDD 来表示. 在 DStream 中的每个 RDD 包含一个确定时间段的数据.

对 DStream 的任何操作都会转换成对他里面的 RDD 的操作. 比如前面的 wordcount 案例, flatMap是应用在 line DStream 的每个 RDD 上, 然后生成了 words SStream 中的 RDD. 如下图所示:

对这些 RDD 的转换是有 Spark 引擎来计算的，DStream 的操作隐藏的大多数的细节, 然后给开发者提供了方便使用的高级 API.

三、DStream 创建

Spark Streaming 原生支持一些不同的数据源。
一些“核心”数据源已经被打包到 Spark Streaming 的 Maven 工件中，而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。
每个接收器都以 Spark 执行器程序中一个长期运行的任务的形式运行，因此会占据分配给应用的 CPU 核心。
此外，我们还需要有可用的 CPU 核心来处理数据。这意味着如果要运行多个接收器，就必须至少有和接收器数目相同的核心数，还要加上用来完成计算所需要的核心数。例如，如果我们想要在流计算应用中运行 10 个接收器，那么至少需要为应用分配 11 个 CPU 核心。所以如果在本地模式运行，不要使用 local 或者 local[1]。

1. RDD 队列

上面的WordCount已经使用了一种创建DStream的方式：socketStream: ReceiverInputDStream[String] = ssc.socketTextStream(“hadoop102”,9999)。
用法及说明：
测试过程中，可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream，每一个推送到这个队列中的RDD，都会作为一个DStream处理。

案例实操：
需求：循环创建几个 RDD，将 RDD 放入队列。通过 Spark Streaming创建 Dstream，计算 RDD 内的数据的和。

import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable

object WordCount2 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("WordCount2").setMaster("local[*]")
    val ssc = new StreamingContext(conf,Seconds(3))
    
    //创建一个可变队列
    val rddQueue: mutable.Queue[RDD[Int]] = mutable.Queue[RDD[Int]]()
    
    //第二个参数false 的意思是，时间段内也就是这里3秒内处理多个RDD，
    val resultDStream = ssc.queueStream(rddQueue,false)
        .reduce(_+_)
    resultDStream.print()
    
    ssc.start()
    
    //在ssc.start() 和 ssc.awaitTermination() 之间往RDD 放数据
    while (true){
      rddQueue.enqueue(ssc.sparkContext.parallelize(1 to 100))
      Thread.sleep(1000)//睡一秒放一次数据
    }
    
    ssc.awaitTermination()
  }

}

结果：

-------------------------------------------
Time: 1569238407000 ms
-------------------------------------------
15150

-------------------------------------------
Time: 1569238410000 ms
-------------------------------------------
15150

2. 自定义数据源

使用及说明：
自定义数据源的本质就是自定义接收器。
需要继承Receiver，并实现onStart、onStop方法来自定义数据源采集。

案例实操：
（1）需求：
自定义数据源，实现监控某个端口号，获取该端口号内容。
（2）代码

import java.io.{BufferedReader, InputStreamReader}
import java.net.Socket

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.receiver.Receiver
import org.apache.spark.streaming.{Seconds, StreamingContext}

object CustomReceiver {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("CustomReceiver")
    val ssc = new StreamingContext(conf,Seconds(3))
    
    ssc.receiverStream(new MyReceiver("hadoop102",9999))
      .flatMap(_.split(" "))
      .map((_,1))
      .reduceByKey(_+_)
      .print(100)
    
    ssc.start()
    ssc.awaitTermination()
  }
}


/*
自定义数据源的本质就是自定义接收器
*/
class MyReceiver(val host: String, port: Int) extends Receiver[String](StorageLevel.MEMORY_ONLY){
  /*
  * 接受启动的时候调用的方法
  * 启动一个子线程，循环不断的去接受数据*/
  override def onStart(): Unit = {
    new Thread(){
      override def run(): Unit = receiveData()
    }.start()
  }

//  接收器停止的时候回调方法
  override def onStop(): Unit = ???
  
  //接受数据的方法
  def receiveData(): Unit ={
    //从 socket 读数据
    try {
      val socket = new Socket(host, port)
      val reader = new BufferedReader(new InputStreamReader(socket.getInputStream, "utf-8"))

      var line = reader.readLine()
      while (line != null) {
        //
        store(line)
        line = reader.readLine()
      }
      reader.close()
      socket.close()
    } catch {
      case e: Exception => e.printStackTrace
    } finally {
      // 重启任务
      restart("重新连接")
    }
  }
  
  
}

开启端口并输入数据：

[fseast@hadoop102 ~]$ nc -lk 9999
aa bb cc aa aa

输出结果：

-------------------------------------------
Time: 1569239592000 ms
-------------------------------------------
(cc,1)
(bb,1)
(aa,3)

3. Kafka 数据源

3.1 用法及说明

在工程中需要引入 Maven 依赖 spark-streaming-kafka_2.11来使用它。
包内提供的 KafkaUtils 对象可以在 StreamingContext和JavaStreamingContext中以你的 Kafka 消息创建出 DStream。
两个核心类：KafkaUtils、KafkaCluster

3.2 实现（存在问题的方式）

导入依赖：

        
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-streaming-kafka-0-8_2.11artifactId>
            <version>2.1.1version>
        dependency>

代码：

import kafka.serializer.StringDecoder
import org.apache.kafka.clients.consumer.ConsumerConfig
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object WordCount1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("kafka")
    val ssc = new StreamingContext(conf,Seconds(3))

    //kafka 参数
    //kafka 参数声明
    val brokers = "hadoop102:9092,hadoop103:9092,hadoop104:9092"
    val topic = "first"
    val group = "bigdata"
    val kafkaParams = Map(
      ConsumerConfig.GROUP_ID_CONFIG -> group,     //"group.id"
      ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> brokers
    )

    //泛型参数1和2：key和value的类型    泛型参数3和4 ：key-value的解码器
    val sourceDStream:InputDStream[(String,String)] = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](
      ssc,
      kafkaParams,
      Set(topic)
    )
    
    sourceDStream.print    
    
    ssc.start()
    ssc.awaitTermination()
    
  }
}

启动Kafka，并生产数据：
要保证Zookeeper是启动状态。

[fseast@hadoop102 kafka]$ bin/kafka-server-start.sh -daemon config/server.properties

运行程序后，生产数据：

[fseast@hadoop102 kafka_2.11-0.11.0.2]$ bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic first
>aaa cc aaa kk
>kk cc aaa

结果为：

-------------------------------------------
Time: 1569243786000 ms
-------------------------------------------
(null,aaa cc aaa kk)

-------------------------------------------
Time: 1569243789000 ms
-------------------------------------------
(null,kk cc aaa )

这个程序存在的问题：

如果程序停了或者挂掉了，重新启动程序，在程序挂掉的这段时间，Kafka 所产生的数据，不会被消费到。

3.3 高级API（从上次的位置继续消费）

为了解决上一个代码最后提出所存在的问题。这种方式至少消费一次。

代码：
这种方式读取Kafka数据源最常用：

import kafka.serializer.StringDecoder
import org.apache.kafka.clients.consumer.ConsumerConfig
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object WordCount2 {

  def main(args: Array[String]): Unit = {
    //静态方法getActiveOrCreate可以创建StreamingContext，获取一个曾经记录过的，如果没有则给你创建一个
    //第一个参数为存储偏移量的路径，
    val ssc:StreamingContext = StreamingContext.getActiveOrCreate("./ck1",createSSc)
    ssc.start()
    ssc.awaitTermination()
  }

  def createSSc(): StreamingContext ={
  	println("aaa")//这行代码只会在第一次执行这个程序的时候打印，即没有产生偏移量文件之前，产生了偏移量文件以后，重新启动这个程序也不会执行这行代码。
    val conf = new SparkConf().setMaster("local[*]").setAppName("Kafka")
    val ssc = new StreamingContext(conf,Seconds(4))

    ssc.checkpoint("./ck1")
    //kafka 参数
    //kafka 参数声明
    val brokers = "hadoop102:9092,hadoop103:9092,hadoop104:9092"
    val topic = "first"
    val group = "bigdata"
    val kafkaParams = Map(
      ConsumerConfig.GROUP_ID_CONFIG -> group,     //"group.id"
      ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> brokers
    )

    //泛型参数1和2：key和value的类型    泛型参数3和4 ：key-value的解码器
    val sourceDStream:InputDStream[(String,String)] = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](
      ssc, kafkaParams,Set(topic)
    )
    
    /*    Wordcount，统计单词数量两种方式，可以看无状态转换那一节
    //直接使用DStream的函数
    val wc = sourceDStream.flatMap(_._2.split(" ")).map((_,1)).reduceByKey(_+_)

    //转成rdd的操作方式
    val wc2 = sourceDStream.transform(rdd =>rdd.flatMap(_._2.split(" ")).map((_, 1)).reduceByKey(_ + _))

    wc.print()//重新添加代码记得把存储偏移量的文件夹./ck1删掉，否则不生效
    wc2.print()*/
    
    sourceDStream.print

    ssc
  }


}

（1）启动程序，然后生产数据：

[fseast@hadoop102 kafka_2.11-0.11.0.2]$ bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic first
>aaa ccc sss

程序显示结果：
可以正常读取。

-------------------------------------------
Time: 1569245128000 ms
-------------------------------------------
(null,aaa ccc sss)

（2）停掉程序，然后生产一批数据：

>ttt kkk ttt kkk

（3）再启动程序，看是否可以读取到程序挂掉期间所产生的数据：
结果：

-------------------------------------------
Time: 1569245392000 ms
-------------------------------------------
(null,ttt kkk ttt kkk)

可以读取到程序挂掉期间所产生的数据。

3.4 低级API

还有一种从读取Kafka数据源的方式，低级API，关于低级API这里就不详细说了。

四、DStream 转换

DStream 上的原语与 RDD 的类似，分为 Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种Window相关的原语。

1. 无状态转换操作

无状态转换操作可以粗浅的理解为：在创建 ssc 时设置的时间段内的进行操作。只在时间间隔内有效，出了时间间隔就没效了。
无状态转化操作就是把简单的RDD转化操作应用到每个批次上，也就是转化DStream中的每一个RDD。部分无状态转化操作列在了下表中。

需要记住的是，尽管这些函数看起来像作用在整个流上一样，但事实上每个DStream在内部是由许多RDD(批次)组成，且无状态转化操作是分别应用到每个RDD上的。例如，reduceByKey()会化简每个时间区间中的数据，但不会化简不同区间之间的数据。

举个例子，在之前的wordcount程序中，我们只会统计几秒内接收到的数据的单词个数，而不会累加。

无状态转化操作也能在多个 DStream 间整合数据，不过也是在各个时间区间内。例如，键值对DStream拥有和RDD一样的与连接相关的转化操作，也就是cogroup()、join()、leftOuterJoin() 等。我们可以在DStream上使用这些操作，这样就对每个批次分别执行了对应的RDD操作。
我们还可以像在常规的 Spark 中一样使用 DStream的union() 操作将它和另一个DStream 的内容合并起来，也可以使用StreamingContext.union()来合并多个流。

1.1 transform操作

transform 原语允许 DStream上执行任意的RDD-to-RDD函数。
可以用来执行一些 RDD 操作, 即使这些操作并没有在 SparkStreaming 中暴露出来.
该函数每一批次调度一次。其实也就是对DStream中的RDD应用转换。

实操：

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}

object TransformDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("TransformDemo").setMaster("local[*]")
    val ssc = new StreamingContext(conf,Seconds(3))
    
    val socketStream: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop102",9999)
    //转成熟悉的rdd进行操作
    val  resultDSteam = socketStream.transform(rdd=>{
      rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    })
    resultDSteam.print
    
    ssc.start()
    ssc.awaitTermination()
  }
}

启动程序，然后启动 netcat 并在窗口输入数据：

[fseast@hadoop102 kafka_2.11-0.11.0.2]$ nc -lk 9999
aa bb cc aa aa cc

程序的结果：

-------------------------------------------
Time: 1569251118000 ms
-------------------------------------------
(aa,3)
(bb,1)
(cc,2)

2. 有状态转换操作

前面的 WordCount 都是计算单个时间间隔内单词的总和，明显这不是我们希望的。我们希望的是计算当前时间间隔加上前面的所有单词的总和。

2.1 updateStateByKey

updateStateByKey 操作允许在使用新信息不断更新状态的同时能够保留他的状态，updateStateByKey 要键值对的才可以使用。
需要做两件事情:

• 定义状态. 状态可以是任意数据类型
• 定义状态更新函数. 指定一个函数, 这个函数负责使用以前的状态和新值来更新状态.

在每个阶段, Spark 都会在所有已经存在的 key 上使用状态更新函数, 而不管是否有新的数据在，源码：

def updateStateByKey[S: ClassTag](
                 updateFunc: (Seq[V], Option[S]) => Option[S]): DStream[(K, S)]

拿WordCount作例子进行分析：
如果当前时间范围内的数据的key在之前已经有了，就把之前聚合好的值传过来，如果现在某个数据之前没出现过，则传一个None过来。比如在前面已经算出来（a,5），也就是a这个词已经出现了5次，当前的时间间隔内有（a,1），则把5传过来，然后当前时间间隔还有（b,1），但是b在前面没有出现过，所以传了一个None过来。

WordCount案例：
代码：

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object WithStateDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("WithStateDemo")
    val ssc = new StreamingContext(conf,Seconds(3))
    ssc.checkpoint("./ck2")
//    ssc.sparkContext.setCheckpointDir("./ck3")//与上一行代码含义一样
    val socketStream = ssc.socketTextStream("hadoop102",9999)
      val resultDStream = socketStream.flatMap(_.split(" "))
      .map((_,1))
      .updateStateByKey[Int]((seq:Seq[Int],opt:Option[Int]) => Some(seq.sum + opt.getOrElse(0)))
    
    resultDStream.print
    
    ssc.start()
    ssc.awaitTermination()
  }

}

在netcat输入数据：

[fseast@hadoop102 kafka_2.11-0.11.0.2]$ nc -lk 9999
aa cc    
aa dd
cc aa bb

程序输出结果为：

-------------------------------------------
Time: 1569256791000 ms
-------------------------------------------
(cc,1)
(aa,1)

-------------------------------------------
Time: 1569256794000 ms
-------------------------------------------
(cc,1)
(aa,2)
(dd,1)

-------------------------------------------
Time: 1569256800000 ms
-------------------------------------------
(cc,2)
(bb,1)
(aa,3)
(dd,1)

2.2 window 操作

Spark Streaming 也提供了窗口计算, 允许执行转换操作作用在一个窗口内的数据.
默认情况下, 计算只对一个时间段内的RDD进行, 有了窗口之后, 可以把计算应用到一个指定的窗口内的所有 RDD 上.
一个窗口可以包含多个时间段. 基于窗口的操作会在一个比StreamingContext的批次间隔更长的时间范围内，通过整合多个批次的结果，计算出整个窗口的结果。

观察上图, 窗口在 DStream 上每滑动一次, 落在窗口内的那些 RDD会结合在一起, 然后在上面操作产生新的 RDD, 组成了 window DStream。
在上面图的情况下, 操作会至少应用在 3 个数据单元上, 每次滑动 2 个时间单位. 所以, 窗口操作需要 2 个参数:
• 窗口长度 – 窗口的持久时间(执行一次持续多少个时间单位)(图中是 3)
• 滑动步长 – 窗口操作被执行的间隔(每多少个时间单位执行一次).(图中是 2 )
注意: 这两个参数必须是源 DStream 的 interval 的倍数.

2.2.1 reduceByKeyAndWindow(reduceFunc: (V, V) => V, windowDuration: Duration)

参数1: reduce 计算规则
参数2: 窗口长度
参数3: 窗口滑动步长. 每隔这么长时间计算一次.（如果不传的话默认使用设置的时间间隔做滑动步长）

实操：
（1）需求：
统计9秒内(窗口长度)的WordCount，每3秒滑动一次(滑动步长)
代码：

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

//测试reduceByKeyAndWindow函数的使用
/*统计9秒内(窗口长度)的WordCount，每3秒滑动一次(滑动步长)*/
object Window1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("Window1").setMaster("local[*]")
    val ssc = new StreamingContext(conf,Seconds(3))
    val sourcDStream = ssc.socketTextStream("hadoop102",9999)
    
    sourcDStream.flatMap(_.split(" "))
      .map((_,1))
      .reduceByKeyAndWindow(_+_,Seconds(9))//窗口长度设置为9，使用默认的滑动步长是上面的Seconds(3)
      .print(10)
    
    ssc.start()
    ssc.awaitTermination()
    
  }

}

结果：
启动程序，然后在nc窗口输入数据：

[fseast@hadoop102 ~]$ nc -lk 9999
aa bb aa

程序的结果为：

-------------------------------------------
Time: 1569287346000 ms
-------------------------------------------
(bb,1)
(aa,2)

-------------------------------------------
Time: 1569287349000 ms
-------------------------------------------
(bb,1)
(aa,2)

-------------------------------------------
Time: 1569287352000 ms
-------------------------------------------
(bb,1)
(aa,2)

-------------------------------------------
Time: 1569287355000 ms
-------------------------------------------

如果不想使用默认时间间隔作为窗口滑动步长，可再加如一个参数：
把代码：

    sourcDStream.flatMap(_.split(" "))
      .map((_,1))
      .reduceByKeyAndWindow(_+_,Seconds(9))//窗口长度设置为9，使用默认的滑动步长是上面的Seconds(3)
      .print(10)

改成：

    sourcDStream.flatMap(_.split(" "))
      .map((_,1))
      .reduceByKeyAndWindow((_:Int)+(_:Int),Seconds(9),Seconds(6))//自定义步长为6
      .print(10)

即可。

2.2.2 reduceByKeyAndWindow(reduceFunc: (V, V) => V, invReduceFunc: (V, V) => V, windowDuration: Duration, slideDuration: Duration)

参数 windowDuration 是窗口长度。参数 slideDuration 是窗口滑动步长。

比没有invReduceFunc高效. 会利用旧值来进行计算.
invReduceFunc: (V, V) => V 窗口移动了, 上一个窗口和新的窗口会有重叠部分, 重叠部分的值可以不用重复计算了, 第一个参数就是新的值, 第二个参数是旧的值。所以如果窗口滑动步长大于等于窗口长度的时候，就没必要优化了。

案例实操：

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Window2 {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("WordCount2")
    val ssc = new StreamingContext(conf, Seconds(4))
    ssc.checkpoint("./ck4")

    val spark = SparkSession.builder().getOrCreate()
    val sourceDSteram = ssc.socketTextStream("hadoop102", 9999)
    sourceDSteram.flatMap(_.split(" "))
      .map((_, 1))
      //参数2就是invReduceFunc函数
      .reduceByKeyAndWindow(_ + _, _ - _, Seconds(12), Seconds(4))
      .print


    ssc.start()
    ssc.awaitTermination()
  }
}

在 nc 窗口输入数据：

[fseast@hadoop102 ~]$ nc -lk 9999
cc aa cc

结果显示：

-------------------------------------------
Time: 1569299656000 ms
-------------------------------------------
(cc,2)
(aa,1)

-------------------------------------------
Time: 1569299660000 ms
-------------------------------------------
(cc,2)
(aa,1)

-------------------------------------------
Time: 1569299664000 ms
-------------------------------------------
(cc,2)
(aa,1)

-------------------------------------------
Time: 1569299668000 ms
-------------------------------------------
(cc,0)
(aa,0)

虽然提高了效率，但由结果可以看到，也可以看到过了计算时间间隔后，还会把对应单词的个数为0返回。我们是不希望看到这种情况的。
可以再加一个参数过滤：
把代码：

.reduceByKeyAndWindow(_ + _, _ - _, Seconds(12), Seconds(4))

改成：

.reduceByKeyAndWindow(_ + _, _ - _, Seconds(12), Seconds(4), filterFunc = _._2 > 0)

即可，再次执行发现最后0的值就被过滤掉了。

2.2.3 window(windowLength, slideInterval)

基于对源 DStream 窗化的批次进行计算返回一个新的 Dstream。返回的DStream之后做的操作都是按照你所设置的窗化进行处理。

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Window3 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("Window3")
    val ssc = new StreamingContext(conf,Seconds(4))
    //window参数一是窗口长度，参数二是窗口滑动步长。
    val sourceDStream = ssc.socketTextStream("hadoop102",9999).window(Seconds(12),Seconds(8))
    sourceDStream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print
    
    ssc.start()
    ssc.awaitTermination()
  }

}

结果就不说了，和前面没啥变化，使用了window函数使用上就稍微方便了点。

五、DStream 输出

输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。
与RDD中的惰性求值类似，如果一个DStream及其派生出的DStream都没有被执行输出操作，那么这些DStream就都不会被求值。如果StreamingContext中没有设定输出操作，整个context就都不会启动。

比较常用的算子：
foreachRDD(func)：

The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should push the data in each RDD to an external system, such as saving the RDD to files, or writing it over the network to a database. Note that the function func is executed in the driver process running the streaming application, and will usually have RDD actions in it that will force the computation of the streaming RDDs.

foreachRDD使用案例：

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object ForeachRDDDStream {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("ForeachRDDDStream").setMaster("local[*]")
    val ssc: StreamingContext = new StreamingContext(conf,Seconds(4))
    
    val sourceDStream = ssc.socketTextStream("hadoop102",9999).window(Seconds(12),Seconds(8)) 
    
    sourceDStream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
      .foreachRDD(rdd => {
        rdd.foreachPartition(it => {
            //连接
          it.foreach(x =>{
            
          })
          //关闭连接
        })
      })
    
  }

}

注意：
（1）连接不能写在driver层面（序列化）；
（2）如果写在foreach则每个RDD中的每一条数据都创建，得不偿失；
（3）增加foreachPartition，在分区创建（获取）。

六、DStream 编程进阶

1. 累加器和广播变量

和RDD中的累加器和广播变量的用法完全一样. RDD中怎么用, 这里就怎么用.

2. DataFrame ans SQL Operations

可以很容易地在流数据上使用 DataFrames 和SQL。你必须使用SparkContext来创建StreamingContext要用的SQLContext。
此外，这一过程可以在驱动失效后重启。我们通过创建一个实例化的SQLContext单实例来实现这个工作。如下例所示。我们对前例word count进行修改从而使用DataFrames和 SQL 来产生 word counts 。每个 RDD 被转换为 DataFrame，以临时表格配置并用 SQL 进行查询。

val spark = SparkSession.builder.config(conf).getOrCreate()
import spark.implicits._
count.foreachRDD(rdd =>{
    val df: DataFrame = rdd.toDF("word", "count")
    df.createOrReplaceTempView("words")
    spark.sql("select * from words").show
})

3. Caching / Persistence

和 RDDs 类似，DStreams 同样允许开发者将流数据保存在内存中。也就是说，在DStream 上使用 persist()方法将会自动把DStreams中的每个RDD保存在内存中。
当DStream中的数据要被多次计算时，这个非常有用（如在同样数据上的多次操作）。对于像reduceByWindow和reduceByKeyAndWindow以及基于状态的(updateStateByKey)这种操作，保存是隐含默认的。
因此，即使开发者没有调用persist()，由基于窗操作产生的DStreams会自动保存在内存中。

你可能感兴趣的:(Spark)

24.park和unpark方法卷土重来… java并发编程 java
1.park方法可以暂停线程，线程状态为wait。2.unpark方法可以恢复线程，线程状态为runnable。3.LockSupport的静态方法。4.park和unpark方法调用不分先后，unpark先调用，park后执行也可以恢复线程。publicclassParkDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币 FreeBuf- TikTok App Store iOS Android
卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。这款间谍软件旨在窃取用户移动设备中的所有图片，疑似专门搜寻加密货币相关信息。该攻击活动自2024年初开始活跃，主要针对东南亚和中国用户。伪装流行应用渗透设备SparkKitty间谍软件通过看似无害的应用程序渗透设备，通常伪装成TikTok等流行应用的修改
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源