LvJinYang

DStream

Spark DStreams

DStreams是什么？

是构建在Spark RDD之上的一款流处理工具。言外之意Spark DStream并不是严格意义的流处理。底层通过将RDD在时间轴上拆解成多个小的RDD-macro batch（构建在RDD之上的微批，严格意义上并不是真正的流），掺水了

流&批处理

计算类型	数据量级	计算延迟	输入数据	输出	计算形式
批处理	MB=>GB=>TB	几十分钟/几个小时	固定输入（全量）	固定输出	最终终止
流处理	Byte级别/记录级别	亚秒级延迟（Spark秒级，Storm毫秒级）	持续输入（增量）	持续输出	7*24小时

流处理框架：

一代：Kafka Streaming（构建在消息队列之上，工具级别）、

Storm（真正的实时流处理，延迟较低），自己没法进行状态管理，需要借助外围存储系统，吞吐量低（数据量的吞吐能力低，胃小）

二代？：Spark DStream（微批，不要说是流,实时性差【致命缺点】）

三代：Flink

由于DStream是构建在RDD之上，对习惯了批处理的工程师使用上比较友好。很多大数据工程师都有着MapReduce使用经验，如果使用批去模拟流，比较容易接受。同时DStream是构建在RDD（批处理）之上，因此在使用角度上讲，DStream操作流就好比在操作批处理。因此在使用难度上比Strom相对来说要简单。由于Spark框架的实现的核心是偏向批处理的，流处理只是从批中演变而来，因此DStream在做流处理的啥时候延迟较高。

前几年强调云计算Hadoop计算集群，Strom计算集群，强度云计算的实时性

现在雾计算（颗粒化计算），强调更好的实时性，在端进行计算

DStream原理（了解）

Discretized（离散） Streams (DStreams)在内部，它的工作原理如下。 Spark Streaming接收实时输入数据流并将数据分成批处理，然后由Spark引擎处理以批量生成最终结果流。

快速入门

<dependency>
  <groupId>org.apache.sparkgroupId>
  <artifactId>spark-streaming_${scala.version}artifactId>
  <version>${spark.version}version>
dependency>

Driver

package com.baihzi.ds

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkDStreamHelloWorld {
  def main(args: Array[String]): Unit = {
    //1、创建StreamingContext
    val sparkConf = new SparkConf()
      .setMaster("local[5]")
      .setAppName("HelloWord")
    val ssc = new StreamingContext(sparkConf,Seconds(1))
    ssc.sparkContext.setLogLevel("FATAL")//关闭日志输出

    //2、构建DStream对象 细化
    val linesStream = ssc.socketTextStream("CentOS",9999)

    //3、对数据流进行计算 marco-rdd 转换
    linesStream.flatMap(_.split("\\s+"))
      .map((_,1))
      .reduceByKey(_+_)
      .print()

    //4启动计算
    ssc.start()
    ssc.awaitTermination()
  }
}

启动网络服务

[root@CentOS ~]# yum install -y nc #安装 netcat
[root@CentOS ~]# nc -lk 9999
this is a demo this
this is a demo
this

程序结构

1、创建StreamingContext

2、指定流处理的数据源 #网络套接字（socket）-测试、文件系统-了解、kafka（必须掌握）、自定义Receiver-了解

3、对DStream做转换 #基本上和RDD转换保持一致

4、启动任务ssc.start

5、等待任务关闭 ssc.awaitTermination() //通过UI页面kill

Input DStreams 和 Receivers

Spark的每一个InputDstream对应一个Receiver实现(除文件系统输入流以外) ，每一个Receiver对象负责接受外围系统的数据，并且将数据存储到Spark的内存中（设置存储级别-内存、磁盘），也侧面反映了为什么说Spark DStream吞吐量比较大。

Spark提供了两种类型的输入源：

Basic sources：file systems以及socket 连接，无需用户导入第三方包
Advanced sources: spark本身不提供，需要导入第三方依赖，比如：Kafka

一般来说一个Receiver也需要消耗一个Core的计算资源，在运行Spark流计算的时候，一定要提前预留多一些Cores n， n> Receiver 个数

File Streams

以流的形式读取静态资源文件，系统会尝试检测文件系统，一旦文件系统有新数据产生，系统会加载新文件-（仅仅加载一次）。

一定确保文件系统时间和计算节点时间保持同步。

val linesStream = ssc.textFileStream("hdfs://CentOS:9000/words")
 linesStream.flatMap(_.split("\\s+")) //细化
      .map((_,1))
      .reduceByKey(_+_)
      .print() //将计算结果打印

0.同步时钟
[root@CentOS ~]# date
[root@CentOS ~]# date -s ‘2019-09-28 11:35:25’

[root@CentOS ~]# clock -w

1.先将需要采集的文件上传到HDFS的非采集目录

[root@CentOS ~]# hdfs dfs -put install.log /

2.将上传完成数据移动到采集目录

[root@CentOS ~]# hdfs dfs -mv /install.log /words

或者使用

 val linesStream = ssc.fileStream[LongWritable,Text,TextInputFormat]("hdfs://CentOS:9000/words")
 linesStream.flatMap(t=>t._2.toString.split("\\s+")) //细化
      .map((_,1))
      .reduceByKey(_+_)
      .print() //将计算结果打印

Socket形式(测试)

val linesStream = ssc.socketTextStream("CentOS",9999)

Custom Receivers

package com.baihzi.customreceivers

import org.apache.spark.internal.Logging
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.receiver.Receiver

import scala.util.Random

class CustomReciver(storageLevel: StorageLevel) extends Receiver[String](storageLevel :StorageLevel)with Logging{
  override def onStart(): Unit = {
    new Thread("Socket Receiver"){
      override def run(): Unit = { receive()}
    }.start()
  }

  override def onStop(): Unit = {
    println("释放资源")
  }

  private def receive(){//负责从外围系统读取数据
    val lines = List("this is a demo","hello word","good good study")
    try{
      var userInput:String = lines(new Random().nextInt(lines.size))
      while (!isStopped() && userInput !=null){
        store(userInput)//将获取的数据存储到Spark的内存中
        Thread.sleep(800)
        userInput = lines(new Random().nextInt(lines.size))
      }
    } catch {
      case e: Exception =>
        restart("Error connecting to", e)
    }

  }
}

val linesStream = ssc.receiverStream[String](new CustomReciver(StorageLevel.MEMORY_ONLY))
//3.对数据流进行计算 marco-rdd 转换
linesStream.flatMap(_.split("\\s+"))
.map((_,1))
.reduceByKey(_+_)
.print() //将计算结果打印

Spark 和Kafka整合（掌握）

[root@CentOS ~]# tar -zxf kafka_2.11-2.2.0.tgz -C /usr
[root@CentOS ~]# cd /usr/kafka_2.11-2.2.0/
[root@CentOS kafka_2.11-2.2.0]# vi config/server.properties

listeners=PLAINTEXT://CentOS:9092

log.dirs=/usr/kafka-logs

zookeeper.connect=CentOS:2181
#启动服务
[root@CentOS kafka_2.11-2.2.0]# bin/kafka-server-start.sh -daemon config/server.properties

#查看topic列表
[root@CentOS kafka_2.11-2.2.0]# bin/kafka-topics.sh --list  --bootstrap-server CentOS:9092

#创建topic
[root@CentOS kafka_2.11-2.2.0]#  bin/kafka-topics.sh --create --topic topic01 --partitions 1 --replication-factor 1 --bootstrap-server CentOS:9092

#发布消息
[root@CentOS kafka_2.11-2.2.0]# bin/kafka-console-producer.sh --topic topic01 --broker-list CentOS:9092

#订阅消息
[root@CentOS kafka_2.11-2.2.0]# 
bin/kafka-console-consumer.sh --topic topic02 --bootstrap-server CentOSAA:9092,CentOSBB:9092,CentOSCC:9092 --property print.key=true --property print.value=true

参考：http://spark.apache.org/docs/latest/streaming-kafka-integration.html


<dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-streaming-kafka-0-10_${scala.version}artifactId>
    <version>${spark.version}version>
dependency>


<dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-streaming-kafka-0-8_${scala.version}artifactId>
    <version>${spark.version}version>
dependency>

spark-streaming-kafka-0-10兼容kafka-0.10+版本,由于Kafka-0.8版本和Kafka-0.10版本的消费者API发生了变化，原因是因为在Kafka-0.10+开始消费者支持分区的自动发现。

package com.baihzi.kafka

import org.apache.kafka.clients.consumer.ConsumerConfig
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkDStreamKafka {

    def main(args: Array[String]): Unit = {
      //1、创建StreamingContext
      val sparkConf = new SparkConf()
        .setMaster("local[5]")
        .setAppName("HelloWord")
      val ssc = new StreamingContext(sparkConf,Seconds(1))
      ssc.sparkContext.setLogLevel("FATAL")//关闭日志输出

        //2、构建DStream对象
      val kafkaParams = Map[String, Object](
        ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> "CentOS:9092",
        ConsumerConfig.GROUP_ID_CONFIG -> "g1",
        ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG -> classOf[StringDeserializer],
        ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG -> classOf[StringDeserializer]
      )

          KafkaUtils.createDirectStream[String,String](
            ssc,
            LocationStrategies.PreferConsistent,
            ConsumerStrategies.Subscribe[String,String](Array[String]("topic01").toSet,kafkaParams)
          )
        .map(record=>(record.value()))
        .flatMap(_.split("\\s+"))
        .map((_,1))
        .reduceByKey(_+_)
        .print()

      //4启动计算
      ssc.start()
      ssc.awaitTermination()
    }
}

流计算常见算子

由于Spark DStream算子和RDD的算子几乎是一模一样，所以具体的算子的使用大家参考RDD转换算子。

Transformation	Meaning
map(func)	Return a new DStream by passing each element of the source DStream through a function func.
flatMap(func)	Similar to map, but each input item can be mapped to 0 or more output items.
filter(func)	Return a new DStream by selecting only the records of the source DStream on which func returns true.
repartition(numPartitions)	Changes the level of parallelism in this DStream by creating more or fewer partitions.
union(otherStream)	Return a new DStream that contains the union of the elements in the source DStream and otherDStream.
count()	Return a new DStream of single-element RDDs by counting the number of elements in each RDD of the source DStream.
reduce(func)	Return a new DStream of single-element RDDs by aggregating the elements in each RDD of the source DStream using a function func (which takes two arguments and returns one). The function should be associative and commutative so that it can be computed in parallel.
countByValue()	When called on a DStream of elements of type K, return a new DStream of (K, Long) pairs where the value of each key is its frequency in each RDD of the source DStream.
reduceByKey(func, [numTasks])	When called on a DStream of (K, V) pairs, return a new DStream of (K, V) pairs where the values for each key are aggregated using the given reduce function. Note: By default, this uses Spark’s default number of parallel tasks (2 for local mode, and in cluster mode the number is determined by the config property `spark.default.parallelism`) to do the grouping. You can pass an optional `numTasks` argument to set a different number of tasks.
join(otherStream, [numTasks])	When called on two DStreams of (K, V) and (K, W) pairs, return a new DStream of (K, (V, W)) pairs with all pairs of elements for each key.
cogroup(otherStream, [numTasks])	When called on a DStream of (K, V) and (K, W) pairs, return a new DStream of (K, Seq[V], Seq[W]) tuples.
transform(func)	Return a new DStream by applying a RDD-to-RDD function to every RDD of the source DStream. This can be used to do arbitrary RDD operations on the DStream.
updateStateByKey(func)	Return a new “state” DStream where the state for each key is updated by applying the given function on the previous state of the key and the new values for the key. This can be used to maintain arbitrary state data for each key.

countByValue

//this this is
ssc.socketTextStream("CentOS",9999)
    .flatMap(_.split("\\s+"))
    .countByValue()
    .print()// this 2 is 1

join

//001 zhangsan
val userStream=ssc.socketTextStream("CentOS",9999)
.map(line=> line.split("\\s+"))
.map(ts=>(ts(0),ts(1)))
//001 apple
val orderStream=ssc.socketTextStream("CentOS",8888)
.map(line=> line.split("\\s+"))
.map(ts=>(ts(0),ts(1)))

userStream.join(orderStream)
.print()

一般很少使用，原因必须保证需要join的数据同时发送出去，才可能发生join。

transform（流到批的join）

ssc.socketTextStream("CentOS",9999)
.map(line=> line.split("\\s+"))
.map(ts=>(ts(0),ts(1)))
.transform(rdd=> rdd.leftOuterJoin(userRDD))
.map(t=>(t._1,t._2._1,t._2._2.getOrElse("未知")))
.print()

可以获取到DStream底层RDD对象，直接操作RDD算子。

其它算子使用细节参考：https://blog.csdn.net/weixin_38231448/article/details/89516569

状态计算

Spark提供了两个算子updateStateByKey(func)|mapWithState它们都可完成对（K,V）数据有状态计算-持续计算。

updateStateByKey(func)- 全量更新

package com.baihzi.status

import com.baihzi.customreceivers.CustomReciver
import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
/*没更新的部分也会一起输出*/
object SparkDStreamUpdateStateByKey {
  def main(args: Array[String]): Unit = {
    //1、创建StreamingContext
    val sparkConf = new SparkConf()
      .setMaster("local[5]")
      .setAppName("HelloWord")
    val ssc = new StreamingContext(sparkConf,Seconds(1))
    ssc.sparkContext.setLogLevel("FATAL")//关闭日志输出

    //2、构建DStream对象 细化
    ssc.checkpoint("file:///E:/checkpoints")
    ssc.socketTextStream("CentOS",9999)

    //3、对数据流进行计算 marco-rdd 转换
      .flatMap(_.split("\\s+"))
      .map((_,1))
      .updateStateByKey((vs:Seq[Int],state:Option[Int])=>{
        Some(vs.fold(0)(_+_)+state.getOrElse(0))
      })
      .print()

    //4启动计算
    ssc.start()
    ssc.awaitTermination()
  }
}

mapWithState - 增量更新 √

package com.baihzi.status

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext}

object SparkDStreamMapWithSate {
  def main(args: Array[String]): Unit = {
    //1、创建StreamingContext
    val sparkConf = new SparkConf()
      .setMaster("local[5]")
      .setAppName("HelloWord")
    val ssc = new StreamingContext(sparkConf,Seconds(1))
    ssc.sparkContext.setLogLevel("FATAL")//关闭日志输出

    //2、构建DStream对象 细化
    ssc.checkpoint("file:///E:/checkpoints")
    ssc.socketTextStream("CentOS",9999)

      //3、对数据流进行计算 marco-rdd 转换
      .flatMap(_.split("\\s+"))
      .map((_,1))
      .mapWithState(StateSpec.function((k:String,v:Option[Int],s:State[Int])=>{
        s.getOption().getOrElse(0)
        (k,s.getOption().getOrElse(0))
      }))
      .print()

    //4启动计算
    ssc.start()
    ssc.awaitTermination()
  }
}

如果用户想使用这些有状态算子，必须给Spark设置checkpointdir，存储程序计算状态

故障恢复

Spark在第一次启动的的时候会尝试从checkpointDir进行恢复，该目录存储程序执行流程以及状态数据，如果有则直接从检查点自动恢复，否则执行()=>StreamingContex函数重新计算。（代码片段也会进行快照，以至于代码不能再更改）

package com.baihzi.status

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, State, StateSpec, StreamingContext}

object SparkDStreamRecover {
  /*只输出更新的部分*/
  def main(args: Array[String]): Unit = {
    val checkpointDir = "file:///E:/checkpoints"
    val ssc:StreamingContext = StreamingContext.getActiveOrCreate(checkpointDir, () => {
      println("============================")
      //1.创建StreamingContext
      val sparkConf = new SparkConf().setMaster("local[5]").setAppName("HelloWorld")
      var ssc = new StreamingContext(sparkConf, Seconds(1)) //1s一次微批
      ssc.checkpoint(checkpointDir)
      ssc.socketTextStream("CentOS", 9999)
        .flatMap(_.split("\\s+"))
        .map((_, 1))
        .mapWithState(StateSpec.function((k: String, v: Option[Int], s: State[Int]) => {
          val historyCount = s.getOption().getOrElse(0) //从历史状态中获取数据
          s.update(historyCount + v.getOrElse(0)) //更新历史状态
          (k, s.getOption().getOrElse(0))
        }))
        .print()
      ssc
    })
    ssc

    //4.启动计算
    ssc.sparkContext.setLogLevel("FATAL")//关闭日志输出
    ssc.start()
    ssc.awaitTermination()
  }
}

窗口计算（重点）

检测系统：仅仅是一种检测手段，可有可无（一分钟内一个行为的频率）

惩罚协调：

使用场景：实时的计算，某一个时间段的计量，电量，某个路口的拥堵程度（某讴歌时间段经过某个路口的车流量）

Spark Streaming支持针对某个时间窗内实现对数据计算，如下：

上图描绘的是以3倍的微批次作为一个窗口长度，并且以2倍微批次作为滑动间隔。将落入到相同时间窗口的微批次合并成一个相对较大的微批次-窗口批次。

Spark要求所有的窗口长度以及滑动的间隔必须是微批次的整倍数

滑动窗口：窗口长度>滑动间隔窗口与窗口之间存在元素的重叠
滚动窗口：窗口长度=滑动间隔窗口与窗口之间没有元素的重叠

目前不存在窗口长度 < 滑动间隔这种窗口

Spark窗口计算的时间以计算节点的时间为准，本应该是数据的产生的时间

窗口计算时间属性：Event Time- 事件时间<Ingestion Time - 摄取时间<Processing Time -处理时间

Spark DStreaming 目前仅仅支持 Processing Time -处理时间, 但是Spark的Structured Streaming 支持Event Time(后续讲解)

窗口算子

Transformation	Meaning
window(windowLength, slideInterval)	Return a new DStream which is computed based on windowed batches of the source DStream.
countByWindow(windowLength, slideInterval)	Return a sliding window count of elements in the stream.
reduceByWindow(func, windowLength, slideInterval)	Return a new single-element stream, created by aggregating elements in the stream over a sliding interval using func. The function should be associative and commutative so that it can be computed correctly in parallel.
reduceByKeyAndWindow(func, windowLength, slideInterval, [numTasks])	When called on a DStream of (K, V) pairs, returns a new DStream of (K, V) pairs where the values for each key are aggregated using the given reduce function func over batches in a sliding window. Note: By default, this uses Spark’s default number of parallel tasks (2 for local mode, and in cluster mode the number is determined by the config property `spark.default.parallelism`) to do the grouping. You can pass an optional `numTasks` argument to set a different number of tasks.
reduceByKeyAndWindow(func, invFunc, windowLength, slideInterval, [numTasks])	上面的“reduceByKeyAndWindow（）”的更有效版本，其中每个窗口的reduce值是使用前一个窗口的reduce值递增计算的。这是通过减少进入滑动窗口的新数据和“反向减少”离开窗口的旧数据来实现的。例如，当窗口滑动时，“加”和“减”键的计数。然而，它仅适用于“可逆的缩减函数”，即，那些具有相应的“逆减”函数的函数（作为参数ViFunc）。像在“reducebykeyandwindown”中一样，reduce任务的数量可以通过一个可选参数进行配置。请注意，必须启用[检查点]（http://Skp.Apache .org/DOCS/最新/流编程指南.html检查点），以便使用此操作。
countByValueAndWindow(windowLength,slideInterval, [numTasks])	When called on a DStream of (K, V) pairs, returns a new DStream of (K, Long) pairs where the value of each key is its frequency within a sliding window. Like in `reduceByKeyAndWindow`, the number of reduce tasks is configurable through an optional argument.

window(windowLength, slideInterval)

package com.baihzi.dstreamwindow

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}

object DStreamWindow {
  def main(args: Array[String]): Unit = {
     val sparkConf: SparkConf = new SparkConf().setAppName("windowWordCount").setMaster("local[6]")
    val ssc = new StreamingContext(sparkConf,Milliseconds(100))
    ssc.sparkContext.setLogLevel("FATAL")

    ssc.socketTextStream("CentOS",9999,StorageLevel.MEMORY_AND_DISK_2)
      .flatMap(_.split("\\s+"))
      .map((_,1))
      .window(Seconds(4),Seconds(2))
      .reduceByKey(_+_)
      .print()
    ssc.start()
    ssc.awaitTermination()
  }
}

以上window后可以更的算子:count、reduce、reduceByKey、countByValue为了方便起见Spark提供合成算子例如

window+count 等价于 countByWindow**(windowLength, slideInterval)、window+reduceByKey 等价 reduceByKeyAndWindow

reduceByKeyAndWindow

val sparkConf=new SparkConf().setAppName("WondowWordCount").setMaster("local[6]")
val ssc = new StreamingContext(sparkConf,Milliseconds(100))
ssc.sparkContext.setLogLevel("FATAL")

ssc.socketTextStream("CentOS",9999,StorageLevel.MEMORY_AND_DISK)
    .flatMap(_.split("\\s+"))
    .map((_,1))
    .reduceByKeyAndWindow((v1:Int,v2:Int)=>v1+v2,Seconds(4),Seconds(3))
    .print()

ssc.start()
ssc.awaitTermination()

如果窗口重合过半，在计算窗口值的时候，可以使用下面方式计算结果

package com.baihzi.dstreamwindow

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}

object ReduceByKeyAndWindowBig {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("wordCount").setMaster("local[6]")
    val ssc = new StreamingContext(sparkConf,Milliseconds(100))

    ssc.sparkContext.setLogLevel("FATAL")
    ssc.checkpoint("file:///E:/checkpoints")

    ssc.socketTextStream("CentOS",9999,StorageLevel.MEMORY_AND_DISK)
      .flatMap(_.split("\\s+"))
      .map((_,1))
      .reduceByKeyAndWindow(//当窗口重叠  超过50% 使用一下计算效率较高
        (v1:Int,v2:Int)=>v1+v2,//上一个窗口结果+新进来的元素
        (v1:Int,v2:Int)=>v1+v2,//减去移出元素
        Seconds(4),
        Seconds(1),
        filterFunc = (t)=>t._2>0
      )
      .print()

    ssc.start()
    ssc.awaitTermination()
  }
}

DStreams输出

Output Operation	Meaning
print()	Prints the first ten elements of every batch of data in a DStream on the driver node running the streaming application. This is useful for development and debugging.
foreachRDD(func)	The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should push the data in each RDD to an external system, such as saving the RDD to files, or writing it over the network to a database. Note that the function func is executed in the driver process running the streaming application, and will usually have RDD actions in it that will force the computation of the streaming RDDs.

Output Operation

Meaning

print()

Prints the first ten elements of every batch of data in a DStream on the driver node running the streaming application. This is useful for development and debugging.

foreachRDD(func)

The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should push the data in each RDD to an external system, such as saving the RDD to files, or writing it over the network to a database. Note that the function func is executed in the driver process running the streaming application, and will usually have RDD actions in it that will force the computation of the streaming RDDs.

val sparkConf=new SparkConf().setAppName("WondowWordCount").setMaster("local[6]")
val ssc = new StreamingContext(sparkConf,Milliseconds(100))
ssc.sparkContext.setLogLevel("FATAL")
ssc.socketTextStream("CentOS",9999,StorageLevel.MEMORY_AND_DISK)
.flatMap(_.split("\\s+"))
.map((_,1))
.reduceByKeyAndWindow(
    (v1:Int,v2:Int)=>v1+v2,//上一个窗口结果+新进来的元素
    Seconds(60),
    Seconds(1)
)
.filter(t=> t._2 > 10)
.foreachRDD(rdd=>{
    rdd.foreachPartition(vs=>{
        vs.foreach(v=>KafkaSink.send2Kafka(v._1,v._2.toString))
    })
})

ssc.start()
ssc.awaitTermination()

object KafkaSink {

  private def createKafkaProducer(): KafkaProducer[String, String] = {
    val props = new Properties()
    props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"CentOS:9092")
    props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,classOf[StringSerializer])
    props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,classOf[StringSerializer])
    props.put(ProducerConfig.BATCH_SIZE_CONFIG,"10")
    props.put(ProducerConfig.LINGER_MS_CONFIG,"1000")
    new KafkaProducer[String,String](props)
  }
  val kafkaProducer:KafkaProducer[String,String]=createKafkaProducer()

  def send2Kafka(k:String,v:String): Unit ={
    val message = new ProducerRecord[String,String]("topic01",k,v)
    kafkaProducer.send(message)
  }
  Runtime.getRuntime.addShutdownHook(new Thread(){
    override def run(): Unit = {
      kafkaProducer.flush()
      kafkaProducer.close()
    }
  })
}

对于Spark而言，默认只有当窗口的时间结束之后才会将窗口的计算结果最终输出，通常将该种输出方式为钳制输出形式。

VALUE_SERIALIZER_CLASS_CONFIG,classOf[StringSerializer])
props.put(ProducerConfig.BATCH_SIZE_CONFIG,“10”)
props.put(ProducerConfig.LINGER_MS_CONFIG,“1000”)
new KafkaProducerString,String
}
val kafkaProducer:KafkaProducer[String,String]=createKafkaProducer()

def send2Kafka(k:String,v:String): Unit ={
val message = new ProducerRecordString,String
kafkaProducer.send(message)
}
Runtime.getRuntime.addShutdownHook(new Thread(){
override def run(): Unit = {
kafkaProducer.flush()
kafkaProducer.close()
}
})
}


> 对于Spark而言，默认只有当窗口的时间结束之后才会将窗口的计算结果最终输出，通常将该种输出方式为`钳制`输出形式。

使用场景：找不活跃用户，发优惠卷

你可能感兴趣的:(大数据)

PL/SQL语言的学习路线轩辕烨瑾包罗万象 golang 开发语言后端
PL/SQL语言的学习路线PL/SQL（ProceduralLanguage/StructuredQueryLanguage）是Oracle公司为其数据库系统开发的一种编程语言，它结合了SQL的强大数据处理能力和过程式编程的灵活性。PL/SQL被广泛应用于Oracle数据库开发中，能够有效地提高程序的执行效率和维护性。对于想深入学习PL/SQL的开发者来说，明确的学习路线至关重要。本文将为大家提供
Bash语言的数据库交互清妍琉璃包罗万象 golang 开发语言后端
Bash语言的数据库交互引言随着信息技术的飞速发展，数据库在各行各业中扮演着越来越重要的角色。无论是企业管理、数据分析，还是大数据处理，数据库都是基础设施的重要组成部分。对于开发者和系统管理员而言，能够高效地与数据库进行交互是一项必不可少的技能。在众多编程语言中，Bash作为一种脚本语言，以其简洁、高效和易用的特点，逐渐在数据库管理和交互中获得了一席之地。本文将深入探讨如何使用Bash进行数据库交
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话一只蜗牛儿 java 大数据自然语言处理
在当今的信息化时代，数据成为了重要的资源。特别是文本数据，随处可见，如社交媒体、新闻网站、技术文档、客户反馈等，这些都包含着大量的潜在信息。因此，如何从海量的文本中提取有价值的信息，成为了大数据分析领域的重要课题。Java作为一种高效、灵活的编程语言，在大数据文本分析与自然语言处理（NLP）中发挥着至关重要的作用。本文将介绍如何利用Java开发大数据文本分析和自然语言处理（NLP）应用，带领你从文
Hadoop分布式文件系统-HDFS架构 Fancs2024 hadoop hadoop hdfs
一、HDFS的简介HDFS全称HadoopDistributedFileSystem，是分布式文件管理系统。主要是为了解决大数据如何存储的问题，跟一般文件系统不同的是，它可以通过扩展服务器结点来扩充存储量，可以用低成本的硬件构建出支持高吞吐量的文件系统。二、HDFS的特点高容错性：一个HDFS集群会包含非常多的结点，HDFS将文件分块存储，并且会保存多个副本到不同的机器节点上以保证数据的安全，而且
科技赋能，商贸物流新速度 —— 智慧供应链商城加速企业成长呆码科技科技
科技赋能，商贸物流新速度——智慧供应链商城加速企业成长随着科技的飞速发展，AI（人工智能）、大数据、物联网等先进技术正深刻重塑着商贸物流行业，推动其向更高效、更智能、更环保的方向迈进。这些技术的应用不仅提升了物流效率，降低了运营成本，还增强了供应链的透明度和可控性，为商贸物流行业带来了前所未有的变革。智慧供应链商城是一个集成了AI、大数据、物联网等先进技术的综合服务平台，旨在通过科技手段提升物流效
国内优秀的FPGA设计公司主要分布在哪些城市？博览鸿蒙 FPGA fpga开发
近年来，国内FPGA行业发展迅速，随着5G通信、人工智能、大数据等新兴技术的崛起，FPGA设计企业的需求也迎来了爆发式增长。很多技术人才在求职时都会考虑城市的行业分布和发展潜力。因此，国内优秀的FPGA设计公司主要分布在哪些城市？以下将对国内FPGA企业集中的城市进行梳理。北京北京在我国FPGA产业发展中有着重要地位，尤其在设计和应用领域有较大优势，形成了完整的研发和产业生态。目前，北京主要的产业
MDX语言的语法糖 ByteBlossom666 包罗万象 golang 开发语言后端
MDX语言的语法糖及其应用分析引言在当今数据驱动的时代，大数据分析和数据可视化已成为企业决策中不可或缺的一部分。MDX（MultidimensionalExpressions，多维表达式）作为一门专为分析多维数据而设计的查询语言，广泛应用于商业智能（BI）工具中。随着技术的发展，MDX语言逐渐演变，形成了其独特的语法糖，以提高开发者的效率和可读性。本文将深入探讨MDX语言的语法糖特性及其在实际应用
大数据的一些基本概念 weixin_49536779 大数据数据分析数据库 python
首先，大数据是什么？大数据是指数据集规模巨大且复杂，传统的数据处理软件无法高效处理它们。它是非常大的数据集。这种复杂性可能来自于数据的“3V”特性：体量（Volume）、多样性（Variety）和速度（Velocity）。体量（Volume）首先，什么是体量？体量指的是以PB（Petabytes）为单位的数据量，甚至是EB（Exabytes）。这种数据量远大于GB（Gigabytes）或TB（Te
TiDB 对 Hadoop 的影响：大数据时代的新选择狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
TiDB对Hadoop的影响：大数据时代的新选择随着大数据时代的到来，各种处理和存储海量数据的技术应运而生。Hadoop和TiDB都是这个时代的代表性技术，但它们的设计初衷、使用场景和应用方式却有所不同。那么，TiDB作为一个分布式数据库，它对传统的Hadoop生态系统产生了哪些影响呢？今天，我们就来聊聊这个话题。Hadoop简介：大数据的“老牌劲旅”首先，我们需要了解一下Hadoop的背景。Ha
MPP（Massively Parallel Processing）是什么？它的特点是什么？狮歌~资深攻城狮数据仓库数据分析数据库分布式
MPP（MassivelyParallelProcessing）是什么？它的特点是什么？在信息化、数据化的今天，处理大规模数据成为了很多行业的关键能力。我们常常听到“大数据”和“数据处理”的词汇，而MMP（MassivelyParallelProcessing，大规模并行处理）正是帮助我们解决大数据处理的利器。那么，MPP究竟有什么特点，让它能够高效处理海量数据呢？1.什么是MPP？MPP的全称是
大语言模型原理与工程实践：网页数据 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：网页数据1.背景介绍在当今信息爆炸的时代，网页数据成为了大数据的重要来源之一。网页数据不仅包含了丰富的文本信息，还包括了图像、视频、音频等多媒体内容。大语言模型（LargeLanguageModels,LLMs）作为自然语言处理（NLP）领域的前沿技术，能够从海量的网页数据中提取有价值的信息，进行文本生成、情感分析、问答系统等多种任务。大语言模型的成功离不开深度学习技术的
Flink系列-2、Flink架构体系技术武器库大数据专栏 flink 架构 jvm
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录Flink中的重要角⾊Flink数据流编程模型Libraries支持Flink集群搭建Local本地模式（开发测试）Standalone-伪分布环境（开
【原创】大数据治理入门（5）《数据生命周期管理：从采集到归档》入门必看高赞实用精通代码大仙数据库 hadoop python 大数据数据挖掘数据治理数据库 python
数据生命周期管理：从采集到归档引言：数据生命周期的概念数据生命周期管理（DataLifecycleManagement，DLM）是指从数据的创建、使用、存储到最终归档或销毁的全过程管理。在大数据时代，企业需要通过对数据生命周期的全面管理，确保数据的可用性、安全性和合规性。本文将详细介绍数据生命周期的各个阶段，以及相应的管理策略和技术工具。各阶段介绍：采集、存储、处理、分析、归档数据采集（DataC
Java 大视界 -- Java 与大数据分布式机器学习平台搭建（58）青云交大数据新视界 Java 大视界大数据分布式机器学习 Apache Spark Hadoop Apache Flink 平台搭建架构设计
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
基于MRS-Hudi构建数据湖的典型应用场景介绍华为云技术精粹云计算华为云
一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写
MySQL、HBase 和 Elasticsearch：特点与区别详解一休哥助手 mysql hbase elasticsearch
引言随着大数据和分布式计算的快速发展，数据库系统已从传统的关系型数据库（RDBMS）扩展到多种新型数据存储技术，包括NoSQL数据库和搜索引擎等。MySQL、HBase和Elasticsearch是其中三种非常常见的数据存储系统，它们在各自的领域都有着重要的应用。MySQL作为传统的关系型数据库，HBase则是一个分布式、可扩展的NoSQL数据库，而Elasticsearch则是一个分布式的搜索引
SRCA 证书免费考！2025 学习奋进，大显蛇通！数据库
社区的小伙伴们，你们的新年学习计划已开启！Rocky为你精心准备了一份特别的礼物–一个为期一个月的学习计划与免费的SRCA考证机会，助你在新的一年成为StarRocks专家，在大数据征程上大显神通。以下是本次新年学习的内容与SRCA考试获取方式：学习目标通过系统的学习，让你迅速提升StarRocks知识基础与解决实际问题的能力，为你的职业发展打下坚实基础。学习方式大家可以根据Rocky规划的课程在
深入MapReduce——引入黄雪超大数据基础 #深入MapReduce mapreduce 大数据 hadoop
引入前面我们已经深入了HDFS的设计与实现，对于分布式系统也有了不错的理解。但HDFS仅仅解决了海量数据存储和读写的问题。但要想让数据产生价值，一定是需要从数据中挖掘出价值才行，这就需要我们拥有海量数据的计算处理能力。下面我们还是老样子，来数据一下要实现海量计算处理能力，有些什么核心痛点大数据计算核心痛点量级大在稍微大一点的互联网企业，需要计算处理的数据量都开始以PB计了。而传统的计算处理模型中，
Kafka 迁移 AutoMQ 时 Flink 位点管理的挑战与解决方案 AutoMQ 云计算云原生 Kafka 消息计算大数据 AWS AutoMQ 阿里云腾讯云 GCP
编辑导读：AutoMQ是一款与ApacheKafka100%完全兼容的新一代Kafka，可以做到至多10倍的成本降低和极速的弹性。凭借其与Kafka的完全兼容性可以与用户已有的Flink等大数据基础设施进行轻松整合。Flink是重要的流处理引擎，与Kafka有着密切的关系。本文重点介绍了当用户需要将生产Kafka集群迁移到AutoMQ时，如何处理好Flink的位点来确保整体迁移的平滑过渡。引言在云
AI产品经理还不会数据挖掘❓看完这篇就够了脱泥不tony 人工智能产品经理数据挖掘 python tensorflow 开发语言 llama
前言在数字化时代的浪潮中，AI产品经理正成为推动科技与商业融合的重要力量。然而，面对海量的数据，如何从中挖掘出有价值的信息，为AI产品的开发提供有力支持？这已成为AI产品经理必须面对的挑战。今天，我们就来探讨一下数据挖掘在AI产品经理工作中的重要性，以及如何通过掌握数据挖掘方法论，打造卓越的AI产品。一、数据挖掘：AI产品经理的必备技能在AI产品的世界中，大数据是构建一切的基础。无论是算法组件、知
Presto 时间、日期及计算相关日期三生暮雨渡瀟瀟 presto big data presto
由于工作中在数据迁移，大数据平台数据查询引擎使用Presto，和传统的数据库时间函数有区别，整理一版，供大家参考，一起学习，有错误欢迎指正。1、查询当前日期selectcurrent_date;2、查询当前时间selectcurrent_timestamp;_col0---------------------------------------2022-01-0220:45:58.551Asia/
销售易CRM：引领数字化转型，助力企业智能增长人工智能程序员
在全球数字化浪潮下，企业对智能化、数字化转型的需求愈发迫切。销售易CRM作为中国领先的企业级智能CRM解决方案提供商，凭借其强大的产品能力、丰富的行业经验和卓越的服务品质，成为众多知名企业的首选合作伙伴。本文将深入分析销售易CRM的核心优势，以及其如何助力企业实现数字化转型与业务增长。一、销售易CRM的核心优势领先的技术实力销售易CRM基于自主研发的新一代智能商业引擎，将人工智能、大数据分析等前沿
销售易与Salesforce：CRM市场的龙争虎斗 crmsaas
在当今数字化时代，客户关系管理软件在企业运营中扮演着至关重要的角色。销售易和Salesforce作为两款备受瞩目的CRM软件，各自具有独特的特点和优势。销售易是连续8年成为唯一入选Gartner销售自动化魔力象限的中国CRM厂商，并且在多项能力指标上超越国际厂商。在中国，销售易在大中型企业市场占有率排名第一，它通过整合移动、社交、人工智能、大数据和物联网技术，提供了全面的业务管理解决方案，被多家5
大数据平台Bug Bash大扫除最佳实践京东云开发者大数据 bug bash
作者：尹伟一、背景随着越来越多的"新人"在日常工作以及大促备战中担当大任，我们发现仅了解自身系统业务已不能满足日常系统开发运维需求。为此，大数据平台部门组织了一次BugBash活动，既能提升自己对兄弟产品的理解和使用，又能促使自家产品功能日趋完善。今天来给大家分享一些实际操作过程和经验总结~二、什么是BugBash？BugBash，顾名思义就是缺陷大扫除。通常由QA主导发起，团队全员放下手中的活，
深入探索Go中的网络编程 AI天才研究院一天一门编程语言自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术深入探索Go中的网络编程1.引言1.1.背景介绍网络编程是计算机网络领域中的一个重要分支,涉及如何在程序中实现网络通信,使程序具有网络访问能力。随着云计算、大数据、物联网等技术的普及,网络编程的需求也越来越大。Go作为一个静态类型的编程语言,以其简洁、高效、安全等特点,成为了许多开发者首选的网络编程语言。本文将深入探索Go中网络编程的特点、原理和实现,帮助读者更好地利用
告别 Excel，拥抱 R 语言：开启数据分析新时代码农老关【关东升】 excel r语言数据分析
在这个数据驱动的时代，数据分析已然成为每个行业的核心竞争力。从市场营销到金融领域，从医疗健康到教育行业，数据无处不在，深刻影响着每一个决策。然而，面对日益复杂的数据集，单纯依靠Excel进行分析，已渐渐难以满足不断增长的需求。为何弃Excel选R语言？强大的数据处理能力Excel简单易用，但其处理大数据集时，效率与能力着实有限。R语言作为专业的数据分析工具，处理成千上万的数据行不在话下，还支持丰富
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 brhhh_sehe 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
有了TiDB，是否还需要“散装”大数据组件？狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
MPP数据库：大数据处理的“高手” 狮歌~资深攻城狮数据仓库数据分析数据库
MPP数据库：大数据处理的“高手”最近听到很多朋友讨论大数据处理的技术，其中就有一个词常常被提起，那就是MPP（MassivelyParallelProcessing，大规模并行处理）。那么，什么是MPP数据库呢？简单来说，它是一种专门用于大数据分析和处理的数据库技术，通过将数据和计算任务分配到多个节点上，达到高效、快速地处理海量数据的效果。1.MPP数据库是如何工作的？MPP数据库的工作方式和我
MPP 和 TiDB：大数据处理的两大“巨头” 狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
MPP和TiDB：大数据处理的两大“巨头”在大数据处理的世界里，MPP（MassivelyParallelProcessing）和TiDB都是非常强大的工具，它们都能帮助我们高效地处理海量的数据。但它们的工作原理和使用场景有所不同。今天，我们就来看看这两个技术的对比，帮助你了解它们各自的优缺点，选出最适合你项目的解决方案。MPP系统是什么？如前所述，MPP（大规模并行处理）是一种通过将数据分布到多
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，