Oak-Komorebi

大数据之Spark（九）：Spark Streaming 概述

一、流式计算简介

1.1 流式计算

理解流式计算，最形象的例子，就是小明的往水池中放(入)水又放(出)水的案例。流式计算就像水流⼀样，数据连绵不断的产生，并被快速处理，所以流式计算拥有如下⼀些特点：

数据是无界的(unbounded)
数据是动态的
计算速度是非常快的
计算不止一次
计算不能终⽌
反过来看看⼀下离线计算有哪些特点：
数据是有界的(Bounded)
数据静态的
计算速度通常较慢
计算只执行一次
计算终会终止

在大数据计算领域中，通常所说的流式计算分为实时计算和准实时计算。所谓实时计算就是来一条记录(⼀个事件 Event)启动⼀次计算；而准实时计算则是介于实时计算和离线计算之间的⼀个计算，所以每次处理的是⼀个微小的批次。

1.2 常见的离线和流式计算框架

常见的离线计算框架

mapreduce
spark-core
flink-dataset

常见的流式计算框架

1. storm(jstorm)

第⼀代的流式处理框架，每⽣成⼀条记录，提交⼀次作业。实时流处理，延迟低。

2. spark-streaming

第⼆代的流式处理框架，短时间内⽣成mirco-batch，提交⼀次作业。准实时，延迟略⾼，秒级或者亚秒级延迟。

3. flink-datastream(blink)

第三代的流式处理框架，每⽣成⼀条记录，提交⼀次作业。实时，延迟低。

1.3 SparkStreaming简介

SparkStreaming，和SparkSQL⼀样，也是Spark生态栈中非常重要的一个模块，主要是用来进行流式计算的框架。流式计算框架，从计算的延迟上面，又可以分为纯实时流式计算和准实时流式计算，SparkStreaming属于准实时计算框架。

所谓纯实时的计算，指的是来⼀条记录(event事件)，启动⼀次计算的作业；离线计算，指的是每次计算⼀个非常大的⼀批(比如几百G，好几个T)数据；准实时计算，介于纯实时和离线计算之间的⼀种计算⽅式。显然不是每⼀条记录就计算⼀次，显然比起离线计算数据量小的多，使用Micro-batch（微小的批次）来表示。

SparkStreaming是SparkCore的api的⼀种扩展，使用DStream(discretized stream or DStream)作为数据模型，基于内存处理连续的数据流，本质上还是RDD的基于内存的计算。

DStream，本质上是RDD的序列。SparkStreaming的处理流程可以归纳为下图：

1.4 SparkStreaming基本工作原理

接收实时输入数据流，然后将数据拆分成多个batch，⽐如每收集1秒的数据封装为⼀个batch，然后将每个batch交给Spark的计算引擎进⾏处理，最后会⽣产出⼀个结果数据流，其中的数据，也是由⼀个⼀个的batch所组成的。

Spark Streaming提供了⼀种⾼级的抽象，叫做DStream，英⽂全称为Discretized Stream，中⽂翻译为“离散流”，它代表了⼀个持续不断的数据流。DStream可以通过输⼊数据源来创建，⽐如Kafka、Flume、ZMQ和 Kinesis；也可以通过对其他DStream应⽤⾼阶函数来创建，⽐如map、reduce、join、window。

DStream的内部，其实⼀系列持续不断产⽣的RDD。RDD是Spark Core的核心抽象，即分布式弹性数据集。DStream中的每个RDD都包含了⼀个时间段内的数据。

对DStream应⽤的算⼦，⽐如map，其实在底层会被翻译为对DStream中每个RDD的操作。⽐如对⼀个 DStream执⾏⼀个map操作，会产⽣⼀个新的DStream。但是，在底层，其实其原理为，对输⼊DStream中每个时间段的RDD，都应⽤⼀遍map操作，然后⽣成的新的RDD，即作为新的DStream中的那个时间段的⼀个RDD。底层的RDD的transformation操作。

还是由Spark Core的计算引擎来实现的。Spark Streaming对Spark Core进⾏了⼀层封装，隐藏了细节，然后对开发⼈员提供了⽅便易⽤的⾼层次的API。

1.5 Storm V.S. SparkStreaming V.S. Flink

1.6 如何选择一款合适的流式处理框架

对于Storm来说：
1、建议在需要纯实时，不能忍受1秒以上延迟的场景下使用，比如实时计算系统，要求纯实时进行交易和分析时。
2、在实时计算的功能中，要求可靠的事务机制和可靠性机制，即数据的处理完全精准，⼀条也不能多，一条也不能少，也可以考虑使用Storm，但是Spark Streaming也可以保证数据的不丢失。
3、如果我们需要考虑针对⾼峰低峰时间段，动态调整实时计算程序的并⾏度，以最大限度利⽤集群资源（通常是在小型公司，集群资源紧张的情况），我们也可以考虑用Storm
对于Spark Streaming来说：
1、不满⾜上述3点要求的话，我们可以考虑使⽤Spark Streaming来进⾏实时计算。
2、考虑使⽤Spark Streaming最主要的⼀个因素，应该是针对整个项⽬进⾏宏观的考虑，即，如果⼀个项目除了实时计算之外，还包括了离线批处理、交互式查询、图计算和MLIB机器学习等业务功能，⽽且实时计算中，可能还会牵扯到⾼延迟批处理、交互式查询等功能，那么就应该⾸选Spark⽣态，⽤Spark Core开发离线批处理，⽤Spark SQL开发交互式查询，⽤Spark Streaming开发实时计算，三者可以⽆缝整合，给系统提供⾮常⾼的可扩展性。
对于Flink来说：
⽀持⾼吞吐、低延迟、⾼性能的流处理
⽀持带有事件时间的窗⼝（Window）操作
⽀持有状态计算的Exactly-once语义
⽀持⾼度灵活的窗⼝（Window）操作，支持基于time、count、session，以及data-driven的窗⼝操作
⽀持具有Backpressure功能的持续流模型
⽀持基于轻量级分布式快照（Snapshot）实现的容错
⼀个运⾏时同时⽀持Batch on Streaming处理和Streaming处理
Flink在JVM内部实现了⾃⼰的内存管理
⽀持迭代计算
⽀持程序⾃动优化：避免特定情况下Shuffle、排序等昂贵操作，中间结果有必要进⾏缓存

二、SparkStreaming实时处理入门

2.1 工程创建

导入Maven依赖


 org.apache.spark
 spark-streaming_2.11
 2.2.2


 org.apache.spark
 spark-streaming-kafka-0-10_2.11
 2.2.2

2.2 入口类StreamingContext

SparkStreaming的入口类为StreamingContext,实际上其底层仍然需要依赖SparkContext。

object _01SparkStreamingWordCountOps {
 def main(args: Array[String]): Unit = {
 /*
 StreamingContext的初始化，需要⾄少两个参数，SparkConf和BatchDuration
 SparkConf不⽤多说
 batchDuration：提交两次作业之间的时间间隔，每次会提交⼀个DStream，将数据转化batch---
>RDD
 所以说：sparkStreaming的计算，就是每隔多⻓时间计算⼀次数据
 */
 val conf = new SparkConf()
 .setAppName("SparkStreamingWordCount")
 .setMaster("local[*]")
 val duration = Seconds(2)
 val ssc = new StreamingContext(conf, duration)
 //业务
 
 
 //为了执⾏的流式计算，必须要调⽤start来启动
 ssc.start()
 //为了不⾄于start启动程序结束，必须要调⽤awaitTermination⽅法等待程序业务完成之后调⽤stop
⽅法结束程序，或者异常
 ssc.awaitTermination()
 }
}

2.3 业务编写

代码实现

object _01SparkStreamingWordCountOps {
 def main(args: Array[String]): Unit = {
 if(args == null || args.length < 2) {
 println(
 """
 |Usage:  
 """.stripMargin)
 System.exit(-1)
 }
 val Array(hostname, port) = args
 /*
 StreamingContext的初始化，需要⾄少两个参数，SparkConf和BatchDuration
 SparkConf不⽤多说
 batchDuration：提交两次作业之间的时间间隔，每次会提交⼀个DStream，将数据转化batch---
>RDD
 所以说：sparkStreaming的计算，就是每隔多⻓时间计算⼀次数据
 */
 val conf = new SparkConf()
 .setAppName("SparkStreamingWordCount")
 .setMaster("local[*]")
 val duration = Seconds(2)
 val ssc = new StreamingContext(conf, duration)
 //接⼊数据
 val lines:ReceiverInputDStream[String] = ssc.socketTextStream(hostname,
port.toInt)
// lines.print()
 val retDStream:DStream[(String, Int)] = lines.flatMap(_.split("\\s+")).map((_,
1)).reduceByKey(_+_)
 retDStream.print()
 //为了执⾏的流式计算，必须要调⽤start来启动
ssc.start()
 //为了不⾄于start启动程序结束，必须要调⽤awaitTermination⽅法等待程序业务完成之后调⽤stop
⽅法结束程序，或者异常
 ssc.awaitTermination()
 }
}

使用netcat进行测试（需要安装）

...

三、SparkStreaming与Kafka整合

3.1 整合简述

kafka是做消息的缓存，数据和业务隔离操作的消息队列，⽽sparkstreaming是⼀款准实时流式计算框架，所以二者的整合，是大势所趋。

二者的整合，主要有两大版本。

3.2 Direct的方式

编码

//基于direct⽅式整合kafka
object _03SparkStreamingWithKafkaDirectOps {
 def main(args: Array[String]): Unit = {
 Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
 Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
 Logger.getLogger("org.spark_project").setLevel(Level.WARN)
 val conf = new SparkConf()
 .setAppName("SparkStreamingWithKafkaDirect")
 .setMaster("local[*]")
 val duration = Seconds(2)
 val ssc = new StreamingContext(conf, duration)
 val kafkaParams = Map[String, String](
 "bootstrap.servers" -> "bigdata01:9092,bigdata02:9092,bigdata03:9092",
 "group.id" -> "g_1903_2",
 "auto.offset.reset" -> "largest"
 )
 val topics = "spark".split(",").toSet
 val messages: InputDStream[(String, String)] =
KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc,
kafkaParams, topics)
 messages.foreachRDD((rdd, bTime) => {
 if(!rdd.isEmpty()) {
 val offsetRDD = rdd.asInstanceOf[HasOffsetRanges]
 val offsetRanges = offsetRDD.offsetRanges
 for(offsetRange <- offsetRanges) {
 val topic = offsetRange.topic
 val partition = offsetRange.partition
 val fromOffset = offsetRange.fromOffset
 val untilOffset = offsetRange.untilOffset
 
println(s"topic:${topic}\tpartition:${partition}\tstart:${fromOffset}\tend:${until
Offset}")
 }
 rdd.count()
 }
 })
 ssc.start()
 ssc.awaitTermination()
 }
}

说明

简化的并行性：不需要创建多个输入Kafka流并将其合并。使用directStream，Spark Streaming将创建与使⽤Kafka分区⼀样多的RDD分区，这些分区将全部从Kafka并⾏读取数据。所以在Kafka和RDD分区之间有⼀对⼀的映射关系。
效率：在第⼀种⽅法中实现零数据丢失需要将数据存储在预写⽇志中，这会进⼀步复制数据。这实际上是效率低下的，因为数据被有效地复制了两次:⼀次是Kafka，另⼀次是由预先写⼊⽇志（Write Ahead Log）复制。这个第⼆种⽅法消除了这个问题，因为没有接收器，因此不需要预先写⼊⽇志。只要Kafka数据保留时间⾜够⻓。
正好一次（Exactly-once）语义：第⼀种⽅法使⽤Kafka的⾼级API来在Zookeeper中存储消耗的偏移量。传统上这是从Kafka消费数据的⽅式。虽然这种⽅法（结合提前写⼊⽇志）可以确保零数据丢失（即⾄少⼀次语义），但是在某些失败情况下，有⼀些记录可能会消费两次。发⽣这种情况是因为Spark Streaming可靠接收到的数据与Zookeeper跟踪的偏移之间的不⼀致。因此，在第⼆种⽅法中，我们使⽤不使⽤Zookeeper的简单Kafka API。在其检查点内，Spark Streaming跟踪偏移量。这消除了Spark Streaming和Zookeeper/Kafka之间的不⼀致，因此Spark Streaming每次记录都会在发⽣故障的情况下有效地收到⼀次。为了实现输出结果的⼀次语义，将数据保存到外部数据存储区的输出操作必须是幂等的，或者是保存结果和偏移量的原⼦事务。

四、SparkStreaming常见transformation算子

4.1 常见的算子操作

cogroup简要说明：cogroup就是groupByKey的另外⼀种变体，groupByKey是操作⼀个K-V键值对，而cogroup⼀次操作两个，类似于join，不同之处在于返回值结果：

val ds1:DStream[(K, V)]
val ds2:DStream[(K, w)]
val cg:DStream[(K, (Iterable[V], Iterable[W]))] = ds1.cogroup(ds1)

4.2 transform

transform是⼀个transformation算⼦，转换算⼦。

DStream上述提供的所有的transformation操作，都是DStream-2-DStream操作，没有⼀个DStream和 RDD的直接操作，⽽DStream本质上是⼀系列RDD，所以RDD-2-RDD操作是显然被需要的，所以此时官⽅api中提供了⼀个为了达成此操作的算⼦——transform操作。

最经典的实现就是DStream和rdd的join操作，还有dstream重分区(分区减少，coalesce)。

也就是说transform主要就是⽤来⾃定义官⽅api没有提供的⼀些操作。

案例：

动态黑名单过滤

广告计费系统，是电商必不可少的⼀个功能点。为了防⽌恶意的⼴告点击(假设商户A和B同时在某电商做了⼴告，A和B为竞争对⼿，那么如果A使⽤点击机器⼈进⾏对B的⼴告的恶意点击，那么B的⼴告费⽤将很快被⽤完)，必须对⼴告点击进⾏⿊名单过滤。⿊名单的过滤可以是ID，可以是IP等等，⿊名单就是过滤的条件，利⽤SparkStreaming的流处理特性，可实现实时⿊名单的过滤实现。可以使⽤leftouter join 对⽬标数据和⿊名单数据进⾏关联，将命中⿊名单的数据过滤掉。

代码实现

/**
 * 在线⿊名单过滤
 *
 * 类名起名规范
 * ⾸字⺟⼤写，多单词，采⽤驼峰
 * ⼀律名词，不能动词
 * 并且单数不能复数
 * ⽅法名起名规范
 * ⾸字⺟⼩写，多单词，采⽤驼峰
 * ⼀般采⽤动宾短语（动词+名词）
 * 尽量少⽤⼀些汉语拼⾳，中⽂
 *
 * 需求：
 * 从⽤户请求的nginx⽇志中过滤出⿊名单的数据，保留⽩名单数据进⾏后续业务统计。
 * data structure
 * 27.19.74.143##2016-05-30 17:38:20##GET /static/image/common/faq.gif
HTTP/1.1##200##1127
110.52.250.126##2016-05-30 17:38:20##GET /data/cache/style_1_widthauto.css?y7a
HTTP/1.1##200##1292
 */
object _01OnlineBlacklistFilterOps {
 def main(args: Array[String]): Unit = {
 Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
 Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
 Logger.getLogger("org.spark_project").setLevel(Level.WARN)
 val conf = new SparkConf()
 .setAppName("OnlineBlacklistFilter")
.setMaster("local[*]")
 val duration = Seconds(2)
 val ssc = new StreamingContext(conf, duration)
 //⿊名单RDD
 val blacklistRDD:RDD[(String, Boolean)] = ssc.sparkContext.parallelize(List(
 ("27.19.74.143", true),
 ("110.52.250.126", true)
 ))
 //接⼊外部的数据流
 val lines:DStream[String] = ssc.socketTextStream("bigdata01", 9999)
 //⿊名单过滤
// 110.52.250.126##2016-05-30 17:38:20##GET /data/cache/style_1_widthauto.css?
y7a HTTP/1.1##200##1292
 val ip2OtherDStream:DStream[(String, String)] = lines.map(line => {
 val index = line.indexOf("##")
 val ip = line.substring(0, index)
 val other = line.substring(index + 2)
 (ip, other)
 })
 val filteredDStream:DStream[(String, String)] = ip2OtherDStream.transform(rdd
=> {
 val join = rdd.leftOuterJoin(blacklistRDD)
 join.filter{case (ip, (left, right)) => {
 !right.isDefined
 }}.map{case (ip, (left, right)) => {
 (ip, left)
 }}
 })
 filteredDStream.print()
 //重分区
// filteredDStream.transform(_.coalesce(8))
 ssc.start()
 ssc.awaitTermination()
 }
}

4.3 updateStateByKey

updateStateByKey(func) 根据于key的前置状态和key的新值，对key进⾏更新，返回⼀个新状态的Dstream。

统计截⽌到⽬前为⽌key的状态。

通过分析，我们需要清楚：在这个操作中需要两个数据，⼀个是key的前置状态，⼀个是key的新增(当前批次的数据)；还有历史数据(前置状态)得需要存储在磁盘，不应该保存在内存中。

同时key的前置状态可能有可能没有。

案例：wordcount

/**
 * 统计，截⽌到⽬前为⽌出现的每⼀个key的次数
 */
object _02WordCountUpdateStateByKeyOps {
 def main(args: Array[String]): Unit = {
 Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
 Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
 Logger.getLogger("org.spark_project").setLevel(Level.WARN)
 val conf = new SparkConf()
 .setAppName("WordCountUpdateStateByKey")
 .setMaster("local[*]")
 val duration = Seconds(2)
 val ssc = new StreamingContext(conf, duration)
 ssc.checkpoint("file:/E:/data/out/1903/chk")
 val lines:DStream[String] = ssc.socketTextStream("bigdata01", 9999)
 val pairs:DStream[(String, Int)] = lines.flatMap(_.split("\\s+")).map((_, 1))
 val usb:DStream[(String, Int)] = pairs.updateStateByKey(updateFunc)
 usb.print()
 ssc.start()
 ssc.awaitTermination()
 }
 /*
 状态更新函数
 根据key的前置状态和key的最新值，聚合得到截⽌到⽬前为⽌key的状态
 seq:为当前key的状态
 option为key对应的历史值
 */
 def updateFunc(seq: Seq[Int], option: Option[Int]): Option[Int] = {
 println("option:" + option + "> seq: " + seq.mkString("[", ",", "]"))
// var sum = 0
// for(i <- seq) sum += i
// if(option.isDefined) {
// sum += option.get
// }
// Option(sum)
 Option(seq.sum + option.getOrElse(0))
 }
}

4.4 window

window操作就是窗口函数。Spark Streaming提供了滑动窗⼝操作的⽀持，从⽽让我们可以对⼀个滑动窗⼝内的数据执⾏计算操作。每次掉落在窗⼝内的RDD的数据，会被聚合起来执⾏计算操作，然后⽣成的RDD，会作为 window DStream的⼀个RDD。⽐如下图中，就是对每三秒钟的数据执⾏⼀次滑动窗⼝计算，这3秒内的3个RDD会被聚合起来进⾏处理，然后过了两秒钟，⼜会对最近三秒内的数据执⾏滑动窗⼝计算。所以每个滑动窗⼝操作，都必须指定两个参数，窗⼝⻓度以及滑动间隔，⽽且这两个参数值都必须是batch间隔的整数倍。

红色的矩形就是一个窗口，窗口hold的是⼀段时间内的数据流。
这⾥⾯每⼀个time都是时间单元，在官⽅的例⼦中，每隔window size是3 time unit, ⽽且每隔2个单位时间，窗⼝会slide⼀次。所以基于窗⼝的操作，需要指定2个参数：
window length - The duration of the window (3 in the figure)
slide interval - The interval at which the window-based operation is performed (2 in the figure).
窗口大小，一段时间内数据的容器。
滑动间隔，可以理解为cron表达式

/**
 * 统计，截⽌到⽬前为⽌出现的每⼀个key的次数
 * window窗⼝操作，每个多⻓M时间,通过过往N⻓时间内产⽣的数据
 * M就是滑动⻓度sliding interval
 * N就是窗⼝⻓度window length
 */
object _03WordCountWindowsOps {
 def main(args: Array[String]): Unit = {
 Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
 Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
 Logger.getLogger("org.spark_project").setLevel(Level.WARN)
 val conf = new SparkConf()
 .setAppName("WordCountUpdateStateByKey")
 .setMaster("local[*]")
 val batchInterval = 2
 val duration = Seconds(batchInterval)
 val ssc = new StreamingContext(conf, duration)
val lines:DStream[String] = ssc.socketTextStream("bigdata01", 9999)
 val pairs:DStream[(String, Int)] = lines.flatMap(_.split("\\s+")).map((_, 1))
 val ret:DStream[(String, Int)] = pairs.reduceByKeyAndWindow(_+_,
 windowDuration = Seconds(batchInterval * 3),
 slideDuration = Seconds(batchInterval * 2))
 ret.print()
 ssc.start()
 ssc.awaitTermination()
 }
 /*
 状态更新函数
 根据key的前置状态和key的最新值，聚合得到截⽌到⽬前为⽌key的状态
 seq:为当前key的状态
 option为key对应的历史值
 */
 def updateFunc(seq: Seq[Int], option: Option[Int]): Option[Int] = {
 println("option:" + option + "> seq: " + seq.mkString("[", ",", "]"))
// var sum = 0
// for(i <- seq) sum += i
// if(option.isDefined) {
// sum += option.get
// }
// Option(sum)
 Option(seq.sum + option.getOrElse(0))
 }
}

4.5 SparkSQL和SparkStreaming的整合案例

Spark最强大的地方在于，可以与Spark Core、Spark SQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream中的RDD使用Spark Core执行批处理操作。现在就来看看，如何将DStream中的RDD 与Spark SQL结合起来使⽤。

案例：top3的商品排序（最新的top3）

这⾥就是基于updatestateByKey，统计截⽌到⽬前为⽌的不同品类下的商品销量top3

/**
 * SparkStreaming整合SparkSQL的案例之，热⻔品类top3排⾏
 */
object _04StreamingIntegerationSQLOps {
 def main(args: Array[String]): Unit = {
 Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
 Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
Logger.getLogger("org.spark_project").setLevel(Level.WARN)
 val conf = new SparkConf()
 .setAppName("StreamingIntegerationSQL")
 .setMaster("local[*]")
 val batchInterval = 2
 val duration = Seconds(batchInterval)
 val spark = SparkSession.builder()
 .config(conf)
 .getOrCreate()
 val ssc = new StreamingContext(spark.sparkContext, duration)
 ssc.checkpoint("file:/E:/data/out/1903/chk-1")
 val lines:DStream[String] = ssc.socketTextStream("bigdata01", 9999)
 //001 mi moblie
 val pairs:DStream[(String, Int)] = lines.map(line => {
 val fields = line.split("\\s+")
 if(fields == null || fields.length != 3) {
 ("", -1)
 } else {
 val brand = fields(1)
 val category = fields(2)
 (s"${category}_${brand}", 1)
 }
 }).filter(t => t._2 != -1)
 val usb:DStream[(String, Int)] = pairs.updateStateByKey(updateFunc)
 usb.foreachRDD((rdd, bTime) => {
 if(!rdd.isEmpty()) {//category_brand count
 import spark.implicits._
 val df = rdd.map{case (cb, count) => {
 val category = cb.substring(0, cb.indexOf("_"))
 val brand = cb.substring(cb.indexOf("_") + 1)
 (category, brand, count)
 }}.toDF("category", "brand", "sales")
 df.createOrReplaceTempView("tmp_category_brand_sales")
 val sql =
 """
 |select
 | t.category,
 | t.brand,
 | t.sales
 | t.rank
 |from (
 | select
 | category,
 | brand,
 | sales,
| row_number() over(partition by category order by sales desc)
rank
 | from tmp_category_brand_sales
 |) t
 |where t.rank < 4
 """.stripMargin
 spark.sql(sql).show()
 }
 })
 ssc.start()
 ssc.awaitTermination()
 }
 def updateFunc(seq: Seq[Int], option: Option[Int]): Option[Int] = {
 Option(seq.sum + option.getOrElse(0))
 }
}

五、SparkStreaming 优化

5.1 SparkStreaming缓存操作

SparkStreaming的缓存，说白了就是DStream的缓存，DStream的缓存就只有⼀个方面，DStream对应的RDD的缓存，RDD如何缓存？rdd.persist()，所以DStream的缓存其实就是RDD的缓存，使用persist()指定，及其需要指定持久化策略，大多算子默认情况下，持久化策略为MEMORY_AND_DISK_SER_2。

5.2 SparkStreaming的checkpoint机制

每⼀个Spark Streaming应⽤，正常来说，都是要7*24⼩时运转的，这就是实时计算程序的特点。因为要持续不断的对数据进⾏计算。因此，对实时计算应⽤的要求，应该是必须要能够对与应⽤程序逻辑无关的失败，进⾏容错。
如果要实现这个⽬标，Spark Streaming程序就必须将⾜够的信息checkpoint到容错的存储系统上，从⽽让它能够从失败中进⾏恢复。有两种数据需要被进⾏checkpoint：
1）元数据checkpoint——将定义了流式计算逻辑的信息，保存到容错的存储系统上，⽐如HDFS。当运⾏SparkStreaming应⽤程序的Driver进程所在节点失败时，该信息可以⽤于进⾏恢复。元数据信息包括了：
配置信息——创建Spark Streaming应⽤程序的配置信息，⽐如SparkConf中的信息。
DStream的操作信息——定义了Spark Stream应⽤程序的计算逻辑的DStream操作信息。
未处理的batch信息——那些job正在排队，还没处理的batch信息。
2)、数据checkpoint——将实时计算过程中产⽣的RDD的数据保存到可靠的存储系统中。
对于⼀些将多个batch的数据进⾏聚合的，有状态的transformation操作，这是⾮常有⽤的。在这种 transformation操作中，⽣成的RDD是依赖于之前的batch的RDD的，这会导致随着时间的推移，RDD的依赖链条变得越来越⻓。
要避免由于依赖链条越来越⻓，导致的⼀起变得越来越⻓的失败恢复时间，有状态的transformation操作执⾏过程中间产⽣的RDD，会定期地被checkpoint到可靠的存储系统上，⽐如HDFS。从⽽削减RDD的依赖链条，进⽽缩短失败恢复时，RDD的恢复时间。

总结：
元数据checkpoint主要是为了从driver失败中进⾏恢复；⽽RDD checkpoint主要是为了使⽤到有状态的transformation操作时，能够在其⽣产出的数据丢失时，进⾏快速的失败恢复。

5.3 调优建议

5.3.1 设置合理的CPU

很多情况下Streaming程序需要的内存不是很多，但是需要的CPU要很多。在Streaming程序中，CPU资源的使用可以分为两⼤类：

⽤于接收数据；
⽤于处理数据。我们需要设置⾜够的CPU资源，使得有⾜够的CPU资源⽤于接收和处理数据，这样才能及时⾼效地处理数据。

5.3.2 设置合理的并行度

如果在计算的任何stage中使⽤的并⾏task的数量没有⾜够多，那么集群资源是⽆法被充分利⽤的。举例来说，对于分布式的reduce操作，⽐如reduceByKey和reduceByKeyAndWindow，默认的并⾏task的数量是由 spark.default.parallelism参数决定的。你可以在reduceByKey等操作中，传⼊第⼆个参数，⼿动指定该操作的并行度，也可以调节全局的spark.default.parallelism参数。

该参数说的是，对于那些shuffle的⽗RDD的最⼤的分区数据。对于parallelize或者textFile这些输⼊算⼦，因为没有⽗RDD，所以依赖于ClusterManager的配置。如果是local模式，该默认值是local[x]中的x；如果是mesos的细粒度模式，该值为8，其它模式就是Math.max(2, 所有的excutor上的所有的core的总数)。

5.3.3 序列化调优说明

数据序列化造成的系统开销可以由序列化格式的优化来减⼩。在流式计算的场景下，有两种类型的数据需要序列化。

输⼊数据：默认情况下，接收到的输⼊数据，是存储在Executor的内存中的，使⽤的持久化级别是 StorageLevel.MEMORY_AND_DISK_SER_2。这意味着，数据被序列化为字节从⽽减⼩GC开销，并且会复制以进⾏ executor失败的容错。因此，数据⾸先会存储在内存中，然后在内存不⾜时会溢写到磁盘上，从⽽为流式计算来保存所有需要的数据。这⾥的序列化有明显的性能开销——Receiver必须反序列化从⽹络接收到的数据，然后再使⽤ Spark的序列化格式序列化数据。
流式计算操作⽣成的持久化RDD：流式计算操作⽣成的持久化RDD，可能会持久化到内存中。例如，窗⼝操作默认就会将数据持久化在内存中，因为这些数据后⾯可能会在多个窗⼝中被使⽤，并被处理多次。然⽽，不像 Spark Core的默认持久化级别，StorageLevel.MEMORY_ONLY，流式计算操作⽣成的RDD的默认持久化级别是 StorageLevel.MEMORY_ONLY_SER ，默认就会减⼩GC开销。

上述场景中，使⽤Kryo序列化类库可以减⼩CPU和内存的性能开销。使⽤Kryo时，⼀定要考虑注册⾃定义的类，并且禁⽤对应引⽤的tracking（spark.kryo.referenceTracking=false 跟踪对同⼀个对象的引⽤情况,这对发现有循环引⽤或同⼀对象有多个副本的情况是很有⽤的。设置为false可以提⾼性能）。

5.3.4 内存调优

内存调优的另外⼀个⽅⾯是垃圾回收。对于流式应⽤来说，如果要获得低延迟，肯定不想要有因为JVM垃圾回收导致的⻓时间延迟。有很多参数可以帮助降低内存使⽤和GC开销：

DStream的持久化：正如在“数据序列化调优”⼀节中提到的，输⼊数据和某些操作⽣产的中间RDD，默认持久化时都会序列化为字节。与⾮序列化的⽅式相⽐，这会降低内存和GC开销。使⽤Kryo序列化机制可以进⼀步减少内存使⽤和GC开销。进⼀步降低内存使⽤率，可以对数据进⾏压缩，由spark.rdd.compress参数控制（默认 false）。
清理旧数据：默认情况下，所有输⼊数据和通过DStream transformation操作⽣成的持久化RDD，会⾃动被清理。Spark Streaming会决定何时清理这些数据，取决于transformation操作类型。例如，你在使⽤窗⼝⻓度为 10分钟内的window操作，Spark会保持10分钟以内的数据，时间过了以后就会清理旧数据。但是在某些特殊场景下，⽐如Spark SQL和Spark Streaming整合使⽤时，在异步开启的线程中，使⽤Spark SQL针对batch RDD进⾏执⾏查询。那么就需要让Spark保存更⻓时间的数据，直到Spark SQL查询结束。可以使⽤streamingContext.remember()⽅法来实现。
CMS垃圾回收器：使用并行的mark-sweep垃圾回收机制，被推荐使用，用来保持GC低开销。虽然并行的GC会降低吞吐量，但是还是建议使用它，来减少batch的处理时间（降低处理过程中的gc开销）。如果要使用，那么要在driver端和executor端都开启。
在spark-submit中使用--driver-java-options设置；使用spark.executor.extraJavaOptions参数设置。-XX:+UseConcMarkSweepGC。

5.3.5 背压机制

        设置最大接收速率 - 如果集群资源不够多，streaming 应用程序能够像接收到的那样快速处理数据，则可以通过设置记录 /秒的最大速率限制来对 receiver 进行速率限制。
详细内容请参阅 receiver 的 spark.streaming.receiver.maxRate 和用于 Direct Kafka 方法的spark.streaming.kafka.maxRatePerPartition 的配置参数。
        Spark 1.5中，引入了⼀个称为背压的功能，无需设置此速率限制，因为Spark Streaming会自动计算速率限制，并在处理条件发生变化时动态调整速率限制。可通过将配置参数 spark.streaming.backpressure.enabled 设置为 true 来启用此 backpressure。
        这样就可以解决数据积压和Job等待问题，动态感知数据量的大小，并动态调节Spark每个批次处理的数据量。

你可能感兴趣的:(#,Spark,spark)

计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
AI日报-20250620：华为云重磅发布盘古大模型5.5！宇树科技C轮融资引爆资本圈！Genspark AI Pod震撼发布！未来世界2099 AI日报人工智能华为云科技业界资讯
1、昆仑万维开源Skywork-SWE-32B：32B模型刷新代码修复SOTA，性能直逼闭源巨头2、腾讯AILab开源音乐生成大模型SongGeneration，人人皆可创作音乐！3、重磅！ManusAIWindows版免码开放，职场效率革命来袭！4、B站618商单效率飙升5倍！通义千问3助力AI选人功能大爆发5、HailuoVideoAgent震撼发布：零门槛生成专业级视频，创意秒变现实！6、中
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
24.park和unpark方法卷土重来… java并发编程 java
1.park方法可以暂停线程，线程状态为wait。2.unpark方法可以恢复线程，线程状态为runnable。3.LockSupport的静态方法。4.park和unpark方法调用不分先后，unpark先调用，park后执行也可以恢复线程。publicclassParkDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
云原生--微服务、CICD、SaaS、PaaS、IaaS 青秋. 云原生 docker 云原生微服务 kubernetes serverless service_mesh ci/cd
往期推荐浅学React和JSX-CSDN博客一文搞懂大数据流式计算引擎Flink【万字详解，史上最全】-CSDN博客一文入门大数据准流式计算引擎Spark【万字详解，全网最新】_大数据spark-CSDN博客目录1.云原生概念和特点2.常见云模式3.云对外提供服务的架构模式3.1IaaS（Infrastructure-as-a-Service）3.2PaaS（Platform-as-a-Servi
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
Spark RDD 及性能调优 Aurora_NeAr spark wpf c#
RDDProgrammingRDD核心架构与特性分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。计算函数（ComputeFunction）：每个分区应用相同的转换函数；惰性执行机制。依赖关系（Dependencies）窄依赖：1个父分区→1个子分区（map、filter）。宽依赖：1个父分区→多个子分区（groupByKey、join）。
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
Spark 4.0的VariantType 类型以及内部存储鸿乃江边鸟大数据 SQL spark spark sql 大数据
背景本文基于Spark4.0总结Spark中的VariantType类型，用尽量少的字节来存储Json的格式化数据分析这里主要介绍Variant的存储，我们从VariantBuilder.buildJson方法(把对应的json数据存储为VariantType类型)开始：publicstaticVariantparseJson(JsonParserparser,booleanallowDuplic
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟