csdn大数据

大数据分析技术与实战之Spark Streaming（内含福利）

↑ 点击上方蓝字关注我们，和小伙伴一起聊技术！

随着信息技术的迅猛发展，数据量呈现出爆炸式增长趋势，数据的种类与变化速度也远远超出人们的想象，因此人们对大数据处理提出了更高的要求，越来越多的领域迫切需要大数据技术来解决领域内的关键问题。在一些特定的领域中（例如金融、灾害预警等），时间就是金钱、时间可能就是生命！然而传统的批处理框架却一直难以满足这些领域中的实时性需求。为此，涌现出了一批如S4、Storm的流式计算框架。Spark是基于内存的大数据综合处理引擎，具有优秀的作业调度机制和快速的分布式计算能力，使其能够更加高效地进行迭代计算，因此Spark能够在一定程度上实现大数据的流式处理。

Spark Streaming是Spark上的一个流式处理框架，可以面向海量数据实现高吞吐量、高容错的实时计算。Spark Streaming支持多种类型数据源，包括Kafka、Flume、trwitter、zeroMQ、Kinesis以及TCP sockets等，如图1所示。Spark Streaming实时接收数据流，并按照一定的时间间隔将连续的数据流拆分成一批批离散的数据集；然后应用诸如map、reducluce、join和window等丰富的API进行复杂的数据处理；最后提交给Spark引擎进行运算，得到批量结果数据，因此其也被称为准实时处理系统。

图1 Spark Streaming支持多种类型数据源

目前应用最广泛的大数据流式处理框架是Storm。Spark Streaming 最低0.5~2s做一次处理（而Storm最快可达0.1s），在实时性和容错方面不如Storm。然而Spark Streaming的集成性非常好，通过RDD不仅能够与Spark上的所有组件无缝衔接共享数据，还能非常容易地与Kafka、Flume等分布式日志收集框架进行集成；同时Spark Streaming的吞吐量非常高，远远优于Storm的吞吐量，如图2所示。所以虽然Spark Streaming的处理延迟高于Storm，但是在集成性与吞吐量方面的优势使其更适用于大数据背景。

图2 Spark Streaming与Storm吞吐量比较图

Spark Streaming基础概念

批处理时间间隔

在Spark Streaming中，对数据的采集是实时、逐条进行的，但是对数据的处理却是分批进行的。因此，Spark Streaming需要设定一个时间间隔，将该时间间隔内采集到的数据统一进行处理，这个间隔称为批处理时间间隔。

也就是说对于源源不断的数据，Spark Streaming是通过切分的方式，先将连续的数据流进行离散化处理。数据流每被切分一次，对应生成一个RDD，每个RDD都包含了一个时间间隔内所获取到的所有数据，因此数据流被转换为由若干个RDD构成的有序集合，而批处理时间间隔决定了Spark Streaming需要多久对数据流切分一次。Spark Streaming是Spark上的组件，其获取的数据和数据上的操作最终仍以Spark作业的形式在底层的Spark内核中进行计算，因此批处理时间间隔不仅影响数据处理的吞吐量，同时也决定了Spark Streaming向Spark提交作业的频率和数据处理的延迟。需要注意的是，批处理时间间隔的设置会伴随Spark Streaming应用程序的整个生命周期，无法在程序运行期间动态修改，所以需要综合考虑实际应用场景中的数据流特点和集群的处理性能等多种因素进行设定。

窗口时间间隔

窗口时间间隔又称为窗口长度，它是一个抽象的时间概念，决定了Spark Streaming对RDD序列进行处理的范围与粒度，即用户可以通过设置窗口长度来对一定时间范围内的数据进行统计和分析。如果设批处理时间设为1s，窗口时间间隔为3s，如3图所示，其中每个实心矩形表示Spark Streaming每1秒钟切分出的一个RDD，若干个实心矩形块表示一个以时间为序的RDD序列，而透明矩形框表示窗口时间间隔。易知窗口内RDD的数量最多为3个，即Spark Streming 每次最多对3个RDD中的数据进行统计和分析。对于窗口时间间隔还需要注意以下几点：

以图3为例，在系统启动后的前3s内，因进入窗口的RDD不足3个，但是随着时间的推移，最终窗口将被填满。
不同窗口内所包含的RDD可能会有重叠，即当前窗口内的数据可能被其后续若干个窗口所包含，因此在一些应用场景中，对于已经处理过的数据不能立即删除，以备后续计算使用。
窗口时间间隔必须是批处理时间间隔的整数倍。

图3 窗口时间间隔示意图

滑动时间间隔

滑动时间间隔决定了Spark Streaming对数据进行统计与分析的频率，多出现在与窗口相关的操作中。滑动时间间隔是基于批处理时间间隔提出的，其必须是批处理时间间隔的整数倍。在默认的情况下滑动时间间隔设置为与批处理时间间隔相同的值。如果批处理时间间隔为1s，窗口间隔为3s，滑动时间间隔为2s，如图4所示，其含义是每隔2s对过去3s内产生的3个RDD进行统计分析。

图4 滑动时间间隔、窗口时间间隔、批处理时间间隔综合示意图

DStream基本概念

DStream是Spark Streaming的一个基本抽象，它以离散化的RDD序列的形式近似描述了连续的数据流。DStream本质上是一个以时间为键，RDD为值的哈希表，保存了按时间顺序产生的RDD，而每个RDD封装了批处理时间间隔内获取到的数据。Spark Streaming每次将新产生的RDD添加到哈希表中，而对于已经不再需要的RDD则会从这个哈希表中删除，所以DStream也可以简单地理解为以时间为键的RDD的动态序列。设批处理时间间隔为1s，图5为4s内产生的DStream示意图。

图5 DStream示意图

Spark Streaming编程模式与案例分析

Spark Streaming编程模式

下面以Spark Streaming官方提供的WordCount代码为例来介绍Spark Streaming的使用方式。

示例1：

import org.apache.spark._

import org.apache.spark.streaming._

import org.apache.spark.streaming.StreamingContext._

/*创建一个本地模式的StreamingContext，并设定master节点工作线程数为2，并以1秒作为批处理时间间隔。*/

val conf = new SparkConf().setMaster("local[2]").

setAppName("NetworkWordCount")

val ssc = new StreamingContext(conf, Seconds(1))

/*通过获取”localhost”节点9999端口中的实时数据流创建DStream。*/

val lines = ssc.socketTextStream("localhost", 9999)

/*以空格作为分割DStream中数据的依据，使得每一行文本转换为若干个单词。*/

val words = lines.flatMap(_.split(" "))

import org.apache.spark.streaming.StreamingContext._

/*对于words中的每个单词word，转换为相应的二元组形式(word,1)，在此基础上统计每个单词出现的次数。*/

val pairs = words.map(word => (word, 1))

val wordCounts = pairs.reduceByKey(_ + _)

//输出DStream中每个RDD中前10个元素。

wordCounts.print()

//启动Spark Streaming应用程序。

ssc.start()

//等待计算完成。

ssc.awaitTermination()

Spark Streaming应用程序在功能结构上通常包含以下五部分，如上述示例1所示。

导入Spark Streaming相关包：Spark Streaming作为Spark框架上的一个组件，具有很好的集成性。在开发Spark Streaming应用程序时，只需导入Spark Streaming相关包，无需额外的参数配置。
创建StreamingContext对象：同Spark应用程序中的SparkContext对象一样， StreamingContext对象是Spark Streaming应用程序与集群进行交互的唯一通道，其中封装了Spark集群的环境信息和应用程序的一些属性信息。在该对象中通常需要指明应用程序的运行模式（示例1中设为local[2]）、设定应用程序名称（示例1中设为NetworkWordCount）、设定批处理时间间隔（示例1中设为Seconds(1)即1秒钟），其中批处理时间间隔需要根据用户的需求和集群的处理能力进行适当地设置。
创建InputDStream：Spark Streaming需要根据数据源类型选择相应的创建DStream的方法。示例1中Spark Streaming通过StreamingContext对象调用socketTextStream方法处理以socket连接类型数据源，创建出DStream即lines。Spark Streaming同时支持多种不同的数据源类型，其中包括Kafka、Flume、HDFS/S3、Kinesis和Twitter等数据源。
操作DStream：对于从数据源得到的DStream，用户可以调用丰富的操作对其进行处理。示例1中针对lines的一系列操作就是一个典型的WordCount执行流程：对于当前批处理时间间隔内的文本数据以空格进行切分，进而得到words；再将words中每个单词转换为二元组，进而得到pairs；最后利用reduceByKey方法进行统计。
启动与停止Spark Streaming应用程序：在启动Spark Streaming应用程序之前，DStream上所有的操作仅仅是定义了数据的处理流程，程序并没有真正连接上数据源，也没有对数据进行任何操作，当ssc.start()启动后程序中定义的操作才会真正开始执行。

文本文件数据处理案例

功能需求

实时监听并获取本地home/dong/Streamingtext目录中新生成的文件（文件均为英文文本文件，单词之间使用空格进行间隔），并对文件中各单词出现的次数进行统计。

代码实现

package dong.spark

import org.apache.spark.SparkConf

import org.apache.spark.streaming.{Seconds,StreamingContext}

import org.apache.spark.streaming.StreamingContext._

object StreamingFileWordCount {

def main(args: Array[String]): Unit ={

//以local模式运行，并设定master节点工作线程数为2。

val sparkConf = new SparkConf().

setAppName("StreamingFileWordCount").

setMaster("local[2]")

/*创建StreamingContext实例，设定批处理时间间隔为20秒。*/

val ssc = new StreamingContext(sparkConf,Seconds(20))

/*指定数据源来自本地home/dong/Streamingtext。*/

val lines = ssc.textFileStream("/home/dong/Streamingtext")

/*在每个批处理时间间隔内，对指定文件夹中变化的数据进行单词统计并打印。*/

val words= lines.flatMap(_.split(" "))

val wordcounts=words.map(x=>(x,1)).reduceByKey(_+_)

wordcounts.print()

ssc.start()

ssc.awaitTermination()

}

}

运行演示

第1步，启动Hadoop与Spark。

$ start-all.sh

$ cd spark-1.4.0-bin-hadoop2.4

$ sbin/start-all.sh

第2步，创建Streaming监控目录。

$ mkdir /home/dong/Streamingtext

在dong用户主目录下创建Streamingtext为Spark Streaming监控的目录，创建后如图6所示。

图6 dong用户主目录下创建Streamingtext文件夹

第3步，在IntelliJ IDEA中编辑运行Streaming程序。在IntelliJ IDEA中创建工程StreamingFileWordCount，编辑对象StreamingFileWordCount，如图7所示。

图7 IntelliJ IDEA中StreamingFileWordCount示意图

由于该示例没有输入参数，因此不需要配置参数，可直接单击右键->单击"Run‘StreamingFileWordCount’ "。

第4步，在监听目录下创建文本文件。在master节点上的/home/dong/Streamingtext中分别创建file1.txt与file2.txt。

file1.txt内容如下：

aa

bb

file2.txt内容如下：

ee

dd

cc

创建后，/home/dong/Streamingtext中内容如图8所示。

图8 Streamingtext文件夹内容示意图

查看结果

终端窗口输出了每个批处理时间间隔（20秒）内，/home/dong/Streamingtext中新生成文件所包含的各单词个数，如图9所示。

图9 StreamingFileWordCount运行结果示意图

网络数据处理案例

功能需求

监听本地节点指定端口传输的数据流（本案例为master节点9999端口的英文文本数据，以逗号间隔单词），每5秒统计一次该时间间隔内收集到的各单词的个数。

代码实现

本案例涉及数据流模拟器和分析器两部分。为了更接近真实的网络环境，首先定义数据流模拟器，该模拟器以Socket方式监听网络中指定节点上的指定端口号（master节点9999端口），当外部程序通过该端口连接并请求数据时，数据流模拟器将定时地从指定文本文件中随机选取数据发送至指定端口（每间隔1秒钟数据流模拟器从master节点上的/home/dong/Streamingtext/file1.txt中随机截取一行文本发送给master节点的9999端口），通过这种方式模拟网络环境下源源不断的数据流。针对获取到的实时数据，再定义分析器（Spark Streaming应用程序），用以统计时间间隔（5秒）内收集到的单词个数。

数据流模拟器代码实现如下：

package dong.spark

import java.io.{PrintWriter}

import java.net.ServerSocket

import scala.io.Source

objectSocketSimulation {

//定义随机获取整数的方法。

def index(length: Int)={

import java.util.Random

val rdm = new Random

rdm.nextInt(length)

}

def main(args:Array[String]): Unit ={

if(args.length!=3){

/*调用数据流模拟器需要三个参数：文件路径、端口号和批处理时间间隔时间（单位：毫秒）。*/

System.err.println("Usage:")

System.exit(1)

}

//获取指定文件总的行数。

val filename = args(0)

val lines = Source.fromFile(filename).getLines().toList

val filerow=lines.length

//指定监听参数args(1)指定的端口，当外部程序请求时建立连接。

val listener =new ServerSocket(args(1).toInt)

while(true){

val socket = listener.accept()

new Thread(){

override def run={

println("Got client connected from:"+socket.getInetAddress)

val out = new PrintWriter(socket.getOutputStream(),true)

while(true){

Thread.sleep(args(2).toLong)

//当该端口接受请求时，随机获取某行数据发送给对方。

val content= lines(index(filerow))

println(content)

out.write(content+'\n')

out.flush()

}

socket.close()

}

}.start()

}

}

}

分析器代码如下：

package dong.spark

import org.apache.spark.streaming.{Milliseconds,Seconds, StreamingContext}

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.storage.StorageLevel

object NetworkWordCount {

def main (args:Array[String]) ={

//以local模式运行，并设定master节点工作线程数为2。

val conf=new SparkConf().setAppName("NetworkWordCount").

setMaster("local[2]")

val sc=new SparkContext(conf)

val ssc=new StreamingContext(sc, Seconds(5))

/*通过socketTextStream获取指定节点指定端口的数据创建DStream，并保存在内存和硬盘中，其中节点与端口分别对应参数args(0)和args(1)。*/

val lines=ssc.socketTextStream(args(0),

args(1).toInt,

StorageLevel.MEMORY_AND_DISK_SER)

//在每个批处理时间间隔内对获取到的数据进行单词统计并且打印。

val words= lines.flatMap(_.split(","))

val wordcounts = words.map(x=>(x,1)).reduceByKey(_+_)

wordcounts.print()

ssc.start()

ssc.awaitTermination()

}

}

运行演示

第1步，在IntelliJ IDEA中编辑运行Streaming程序。master节点启动IntelliJ IDEA，创建工程NetworkWordCount，编辑模拟器与分析器。模拟器如图10所示，分析器如图11所示。

图10 IntelliJ IDEA中数据流模拟器示意图

图11 IntelliJ IDEA中分析器示意图

第2步，创建模拟器数据源文件。在master节点创建/home/dong/Streamingtext目录，在其中创建文本文件file1.txt。

file1.txt内容如下：

spark,

hello,

hbase,

world,

第3步，打包数据流模拟器。打包过程详见本书4.3.3节。在Artifacts打包配置界面中，根据用户实际scala安装目录，在Class Path中添加下述scala依赖包，如图12所示。

/usr/scala-2.10.4/lib/scala-swing.jar

/usr/scala-2.10.4/lib/scala-library.jar

/usr/scala-2.10.4/lib/scala-actors.jar

图12 在Class Path中添加scala依赖包

打包后在主目录下生成NetworkWordCount.jar，如图13所示。

图13 在dong用户主目录下生成NetworkWordCount.jar示意图

第4步，启动数据流模拟器。在master节点开启控制终端，通过下面代码启动数据流模拟器。

$ java -cp /home/dong/NetworkWordCount.jar dong.spark.SocketSimulation/ home/dong/Streamingtest/file1.txt 9999 1000

数据流模拟器每间隔1000毫秒从/home/dong/Streamingtext/file1.txt中随机截取一行文本发送给master节点的9999端口。在分析器未连接时，数据流模拟器处于阻塞状态，终端不会显示输出的文本。

第5步，运行分析器。在master上启动IntelliJ IDEA编写分析器代码，然后单击菜单"Build->"Build Artifacts"，通过Application选项配置分析器运行所需的参数，其中Socket主机名为master、端口号为9999，参数之间用空格间隔，如图13所示。

图13 分析器参数配置示意图

配置好参数后返回IntelliJ IDEA菜单栏，单击"Run"->"Build Artifacts"运行分析器。

查看结果

第1步，在master上查看数据流模拟器运行情况。IntelliJ IDEA运行分析器从而与数据流模拟器建立连接。当检测到外部连接时，数据流模拟器将每隔1000毫秒从/home/dong/Streamingtext/file1.txt中随机截取一行文本发送给master节点上的9999端口。为方便讲解和说明，file1.txt中每一行只包含一个单词，因此数据流模拟器每次仅发送一个单词给端口，如图14所示。

图14 在master上模拟器运行结果

第2步，在master的IntelliJ IDEA中查看分析器运行情况。在IntelliJ IDEA的运行日志窗口中，可以观察到统计结果。通过分析可知Spark Streaming每个批处理时间间隔内获取的单词数为5，刚好是5秒内发送单词的总数，并对各单词进行了统计，如图15所示。

图15 IntelliJ IDEA中分析器运行结果

stateful应用案例

在很多数据流相关的实际应用场景中，对当前数据的统计分析需要借助于先前的数据处理结果完成。例如电商每间隔10分钟统计某一商品当前累计销售总额、车站每隔3小时统计当前客流总量，等等。此类应用需求可借助于Spark Streaming的有状态转换操作实现。

功能需求

监听网络中某节点上指定端口传输的数据流（slave1节点9999端口的英文文本数据，以逗号间隔单词），每5秒分别统计各单词的累计出现次数。

代码实现

本案例功能的实现涉及数据流模拟器和分析器两部分。

分析器代码：

package dong.spark

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.streaming.{Milliseconds,Seconds, StreamingContext}

import org.apache.spark.streaming.StreamingContext._

object StatefulWordCount {

def main(args:Array[String]): Unit ={

/*定义更新状态方法，参数values为当前批处理时间间隔内各单词出现的次数，state为以往所有批次各单词累计出现次数。*/

val updateFunc=(values: Seq[Int],state:Option[Int])=>{

val currentCount=values.foldLeft(0)(_+_)

val previousCount=state.getOrElse(0)

Some(currentCount+previousCount)

}

val conf=new SparkConf().

setAppName("StatefulWordCount").

setMaster("spark://192.168.149.132:7077")

val sc=new SparkContext(conf)

//创建StreamingContext，Spark Steaming运行时间间隔为5秒。

val ssc=new StreamingContext(sc, Seconds(5))

/*使用updateStateByKey时需要checkpoint持久化接收到的数据。在集群模式下运行时，需要将持久化目录设为HDFS上的目录。*/

ssc.checkpoint("hdfs://master:9000/user/dong/input/StatefulWordCountlog")

/*通过Socket获取指定节点指定端口的数据创建DStream，其中节点与端口分别由参数args(0)和args(1)给出。*/

val lines=ssc.socketTextStream(args(0),args(1).toInt)

val words=lines.flatMap(_.split(","))

val wordcounts=words.map(x=>(x,1))

//使用updateStateByKey来更新状态，统计从运行开始以来单词总的次数。

val stateDstream=wordcounts.updateStateByKey[Int](updateFunc)

stateDstream.print()

ssc.start()

ssc.awaitTermination()

}

}

运行演示

第1步，slave1节点启动数据流模拟器。

第2步，打包分析器。master节点启动IntelliJ IDEA创建工程StatefulWordCount编辑分析器，如图16所示，并将分析器直接打包至master节点dong用户的主目录下，如图17所示。

图16 IntelliJ IDEA中StatefulWordCount示意图

图17 master上的StatefulWordCount.jar示意图

第3步，运行分析器。在master节点开启终端，通过下面代码向Spark集群提交应用程序。

$ bin/spark-submit ~/StatefulWordCount.jar slave1 9999

查看结果

第1步，查看slave1上数据流模拟器运行情况。分析器在集群上提交运行后与slave1上运行的数据流模拟器建立连接。当检测到外部连接时，数据流模拟器将每隔1000毫秒从/home/dong/Streamingtext/file1.txt中随机截取一行文本发送给slave1节点上的9999端口。由于该文本文件中每一行只包含一个单词，因此每秒仅发送一个单词给端口。如图18所示。

图18 slave1上数据流模拟器运行示意图

第2步，查看master上分析器运行情况。在master节点的提交窗口中可以查看到统计结果，如图19所示。

图19 master上分析器运行示意图

图中表明截至147920770500ms分析器共接收到14个单词，其中"spark"累计出现3次，"hbase"累计出现5次，"hello"累计出现3次，"world"累计出现3次。由于批处理时间间隔是5s，模拟器每1秒发送1个单词，使得分析器在5s内共接收到5个单词，因此截止至147920771000ms，分析器共收到19个单词，其中"spark"累计出现5次，"hbase"累计出现7次，"hello"累计出现4次，"world"累计出现3次。

第3步，查看HDFS中持久化目录。运行后查看HDFS上的持久化目录/user/dong/input/StatefulWordCountlog，如图20所示。Streaming应用程序将接收到的网络数据持久化至该目录下，便于容错处理。

图20 HDFS上持久化目录示意图

window应用案例

在实际生产环境中，与窗口相关的应用场景很常见，例如电商每间隔10分钟小时统计某一商品前30分钟内累计销售总额、车站每隔1小时统计前3个小时内的客流量等，此类需求可借助Spark Streaming中的window相关操作实现。window应用案例同时涉及批处理时间间隔、窗口时间间隔与滑动时间间隔。

功能需求

监听网络中某节点上指定端口传输的数据流（slave1节点上9999端口的英文文本数据，以逗号间隔单词），每10秒统计前30秒各单词累计出现的次数。

代码实现

本例功能的实现涉及数据流模拟器和分析器两部分。

分析器代码：

package dong.spark

import org.apache.spark.{SparkContext, SparkConf}

import org.apache.spark.streaming.StreamingContext._

import org.apache.spark.streaming._

import org.apache.spark.storage.StorageLevel

object WindowWordCount {

def main(args:Array[String]) ={

val conf=new SparkConf().setAppName("WindowWordCount").

setMaster("spark://192.168.149.132:7077")

val sc=new SparkContext(conf)

val ssc=new StreamingContext(sc, Seconds(5))

ssc.checkpoint("hdfs://master:9000/user/dong/WindowWordCountlog")

val lines=ssc.socketTextStream( args(0),

args(1).toInt,

StorageLevel.MEMORY_ONLY_SER)

val words= lines.flatMap(_.split(","))

/*采用reduceByKeyAndWindow操作进行叠加处理，窗口时间间隔与滑动时间间隔分别由参数args(2)和args(3)给出。*/

val wordcounts=words.map(x=>(x,1)).

reduceByKeyAndWindow((a:Int,b:Int)=>(a+b),Seconds(ar

gs(2).toInt),Seconds(args(3).toInt))

wordcounts.print()

ssc.start()

ssc.awaitTermination()

}

}

运行演示

第1步，slave1节点启动数据流模拟器。

第2步，打包分析器。在master节点启动IntelliJ IDEA创建工程WindowWordCount编辑分析器，如图21，并将分析器直接打包至master节点dong用户的主目录下，如图22所示。

图21 IntelliJ IDEA中WindowWordCount示意图

图22 master上WindowWordCount.jar示意图

第3步，运行分析器。在master节点开启终端，通过下面代码向Spark集群提交应用程序。

$ bin/spark-submit ~/WindowWordCount.jar slave1 9999 30 10

查看结果

第1步在slave1上查看数据流模拟器运行情况。分析器在集群上提交运行后与slave1上运行的数据流模拟器建立连接。当检测到外部连接时，数据流模拟器将每隔1000毫秒从/home/dong/Streamingtext/file1.txt中随机截取一行文本发送给slave1节点的9999端口。由于该文本文件中每一行只包含一个单词和一个逗号，因此每秒仅发送一个单词和一个逗号给端口，如图23所示。

图23 在slave1上数据流模拟器运行示意图

第2步，在master上查看分析器运行情况。在master节点的提交窗口中可以查看到统计结果。在WindowWordCount应用程序启动初期，窗口并没有被接收到的单词填满，但随着时间的推进，每个窗口中的单词数目最终固定为30个。图7.35只是截取了运行结果中的三个批次。由于设定了窗口时间间隔是30s，滑动时间间隔是10s，且数据流模拟器每间隔1s发送一个单词，因此WindowWordCount每间隔10s对过去30s内收到的各单词个数进行统计。图24中截至1479276925000ms分析器对过去30s内收到的30个单词进行统计，其中"spark"累计出现5次，"hbase"累计出现8次，"hello"累计出现9次，"world"累计出现8次。再间隔10s，截至1479276935000ms，分析器对过去30s内收到的30个单词进行统计，其中"spark"累计出现8次，"hbase"累计出现9次，"hello"累计出现7次，"world"累计出现6次。

图24 在master上分析器运行示意图

第3步，查看持久化数据。运行后查看HDFS上的持久化目录/user/dong/input/WindowWordCountlog，如图25所示。Streaming应用程序将接收到的网络数据持久化至该目录下，便于容错处理。

图25 HDFS上持久化目录示意图

性能考量

在开发Spark Streaming应用程序时，要结合集群中各节点的配置情况尽可能地提高数据处理的实时性。在调优的过程中，一方面要尽可能利用集群资源来减少每个批处理的时间；另一方面要确保接收到的数据能及时处理掉。

运行时间优化

设置合理的批处理时间和窗口大小

Spark Streaming中作业之间通常存在依赖关系，后面的作业必须确保前面的作业执行结束后才能提交，若前面的作业的执行时间超过了设置的批处理时间间隔，那么后续的作业将无法按时提交执行，造成作业的堵塞。也就是说若想Spark Streaming应用程序稳定地在集群中运行，对于接收到的数据必须尽快处理掉。例如若设定批处理时间为1秒钟，那么系统每1秒钟生成一个RDD，如果系统计算一个RDD的时间大于1秒，那么当前的RDD还没来得及处理，后续的RDD已经提交上来在等待处理了，这就产生了堵塞。因此需要设置一个合理的批处理时间间隔以确保作业能够在这个批处理时间间隔时间内结束。许多实验数据表明，500毫秒对大多Spark Streaming应用而言是较好的批处理时间间隔。

类似地，对于窗口操作，滑动时间间隔对于性能也有很大的影响。当单批次数据计算代价过高时，可以考虑适当增大滑动时间间隔。

对于批处理时间和窗口大小的设定，并没有统一的标准。通常是先从一个比较大的批处理时间（10秒左右）开始，然后不断地使用更小的值进行对比测试。如果Spark Streaming用户界面中显示的处理时间保持不变，则可以进一步设定更小的值；如果处理时间开始增加，则可能已经达到了应用的极限，再减小该值则可能会影响系统的性能。

提高并行度

提高并行度也是一种减少批处理所消耗时间的常见方法。有以下三种方式可以提高并行度。一种方法是增加接收器数目。如果获取的数据太多，则可能导致单个节点来不及对数据进行读入与分发，使得接收器成为系统瓶颈。这时可以通过创建多个输入DStream来增加接收器数目，然后再使用union来把数据合并为一个数据源。第二种方法是将收到的数据显式地重新分区。如果接收器数目无法再增加，可以通过使用DStream.repartition、spark.streaming.blocklnterval等参数显式地对Dstream进行重新分区。第三种方法是提高聚合计算的并行度。对于会导致shuffle的操作，例如reduceByKey、reduceByKeyAndWindow等操作，可通过显示设置更高的行度参数确保更为充分地使用集群资源。

内存使用与垃圾回收

控制批处理时间间隔内的数据量

Spark Streaming会把批处理时间间隔内获取到的所有数据存放在Spark内部可用的内存中。因此必须确保在当前节点上SparkStreaming可用的内存容量至少能容下一个批处理时间间隔内所有的数据。比如一个批处理时间间隔是1秒，但是1秒产生了1GB的数据，那么要确保当前的节点上至少有可供SparkStreaming使用的1GB内存。

及时清理不再使用的数据

对于内存中处理过的、不再需要的数据应及时清理，以确保Spark Streaming能够拥有足够的内存空间可以使用。一种方法是可以通过设置合理的spark.cleaner.ttl时长来及时清理超时的无用数据，但该方法应慎重使用，以免后续数据在需要时被错误清理。另一种方法是将spark.streaming.unpersist设置为true，系统将自动清理已经不需要的RDD。该方法能显著减少RDD对内存的需要，同时潜在地提高GC的性能。此外用户还可以通过配置参数streamingContext.remember为数据设置更长的保留时间。

减少序列化与反序列化的负担

SparkStreaming默认将接收到的数据序列化后放入内存，以减少内存使用。序列化和反序列化需要更多的CPU资源，因此使用适当的序列化工具（例如Kryo）和自定义的序列化接口可以更高效地使用CPU。除了使用更好的序列化工具外还可以结合压缩机制，通过配置spark.rdd.compress，以CPU的时间开销来换取内存资源，降低GC开销。

本文节选并整理自CDA数据分析师系列丛书《Spark大数据分析技术与实战》一书，经管之家主编。点击阅读原文了解图书详情。

先祝各位小伙伴们双节快乐，本期赠书福利继续！感谢小伙伴们长期以来的关注和支持，本期特申请五本《Spark大数据分析技术与实战》赠送大家。

赠送规则：截止明天中午12:00（9月30日），可以在本文下留言，分享正值国庆中秋之际自己所思、所做的事儿（工作或生活），点赞排名前五名者即可获赠。

你可能感兴趣的:(大数据分析技术与实战之Spark Streaming（内含福利）)

FlatBuffers（概念、原理及优势、在TS中的使用）前端杂货铺 TodoList 100个小知识 FlatBuffers JSON 序列化反序列化
个人简介个人主页：前端杂货铺‍♂️学习方向：主攻前端方向，正逐渐往全干发展个人状态：研发工程师，现效力于中国工业软件事业人生格言：积跬步至千里，积小流成江海推荐学习：前端面试宝典100个小功能Vue2Vue3Vue2/3项目实战Node.js实战Three.js个人推广：每篇文章最下方都有加入方式，旨在交流学习&资源分享，快加入进来吧文章目录介绍在Vue中使用FlatBuffersFlatBuff
MySQL 锁机制全解析：从表锁到间隙锁，谁都能看懂的知识！ dr李四维笔记 mysql 数据库锁死锁乐观锁悲观锁意向锁
目录一、锁的基本概念二、MySQL中的锁类型1.表级锁（TableLock）2.行级锁（RowLock）3.间隙锁（GapLock）4.意向锁（IntentLock）5.乐观锁（OptimisticLock）6.悲观锁（PessimisticLock）7.死锁（Deadlock）8.自增锁（Auto-IncrementLock）9.元数据锁（MetadataLock,MDL）三、锁的对比与选择四、
计算机导论期末快速复习指南 Pu_Nine_9 杂记计算机导论
操作系统核心概念进程与线程进程是程序在内存中的一次执行过程，具有动态性和并发性一个进程可以有多个线程，但至少要有一个线程资源分配给进程，同一进程的所有线程共享该进程的所有资源处理机分配给线程，真正在处理机上运行的是线程进程状态转换：被唤醒→就绪状态；时间片用完→执行状态变为就绪状态进程同步与死锁互斥：系统存在临界资源循环等待：多个进程形成等待链不可剥夺：已分配资源在宿主释放前不能被剥夺操作系统类型
语法糖：编程中的甜蜜简化 (附 Vue 3 & Javascript 实战示例) Pu_Nine_9 前端学习 javascript vue.js 前端语法糖
什么是语法糖？语法糖（SyntacticSugar）是编程语言中一种特殊的语法结构，它不引入新的功能，而是提供一种更简洁、更易读的方式来表达已有功能。就像给咖啡加糖一样，它让代码"更甜"——更易于理解和编写。语法糖的四大核心价值可读性提升：让代码更接近自然语言表达开发效率：减少样板代码，专注业务逻辑错误预防：通过标准化模式减少人为失误维护便捷：简洁的代码结构更易于后期维护经典语法糖示例深度解析示例
memcpy与memcpy_toio：深入解析两大数据传输神器 jghhh01 c++c语言
在软件开发中，数据的高效传输是确保程序性能和稳定性的关键。C语言作为一种广泛应用于系统编程和嵌入式开发的语言，提供了多种用于数据复制和传输的函数。其中，memcpy和memcpy_toio是两个备受关注的数据传输函数，它们各自在特定场景下发挥着不可替代的作用。本文将深入解析这两个函数，探讨它们的用途、区别以及在实际应用中的最佳实践。一、memcpy：内存复制的基础工具memcpy是C标准库中的一个
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
织梦DedeCMS转WordPress asqq8
最近，有个用户找模板兔迁移网站，源站用的dede，需要转成wp，文章数量大概7000-8000篇，其中有个需求是保证旧文章的链接有效，在wp上的新文章与旧文章的链接类型不一样，所以这涉及到伪静态来处理跳转。虽然网上都很多教程，但是在这次导入过程中还是遇到过一些问题。以下教程是dede的数据表得与wp的数据表在同一个数据库下！要是不在，可以将dede_archives先导入到wp的数据库里。一般流程
多线程同步机制：深入解析互斥锁的原理与实践码事漫谈 c++java jvm 数据结构
文章目录1.多线程同步问题1.1数据竞争1.2未定义行为2.互斥锁（Mutex）的原理2.1加锁2.2解锁3.线程的运行、阻塞、等待状态3.1运行状态（Running）3.2阻塞状态（Blocked）3.3等待状态（Waiting）3.4状态转换流程图图的解释4.C++中的`std::mutex`4.1使用`std::mutex`4.2`std::lock_guard`5.总结在多线程编程中，同步
数据结构——Queue队列(C++) Chloe Weewer 数据结构 c++数据结构
目录队列的概述知识基础队列的基本操作队列的存储方式代码实现（C++）类头（Linked_Queue.h）类的方法实现（Linked_Queue.cpp）构造函数拷贝构造函数析构函数判断队列是否为空（empty）入队（push）出队（pop）清空队列（clear）访问队首（front）与队尾（back）操作符重载=获取元素个数（size）练习：约瑟夫问题题目描述输入格式输出格式样例#1样例输入#1样
React系统学习之路莲华君 react.js 学习前端
React系统学习之路学习目录第1章：React入门介绍React的基本概念和应用场景安装Node.js和npm创建第一个React应用React的JSX语法组件的基本结构和生命周期第2章：组件与状态管理函数组件与类组件的区别状态（State）和属性（Props）的使用受控组件与非受控组件高阶组件（HOC）的概念和实现使用ContextAPI进行跨层级状态传递第3章：ReactHooksuseSt
Node.js 后端开发：与前端的完美结合
Node.js后端开发：与前端的完美结合关键词：Node.js、后端开发、前后端分离、RESTfulAPI、Express、性能优化、全栈开发摘要：本文深入探讨Node.js在后端开发中的优势及其与前端的完美结合方式。我们将从Node.js的核心特性出发，分析其适合后端开发的原因，详细介绍如何构建高性能的RESTfulAPI服务，探讨前后端分离架构的最佳实践，并通过实际项目案例展示Node.js如
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
ROS常用的路径规划算法介绍 Xian-HHappy 机器人-Robot 算法机器人路径规划 ROS
在ROS中，常用的路径规划算法主要有以下几种：全局路径规划算法A*算法：在Dijkstra算法基础上加入启发式函数，如曼哈顿距离或欧氏距离，优先探索靠近目标的节点，效率更高。需使用可容许的启发式函数以保证最优性，其通过配置启发式权重可平衡最优性与速度。在ROS中，nav2_planner中的SmacPlanner支持2D/3D的A*算法。Dijkstra算法：代价地图中的基础路径搜索方法，采用广度
Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
React用户交互事件
在React中处理用户交互事件（如点击、输入、提交等）的方式与原生JavaScript类似，但有一些语法差异和最佳实践。以下是常见交互事件的处理方法及代码示例：一、基本事件处理（点击、输入等）1.点击事件（onClick）importReact,{useState}from'react';constButtonExample=()=>{const[count,setCount]=useState(
Tomcat性能调优指南
文章目录一、Tomcat性能调优概述为什么需要调优Tomcat？二、Tomcat架构与性能关键点三、JVM调优1.内存配置优化2.垃圾回收优化3.其他JVM优化参数四、连接器(Connector)调优1.NIOvsAPR/Native2.高级NIO配置五、线程池优化六、会话管理优化1.会话超时配置2.会话持久化选择七、静态资源处理优化1.启用Sendfile2.配置静态资源缓存八、其他优化措施1.
Spring注解驱动开发之BeanPostProcessor后置处理器桐花思雨 spring #应用 spring
目录1.前言2.`BeanPostProcessor`接口2.1.`BeanPostProcessor`的源码2.2.自定义`BeanPostProcessor`后置处理器2.2.1.实现`BeanPostProcessor`接口2.2.2.创建实体类2.2.3.创建配置类2.2.4.测试结果1.前言BeanPostProcessor后置处理器可用于bean初始化前后进行逻辑增强。Spring提供
团队研发文化和价值观建设与传承 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
团队研发文化和价值观建设与传承1.背景介绍在现代软件开发中，技术的进步和工具的更新固然重要，但团队的研发文化和价值观同样不可忽视。一个高效的团队不仅需要技术上的卓越，还需要在文化和价值观上有一致的认同和传承。本文将深入探讨如何在团队中建立和传承研发文化和价值观，帮助团队在技术和文化上共同进步。2.核心概念与联系2.1研发文化研发文化是指团队在软件开发过程中所遵循的行为准则、工作习惯和价值观。它包括
【C++】C++的虚析构函数
C++的虚析构函数1.语法规则：2.用途：3.原理：示例代码：4.下面解释为什么基类未定义为析构函数时，析构子类(派生类)对象也能把基类对象析构的原因4.1核心原理：编译器自动生成的析构函数调用链4.1.1对象构造与析构的镜像对称原则4.1.2编译器在派生类析构函数中插入隐式代码4.2底层机制分步解析4.3技术细节说明4.3.1.this指针调整4.3.2.继承链处理4.3.3.与虚函数无关1.语
设计与实现淘客返利APP的数据安全与隐私保护：架构师的实践经验
设计与实现淘客返利APP的数据安全与隐私保护：架构师的实践经验大家好，我是阿可，微赚淘客系统及省赚客APP创始人，是个冬天不穿秋裤，天冷也要风度的程序猿！数据安全与隐私保护的重要性在淘客返利APP中，数据安全与隐私保护是至关重要的。用户数据不仅涉及个人隐私，还可能包含敏感信息，如身份证号、银行卡号等。一旦数据泄露，不仅会损害用户利益，还会对平台的声誉造成严重影响。因此，设计和实现一个安全可靠的数据
C++类的友元函数详解 _越谷小鞠 c++开发语言
一、什么是友元函数？在C++中，类的友元函数是被类声明为“朋友”的函数。友元函数可以直接访问类的私有成员和保护成员，而无需通过公有成员函数进行访问。友元函数可以是：普通的非成员函数。另一个类的成员函数。全局函数。通过使用友元函数，我们能够方便地解决某些类之间的耦合问题，使代码更简洁高效。二、友元函数的定义与声明友元函数需要在类的内部使用关键字friend进行声明，具体格式如下：class类名{fr
PMP备考神器:免费刷题小程序推荐才聚PMP 人工智能职场和发展
【PMP考试通】是一款专门为备考PMP的免费刷题小程序。【PMP考试通】涵盖了考试中的所有考点，能帮你顺利通过PMP考试。还有最新的考试咨讯提供给大家，随时了解考试的动态，考试更安心。有两种练习模式，可以实现不同的练习需求。1、考试模式:完全模拟考试，做完之后计算得分，并可以查看相应解析2、练习模式:练习与学习，遇到不能解答的题目时，可以直接查看解析，学习当前知识点3、做题类型:章节练习、每日一练
tiktok开店注意事项 Bella12300 tiktok 新手开店
想在tiktok上开店先别急着砸广告费，摸清平台的隐形规则更重要。tiktok现在没有面对大陆用户开放，稍有不慎就可能被扣保证金、封号，甚至钱货两空，今天就带大家了解一些tiktok开店的注意事项。一、资质审核营业执照：公司名称、经营范围必须与销售商品类目一致，比如卖美妆的营业执照如果写五金建材，审核会直接驳回。个体户只能入驻东南亚市场，且一个执照最多开5国店铺。法人信息：上传身份证需高清无边框，
Linux学习笔记：PCIe内核篇（1）：初始化与枚举流程 ZH_2025 嵌入式协议篇 PCIE
根据system.map查看内核中PCIe加载流程：root@zh-vm:~#cat/boot/System.map-5.15.0-130-generic|greppci|grepinitcallffffffff8350ff68d__initcall__kmod_pci__453_6907_pci_realloc_setup_params0ffffffff83510098d__initcall__
前端React和Vue框架的区别
React和Vue作为前端Web开发的两大主流框架，虽然都用于构建用户界面，但在设计理念、语法风格、生态系统等方面存在显著差异。以下从多个维度对比两者的核心区别，帮助你在技术选型时做出更合适的决策。一、设计理念与架构1.数据流控制React：强制单向数据流（One-WayDataFlow），状态变化只能通过父组件→子组件传递，如需反向通信（如子组件修改父组件状态），需通过回调函数实现。复杂应用中需
嵌入式通信协议框架的四层架构设计与实现比特冬哥嵌入式领域开发嵌入式通信协议分层框架
文章目录一、硬件抽象层：数据收发的基石1.1设计要点1.2代码示例二、协议管理层：智能路由中枢2.1设计要点2.2代码示例三、协议处理层：协议具体实现3.1设计要求3.2代码示例3.2.1协议公共定义3.2.2协议一设计3.2.3协议二设计四、应用层：业务逻辑实现4.1设计要点4.2代码示例4.2.1协议一处理4.2.2协议二处理五、四层协作流程5.1收发流程5.2代码示例总结在嵌入式系统开发中，
演练纪实丨同创永益同天支持三家银行灾备切换演练圆满完成数字韧性前端
2025年6月22日，同创永益单日同时支持河南农商联合银行、苏州农商银行、昆山农商银行组织开展2025年灾备切换演练圆满完成。其中共涉及44套关键业务系统，700余个节点，成功率100%，且全部满足恢复指标要求。同创永益于同日成功支持三家银行完成灾备切换演练，充分彰显了企业卓越的交付能力与技术底蕴。此次演练中，最显著的突破在于支持某行银行灾备切换演练时，将灾备技术切换的时间从原本的5分钟压缩至1分
Unity团结引擎实战：鸿蒙游戏开发全指南编号:0517 鸿蒙 harmonyos5.0 unity 华为鸿蒙
鸿蒙游戏开发实战：Unity团结引擎适配指南与代码示例文/技术探索随着鸿蒙生态的快速扩张，Unity游戏向鸿蒙OS（OpenHarmony）的迁移已成为开发者新需求。本文将基于Unity团结引擎（专为鸿蒙定制的Unity分支），详解适配流程并提供可运行的代码示例。一、团结引擎：鸿蒙原生适配的核心工具Unity中国推出的团结引擎（基于Unity2022LTS定制）是当前唯一官方支持的鸿蒙适配方案，其
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓