weixin_40652340

SparkStreaming

流（Streaming），在大数据时代为数据流处理，就像水流一样，是数据流；既然是数据流处理，就会想到数据的流入、数据的加工、数据的流出。

日常工作、生活中数据来源很多不同的地方。例如：工业时代的汽车制造、监控设备、工业设备会产生很多源数据；信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑客攻击、垃圾邮件、交通监控等；通信时代的手机、平板、智能设备、物联网等会产生很多实时数据，数据流无处不在。

在大数据时代Spark Streaming能做什么？

平时用户都有网上购物的经历，用户在网站上进行的各种操作通过Spark Streaming流处理技术可以被监控，用户的购买爱好、关注度、交易等可以进行行为分析。在金融领域，通过Spark Streaming流处理技术可以对交易量很大的账号进行监控，防止罪犯洗钱、财产转移、防欺诈等。在网络安全性方面，黑客攻击时有发生，通过Spark Streaming流处理技术可以将某类可疑IP进行监控并结合机器学习训练模型匹配出当前请求是否属于黑客攻击。其他方面，如：垃圾邮件监控过滤、交通监控、网络监控、工业设备监控的背后都是Spark Streaming发挥强大流处理的地方。

大数据时代，数据价值一般怎么定义？

所有没经过流处理的数据都是无效数据或没有价值的数据；数据产生之后立即处理产生的价值是最大的，数据放置越久或越滞后其使用价值越低。以前绝大多数电商网站盈利走的是网络流量（即用户的访问量），如今，电商网站不仅仅需要关注流量、交易量，更重要的是要通过数据流技术让电商网站的各种数据流动起来，通过实时流动的数据及时分析、挖掘出各种有价值的数据；比如：对不同交易量的用户指定用户画像，从而提供不同服务质量；准对用户访问电商网站板块爱好及时推荐相关的信息。

Storm/JStrom:
完全实时流式数据处理平台
来一条数据就处理一条数据，对机器的性能要求比较高
在高并发高数据量的情况下，延迟性比spark streaming的低
SparkStreaming:
准实时/微观操作的流式数据处理平台
Streaming是按照批次进行执行的，一个一个批次进行执行，一个批次的处理的数据就是批次对应时间段收集得到的数据，只有当上一个批次执行完成后，下一个批次才会开始执行
相对于Storm来讲：
数据的延迟性在大数据量的情况下比较高

SparkStreaming VS Hadoop MR：

Spark Streaming是一个准实时流处理框架，而Hadoop MR是一个离线、批处理框架；很显然，在数据的价值性角度，Spark Streaming完胜于Hadoop MR。

SparkStreaming VS Storm：

Spark Streaming是一个准实时流处理框架，处理响应时间一般以分钟为单位，也就是说处理实时数据的延迟时间是秒级别的；Storm是一个实时流处理框架，处理响应是毫秒级的。所以在流框架选型方面要看具体业务场景。需要澄清的是现在很多人认为Spark Streaming流处理运行不稳定、数据丢失、事务性支持不好等等，那是因为很多人不会驾驭Spark Streaming及Spark本身。在Spark Streaming流处理的延迟时间方面，Spark定制版本，会将Spark Streaming的延迟从秒级别推进到100毫秒之内甚至更少。

SparkStreaming优点：

1、提供了丰富的API，企业中能快速实现各种复杂的业务逻辑。

2、流入Spark Streaming的数据流通过和机器学习算法结合，完成机器模拟和图计算。

3、Spark Streaming基于Spark优秀的血统。

SparkStreaming能不能像Storm一样，一条一条处理数据？

Storm处理数据的方式是以条为单位来一条一条处理的，而Spark Streaming基于单位时间处理数据的，SparkStreaming能不能像Storm一样呢？答案是：可以的。

业界一般的做法是Spark Streaming和Kafka搭档即可达到这种效果

Kafka业界认同最主流的分布式消息框架，此框架即符合消息广播模式又符合消息队列模式。

Kafka内部使用的技术：

1、 Cache

2、 Interface

3、 Persistence（默认最大持久化一周）

4、 Zero-Copy技术让Kafka每秒吞吐量几百兆，而且数据只需要加载一次到内核提供其他应用程序使用

外部各种源数据推进（Push）Kafka，然后再通过Spark Streaming抓取（Pull）数据，抓取的数据量可以根据自己的实际情况确定每一秒中要处理多少数据。

Sparkstreaming的处理流程：
-1. 读取数据形成DStream
读取外部数据形成DStream，比如：KAFKA、Flume....
-2. 数据处理
DStream的API进行操作
-3. 结果数据输出
数据保存外部系统
-a. Redis、MongoDB
-b. RDBMs
-c. HBASE、HDFS、Hive
-d. Kafka
streaming应用结构：
[Flume -> ]Kafka -> SparkStreaming/Storm -> Kafka/HBase -> ...

最常用的应用场景：(业务比较简单)
-1. 基本指标的统计
活跃访客的统计
每个小时访客统计
最近三十分钟访客统计
各个省份最近三十分钟访客数量统计.....
-2. 广告点击量统计
-3. 黑名单统计
-4. 对实时数据进行预测（预测模型在程序运行已经构造完成）

程序入口：
StreamingContext：streaming的上下文对象，依赖SparkContext对象
DStream: 核心抽象，可以当做RDD进行操作

==============SparkStreamingWordCount=================
nc -lk 9999 //用于数据的输入
sbin/start-dfs.sh //启动hadoop文件系统
bin/hive --service metastore & //后台启动hive元数据服务
bin/spark-shell --master local[2] //启动Spark服务

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._
val ssc = new StreamingContext(sc, Seconds(1)) //以一秒作为一个批次的数据输入
val dstream = ssc.socketTextStream("bigdata-01.yushu.com", 9999)
val result = dstream.flatMap(_.split(" ")).filter(_.nonEmpty).map((_,1)).reduceByKey(_+_)
result.print()
ssc.start() // 启动开始进行处理的操作
ssc.awaitTermination() // Wait for the computation to terminate

==============Scala实战Spark Streaming开发========

1、前期准备 Windows搭建好 Spark环境

2、配置Maven的Pom.xml文件


<dependency>
  <groupId>org.apache.sparkgroupId>
  <artifactId>spark-streaming_2.10artifactId>
  <version>${spark.version}version>
  <scope>compilescope>
dependency>

package com.yushu.bigdata.spark.app.streaming

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object StreamingWordCount {
  def main(args: Array[String]): Unit = {
    // 1. 构建上下文
    /**
      * 当使用数据接收器的时候，因为在正常job之外需要一直运行一个task，
     * 所以需要占用一个线程====>在启动的时候，要求至少给定线程数量为2，一个线程一直接收数据，一个线程处理接收的数据
      */
    val conf = new SparkConf()
      .setMaster("local[2]")
      .setAppName("streaming-wordcount")
    val sc = SparkContext.getOrCreate(conf)
    /**
      * batchDuration: 给定的是批次产生间隔时间，当一个批次产生的时候，
     * 这个批次会放入到一个待运行的队列中(先进先出)，
     * 后台有专门的调度线程负责从待运行队列中获取批次进行执行，
     * 但是运行只有在上一个批次执行完成的情况下才能够运行当前批次；
     * 如果上一个批次运行的实际比较长，那么当前批次等待的时间也就比较长
      * ======> 一般情况要，要求批次产生的间隔大小要比批次的运行时间要大
      **/
    val ssc = new StreamingContext(sc, Seconds(10))
    val dstream = ssc.socketTextStream("bigdata-01.yushu.com", 9999)
    val result = dstream.flatMap(line => {
      line.split(" ")
    }).filter(_.nonEmpty).map((_, 1)).reduceByKey(_ + _)


    result.print()

    /**
      * TODO
      * 调用dstream的saveAsTextFiles结果保存到HDFS上的时候，会出现一个问题：每个批次一个文件夹
      */

    result.saveAsTextFiles("result/wc/r")

    // 将rdd进行转换操作，然后返回一个新的RDD
    dstream
      .transform(rdd => {
        // TODO: 一个批次只有一个RDD，不要考虑多个RDD的合并之类的问题
        rdd.flatMap(_.split(" ")).filter(_.nonEmpty).map((_, 1)).reduceByKey(_ + _)
      })
      .foreachRDD(rdd => {
        // TODO: 一个批次只有一个RDD，不要考虑多个RDD的合并之类的问题
        // 将DStream的数据输出问题，转换为RDD的数据输出
        rdd.repartition(1).foreachPartition(iter => iter.foreach(println))
      })

    // 启动开始进行处理的操作
    ssc.start() // Start the computation
    ssc.awaitTermination() // Wait for the computation to terminate
  }
}

温馨提示：

除了print()方法将处理后的数据输出之外，还有其他的方法也非常重要，在开发中需要重点掌握，比如SaveAsTextFile,SaveAsHadoopFile等，

最为重要的是foreachRDD方法，这个方法可以将数据写入Redis,DB,DashBoard等，甚至可以随意的定义数据放在哪里，功能非常强大。

==================SparkStreaming的程序运行原理=======================
-1. 数据接收器(Receiver)
Receiver接收数据的输入，并将输入的数据形成一个block块存储到内存/磁盘中(会进行备份)
默认情况下200ms一个块，RDD执行的过程中，一个block块对应一个task任务
spark.streaming.blockInterval:200ms ---> 控制数据接收器中块形成的间隔时间
我们一般情况下，设置为1-2s，一般为: batchDuration/(executor num * 1~4)
Receiver接收到的块会实时的汇报给driver中的StreamingContext对象
-2. batch/批次的产生
每隔batchDuration指定的时间之后，产生一个可执行批次，这个批次就包含了在这个批次时间间隔内接受到的所有的block块数据，一般要求batchDuration是blockInterval的整数倍 ====> 这些所有的block块形成了rdd的数据输入，一个block块就是RDD的一个分区/一个task任务
-3. 批次对应Job的执行(RDD的执行)
一个job就是一个RDD的Action类型的API的触发，一个DStream的执行其实就是RDD的执行，一个批次可以包含多个rdd的job(只包含一个rdd)

==================DStream============================
底层是由一系列的RDD和时间组成的集合，每个RDD包含了对应批次的数据
DStream的API实际上是调用了RDD中的对应API
DStreams internally is characterized by a few basic properties:
* - A list of other DStreams that the DStream depends on
DStream具有类似RDD的依赖机制
* - A time interval at which the DStream generates an RDD
DStream会间隔性的产生RDD，间隔大小其实即使我们在构建StreamingContext的时候给定的batchDuration(默认情况)，在DStream依赖中，子DStream的time interval和父的time interval是由关系的，一般就是相同
* - A function that is used to generate an RDD after each time interval
有一个函数供产生RDD，当时间间隔到来的时候

RDD的销毁：
在下下一个批次的执行完成的时候，当前批次产生的RDD会被销毁(RDD已经被执行过，而且streamingcontext中没有对该rdd有依赖的其它RDD)
可以通过StreamingContext的api更改RDD的生命周期
ssc.remember(Seconds(60)) ---> 给定的参数要求比原来的batchDuration大

===========================================================
Streaming的数据读取(数据源)
-1. Basic Sources
基于StreamingContext的API读取数据形成的DStream，都叫做Basic Sources；一般的应用场景是：利用数据接收器(Receiver)接收数据的业务，还有一些测试
socketTextStream：读取tcp端口的数据，以文本形式读取
socketStream: 读取tcp端口的数据，需要给定从数据流转换为数据的方式
receiverStream: 根据你给定的一个数据接收器对象，构建一个DStream
-2. Advanced Sources
基于外部的API读取数据(非Streaming模块的API，非StreamingContext的API), 比如KAFKA、Flume.....
一般的都可以通过两种方式来获取数据，分布是：Use Receiver、Direct Approach

Streaming读取数据的方式
-1. Use Receiver(使用数据接收器)
在正常的job之外，启动一致运行的task专门用于数据接收功能，将接收到的数据保存到磁盘或者内存中，这种情况下，DStram形成的RDD中实际上存储的是block块id
-2. Direct Approach（直接方式）
StreamingContext在形成RDD的时候，直接保存数据的存储位置信息以及相关参数，然后在rdd的job执行的时候，才会通过数据源(软件)所提供的API根据位置信息及参数获取数据===>数据不会形成Block块保存Executor中

==================SparkStreaming和Kafka集成==========================
http://spark.apache.org/docs/1.6.1/streaming-kafka-integration.html

org.apache.spark
spark-streaming-kafka_2.10
${spark.version}

-1. Receiver-based Approach(Use Receiver)
基于Kafka的High level Consumer API进行数据的消费操作
kafka的数据会保存到executor中，以block块的形式保存，最终RDD的分区数量/Task数量对应block块的数量
-2. Direct Approach
val directKafkaStream = KafkaUtils.createDirectStream[
[key class], [value class], [key decoder class], [value decoder class] ](
streamingContext, [map of Kafka parameters], [set of topics to consume])
基于Kafka的Simple Consumer API进行数据读取，调用的时候必须给定相关的一些从哪儿开始读取数据的方式
最终的RDD中，一个Task对应一个分区的数据

=====================Receiver-based Approach方式=======================

import kafka.serializer.StringDecoder
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object KafkaReceiverStreamingWordCount {
  def main(args: Array[String]): Unit = {
    // 1. 构建上下文
    val conf = new SparkConf()
      .setMaster("local[10]")
      .setAppName("KafkaReceiverStreamingWordCount")
      .set("spark.streaming.blockInterval", "1s") //指定bolck块形成的间隔时间，对应RDD的一个分区
    val sc = SparkContext.getOrCreate(conf)
    val ssc = new StreamingContext(sc, Seconds(10))  //指定多长时间生成一个批次的数据

    // 读取DStream
    // kafka连接zk的信息
    val zkQuorum: String = "bigdata-01.yushu.com:2181/kafka"
    // 给定consumer的group id是啥
    val groupId: String = "streaming3"
    // 给定需要读取的topic名称以及该topic需要使用多少个线程来读取数据
    val topics: Map[String, Int] = Map("yushu1" -> 2)

    // 给定kafka的consumer的相关配置信息
    val kafkaParams = Map[String, String](
      "zookeeper.connect" -> zkQuorum,
      "group.id" -> groupId,
      "zookeeper.connection.timeout.ms" -> "10000",
      "auto.offset.reset" -> "smallest")


    // 方式一：
//    val dstream1 = KafkaUtils.createStream(ssc, zkQuorum, groupId, topics, StorageLevel.MEMORY_AND_DISK_SER_2).map(_._2)
    // 方式二：
//    val dstream2 = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics, StorageLevel.MEMORY_AND_DISK_SER_2).map(_._2)

    // 使用Union合并dstream，当receiver的情况下，可以提高数据的处理能力
    val dstream21 = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics, StorageLevel.MEMORY_AND_DISK_SER_2).map(_._2)
    val dstream22 = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics, StorageLevel.MEMORY_AND_DISK_SER_2).map(_._2)
    val dstream23 = KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics, StorageLevel.MEMORY_AND_DISK_SER_2).map(_._2)
    val dstream3 = dstream21.union(dstream22).union(dstream23)

    val dstream = dstream3
    // DStream的操作
    val result = dstream.flatMap(_.split(" ")).filter(_.nonEmpty).map((_, 1)).reduceByKey(_ + _)
    result.print()

    // 启动开始进行处理的操作
    ssc.start() // Start the computation
    ssc.awaitTermination() // Wait for the computation to terminate
  }
}

=========================Direct Approach==================

import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object KafkaDirectStreamingWordCount {
  def main(args: Array[String]): Unit = {
    // 1. 构建上下文
    val conf = new SparkConf()
      .setMaster("local[10]")
      .setAppName("KafkaDirectStreamingWordCount")
    val sc = SparkContext.getOrCreate(conf)
    val ssc = new StreamingContext(sc, Seconds(10))

    // 读取DStream
    // 给定通过Simple Consumer API连接kafka的时候需要的配置参数: metadata.broker.list，auto.offset.reset
    val kafkaParams = Map[String, String](
      "metadata.broker.list" -> "bigdata-01.yushu.com:9092,bigdata-01.yushu.com:9093,bigdata-01.yushu.com:9094,

bigdata-01.yushu.com:9095",
      "auto.offset.reset" -> "smallest")
    // 给定需要读取数据的topic名称
    val topics = Set("yushu1")
    // 给定读取数据的分区信息语句偏移量的值(需要明确给定读取那些topic的那些分区的数据<从哪个offset开始读取>)
    val fromOffsets: Map[TopicAndPartition, Long] = Map(
      TopicAndPartition("yushu1", 0) -> 0,
      TopicAndPartition("yushu1", 1) -> 100
    )
    // 给定数据转换函数(定义对于kafka的数据可以进行如何转换操作)
    val messageHandler: MessageAndMetadata[String, String] => String = message => {
      // TODO：在这里可以获取偏移量、topic名称、分区id、key
     /* message.topic
      message.partition
      message.offset
      message.key()*/
      message.message()
    }

    // 方式一
//    val dstream1 = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics).map(_._2)
    // 方式二
    val dstream2 = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder, String](ssc, kafkaParams, fromOffsets, messageHandler)


    val dstream = dstream2
    // DStream的操作
    val result = dstream.flatMap(_.split(" ")).filter(_.nonEmpty).map((_, 1)).reduceByKey(_ + _)
    result.print()

    // 启动开始进行处理的操作
    ssc.start() // Start the computation
    ssc.awaitTermination() // Wait for the computation to terminate
  }
}

==============================================================
SparkStreaming和Kafka集成的优化方式
所有SparkCore能够做的优化措施，SparkStreaming均可以做
-1. user receiver
-a. 将参数spark.streaming.blockInterval进行调整
-b. 考虑使用多个数据接收器，然后通过union API将dstream进行合并
要求：
合并的dstream的ssc属性是同一个
要求合并的dstream的批次间隔时间是一样的
-2. direct
-a. 开启动态数据处理机制
spark.streaming.backpressure.enabled:false, 设置为true，表示开启
spark.streaming.receiver.maxRate:设置数据接收器的最大接收能力(一个批次能够最多接收多少数据)
spark.streaming.kafka.maxRatePerPartition: 指定读取kafka数据的时候，一个批次每个分区最多读取多少条数据（每个task允许最多读取多少数据）

=====SparkStreaming和Kafka集成的时候consumer的offset偏移量管理方式========

目标：当steaming应用程序宕机后，进行恢复，恢复的时候期望的已经的数据不再处理，没有处理的开始进行处理 ===> 能够在恢复应用的过程中同时恢复对于offset偏移量的值
-1. use receiver
只能基于kafka自带的offset管理机制进行偏移量的管理(间隔性的将offset提交到zk上)
-2. direct
-a. 可以自定义messageHandler函数，将处理数据的offset偏移量进行提交保存第三方系统来通过代码保证消息的可靠性
-b. 使用streaming中的HA机制
DStream在创建RDD的过程中，会自动将RDD对应的元数据保存到HDFS上对应文件夹的checkpoint文件夹中

Streaming HA机制
Spark Streaming中提供的一种元数据恢复功能，通过将元数据保存到HDFS上的文件夹，然后当streaming应用恢复的时候，从该文件夹加载数据，该机制通过代码实现

====================Streaming HA机制==============================

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object HAStreamingWordCount {
  def main(args: Array[String]): Unit = {
    // 1. 构建上下文
    val conf = new SparkConf()
      .setMaster("local[2]")
      .setAppName("HAStreamingWordCount")
    val sc = SparkContext.getOrCreate(conf)
    // 一般情况下，该路径为hdfs上的文件夹，第一次是空的或者不存在的
    val path = "hdfs://bigdata-01.yushu.com:8020/yushu/spark/streaming/chk/01"

    // 构建StreamingContext对象以及DStream的操作, 所以dstream的操作必须放到该函数中
    def creatingStreamingContextFunc(): StreamingContext = {
      val ssc = new StreamingContext(sc, Seconds(10))

      val dstream = ssc.socketTextStream("bigdata-01.yushu.com", 9999)
      // TODO: 对于修复HA的streaming的程序的bug情况下，不能改变DStream的依赖关系
      // TODO: 所以，在HA的streaming应用中，一般使用mapPartitions该API的比较多
      val result = dstream.flatMap(line => {
        line.split(" ")
      }).filter(_.nonEmpty).map((_, 1)).reduceByKey(_ + _)
      result.print()

      // 设置checkpoint的地址
      ssc.checkpoint(path)

      ssc
    }

    // 如果checkpointPath对应的文件夹中存储着streaming应用的元数据，进行恢复加载加载；如果没有，就使用给定的函数进行创建操作
    val ssc = StreamingContext.getActiveOrCreate(
      checkpointPath = path,
      creatingFunc = creatingStreamingContextFunc
    )

    // 启动开始进行处理的操作
    ssc.start() // Start the computation
    ssc.awaitTermination() // Wait for the computation to terminate
  }
}

===========================transform======================================

直接操作DStream中当前批次的RDD，通过这种方式可以替代DStream的API调用；该api的返回结果是DStream
注意：不管是什么类型的DStream，一个批次中只有一个RDD

DStream的数据输出
-1. 调用DStream的相关API进行数据输出
-2. 通过foreachRDD API将DStream的数据输出转换为RDD的数据输出

foreachRDD API类似transform API，区别在于：foreachRDD没有数据返回值

========================updateStateByKey======================================

updateStateByKey一般情况下需要和Streaming的HA一起使用
应用场景：需要对数据进行累加
updateStateByKeyAPI的使用必须给定checkpoint文件夹

================================案例====================================

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object UpdateStateByKeyStreamingWordCount {
  def main(args: Array[String]): Unit = {
    // 1. 构建上下文
    val conf = new SparkConf()
      .setMaster("local[2]")
      .setAppName("UpdateStateByKeyStreamingWordCount")
    val sc = SparkContext.getOrCreate(conf)
    val ssc = new StreamingContext(sc, Seconds(10))
    // 在使用updateStateByKey的时候必须给定
    ssc.checkpoint(s"hdfs://bigdata-01.yushu.com:8020/yushu/spark/streaming/chk/${System.currentTimeMillis()}")

    val dstream = ssc.socketTextStream("bigdata-01.yushu.com", 9999)//监听该主机 该端口的数据
    // 当前批次的结果
    val wordCountDStream = dstream.flatMap(_.split(" ")).filter(_.nonEmpty).map((_, 1)).reduceByKey(_ + _)
    // 对之前的状态值和当前批次的结果进行合并/聚合操作
    /**
      * def updateStateByKey[S: ClassTag](
      * updateFunc: (Seq[V], Option[S]) => Option[S]
      * ): DStream[(K, S)]
      * 功能：对当前批次的数据和之前的状态信息按照key进行分组后，对value的数据进行聚合操作
      * Seq[V]和Option[S]: 对应是同一个key
      * Seq[V]: 对应的是当前批次中某一个key分组后所有values的值
      * Option[S]：对应的是之前执行过程中某一个key对应的状态信息, 如果之前没有状态信息，值为None
      * updateFunc函数的返回值是某一个key经过当前批次执行后的需要保存的状态信息，也值执行结果
      */
    val result = wordCountDStream.updateStateByKey((values: Seq[Int], stats: Option[Long]) => {
      // 聚合当前状态的数据, 如果当前批次没有对应的key值，那么values这个序列为空
      val currentValue = values.sum

      // 获取上一个状态的值
      val preValue = stats.getOrElse(0L)

      // 更新状态值，并返回新的状态值
      Some(preValue + currentValue)

      
    })
    result.print()

    // 启动开始进行处理的操作
    ssc.start() // Start the computation
    ssc.awaitTermination() // Wait for the computation to terminate
  }
}

=================WindowStreamingWordCount===================

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object WindowStreamingWordCount {
  def main(args: Array[String]): Unit = {
    // 1. 构建上下文
    val conf = new SparkConf()
      .setMaster("local[2]")
      .setAppName("WindowStreamingWordCount")
    val sc = SparkContext.getOrCreate(conf)
    val ssc = new StreamingContext(sc, Seconds(1))
    ssc.checkpoint(s"hdfs://bigdata-01.yushu.com:8020/yushu/spark/streaming/chk/${System.currentTimeMillis()}")

    val dstream = ssc.socketTextStream("bigdata-01.yushu.com", 9999)
    val wordDStream = dstream.flatMap(_.split(" ")).filter(_.nonEmpty).map((_, 1))
    val result = wordDStream.reduceByKeyAndWindow(
      (a: Int, b: Int) => a + b, // 指定按照key分组后，数据聚合的函数
      (c: Int, d: Int) => c - d, // c指的是上一个执行批次的结果，d是上一个执行批次和当前执行批次没有重叠的那一部分(上一个执行批次中)
      Seconds(5), // windowDuration: Duration ===> 指定形成的新DStream所包含的时间范围，也就是指定需要计算最近多久的数据；要求该值必须是父DStream的批次产生时间的整数倍
      Seconds(3) //  slideDuration: Duration ===> 指定新的DStream多久产生一个批次，也就是多久执行一次；要求该值必须是父DStream的批次产生时间的整数倍
    )
    result.print()

    // 启动开始进行处理的操作
    ssc.start() // Start the computation
    ssc.awaitTermination() // Wait for the computation to terminate
  }
}

======================= SparkStreaming应用场景=====================

-1. 实时统计(一个批次批次的统计)
-2. 实时的累加操作
updateStateByKey
-3. 最近一段时间的相关指标
window类型的API

xxxByWindow
应用场景：计算最近一段时间的数据
xxxByWindow相关的API必须给定checkpoint文件夹路径

你可能感兴趣的:(大数据)

探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持