最美不过你回眸

spark-streaming笔记

SparkStreaming笔记

框架的类型：
1.离线批处理：mapreduce、hive、SparkCore、Sparksql =》 mapreduce spark
2.SQL的交互式查询：hive、SparkSQL
3.流式框架：flume、kafka、SparkStreaming
4.实时计算：SparkStreaming

Strom（Clojure编写的）/jStrom（java编写的）
完全实时的流式数据处理平台
来一条数据就立马计算一条数据，在高并发的情况下，对机器的性能要求很高
如果配置低了，那么就是出现很高的延迟

维护strom的集群的成本要比维护同等级别的Spark集群的成本要高出很多

SparkStreaming：(以微批来模拟流式)
准实时的流式数据处理平台
sparkstreaming是按照一个一个批次数据来进行计算的，只有当上一个批次完全计算完毕，才会计算下一个批次。否则，就会处于阻塞的状态
问题：
批次是如何产生的呢？？？
每个批次产生的时间是由用户指定的，每到指定的时间，就会产生一个批次，这段时间内接收到的数据，就是这个批次中需要计算的数据

SparkStreaming程序数据处理流程：
1.读取数据
读取数据形成DStream
2.数据处理
调用DStream的API或者是将DStream转成RDD/DataFrame
3.数据输出
文件系统
RDBMS（关系型数据库）
hive、hbase。。。
Kafka

=================================================================
程序的入口：
SparkCore：SparkContext
SparkSQL: SparkSession （基于SparkContext）
SparkStreaming：StreamingContext（基于SparkContext）

核心抽象：
SparkCore：RDD (弹性分布式数据集)
SparkSQL: DataFrame (以RDD为基础的分布式数据集二维表格)
SparkStreaming：DStream（Discretized Streams）(离散化的流)

小案例：
-1.在maven项目的pom文件中添加SparkStreaming的依赖

org.apache.spark
spark-streaming_2.11
2.2.1

-2.使用SparkStreaming程序读取socket的传输的数据，然后计算词频统计，最后在控制台打印
-2.1安装netcat
方式1：离线安装
-1.将nc-1.84-22.el6.x86_64.rpm上传到linux
-2.使用root用户安装nc-1.84-22.el6.x86_64.rpm
命令：rpm -ivh nc-1.84-22.el6.x86_64.rpm
安装成功之后，退出root，exit
方式2：在线安装
-1.切换root用户
-2.使用yum命令：yum install -y nc
安装成功之后，退出root，exit
-2.2nc安装结束之后，验证是否成功
命令：nc -lk 99999

-2.3开始编写代码

代码：
package com.bigdata.SparkStreaming

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object SparkStreamingSocketDemo {

def main(args: Array[String]): Unit = {

//1.构建上下文 ==》 StreamingContext 基于 SparkContext
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("SparkStreamingSocketDemo")

val sc = SparkContext.getOrCreate(config)

//def this(sparkContext: SparkContext, batchDuration: Duration)
//通过查看源码可知，构建StreamingContext需要传这两个参数
//batchDuration：用户指定的批次产生的间隔时间
val ssc  = new StreamingContext(sc,Seconds(5))

//2.读取数据形成DStream

/* def socketTextStream(
hostname: String,
port: Int,
storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2
)*/
val dstream: ReceiverInputDStream[String] = ssc.socketTextStream(“superman-bigdata.com”,9999)

//3.数据处理,计算词频统计
//hello \t spark \t hbase
val result: DStream[(String, Int)] = dstream
  .flatMap(line => line.split("\t"))
  .filter(word => word.nonEmpty)
  .map(word => (word,1))
  .reduceByKey(_ + _)

//4.数据的输出
result.print()

//5.开启流式程序，如果上一个批次没有计算结束，那么下一个批次处于阻塞
ssc.start()
ssc.awaitTermination()

}
}
-2.4先在linux中执行以下命令：
nc -lk 9999 回车
-2.5运行IDEA中的代码
注意:如果你觉得代码在运行的时候，控制台的日志过多，导致看不清
你可以调整日志等级
-1.修改项目中的log4j文件
log4j.rootCategory=ERROR,console
-2.直接编写代码修改等级
sc.setLogLevel(“ERROR”)

=================================================================
SparkStreaming程序的运行原理：
两种数据的接受方式：
第一种方式：使用数据接收器的方式(receiver)
1.数据接收器接收的输入的数据，按照给定批次产生的间隔时间，然后产生一个一个的批次，批次内部是以block块的形式进行保存（保存在内存或者磁盘,缓存等级决定内存还是磁盘）。
block块的产生也是基于时间的。默认每200ms形成一个block块。
我们可以使用这个参数来修改block块产生的时间隔间：
spark.streaming.blockInterval = 200ms
spark的应用参数，可以写在三个地方：
-1.写在spark-default.conf文件中（永久生效，一般写的是通用参数）
-2.写在代码中，SparkConf下面（每个程序中才会生效，一次性的）
-3.在执行bin/spark-submit的命令后面加上参数（提交的应用程序才会生效，一次性的）

		而且批次就是一个RDD,block块其实就是分区。
		比如：批次产生的间隔时间是5秒钟，那么默认情况下，每个批次中有25个block块
		也就是说当前RDD中存在25个分区。那么通过之前学习的SparkCore，我们可以知道一个分区其实就是一个task任务，那么批次中有多少个block块，其实就有多少个task任务。
		
		注意：
			-1.在receiver的模式下，block的个数的确是当前批次的分区数。但是其实只有存在block的时候，才会有分区，也就是说只有数据源源不断的接受，才会形成稳定的分区数。如果没有数据，那么分区数就是0，如果数据不多，而且不稳定，那么分区数是在变化的
			
			-2.基于receiver数据接收器的模式下，数据接受和数据处理其实是分开的，是不同的线程计算的。必须要有一个独立的线程负责接收数据，所以receiver模式下，线程数必须要大于2
			
			不管计算的批次是否阻塞，接受数据的线程永远会按照给定的时间间隔产生对应的批次，所以接受器的线程和计算的线程是相对独立的，互不影响的
			
		2.bacth和RDD的产生
			每隔一个批次产生的时间就会产生一个批次，这个批次中的数据，就是这段时间内接收器接收到的数据
			每个批次实质上就是一个RDD
			一个批次对应一个RDD
			一个批次中的block对应就是RDD中的分区
			所以block的个数，就是RDD的分区数。
		
	第二种方式:直接读取数据（direct）
		使用direct模式，每隔一个批次的时间，产生一个批次，但是因为没有数据接收器，所以也就不存在block。直接将数据的元数据信息，保存在RDD中。RDD的分区数是由数据源的分区数决定的
		比如：sparkstreaming使用direct模式，接受kafka中的beifeng0topic中的数据，那么每个批次也就是每个RDD的分区数应该是topic的分区数。

请注意：不管是receiver模式，还是direct模式，我们说的分区数都是第一次形成DStream流的时候的分区数
如果这条流已经开始计算了，那么分区数就会发生改变，而不是我们以上说的情况了

=================================================================
DStream（Discretized Streams）(离散化的流)
DStream底层其实就是一系列的RDD和时间组成的集合流（微批模拟流）
DStream有三大特性：

A DStream internally is characterized by a few basic properties:
- A list of other DStreams that the DStream depends on
  DStream之间是相互依赖的
- A time interval at which the DStream generates an RDD
  DStream会间隔性的产生RDD（其实：每隔一个批次产生的时间，就会产生一个RDD）
- A function that is used to generate an RDD after each time interval
  会有一个专门函数：compute

=======================================================================================
Input DStream输入流，也就是SparkStreaming的数据源
官方文档：
http://spark.apache.org/docs/2.2.1/streaming-programming-guide.html#input-dstreams-and-receivers

Spark Streaming provides two categories of built-in streaming sources.
SparkStreaming提供了内置的两种数据源

1.Basic sources(基础源): Sources directly available in the StreamingContext API. Examples: file systems, and socket connections.
这些源一般都是在StreamingContextAPI下面自带的一些方法。
比如以下API就是SparkStreaming的基础源（org.apache.spark.streaming.StreamingContext下的一些读取数据的方法）
-1.def socketTextStream(
hostname: String,
port: Int,
storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2
): ReceiverInputDStream[String]

-2.def socketStream[T: ClassTag](
hostname: String,
port: Int,
converter: (InputStream) => Iterator[T],
storageLevel: StorageLevel
): ReceiverInputDStream[T]

-3.def rawSocketStream[T: ClassTag](
hostname: String,
port: Int,
storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2
): ReceiverInputDStream[T]

-4.def fileStream[
K: ClassTag,
V: ClassTag,
F <: NewInputFormat[K, V]: ClassTag
] (directory: String): InputDStream[(K, V)]

以上采用的都是基于数据接收器的

Advanced sources(额外的数据源): Sources like Kafka, Flume, Kinesis, etc. are available through extra utility classes. These require linking against extra dependencies as discussed in the linking section.

Kafka: Spark Streaming 2.2.1 is compatible with Kafka broker versions 0.8.2.1 or higher. See the Kafka Integration Guide for more details.

Flume: Spark Streaming 2.2.1 is compatible with Flume 1.6.0. See the Flume Integration Guide for more details.

===================================================================================================
Kafka和SparkStreaming的集成:
官方集成指南：spark.apache.org/docs/2.2.1/streaming-kafka-integration.html

问题：
SparkStreaming的版本是2.2.1,Kafka的版本是0.11.0.1
那么,SparkStreaming和Kafka集成肯定是需要集成包的
集成包使用什么版本呢？
SparkStreaming和Kafka的集成包有两个版本:
spark-streaming-kafka-0-8,spark-streaming-kafka-0-10
这两个版本，我们都要讲。

===================================================================================================
SparkStreaming和Kafka的集成包：spark-streaming-kafka-0-8
文档地址：http://spark.apache.org/docs/2.2.1/streaming-kafka-0-8-integration.html
集成方式有两种：
1.基于数据接收器的receiver模式
2.直接读取数据的模式

1.基于数据接收器的receiver模式
第一步：在pom文件中添加依赖

org.apache.spark
spark-streaming-kafka-0-8_2.11
2.2.1

第二步：选择输入源的API，编写代码使用KafkaUtils类中的方法创建流
def createStream(
ssc: StreamingContext, //上下文
zkQuorum: String, //zookeeper的集群地址以及元数据保存的目录
groupId: String, 消费者的组ID
topics: Map[String, Int], 待读取的topic以及消费topic需要的线程数
storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2
): ReceiverInputDStream[(String, String)]

代码：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_8

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object Receiver01 {
def main(args: Array[String]): Unit = {
//1.构建上下文
val config = new SparkConf()
.setMaster(“local[*]”)
.setAppName(“Receiver01”)
.set(“spark.streaming.blockInterval”,“1000”)

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc, Seconds(5))

//2.读取数据形成DStream  => 使用receiver模式,这个代码是写死的，无法传入kafka的消费者的配置参数
//这个代码的消费者的偏移量是直接保存在zookeeper里面的
val zkQuorum = "superman-bigdata.com:2181/yangpu1005"
val groupId = "xiaoming"
val topics = Map(
  "receiver" -> 4
)

val dstream: DStream[String] = KafkaUtils.createStream(ssc, zkQuorum, groupId, topics).map(t => t._2)
dstream.foreachRDD(rdd => {
  println(rdd.partitions.size)
})

//3.计算数据
val result = dstream
  .flatMap(line => line.split("\t"))
  .filter(word => word.nonEmpty)
  .map(word => (word, 1))
  .reduceByKey((a, b) => a + b)

//4.结果输出
result.print()

//5.开启程序
ssc.start()
ssc.awaitTermination()

}
}

def createStream[K: ClassTag, V: ClassTag, U <: Decoder[]: ClassTag, T <: Decoder[]: ClassTag](
ssc: StreamingContext, //上下文
kafkaParams: Map[String, String], //kafka消费者的配置参数
topics: Map[String, Int], //待读取的topic以及消费topic需要的线程数
storageLevel: StorageLevel //缓存等级
): ReceiverInputDStream[(K, V)]
代码：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_8

import kafka.serializer.StringDecoder
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Receiver02 {
def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("Receiver01")
  .set("spark.streaming.blockInterval","1000")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc, Seconds(5))

//2.读取数据形成DStream  ==》 使用receiver模式
//报错：Wrong value earliest of auto.offset.reset in ConsumerConfig; Valid values are smallest and largest
//earliest和latest这个是新版本中的参数值  老版本中的应该是smallest and largest
val kafkaParams = Map(
  "zookeeper.connect" -> "superman-bigdata.com:2181/yangpu1005",
  "group.id" -> "xiaohong",
  "auto.offset.reset" -> "smallest"
)
val topics = Map(
  "receiver" -> 4
)
val storageLevel =StorageLevel.MEMORY_AND_DISK
val dstream: DStream[String] = KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topics,storageLevel).map(t => t._2)

//3.计算数据
val result = dstream
  .flatMap(line => line.split("\t"))
  .filter(word => word.nonEmpty)
  .map(word => (word, 1))
  .reduceByKey((a, b) => a + b)

//4.结果输出
result.print()

//5.开启程序
ssc.start()
ssc.awaitTermination()

}
}

===================================================================================================
2.直接读取数据的模式（Direct）
注意：direct模式下，偏移量是不会直接保存到zookeepr中的
第一步：在pom文件中添加依赖

org.apache.spark
spark-streaming-kafka-0-8_2.11
2.2.1

第二步：选择输入源的API，编写代码使用KafkaUtils类中的方法创建流
def createDirectStream[
K: ClassTag,
V: ClassTag,
KD <: Decoder[K]: ClassTag,
VD <: Decoder[V]: ClassTag] (
ssc: StreamingContext, //上下文
kafkaParams: Map[String, String], //kafka消费者的配置参数
topics: Set[String] //待消费的topic
): InputDStream[(K, V)]
代码：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_8

import kafka.serializer.StringDecoder
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Direct01 {
def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("Direct01")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc, Seconds(5))

//2.读取数据形成DStream ==> Direct模式是不需要连接zookeeper。偏移量不会写入zookeeper中，而且也不会做任何保存操作

//所以当我们使用direct的时候，需要自己去保存偏移量信息
val kafkaParams = Map(
“metadata.broker.list” -> “superman-bigdata.com:9092,superman-bigdata.com:9093,superman-bigdata.com:9094,superman-bigdata.com:9095”,
“group.id” -> “xiaohei”,
“auto.offset.reset” -> “largest” //默认从最新开始消费 largest
)
val topics = Set(“direct”)

val dstream: DStream[String] = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topics).map(t => t._2)
//我们说direct模式下，第一次的时候，dstream中的分区数应该和topic的分区数一致
//我们知道direct这个topic的分区数我设置的是4个
//那么下面代码打印的应该也是4
dstream
  .foreachRDD(rdd => {
    println(rdd.partitions.size)
  })

//3.计算数据
val result = dstream
  .flatMap(line => line.split("\t"))
  .filter(word => word.nonEmpty)
  .map(word => (word, 1))
  .reduceByKey((a, b) => a + b)

//4.结果输出
result.print()

//5.开启程序
ssc.start()
ssc.awaitTermination()

}
}

def createDirectStream[
K: ClassTag,
V: ClassTag,
KD <: Decoder[K]: ClassTag,
VD <: Decoder[V]: ClassTag,
R: ClassTag] (
ssc: StreamingContext, //上下文
kafkaParams: Map[String, String], //kafka消费者的配置参数
fromOffsets: Map[TopicAndPartition, Long], //指定消费的topic，以及指定从哪一个分区的哪一个偏移量位置开始消费
messageHandler: MessageAndMetadata[K, V] => R //数据以及元数据信息
): InputDStream[R]
代码：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_8

import kafka.common.TopicAndPartition
import kafka.message.MessageAndMetadata
import kafka.serializer.StringDecoder
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Direct02 {
def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("Direct02")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc, Seconds(5))

//2.读取数据形成DStream
val kafkaParams = Map(
  "metadata.broker.list" -> "superman-bigdata.com:9092,superman-bigdata.com:9093,superman-bigdata.com:9094,superman-bigdata.com:9095",
  "group.id" -> "xiaobai"
)

val fromOffsets = Map(
  //1.可以只写一个或者几个分区 2.指定的偏移量的值不可以超过当前分区的数据条数
  //报错：java.lang.IllegalArgumentException: requirement failed:  numRecordsmust not be negative
  //这个报错就是因为指定的偏移量超过了当前分区的数据条数，导致的
  TopicAndPartition("direct",0) -> 2L,
  TopicAndPartition("direct",1) -> 2L,
  TopicAndPartition("direct",2) -> 3L,
  TopicAndPartition("direct",3) -> 3L
)

val messageHandler: MessageAndMetadata[String, String] => String = (msg:MessageAndMetadata[String,String]) => {
  val topicName = msg.topic
  val partitionID = msg.partition
  val offset = msg.offset
  val value = msg.message()

  val sb = new StringBuilder
  sb.append("topicName=").append(topicName).append(",")
    .append("partitionID=").append(partitionID).append(",")
    .append("offset=").append(offset).append(",")
    .append("value=").append(value)
 sb.toString()
}

val dstream = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder,String](ssc,kafkaParams,fromOffsets,messageHandler)

//3.结果输出
dstream.print()

//4.开启程序
ssc.start()
ssc.awaitTermination()

}
}

//因为kafka的direct模式下，不会对消费者的偏移量做什么保存操作，因此，同一个消费者的情况下，我们无法确定上一次消费的记录，所以我们接下来学习手动保存偏移量记录，保存到mysql数据库中
package com.bigdata.SparkStreaming.Kafka_Streaming_0_8

import java.sql.{Connection, DriverManager}

object Direct02 {
def main(args: Array[String]): Unit = {
//1.构建上下文
val config = new SparkConf()
.setMaster(“local[*]”)
.setAppName(“Direct02”)

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc, Seconds(5))

//2.读取数据形成DStream
val kafkaParams = Map(
  "metadata.broker.list" -> "superman-bigdata.com:9092,superman-bigdata.com:9093,superman-bigdata.com:9094,superman-bigdata.com:9095",
  "group.id" -> "xiaobai"
)

val fromOffsets = Map(
  //1.可以只写一个或者几个分区 2.指定的偏移量的值不可以超过当前分区的数据条数
  //报错：java.lang.IllegalArgumentException: requirement failed:  numRecordsmust not be negative
  //这个报错就是因为指定的偏移量超过了当前分区的数据条数，导致的
  TopicAndPartition("direct",0) -> 2L,
  TopicAndPartition("direct",1) -> 2L,
  TopicAndPartition("direct",2) -> 3L,
  TopicAndPartition("direct",3) -> 3L
)

val messageHandler = (msg:MessageAndMetadata[String,String]) => {
  val topicName = msg.topic
  val partitionID = msg.partition
  val offset = msg.offset
  val value = msg.message()

  //偏移量记录插入数据库
  insertOffsetIntoMysql(topicName,partitionID,offset)

  val sb = new StringBuilder
  sb.append("topicName=").append(topicName).append(",")
    .append("partitionID=").append(partitionID).append(",")
    .append("offset=").append(offset).append(",")
    .append("value=").append(value)
 sb.toString()
}

val dstream = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder,String](ssc,kafkaParams,fromOffsets,messageHandler)

//3.结果输出
dstream.print()

//4.开启程序
ssc.start()
ssc.awaitTermination()

}

def insertOffsetIntoMysql(topicName:String,partitionID:Int,offset:Long)={

//1.使用JDBC原生态的方式连接数据库
val url = "jdbc:mysql://superman-bigdata.com:3306/yangpu1005"
val user = "root"
val password = "123456"
var connect = DriverManager.getConnection(url,user,password)

//插入的sql语句
val sql = "replace into ManualOffsetConsumer values (?,?,?)"
var pstmt = connect.prepareStatement(sql)

pstmt.setString(1,topicName)
pstmt.setInt(2,partitionID)
pstmt.setLong(3,offset)
pstmt.executeUpdate()

pstmt.close()
connect.close()

}

===================================================================================================
SparkStreaming和Kafka集成的代码优化：
1.receiver模式下的优化方式：
-1.设置分区数，我们知道数据量越大，分区数要越大，那么在receiver模式下，如何调整分区数
控制block块的个数：spark.streaming.blockInterval 默认200ms 注意，这个值必须是批次间隔时间的整数倍
-2.当发现接受的速率比较慢，可以考虑给定多个数据接收器
比如：
val dstream1: DStream[String] = KafkaUtils.createStream(ssc, zkQuorum, groupId, topics).map(t => t._2)
val dstream2: DStream[String] = KafkaUtils.createStream(ssc, zkQuorum, groupId, topics).map(t => t._2)
val dstream3: DStream[String] = KafkaUtils.createStream(ssc, zkQuorum, groupId, topics).map(t => t._2)
val dstream4: DStream[String] = KafkaUtils.createStream(ssc, zkQuorum, groupId, topics).map(t => t._2)

		val dstream = dstream1.union(dstream2).union(dstream3).union(dstream4)
	
！！-3.当接受的速度太快了，根本来不及计算。产生严重的延迟情况，甚至导致程序失败
		使用背压机制来解决这个问题
		spark.streaming.backpressure.enabled = true  开启背压机制，默认是关闭的
		spark.streaming.receiver.maxRate 控制每秒每个分区中接受的最大的处理条数
		例子：val config = new SparkConf()
			  .setMaster("local[*]")
			  .setAppName("Receiver01")
			  .set("spark.streaming.blockInterval","1000")
			  .set("spark.streaming.backpressure.enabled","true" )
			  .set("spark.streaming.receiver.maxRate","5") //每秒每个分区中处理5条数据

2.direct模式下的优化方式
-1.不管你是receiver还是direct模式下，都可以开启的
开启动态资源分配
使用场景：当程序出现job的高峰和低谷的时候，动态的控制executor的数量
spark.dynamicAllocation.enabled 默认是false 设置为true 开启动态资源调度
spark.dynamicAllocation.initialExecutors 表示executor的初始的个数
spark.dynamicAllocation.maxExecutors 表示executor浮动变化的最大的个数
spark.dynamicAllocation.minExecutors 表示executor浮动变化的最小的个数

-2.当接受的速度太快了，根本来不及计算。产生严重的延迟情况，甚至导致程序失败
		使用背压机制来解决这个问题
		spark.streaming.backpressure.enabled = true  开启背压机制，默认是关闭的
		spark.streaming.kafka.maxRatePerPartition  每个分区每秒钟处理的最大的数据条数，不设置表示没有任何的限制
		例子：    val config = new SparkConf()
					  .setMaster("local[2]")
					  .setAppName("Direct01")
					  .set("spark.streaming.backpressure.enabled","true")
					  .set("spark.streaming.kafka.maxRatePerPartition","3")

===================================================================================================
！！！！！！检查点机制：checkpoint
官方文档：
http://spark.apache.org/docs/2.2.1/streaming-programming-guide.html#checkpointing
作用：当程序还没有完全执行结束，程序突然中止了。那么我们再次提交程序的时候，我们希望程序不是从头开始执行的，而是从上一次结束的地方继续运行，那么我们可以使用检查点机制，来进行应用的恢复。
例子：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_8

import kafka.serializer.StringDecoder
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka.KafkaUtils

object Checkpoint {
def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[2]")
  .setAppName("Direct01")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc, Seconds(3))

//设置检查点机制
val path = "hdfs://superman-bigdata.com:9000/yangpu1005/checkpoint"
ssc.checkpoint(path)

//2.读取数据形成DStream ==> Direct模式是不需要连接zookeeper。偏移量不会写入zookeeper中，而且也不会做任何保存操作
//所以当我们使用direct的时候，需要自己去保存偏移量信息
val kafkaParams = Map(
  "metadata.broker.list" -> "superman-bigdata.com:9092,superman-bigdata.com:9093,superman-bigdata.com:9094,superman-bigdata.com:9095",
  "group.id" -> "hello",
  "auto.offset.reset" -> "smallest" //默认从最新开始消费  largest
)
val topics = Set("direct")

val dstream: DStream[String] = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topics).map(t => t._2)

//3.计算数据
val result = dstream
  .flatMap(line => line.split("\t"))
  .filter(word => word.nonEmpty)
  .map(word => (word, 1))
  .reduceByKey((a, b) => a + b)

//4.结果输出
result.print()

//5.开启程序
ssc.start()
ssc.awaitTermination()

}
}

===================================================================================================
Direct模式下，因为偏移量是不做任何保存操作的，所以我们不知道怎么去查看之前消费者的偏移量记录
所以我们必须手动进行偏移量的保存
在direct模式下，我们可以使用一下两种方式保存偏移量
-1.def createDirectStream[
K: ClassTag,
V: ClassTag,
KD <: Decoder[K]: ClassTag,
VD <: Decoder[V]: ClassTag,
R: ClassTag] (
ssc: StreamingContext, //上下文
kafkaParams: Map[String, String], //kafka消费者的配置参数
fromOffsets: Map[TopicAndPartition, Long], //指定消费的topic，以及指定从哪一个分区的哪一个偏移量位置开始消费
messageHandler: MessageAndMetadata[K, V] => R //数据以及元数据信息
): InputDStream[R]
我们可以在messageHandler对象中进行偏移量的保存，保存到mysql中

-2.def createDirectStream[
K: ClassTag,
V: ClassTag,
KD <: Decoder[K]: ClassTag,
VD <: Decoder[V]: ClassTag] (
ssc: StreamingContext, //上下文
kafkaParams: Map[String, String], //kafka消费者的配置参数
topics: Set[String] //待消费的topic
): InputDStream[(K, V)]
这种代码呢，不能执行在以上代码中确定偏移量的保存
但是可以直接使用DStream转成RDD，来获取每个RDD中元数据信息来进行保存

栗子：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_8

import kafka.serializer.StringDecoder
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka.{HasOffsetRanges, KafkaUtils, OffsetRange}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Direct_SaveOffset_Common {
def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[2]")
  .setAppName("Direct_SaveOffset_Common")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc, Seconds(1))

//2.读取数据形成DStream
val kafkaParams = Map(
  "metadata.broker.list" -> "superman-bigdata.com:9092,superman-bigdata.com:9093,superman-bigdata.com:9094,superman-bigdata.com:9095",
  "group.id" -> "xiaoxing",
  "auto.offset.reset" -> "smallest" //默认从最新开始消费  largest
)
val topics = Set("direct")

val dstream: InputDStream[(String, String)] = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topics)
//报错：java.lang.ClassCastException: org.apache.spark.rdd.MapPartitionsRDD cannot be cast to org.apache.spark.streaming.kafka.HasOffsetRanges
//表示类型不一致导致的，我们不需要取出value的值，直接保存原始的流


//3.结果数据
dstream.map(t => t._2).print()

//4.偏移量的手动保存
//构建一个数组进行偏移量的保存
var  offsetRanges: Array[OffsetRange] =  Array.empty
dstream
  .foreachRDD(rdd  => {
    offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges //得到的当前RDD中所有数据的偏移量的范围

    val arr: Array[OffsetRange] = offsetRanges.toSet.toArray

    for(msg <- arr){
      val topicName = msg.topic
      val partitionID = msg.partition
      val fromOffsets = msg.fromOffset
      val untilOffsets = msg.untilOffset

      println("topicName=" + topicName + "," + "partitionID=" + partitionID + "," + "fromOffsets=" + fromOffsets + "," + "untilOffsets=" + untilOffsets )
      //作业：使用原生态的JDBC代码自己写入数据库中
    }
  })

//5.开启程序
ssc.start()
ssc.awaitTermination()

}
}

===================================================================================================
SparkStreaming和Kafka的集成包：spark-streaming-kafka-0-10
官方文档：
http://spark.apache.org/docs/2.2.1/streaming-kafka-0-10-integration.html

-1.在pom文件中添加依赖

org.apache.spark
spark-streaming-kafka-0-10_2.11
2.2.1

-2.注意：spark-streaming-kafka-0-10在这个集成包的下面
sparkstreaming和kafka集成只有一种方式，那就是direct模式
而且这个版本的消费者偏移量和zookeeper没有任何关系！！！！！

在这个版本下：
消费者的偏移量管理有两种方式：
-1.偏移量自动提交，保存在本地
“enable.auto.commit” -> “true” 表示偏移量是程序自动提交在本地保存的

-2.手动管理偏移量
	"enable.auto.commit" -> "false" 表示消费者的偏移量是没有任何保存的，必须要手动去储存偏移量

案例：
-1.偏移量自动提交，保存在本地
“enable.auto.commit” -> “true” 表示偏移量是程序自动提交在本地保存的
def createDirectStream[K, V](
ssc: StreamingContext,
locationStrategy: LocationStrategy,
consumerStrategy: ConsumerStrategy[K, V]
): InputDStream[ConsumerRecord[K, V]]
代码：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_10

import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.KafkaUtils
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object Auto_Offset_Commit {

def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("Auto_Offset_Commit")

val sc = SparkContext.getOrCreate(config)

val ssc = new StreamingContext(sc,Seconds(5))

//2.读取数据形成DStream
//报错：org.apache.kafka.common.config.ConfigException:
// Missing required configuration "key.deserializer" which has no default value.

val topics = Array("direct")
val kafkaParams = Map(
  "bootstrap.servers" -> "superman-bigdata.com:9092,superman-bigdata.com:9093,superman-bigdata.com:9094,superman-bigdata.com:9095",
  "group.id" -> "zhangsan", //消费者组ID
  "enable.auto.commit" -> "true", //表示偏移量自动保存
  "auto.offset.reset" -> "earliest",  // 从最新还是最老开始消费  earliest /lagest
  "key.deserializer" -> classOf[StringDeserializer], //key的序列化
  "value.deserializer" -> classOf[StringDeserializer] //value的序列化
)

val dstream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String,String](ssc,PreferConsistent,Subscribe[String,String](topics,kafkaParams))

val result: DStream[(String, Int, Long)] = dstream
  .map(record => {
    val topicName = record.topic()
    val partitionID = record.partition()
    val offset = record.offset()
    val value = record.value()
    (topicName,partitionID,offset)
  })

//3.打印结果
result.print()

//4.开始运行程序
ssc.start()
ssc.awaitTermination()

}
}

-2.手动管理偏移量
“enable.auto.commit” -> “false” 表示消费者的偏移量是没有任何保存的，必须要手动去储存偏移量
代码：
package com.bigdata.SparkStreaming.Kafka_Streaming_0_10

import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.TopicPartition
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{HasOffsetRanges, OffsetRange}
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe
import org.apache.spark.streaming.kafka010.KafkaUtils
import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent
import org.apache.spark.{SparkConf, SparkContext, TaskContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object Manual_Offset_Commit {
def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("Manual_Offset_Commit")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc,Seconds(5))

//2.读取数据形成DStream
val topics = Array("direct")

val kafkaParams = Map(
  "bootstrap.servers" -> "superman-bigdata.com:9092,superman-bigdata.com:9093,superman-bigdata.com:9094,superman-bigdata.com:9095",
  "group.id" -> "lisi", //消费者组ID
  "enable.auto.commit" -> "false", //表示偏移量不自动保存
  "key.deserializer" -> classOf[StringDeserializer], //key的序列化
  "value.deserializer" -> classOf[StringDeserializer] //value的序列化
)

val offset = Map(
  new TopicPartition("direct",0) -> 2L,
  new TopicPartition("direct",1) -> 2L,
  new TopicPartition("direct",2) -> 3L,
  new TopicPartition("direct",3) -> 3L
)

val dstream: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream[String,String](ssc,PreferConsistent,Subscribe[String,String](topics,kafkaParams,offset))

val result: DStream[(String, Int, Long)] = dstream
  .map(record => {
      val topicName = record.topic()
      val partitionID = record.partition()
      val offset = record.offset()
      val value = record.value()
(topicName,partitionID,offset)

})

//3.打印结果
result.print()

//4.进行手动的储存消费者的偏移量信息
dstream
  .foreachRDD(rdd => {
    val offsetRanges: Array[OffsetRange] = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
    rdd.foreachPartition(iter => {
        val o: OffsetRange = offsetRanges(TaskContext.get().partitionId())
      println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")

      //作业:使用原生态的JDBC代码，写入数据库中
    })
  })

//5.开启程序
ssc.start()
ssc.awaitTermination()

}
}

===================================================================================================
SparkStreaming的一些特殊的方法：
1.transform
2.foreachRDD
3.updateStateByKey
4.Window

1.transform =》转换函数
transform这个函数用于将DStream转成RDD，然后使用RDD的api进行数据处理，处理完之后，仍然返回DStream
一般用于数据转换
代码：
package com.bigdata.SparkStreaming

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object SparkStreaming_Transform {

def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("SparkStreaming_Transform")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val spark = SparkSession.builder().master("local[*]").appName("SparkStreaming_Transform").getOrCreate()

val ssc = new StreamingContext(sc,Seconds(5))

//2.读取数据形成DStream
val dstream: ReceiverInputDStream[String] =  ssc.socketTextStream("superman-bigdata.com",9999)

//3.使用transform
val result1  = dstream
  .flatMap(line => line.split("\t"))
  .filter(word => word.nonEmpty)
  .map(word => (word,1))
  .reduceByKey((a,b) => a + b)

val result2: DStream[(String, Int)] = dstream
  .transform(rdd => {
    val rdd1: RDD[(String, Int)] = rdd
      .flatMap(line => line.split("\t"))
      .filter(word => word.nonEmpty)
      .map(word => (word,1))
      .reduceByKey((a,b) => a + b)

    //将RDD转成DataFrame
    import  spark.implicits._
    val df = rdd1.toDF("word","count")
    df.show()
    rdd1
  })

result1.print()
result2.print()

//4.开启程序
ssc.start()
ssc.awaitTermination()

}
}

2.foreachRDD ==》数据输出
这个函数也是将DStream转成RDD ，但是一般用在数据的输出
代码：
package com.bigdata.SparkStreaming

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.ReceiverInputDStream

object SparkStreaming_ForeachRDD {
def main(args: Array[String]): Unit = {

//1.构建上下文
val config = new SparkConf()
  .setMaster("local[*]")
  .setAppName("SparkStreaming_ForeachRDD")

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val spark = SparkSession.builder().master("local[*]").appName("SparkStreaming_ForeachRDD").getOrCreate()

val ssc = new StreamingContext(sc,Seconds(5))

//2.读取数据形成DStream
val dstream: ReceiverInputDStream[String] =  ssc.socketTextStream("superman-bigdata.com",9999)

//3.使用foreachRDD
dstream
  .foreachRDD(rdd => {
    val rdd1: RDD[(String, Int)] = rdd
      .flatMap(line => line.split("\t"))
      .filter(word => word.nonEmpty)
      .map(word => (word,1))
      .reduceByKey((a,b) => a + b)

    import spark.implicits._
    val df = rdd1.toDF("word","count")
    df.show()
    df.write.mode("append").format("json").save("hdfs://superman-bigdata.com:9000/yangpu1005/foreachRDD")
  })

ssc.start()
ssc.awaitTermination()

}
}

===================================================================================================
3.updateStateByKey
应用场景：实时累计功能：
报错：java.lang.IllegalArgumentException: requirement failed: The checkpoint directory has not been set. Please set it by StreamingContext.checkpoint().
表示没有设置checkpiont（元数据保存）
为什么使用updateStateByKey的时候，需要设置checkpoint机制？？？？
1.checkpoint是用来保存之前批次的所有的元数据信息
2.普通的sparkstreaming程序，只能获得当前批次的信息
所以我们必须要设置checkpoint，因为程序需要知道之前的批次的运行状态值

代码：
package com.bigdata.SparkStreaming

import java.util.Properties

import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.{HTable, Put, Result}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.dstream.ReceiverInputDStream
import org.apache.spark.streaming.{Seconds, StreamingContext}

object SparkStreaming_UpdateStateByKey {

def main(args: Array[String]): Unit = {
//1.构建上下文
val config = new SparkConf()
.setMaster(“local[*]”)
.setAppName(“SparkStreaming_UpdateStateByKey”)

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val spark = SparkSession.builder().master("local[*]").appName("SparkStreaming_UpdateStateByKey").enableHiveSupport().getOrCreate()

val ssc = new StreamingContext(sc,Seconds(5))

//checkpoint 检查点机制
val path = "hdfs://superman-bigdata.com:9000/yangpu1005/checkpoint"
ssc.checkpoint(path)

//2.读取数据形成DStream
val dstream: ReceiverInputDStream[String] =  ssc.socketTextStream("superman-bigdata.com",9999)

//3.使用updateStateByKey实现实时累计效果
//  def updateStateByKey(updateFunc: (Seq[V], Option[S]) => Option[S]): DStream[(K, S)]
//seq:Seq[V]:当前批次的数据
//state:Option[S]：上一个批次的状态值
val result  = dstream
  .flatMap(line => line.split("\t"))
  .filter(word => word.nonEmpty)
  .map(word => (word,1))
  .reduceByKey((a,b) => a + b)  //(word,count)
  .updateStateByKey(
  (seq:Seq[Int],state:Option[Int]) => {
    //seq:表示当前批次的key的value值
    //state：表示上一个批次的key的value的状态值
    val currentValue = seq.sum
    val preValue = state.getOrElse(0)
    Some(currentValue + preValue)
  }
)


//4.结果输出打印
result.print()

//5.将结果保存到外部储存系统
//5.1保存到本地windows的文件系统
result.saveAsTextFiles("file:///D:\\data\\updateStateByKey")

//5.2保存到HDFS的分布式文件系统
result.saveAsTextFiles("hdfs://superman-bigdata.com:9000/yangpu1005/updateStateByKey")

//5.3保存到hive表中
result.foreachRDD(rdd => {
  import spark.implicits._
  rdd.toDF("word","count")
    .write
    .mode("overwrite")
    .format("json")
    .saveAsTable("yangpu1005.updateStateByKey")
})

//5.4保存到mysql中
result.foreachRDD(rdd => {
  import spark.implicits._
  val url = "jdbc:mysql://superman-bigdata.com:3306/yangpu1005"
  val table = "updateStateByKey"
  val props = new Properties()
  props.put("user","root")
  props.put("password","123456")
  rdd.toDF("word","count")
    .write
    .mode("overwrite")
    .format("json")
    .jdbc(url,table,props)
})

//5.5保存到hbase表中
//方式一：将DStream转成RDD，然后使用RDD的foreachPartition写入hbase中
result
    .foreachRDD(rdd => {
      rdd.foreachPartition(iter => {
        //1.获取hbase的配置信息
        val config  = HBaseConfiguration.create()
        //2.获取hbase的表对象,首先在hbase中建表 create 'updateStateByKey','info'
        val table  = new HTable(config,"updateStateByKey")
        //3.构建put对象
        iter.foreach(t => {
          val word = t._1
          val count = t._2
          val put = new Put(Bytes.toBytes(word))
          put.add(Bytes.toBytes("info"),Bytes.toBytes("count"),Bytes.toBytes(count))
          table.put(put)
        })
        table.close()
      })
    })

//方法二：使用org.apache.spark.rdd.PairRDDFunctions中的saveAsNewAPIHadoopDataset写到hbase中

/* def saveAsNewAPIHadoopDataset(conf: Configuration): Unit = self.withScope {
SparkHadoopMapReduceWriter.write(
rdd = self,
hadoopConf = conf)
}*/
result
.foreachRDD(rdd => {
//1.设置配置参数
val sc = rdd.sparkContext
sc.hadoopConfiguration.set(“hbase.zookeeper.quorum”,“superman-bigdata.com:2181”) //zk的连接地址
sc.hadoopConfiguration.set(“hbase.rootdir”,“hdfs://superman-bigdata.com:9000/hbase”)
sc.hadoopConfiguration.set(“hbase.master”,“superman-bigdata.com:60000”)
//以上的我们这边可以不需要写，因为我们已经把hbase-site.xml文件放在项目中
sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE,“updateStateByKey”) //待输入的hbase的表
//2.构建job对象
val job = Job.getInstance(sc.hadoopConfiguration)
job.setOutputKeyClass(classOf[ImmutableBytesWritable])
job.setOutputValueClass(classOf[Result])
job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])
rdd.saveAsNewAPIHadoopDataset(job.getConfiguration)
})

ssc.start()
ssc.awaitTermination()

}
}

===================================================================================================
4.Window 窗口不是窗口函数！！！！
应用场景：计算最近一段时间的数据
例子：
批次间隔的时间是5s 计算的结果是每5s内接收到的数据结果
计算最近30s的数据结果，相当于计算最近6个批次的数据

窗口的执行过程：
需求：每隔20s，打印最近30s的数据
批次产生的间隔时间是10s
窗口的大小也就是最近的一段时间：30s
窗口的滑动时间也就是新窗口产生的间隔时间：20s
12:00:00 12:00:10 12:00:20 12:00:30 12:00:40 。。。。。
批次1 批次2 批次3 批次4 。。。
window1 window2 。。。
12:00:20
进行第一次的打印:window1 = 批次1 + 批次2

12:00:40
进行第二次的打印:window2 = window1 + 批次3 + 批次4 - 批次1 = 批次2 + 批次3 + 批次4

。。。。。
规则：
window = 上一个window + 新window产生的那段时间得到的新的批次 - 在上一个window中和当前window不重叠的部分

在使用Window的时候，代码中需不需要设置checkpoint机制？？？

代码：
package com.bigdata.SparkStreaming

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.ReceiverInputDStream

object SparkStreaming_Window {

def main(args: Array[String]): Unit = {
//1.构建上下文
val config = new SparkConf()
.setMaster(“local[*]”)
.setAppName(“SparkStreaming_Window”)

val sc = SparkContext.getOrCreate(config)
sc.setLogLevel("ERROR")

val ssc = new StreamingContext(sc,Seconds(10))

//checkpoint 检查点机制
val path = "hdfs://superman-bigdata.com:9000/yangpu1005/checkpoint"
ssc.checkpoint(path)

//2.读取数据形成DStream
val dstream: ReceiverInputDStream[String] =  ssc.socketTextStream("superman-bigdata.com",9999)

//3.使用window进行计算：需求：每隔20s，打印最近30s的数据

/* def reduceByKeyAndWindow(
reduceFunc: (V, V) => V, //聚合函数
invReduceFunc: (V, V) => V, //删除上一个window中不重叠的部分
windowDuration: Duration, 窗口的大小
slideDuration: Duration = self.slideDuration, 窗口滑动的时间
): DStream[(K, V)]*/
val result = dstream
.flatMap(line => line.split("\t"))
.map(word => (word,1))
.reduceByKeyAndWindow(
(a,b) => a + b, //上一个window + 新window产生的那段时间得到的新的批次
(c,d) => c - d ,//上一个window + 新window产生的那段时间得到的新的批次 - 在上一个window中和当前window不重叠的部分
Seconds(30), //windowDuration 窗口的大小也就是最近一段时间
Seconds(20) //slideDuration 窗口的滑动时间也就是新窗口产生的间隔时间
)

result.print()

ssc.start()
ssc.awaitTermination()

}
}

你可能感兴趣的:(老师笔记)

Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
Flutter-完整开发实战详解(一、Dart-语言和-Flutter-基础) 2401_85122662 flutter
《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》完整开源地址：https://docs.qq.com/doc/DSkNLaERkbnFoS0ZF基本类型var可以定义变量，如vartag=“666”，这和JS、Kotlin等语言类似，同时Dart属于动态类型语言，支持闭包。Dart中number类型分为int和double，其中java中的long对应的也是Da
《移动App测试实战》读书笔记 xh15 2017笔试面试修炼软件测试移动测试读书笔记
最近看完了《移动App测试实战》，这里做一点笔记，后面可以重温。功能测试自动化轻量接口自动化测试（JMeter）：JMeter是一款开源测试工具，多用于接口测试用例的分层：CGI：通用网关接口，常称为单个业务接口Function：请求组合，包含多个CGI层接口的调用TestCase：单个测试用例TestSuite：多个测试用例的集合UI层的自动化面向Android：AndroidSDK提供的UIA
在学校研究学习的偏算法，秋招投递开发岗位还有希望吗程序员
前言Thelasttime,Ihavelearned这是星球同学，在周五晚上答疑聊天的时候对我的提问：如果简历上的项目偏算法，但是自学了一些操作系统和计网的知识，秋招的时候投递偏开发的岗位有希望吗？简历上是否也要加上相关项目？估计也是很多朋友的疑问，毕竟很多同学读研，有些老师疯狂push，要成果，发论文。要想尽快发论文，那只能“研究”人工智能、算法的一些东西了。但是众所周知，算法要求很高，不仅要求
学习笔记：oracle online系列：oracle：Per-Process PGA memory limit 认真就输DBA Oracle 学习随笔学习笔记 oracle
我们的文章会在微信公众号IT民工的龙马人生和博客网站(www.htz.pw)同步更新，欢迎关注收藏，也欢迎大家转载，但是请在文章开始地方标注文章出处，谢谢！由于博客中有大量代码，通过页面浏览效果更佳。本文转自朋友的真实案例分享。oracleonline系列：oracle：Per-ProcessPGAmemorylimit前几日，东区某客户的19crac出现了ORA-04030，从报错的trace来
【OD机试题解法笔记】连续出牌数量 xuwzen 编码训练笔记深度优先算法
题目描述有这么一款单人卡牌游戏，牌面由颜色和数字组成，颜色为红、黄、蓝、绿中的一种，数字为0-9中的一个。游戏开始时玩家从手牌中选取一张卡牌打出，接下来如果玩家手中有和他上一次打出的手牌颜色或者数字相同的手牌，他可以继续将该手牌打出，直至手牌打光或者没有符合条件可以继续打出的手牌。现给定一副手牌，请找到最优的出牌策略，使打出的手牌最多。输入描述输入为两行，第一行是每张手牌的数字，数字由空格分隔，第
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
Docker技术笔记-从零开始的容器技术之旅青竹易寒 docker 学习容器
理论一、容器技术简介容器是一种轻量级、可移植、隔离的软件环境，通过操作系统级虚拟化实现资源隔离,确保应用程序在不同环境中能够保持一致运行。容器和虚拟机对比对比维度容器(Docker)虚拟机(VM、KVM)架构原理共享宿主机内核,通过命名空间(Namespaces)和控制组(Cgroups)实现资源隔离。通过Hypervisor虚拟化硬件资源,每个VM运行独立完整的操作系统(GuestOS)。资源消
C 语言:20250708笔记遇见尚硅谷 c语言笔记开发语言
内容提要C语言概述数据类型常量变量C语言概述计算机基础计算机的组成计算机组成计算机：能进行计算以及逻辑处理的设备硬件：组成计算机的物理部件。（内存条、CPU、硬盘..）开发中对于硬件的认知：硬件包括电子设备、单片机、集成电路和嵌入式系统。软件：计算机中运行的程序和数据。开发中对于软件的认知：软件分为系统软件（OS）、应用软件和编程工具（编译器）计算机的六大部件中央处理器（CPU）：控制+计算内存：
12.Java SDK源码分析系列笔记-PriorityQueue Thinker QAQ Java SDK源码分析 java 笔记 python
文章目录1.PriorityQueue是什么2.使用3.源码分析3.1.属性3.2.有参构造3.2.1.初始化元素到数组中3.2.2.维护堆的属性3.2.2.1.下沉操作3.3.插入3.3.1.上浮操作3.4.删除3.4.1.下沉操作4.参考1.PriorityQueue是什么是一个队列，只不过加上了优先级的概念，换句话说队列里的元素是根据某种规则排好序的2.使用publicclassPriori
菱形图案的c++实现
题目描述KiKi学习了循环，BoBo老师给他出了一系列打印图案的练习，该任务是打印用“*”组成的菱形图案。输入描述:多组输入，一个整数（2~20）。输出描述:针对每行输入，输出用“”组成的菱形，每个“”后面有一个空格。示例1输入2输出*********#includeusingnamespacestd;intmain(){inta;while(cin>>a){for(inti=1;i=i;j--)
DPDK探测设备并初始化分享放大价值 DPDK dpdk probe 设备初始化 mmap
本文整理下之前的学习笔记，基于DPDK17.11版本源码分析。主要看一下DPDK探测网卡设备，并进行初始化的流程，用到了类似kernel中的总线-设备-驱动模型。本文的重点之一是DPDK如何在用户态操作网卡寄存器，这里先给个答案:想要操作网卡寄存器，需要用到网卡的基地址BAR，intel网卡一般使用BAR0就行，通过mmap此文件/sys/bus/pci/devices/'pciaddress'/
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
Python学习打卡：day02
day2笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day28、字符串的三种定义方式字符串在Python中有多种定义形式字符串的引号嵌套9、字符串的拼接10、字符串格式化11、格式化的精度控制12、字符串格式化的方式213、对表达式进行格式化14、字符串格式化的课后练习题15、数据输入（input语句）input语句（函数）input语句获取
【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（五）百万年薪天才少女人工智能人工智能机器学习深度学习
****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！五、解释评估（ExplanationEvaluation）在前面的章节中，我们介绍了不同的解释技术和它们的用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类：传统微调范式的局部解释评估（第5.1节）和提示范式中自然语言CoT解释的评估（第5.2节）。评估的两个关键维度是对人类的
CS:APP读书笔记--信息的表示和处理你都会上树？ CS:APP 笔记程序人生
信息的存储和表示字节端序在内存中按照从最低到最高有效字节的顺序存储对象，这种最低有效字节在最前面的方式，称为小端法。在内存中按照从最高到最低有效字节的顺序存储对象，这种最高有效字节在最前面的方式，称为大端法。例如：对于int32类型变量，其存储地址位于0x100，其十六进制值为0x12345678，其地址范围为ox100~0x103：//大端法地址：0x1000x1010x1020x1031234
Gin 框架中的优雅退出 Code季风 Gin入门指南 gin golang 开发语言 go 后端
在构建可靠的Web应用程序或微服务时，确保应用程序能够“优雅退出”是至关重要的。本文将基于你的笔记，深入探讨Gin框架中如何实现优雅退出，并解释其定义、重要性以及具体的实现方法。一、优雅退出的定义和重要性1.1什么是“优雅退出”？所谓优雅退出（GracefulShutdown）是指：在程序接收到关闭信号时（比如用户按下Ctrl+C或者系统发送SIGTERM），不要立即终止进程，而是：停止接收新的请
动手学深度学习13.7. 单发多框检测（SSD）-笔记&练习（PyTorch） scdifsn 深度学习笔记 pytorch ssd 单发多框检测（SSD）目标检测 mAP评价
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：45SSD实现【动手学深度学习v2】_哔哩哔哩_bilibili本节教材地址：13.7.单发多框检测（SSD）—动手学深度学习2.0.0documentation本节开源代码：…>d2l-zh>pytorch>chapter_optimization>ssd.ipynb单发多框
动手学深度学习3.3线性回归的简洁实现-笔记&练习（PyTorch） scdifsn 深度学习线性回归笔记 pytorch
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：线性回归的简洁实现_哔哩哔哩_bilibili本节教材地址：3.3.线性回归的简洁实现—动手学深度学习2.0.0documentation(d2l.ai)本节开源代码：...>d2l-zh>pytorch>chapter_linear-networks>linear-regre
Python学习笔记2-垃圾回收机制 Carrie_Lei Python python 学习笔记
Python的垃圾回收机制是自动管理内存的系统，用于回收不再使用的内存，以避免内存泄漏和优化内存使用。Python使用引用计数（ReferenceCounting）和垃圾回收（GarbageCollection）两种方式来管理内存。1.引用计数(ReferenceCounting)引用计数是Python内存管理的基础机制。每个对象都维护一个引用计数器，记录有多少个引用指向该对象。当一个新的引用指向
Python数据分析学习笔记：字符串统计 NIKEeri python pandas 字符串匹配 python 数据分析学习
一、题目来源KagglePandas-Exercise:SummaryFunctionsandMaps章节二、题目要求描述一瓶葡萄酒时，可用的词汇有限。哪种词出现频率更高：“tropical”还是“fruity”？统计description列中这两个词的出现次数。忽略大小写。三、我的思路（使用str.contains统计总次数）tropical_count=reviews['description
恶搞锁屏软件
这是一个打包好的锁屏程序适用于恶搞同学老师密码在软件里使用此软件使电脑发生任何问题与作者无关！！！！！下载链接-迅雷编辑https://pan.xunlei.com/s/VOUZN96XqftxLLdlNjbtnmX-A1?pwd=fm4ahttps://pan.xunlei.com/s/VOUZN96XqftxLLdlNjbtnmX-A1?pwd=fm4a下载链接-百度编辑https://pan
服务治理技术深度解析我是廖志伟 Java场景面试宝典 Service Governance Microservices Architecture Configuration Management
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
ShardingSphere 深度解析我是廖志伟 Java场景面试宝典 ShardingSphere Distributed Database Middleware
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JVM与Spring Boot深度解析我是廖志伟 Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
并发编程与MyBatis核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
JVM与Spring Boot核心解析 Java廖志伟 Java场景面试宝典 Java JVM Performance Optimization
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
【Python】Python类型标注革命：Annotated类型深度解析与实战田辛 | 田豆芽 Python python 设计模式类型驱动设计
一、初识Annotated：类型系统的拓展革命作为深耕Python领域多年的开发者，田辛老师在第一次接触typing.Annotated时的感受可以用"惊艳"来形容。这个Python3.9引入的类型构造器，为我们打开了元数据整合的新维度。基本语法结构：fromtypingimportAnnotatedTemperature=Annotated[float,"Celsius"]这里我们创建了一个带有
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

spark-streaming笔记

SparkStreaming笔记

核心抽象： SparkCore：RDD (弹性分布式数据集) SparkSQL: DataFrame (以RDD为基础的分布式数据集二维表格) SparkStreaming：DStream（Discretized Streams）(离散化的流)

你可能感兴趣的:(老师笔记)

核心抽象：
SparkCore：RDD (弹性分布式数据集)
SparkSQL: DataFrame (以RDD为基础的分布式数据集二维表格)
SparkStreaming：DStream（Discretized Streams）(离散化的流)