清风竹雨

flink的架构原理常用代码实现

文章目录

- 1.1 什么是flink
- 1.2 flink特点
- 1.3 编程API
二 flink架构
- 2.1 架构图
- 2.2 含义
三 flink和其他框架对比
- 3.1 与spark角色对比
- 3.2 三大实时计算框架整体对比
四 flink环境搭建
- 4.1 standalone模式
- - 4.1.1 架构
  - 4.1.2 搭建步骤
  - 4.1.3 启动集群并检测
  - 4.1.4 提交flink任务
- 4.2 flink on yarn
- - 4.2.1 官网资料
  - 4.2.2配置
  - 4.2.3 flink run
  - - 4.2.3.1 任务提交
    - 4.2.3.2 提交结果
    - 4.2.3.3 测试
    - 4.2.3.4 yarn杀进程及查看日志命令
  - 4.2.4 yarn-session
  - 4.2.5 flink on yarn流程图
- 4.3 localhost模式查看webUI
- - 4.3.1新增依赖
  - 4.3.2 创建环境
  - 4.3.3 启动日志
  - 4.3.4 访问页面
五 flink项目模板下载
- 5.1 java模板
- 5.2 scala模板
六 flink入门程序
- 6.1 编程模型
- 6.2 DataStream实时wordcount
- 6.3 DataSet 离线wordcount
七 flink算子
- 7.1 map
- 7.2 RichMapFunction
- 7.3 flatMap
- 7.4 filter
- 7.5 keyBy
- - 7.5.1 单个字段keyby
  - 7.5.2 多个字段keyBy(过时API)
  - 7.5.3 多个字段KeyBy(新API，Tuple封装)
  - 7.5.4 多个字段KeyBy(POJO封装，终极)
- 7.6 reduce
- 7.7 Aggregations
- - 7.7.1 sum
  - 7.7.2 min
  - 7.7.3 max
  - 7.7.4 minBy
  - 7.7.5 maxBy
  - 7.8 union
八 Window
- 8.1 Time（Flink中涉及的时间）
- 8.2 window类型
- - 8.2.1 TimeWindow(按照时间生成Window)
  - - 8.2.1.1 滚动窗口
    - - 8.2.1.1.1 timeWindowAll（全局数据，默认Processing Time）
      - 8.2.1.1.2 timeWindow(窗口滚动的时候，所有组都要执行，并行处理，默认Processing Time)
      - 8.2.1.1.3 timeWindowAll（全局数据，使用Event Time）
      - 8.2.1.1.4 timeWindow（分组数据，使用Event Time）
    - 8.2.1.2 滑动窗口
    - - 8.2.1.2.1 全局滑动（默认Processing Time）
      - 8.2.1.2.2 分组滑动（默认Processing Time）
    - 8.2.1.3 会话窗口
    - - 8.2.1.3.1 不分组（默认Processing Time）
      - 8.2.1.3.2 分组（单个组出发，不是全部触发，默认Processing Time）
      - 8.2.1.3.3 不分组(使用Event time)
      - 8.2.1.3.4分组(使用Event time)
    - 8.2.2 GlobalWindow(CountWindow)
    - - 8.2.2.1 countWindowAll
      - 8.2.2.2 countWindow
九 watermark
- 9.1 基本概念
- 9.2 引入watermark
- 9.3生成watermark的两种方式
- 9.4 EventTimeWindow API
- - 9.4.1 滚动窗口(TumblingEventTimeWindows)
  - 9.4.2 滑动窗⼝（SlidingEventTimeWindows）
  - 9.4.3 会话窗⼝（EventTimeSessionWindows）
十 flink 原理解读
- 10.1 Task和subtask
- - 10.1.1 概念
  - 10.1.2 如何划分task
  - 10.1.3 区别
- 10.2 startNewChain的使用
- 10.3 disableChain的使用
- 10.4 共享资源槽
- 10.5 任务重启策略
- 10.6 chekpoint
- - 10.6.1 定义
  - 10.6.2 配置checkpoint
- 10.7 Barrier
- 10.8 state
- - 10.8.1 概念
  - 10.8.2 分类
  - 10.8.3 应用
  - 10.8.4 operator state和keyed state的一致性
- 10.9 stateBackEnd
- - 10.9.1 MemoryStateBackend
  - 10.9.2 FsStateBackend
  - 10.9.4 RocksDBStateBackend
- 10.10 flink如何保证ExactlyOnce的
- 10.11 flink背压机制
- 10.12 两段提交原理
- - 10.12.1 原理
  - 10.12.2 mysql分两段提交代码实现
十一 flink整合kafka
- 11.1 kafka-->flink-->redis
- - 11.1.1 增加依赖
  - 11.1.2 代码实现
  - 11.1.3 自定义RedisSink
- 11.2 kafka-->flink-->mysql
- - 11.2.1 增加依赖
  - 11.2.2 代码实现
十二 table API
- 12.1 依赖
- 12.2 代码实现
十三双流join
- 13.1 window join
- 13.2 interval join
十四侧流输出
- 14.1 数据流拆分
- 14.2 获取窗口延迟数据
十五异步IO
- 15.1 Httpclient
- - 15.1.1 官方示例
  - 15.1.2 通过HttpClient访问高德接口
- 15.2 Mysql

一 flink简介

1.1 什么是flink

Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。

1.2 flink特点

批流统一
支持高吞吐、低延迟、高性能的流处
支持带有事件时间的窗口（Window）操作
支持有状态计算的Exactly-once语义
支持高度灵活的窗口（Window）操作，支持基于time、count、session窗口操作
支持具有Backpressure功能的持续流模型
支持基于轻量级分布式快照（Snapshot）实现的容错
支持迭代计算
Flink在JVM内部实现了自己的内存管理
支持程序自动优化：避免特定情况下Shuffle、排序等昂贵操作，中间结果有必要进行缓存

1.3 编程API

二 flink架构

2.1 架构图

2.2 含义

JobManager

也称之为Master，用于协调分布式执行，它用来调度task，协调检查点，协调失败时恢复等。Flink运行时至少存在一个master，如果配置高可用模式则会存在多个master，它们其中有一个是leader，而其他的都是standby。

TaskManager

也称之为Worker，用于执行一个dataflow的task、数据缓冲和Data Streams的数据交换，Flink运行时至少会存在一个TaskManager。JobManager和TaskManager可以直接运行在物理机上，或者运行YARN这样的资源调度框架，TaskManager通过网络连接到JobManager，通过RPC通信告知自身的可用性进而获得任务分配。

Client

Flink用来提交任务的客户端，可以用命令提交，也可以用浏览器提交

Task

Task是一个阶段多个功能相同suntask的集合，类似spark中的taskset

Subtask

Subtask是flink中任务执行最小单元，是一个java类的实例，这份java类中有属性和方法，完成具体的计算逻辑

Operator chain

没有shuffle的多个算子合并在一个subtask中就形成了Operator chain，类似spark中的pipeline

Slot

Flink中计算资源进行隔离的单元，一个slot中可以运行多个subtask，但是这些subtask必须是来自同一个job的不同task的subtask

State

Flink任务运行过程中计算的中间结果

Checkpoint

Flink用来将中间结果持久化的指定的存储系统的一种定期执行的机制

stateBackend

Flink用来存储中间计算结果的存储系统，flink支持三种statebackend。分别是memory，fsbackend，rocksDB

三 flink和其他框架对比

3.1 与spark角色对比

Spark Streaming	Flink
DStream	DataStream
Trasnformation	Trasnformation
Action	Sink
Task	SubTask
Pipeline	Oprator chains
DAG	DataFlow Graph
Master + Driver	JobManager
Worker + Executor	TaskManager

3.2 三大实时计算框架整体对比

框架	优点	缺点
Storm	低延迟	吞吐量低、不能保证exactly-once、编程API不丰富
Spark Streaming	吞吐量高、可以保证exactly-once、编程API丰富	延迟较高
Flink	低延迟、吞吐量高、可以保证exactly-once、编程API丰富	快速迭代中,API变化比较快

Spark就是为离线计算而设计的，在Spark生态体系中，不论是流处理和批处理都是底层引擎都是Spark Core，Spark Streaming将微批次小任务不停的提交到Spark引擎，从而实现准实时计算，SparkStreaming只不过是一种特殊的批处理而已。

Flink就是为实时计算而设计的，Flink可以同时实现批处理和流处理，Flink将批处理（即有有界数据）视作一种特殊的流处理。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E7jpO900-1607091411386)(data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==)]

四 flink环境搭建

4.1 standalone模式

standalone模式是Flink自带的分布式集群模式，不依赖其他的资源调度框架

4.1.1 架构

4.1.2 搭建步骤

1.下载安装包下载地址：https://archive.apache.org/dist/flink/flink-1.11.1/

2.解压安装包(tar -zxvf flink-1.11.1-bin-scala_2.11.tgz)

3.修改conf下面的flink-conf.yaml文件


#指定jobmanager的地址

jobmanager.rpc.address: 192.168.xx.xx

#指定taskmanager的可用槽位的数量

taskmanager.numberOfTaskSlots: 6

4.修改conf目录下workers配置文件，指定taskmanager所在节点

192.168.xx.xx

5.将配置好的-flink拷贝到其他节点

4.1.3 启动集群并检测

4.1.3.1 启动

bin/start-cluster.sh

4.1.3.2 查看进程

在ndoe-1上可用看见StandaloneSessionClusterEntrypoint进程即JobManager，在其他的节点上可用看见到TaskManagerRunner 即TaskManager

4.1.3.3 访问UI界面(端口8081)

4.1.4 提交flink任务

4.1.4.1 命令行提交

bin/flink run
-m 192.168.xx.xx:8081 
-p 4 
-c com.wedoctor.flink.WordCountDemo /home/pgxl/liuzc/flink-project-scala-1.0.jar 
--hostname 192.168.xx.xx 
--port 8888

参数说明：

-m指定主机名后面的端口为JobManager的REST的端口，而不是RPC的端口,RPC通信端口是6123

-p 指定是并行度

-c 指定main方法的全类名

4.1.4.2 web界面提交

测试:

4.2 flink on yarn

4.2.1 官网资料

https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/deployment/yarn_setup.html

4.2.2配置

#  export HADOOP_CLASSPATH=`hadoop classpath`#  export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

如果没有配置，则会报错：

The program finished with the following exception:java.lang.IllegalStateException: No Executor found. Please make sure to export the HADOOP_CLASSPATH environment variable or have hadoop in your classpath. For more information refer to the "Deployment & Operations" section of the official Apache Flink documentation.at org.apache.flink.yarn.cli.FallbackYarnSessionCli.isActive(FallbackYarnSessionCli.java:59)at org.apache.flink.client.cli.CliFrontend.validateAndGetActiveCommandLine(CliFrontend.java:1090)at org.apache.flink.client.cli.CliFrontend.run(CliFrontend.java:218)at org.apache.flink.client.cli.CliFrontend.parseParameters(CliFrontend.java:916)at org.apache.flink.client.cli.CliFrontend.lambda$main$10(CliFrontend.java:992)at org.apache.flink.runtime.security.contexts.NoOpSecurityContext.runSecured(NoOpSecurityContext.java:30)at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:992)

flink提交失败，原因是Flink发布了新版本1.11.0，增加了很多重要新特性，包括增加了对Hadoop3.0.0以及更高版本Hadoop的支持，不再提供“flink-shaded-hadoop-*” jars，而是通过配置YARN_CONF_DIR或者HADOOP_CONF_DIR和HADOOP_CLASSPATH环境变量完成与yarn集群的对接。

4.2.3 flink run

Flink run直接在YARN上提交运行Flink作业(Run a Flink job on YARN)，这种方式的好处是一个任务会对应一个job,即没提交一个作业会根据自身的情况，向yarn申请资源，直到作业执行完成，并不会影响下一个作业的正常运行，除非是yarn上面没有任何资源的情况下。

一般生产环境是采用此种方式运行。这种方式就需要确保集群资源足够。

4.2.3.1 任务提交

官方自带案例

./bin/flink run 
-m yarn-cluster 
-yqu root.wedw 
-p 4 
-yjm 4096m 
-ytm 4096m  examples/batch/WordCount.jar

开发案例

./bin/flink run 
-m yarn-cluster 
-yqu root.wedw 
-p 4 
-yjm 4096m 
-ytm 4096m  /home/pgxl/liuzc/flink-project-scala-1.0.jar

4.2.3.2 提交结果

4.2.3.3 测试

4.2.3.4 yarn杀进程及查看日志命令

#杀进程
yarn application -kill application_id
#查看日志
yarn logs -applicationId application_id

4.2.4 yarn-session

yarn seesion(Start a long-running Flink cluster on YARN)这种方式需要先启动集群，然后在提交作业，接着会向yarn申请一块空间后，资源永远保持不变。

如果资源满了，下一个作业就无法提交，只能等到yarn中的其中一个作业执行完成后，释放了资源，那下一个作业才会正常提交.

这种方式资源被限制在session中，不能超过，比较适合特定的运行环境或者测试环境。

bin/yarn-session.sh  -s 2 -jm 1024 -tm 1024 -qu root.wedw

Usage:  Optional   
-D              Dynamic properties   
-d,--detached          Start detached   
-jm,--jobManagerMemory    Memory for JobManager Container with optional unit (default: MB)   
-nm,--name            Set a custom name for the application on YARN   
-at,--applicationType      Set a custom application type on YARN   
-q,--query            Display available YARN resources (memory, cores)   
-qu,--queue         Specify YARN queue.   
-s,--slots          Number of slots per TaskManager   
-tm,--taskManagerMemory   Memory per TaskManager Container with optional unit (default: MB)   
-z,--zookeeperNamespace   Namespace to create the Zookeeper sub-paths for HA mode

如果您不想一直保持Flink YARN客户端运行，也可以启动一个分离的YARN会话。该参数称为-d或--detached。

在这种情况下，Flink YARN客户端只会将Flink提交到群集，然后自行关闭。

bin/yarn-session.sh  -s 2 -d -jm 1024 -tm 1024 -qu root.wedw

#为了正常停止Flink群集，请使用以下命令：echo "stop" | ./bin/yarn-session.sh -id 。也可以通过YARN的网络界面或实用程序杀死Flink yarn application -kill 。但是请注意，杀死Flink可能不会清除所有作业工件和临时文件。

4.2.5 flink on yarn流程图

YARN客户端需要访问Hadoop配置以连接到YARN资源管理器和HDFS。它使用以下策略确定Hadoop配置：

测试是否YARN_CONF_DIR，HADOOP_CONF_DIR或HADOOP_CONF_PATH设置（按顺序）。如果设置了这些变量之一，则将其用于读取配置。

如果以上策略失败（在正确的YARN设置中应该不是这种情况），则客户端正在使用HADOOP_HOME环境变量。如果已设置，则客户端尝试访问 $HADOOP_HOME/etc/hadoop（Hadoop 2）和$ HADOOP_HOME/conf（Hadoop 1）。

在启动新的Flink YARN会话时，客户端首先检查所请求的资源（ApplicationMaster的内存和vcore）是否可用。之后，它将包含Flink和配置的jar上传到HDFS（步骤1）。

客户端的下一步是请求YARN容器（步骤2）以启动ApplicationMaster（步骤3）。由于客户端将配置和jar文件注册为容器的资源，因此在该特定计算机上运行的YARN的NodeManager将负责准备容器（例如下载文件）。完成后，将启动ApplicationMaster（AM）。

该JobManager和AM在同一容器中运行。一旦成功启动，AM就会知道JobManager（自己的主机）的地址。它正在为TaskManager生成一个新的Flink配置文件（以便它们可以连接到JobManager）。该文件还上传到HDFS。此外，AM容器还提供Flink的Web界面。YARN代码分配的所有端口都是临时端口。这使用户可以并行执行多个Flink YARN会话。

之后，AM开始为Flink的TaskManager分配容器，这将从HDFS下载jar文件和修改后的配置。完成这些步骤后，便会设置Flink并准备接受Jobs。

4.3 localhost模式查看webUI

4.3.1新增依赖

    
<dependency>      
    <groupId>org.apache.flinkgroupId>     
    <artifactId>flink-runtime-web_${scala.binary.version}artifactId>      		      <version>${flink.version}version>   
dependency>

4.3.2 创建环境

StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());

4.3.3 启动日志

4.3.4 访问页面

http://localhost:8081/

五 flink项目模板下载

5.1 java模板

5.1.1 maven命令下载模板

mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-java \ -DarchetypeVersion=1.11.1 \ -DgroupId=com.wedoctor.flink \ -DartifactId=flink-project-java \ -Dversion=1.0 \ -Dpackage=com.wedoctor.flink \-DinteractiveMode=false

5.1.2 curl下载模板

curl https://flink.apache.org/q/quickstart.sh | bash -s 1.11.1

5.2 scala模板

5.2.1 maven命令下载模板

mvn archetype:generate \ -DarchetypeGroupId=org.apache.flink \ -DarchetypeArtifactId=flink-quickstart-scala \ -DarchetypeVersion=1.11.1 \ -DgroupId=com.wedoctor.flink \ -DartifactId=flink-project-scala \ -Dversion=1.0 \ -Dpackage=com.wedoctor.flink \-DinteractiveMode=false

5.2.2 curl下载模板

curl https://flink.apache.org/q/quickstart-scala.sh | bash -s 1.11.1

六 flink入门程序

6.1 编程模型

Flink提供了不同级别的编程抽象，通过调用抽象的数据集调用算子构建DataFlow就可以实现对分布式的数据进行流式计算和离线计算，DataSet是批处理的抽象数据集，DataStream是流式计算的抽象数据集，他们的方法都分别为Source、Transformation、Sink

Source主要负责数据的读取
Transformation主要负责对数据的转换操作
Sink负责最终计算好的结果数据输出。

6.2 DataStream实时wordcount

package com.wedoctor.flink import org.apache.flink.streaming.api.scala._ 
object WordCountDemo {  
    def main(args: Array[String]): Unit = {   
        val env = StreamExecutionEnvironment.getExecutionEnvironment   
        val lines: DataStream[String] = env.socketTextStream("192.168.xx.xx",9999)  
        val words: DataStream[String] = lines.flatMap(_.split(" "))   
        val wordWithOne: DataStream[(String, Int)] = words.map((_,1))   
        val keyedData: KeyedStream[(String, Int), String] = wordWithOne.keyBy(_._1)  
        val sumData: DataStream[(String, Int)] = keyedData.sum(1)   
        sumData.print()   
        env.execute("Flink WordCount") 
    } 
}

6.3 DataSet 离线wordcount

package com.wedoctor.flink import org.apache.flink.api.scala._ 
object WordCountDemo2 { 
    def main(args: Array[String]): Unit = {  
        val env = ExecutionEnvironment.getExecutionEnvironment   
        val words: DataSet[Int] = env.fromElements(1,2,3)   
        val tt: DataSet[Int] = words.map(t=>t*2)  
        tt.print()  
    }
}

七 flink算子

7.1 map

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
public class MapTest {   
    public static void main(String[] args) throws Exception {     	
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);     
        SingleOutputStreamOperator<String> words = lines.map(new MapFunction<String, String>() {     
            @Override      
        	public String map(String value) throws Exception {       
            return value.toUpperCase();      
        }    
    });     
   words.print();                                                
   env.execute();  
    }
}

7.2 RichMapFunction

package com.wedoctor.flink;
import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; 
public class RichMapTest {  
    //RichMapFunction  
    //1.可以获取运行时上下文，可以得到很多的信息，subTaskIndex、状态数据等  
    //2.还可以使用两个生命周期方法、open和close  
    public static void main(String[] args) throws Exception {     
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    
        DataStreamSource<String> lines = env.socketTextStream("192.168.XX.XX", 9999);     
        SingleOutputStreamOperator<String> map = lines.map(new RichMapFunction<String, String>() {       
            //构造对象完成后，map方法执行之前，执行一次     
            @Override      
            public void open(Configuration parameters) throws Exception {        
                super.open(parameters);       
                //此处可以建立连接      
            }      
            @Override     
            public String map(String value) throws Exception {        
                //处理数据      
                return value + "222222222";     
            }       
            //subtask在停止之前，执行一次      
            @Override      
            public void close() throws Exception {        
                super.close();        
                //关闭连接      
            }   
        });     
        map.print();    
        env.execute();  
    }
}

7.3 flatMap

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector; public class FlatMapTest {   
    public static void main(String[] args) throws Exception {     
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);     
        SingleOutputStreamOperator<String> flatMap = lines.flatMap(new FlatMapFunction<String, String>() {     
            @Override      
            public void flatMap(String value, Collector<String> collector) throws Exception {        
                String[] words = value.split(" ");         
                for (String word : words) {           
                    collector.collect(word);        
                }      
            }    
        });     
        flatMap.print();    
        env.execute();   
    }
}

7.4 filter

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; 
public class RichMapTest {   
    public static void main(String[] args) throws Exception {    
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);   
        SingleOutputStreamOperator<String> filter = lines.filter(new FilterFunction<String>() {    
            @Override     
            public boolean filter(String value) throws Exception {       
                return value.length() == 2;     
            }   
        });    
        filter.print(); 
        env.execute(); 
    }
}

7.5 keyBy

7.5.1 单个字段keyby

package com.wedoctor.flink;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;  
public class KeyByDemo {   
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);    SingleOutputStreamOperator<Tuple2<String, Integer>> flatMap = lines.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {      
            @Override      
            public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {         
                String[] words = s.split(" ");      
                for (String word : words) {         
                    collector.collect(Tuple2.of(word, 1));     
                }   
            }   
        });     
        //按照单个字段分组 keyby   
        KeyedStream<Tuple2<String, Integer>, Tuple> keyBy = flatMap.keyBy(0);  
        KeyedStream<Tuple2<String, Integer>, String> keyBy1 = flatMap.keyBy(t -> t.f0);    
        keyBy.print();    
        keyBy1.print();    
        env.execute(); 
    }
}

7.5.2 多个字段keyBy(过时API)

package com.wedoctor.flink;  
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple3;import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; 
public class KeyByDemo {  
    public static void main(String[] args) throws Exception {   
        // jack 01 1232    
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);     SingleOutputStreamOperator<Tuple3<String, String, Integer>> map = lines.map(new MapFunction<String, Tuple3<String, String, Integer>>() {    
            @Override      
            public Tuple3<String, String, Integer> map(String s) throws Exception {      
                String[] words = s.split(" ");      
                String userId = words[0];     
                String monthId = words[1];    
                Integer orderCnt = Integer.parseInt(words[2]);  
                return Tuple3.of(userId, monthId, orderCnt);   
            }   
        });   
        KeyedStream<Tuple3<String, String, Integer>, Tuple> key = map.keyBy(0, 1);    
        SingleOutputStreamOperator<Tuple3<String, String, Integer>> summed = key.sum(2);     
        summed.print();    
        env.execute(); 
    }
}

7.5.3 多个字段KeyBy(新API，Tuple封装)

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;   
public class KeyByDemo {   
    public static void main(String[] args) throws Exception {   
        // jack 01 1232  
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);   
        SingleOutputStreamOperator<Tuple3<String, String, Integer>> map = lines.map(new MapFunction<String, Tuple3<String, String, Integer>>() {    
            @Override    
            public Tuple3<String, String, Integer> map(String s) throws Exception {   
                String[] words = s.split(" ");        
                String userId = words[0];       
                String monthId = words[1];   
                Integer orderCnt = Integer.parseInt(words[2]);      
                return Tuple3.of(userId, monthId, orderCnt);  
            } 
        });    
        KeyedStream<Tuple3<String, String, Integer>, String> keyBy = map.keyBy(t -> t.f0 + t.f1);     
        SingleOutputStreamOperator<Tuple3<String, String, Integer>> summed = keyBy.sum(2);  
        summed.print();  
        env.execute();
    }
}

7.5.4 多个字段KeyBy(POJO封装，终极)

package com.wedoctor.flink; 
public class WordCount { 
    public String word;  
    public Integer count;   
    public WordCount(String word, Integer count) {  
        this.word = word;    this.count = count; 
    } 
    public WordCount() {  
    }  
    public static WordCount of(String word,Integer count){  
        return new WordCount(word,count);  }   
    @Override 
    public String toString() {  
        return "WordCount{" +        "word='" + word + '\'' +        ", count=" + count +        '}';  
    }
} 



package com.wedoctor.flink; 
public class WordCount {   
    public String word; 
    public Integer count;  
    public WordCount(String word, Integer count) {   
        this.word = word;   
        this.count = count;  }  
    public WordCount() { 
    }  
    public static WordCount of(String word,Integer count){   
        return new WordCount(word,count);  
    }
    @Override  
    public String toString() {   
        return "WordCount{" +        "word='" + word + '\'' +        ", count=" + count +        '}';  
    }
}

7.6 reduce

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.ReduceFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector; 
public class ReduceDemo {
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    
        ataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);    
        SingleOutputStreamOperator<Tuple2<String, Integer>> flatMap = lines.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {     
            @Override    
            public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) throws Exception {    
                String[] words = s.split(" ");   
                for (String word : words) {    
                    collector.collect(Tuple2.of(word, 1));
                }     
            }   
        });    
        SingleOutputStreamOperator<Tuple2<String, Integer>> reduce = flatMap.keyBy(t -> t.f0).reduce(new 
ReduceFunction<Tuple2<String, Integer>>() {   
    @Override      
    public Tuple2<String, Integer> reduce(Tuple2<String, Integer> t1, Tuple2<String, Integer> t2) throws Exception { 
        return Tuple2.of(t1.f0, t1.f1 + t2.f1);    
    }   
});   
        reduce.print();  
        env.execute(); 
    }
}

7.7 Aggregations

7.7.1 sum

7.7.2 min

7.7.3 max

7.7.4 minBy

7.7.5 maxBy

7.8 union

package com.wedoctor.flink; 
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; 
public class UnionDemo { 
    public static void main(String[] args) throws Exception {    
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();     
        //调用Source创建DataStream   
        DataStreamSource<Integer> s1 = env.fromElements(1, 2, 3, 4, 5);   
        DataStreamSource<Integer> s2 = env.fromElements(5, 7, 8, 9, 10);     
        DataStream<Integer> unioned = s1.union(s2);   
        unioned.print();    
        env.execute(); 
    }
}

八 Window

streaming流式计算是⼀种被设计用于处理⽆限数据集的数据处理引擎，而⽆限数据集是指一种不断增长的本质上无限数据集，⽽window是一种切割无限数据为有限块进行处理的手段。Window是无限数据流处理的核心，Window将⼀个⽆限stream拆分成有限大小的”buckets”桶，我们可以在这些桶上做计算操作。

8.1 Time（Flink中涉及的时间）

Event Time：是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每⼀条⽇志都会记录⾃己的生成时间，Flink通过时间戳分配器访问事件时间戳。
Ingestion Time：是数据进入Flink的时间。
Processing Time：是每⼀个执行基于时间操作的算子的本地系统时间，与机器相关，默认的时间属性就是Processing Time。

8.2 window类型

8.2.1 TimeWindow(按照时间生成Window)

TimeWindow是将指定时间范围内的所有数据组成⼀个window，⼀次对一个window⾥面的所有数据进行计算。

8.2.1.1 滚动窗口

Flink默认的时间窗⼝根据Processing Time 进⾏窗⼝的划分，将Flink获取到的数据根据进入Flink的时间划分到不同的窗口中。

将数据依据固定的窗⼝⻓度对数据进行切片。

特点：时间对⻬，窗口⻓度固定，没有重叠。

滚动窗⼝分配器将每个元素分配到⼀个指定窗⼝⼤小的窗口中，滚动窗口有一个固定的大小，并且不会出现重叠。例如：如果你指定了一个5分钟大小的滚动窗口，如下图所示：

适用场景：适合做BI统计等（做每个时间段的聚合计算）。

8.2.1.1.1 timeWindowAll（全局数据，默认Processing Time）

package com.wedoctor.flink; 
import org.apache.flink.streaming.api.datastream.AllWindowedStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow; 
public class TumblingTimeWindow {  
    public static void main(String[] args) throws Exception {     
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);   
        //默认的CountWindow是⼀个滚动窗⼝，只需要指定窗⼝⼤小即可，当元素数量达到窗口⼤小时，就会触发窗⼝的执⾏。   
        SingleOutputStreamOperator<Integer> num = lines.map(Integer::parseInt);   
        //划分窗口  
        AllWindowedStream<Integer, TimeWindow> timeWindowAll = num.timeWindowAll(Time.seconds(5));  
        //对窗口数据进行计算   
        SingleOutputStreamOperator<Integer> sum = timeWindowAll.sum(0);  
        sum.print();    
        env.execute();
    }
}

8.2.1.1.2 timeWindow(窗口滚动的时候，所有组都要执行，并行处理，默认Processing Time)

package com.wedoctor.flink; 
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.GlobalWindow;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow; 
public class TumblingTimeWindow2 {  
    public static void main(String[] args) throws Exception {    
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);   
        //默认的CountWindow是⼀个滚动窗⼝，只需要指定窗⼝⼤小即可，当元素数量达到窗口⼤小时，就会触发窗⼝的执⾏。
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = lines.map(line -> {      
            String[] fileds = line.split(",");                                                                           
            return Tuple2.of(fileds[0], Integer.parseInt(fileds[1]));                                                          
        }).returns(Types.TUPLE(Types.STRING,Types.INT));    
        KeyedStream<Tuple2<String, Integer>, String> keyedStream = wordAndCount.keyBy(t -> t.f0);    
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> timeWindow = keyedStream.timeWindow(Time.seconds(5));   
        timeWindow.sum(1)
            .print();  
        env.execute(); 
    }
}

8.2.1.1.3 timeWindowAll（全局数据，使用Event Time）

package com.wedoctor.flink;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.AllWindowedStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow; 
import java.text.ParseException;
import java.text.SimpleDateFormat;
public class EventTimeTumbingWindwAllDemo { 
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();    
        //设置EventTime作为时间标准   
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);   
        //创建一个DataStream    //2020-11-08 18:22:43,1   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);   
        //提取数据中的时间   
        SingleOutputStreamOperator<String> watermarksDataStream = lines.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<String>(Time.seconds(0)) {     
            private SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");   
            @Override     
            public long extractTimestamp(String element) {    
                long timestamp = 0;  
                try {     
                    timestamp = sdf.parse(element.split(",")[0]).getTime();    
                } catch (ParseException e) {    
                    timestamp = System.currentTimeMillis();       
                }        return timestamp;      
            } 
        });    
        SingleOutputStreamOperator<Integer> nums = watermarksDataStream.map(new MapFunction<String, Integer>() {   
            @Override     
            public Integer map(String value) throws Exception {    
                return Integer.parseInt(value.split(",")[1]);   
            }   
        });     
        AllWindowedStream<Integer, TimeWindow> windowed = nums.windowAll(TumblingEventTimeWindows.of(Time.seconds(5)));  
        SingleOutputStreamOperator<Integer> summed = windowed.sum(0);    
        summed.print();   
        env.execute();  
    }
}

8.2.1.1.4 timeWindow（分组数据，使用Event Time）

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
public class EventTimeTumblingWindowDemo { 
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());   
        //设置EventTime作为时间标准   
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);   
        //1000,hadoop,1   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);    
        SingleOutputStreamOperator<String> watermarksDataStream = lines.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<String>(Time.seconds(0)) {     
            @Override      
            public long extractTimestamp(String element) {    
                return Long.parseLong(element.split(",")[0]);   
            }  
        });    
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = watermarksDataStream.map(new MapFunction<String, Tuple2<String, Integer>>() {   
            @Override   
            public Tuple2<String, Integer> map(String value) throws Exception {    
                String[] fileds = value.split(",");      
                String word = fileds[1];     
                int count = Integer.parseInt(fileds[2]); 
                return Tuple2.of(word, count);     
            }  
        });  
        //先分组    
        KeyedStream<Tuple2<String, Integer>, String> keyed = wordAndCount.keyBy(t -> t.f0);   
        //划分窗口    
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> window = 
            keyed.window(TumblingEventTimeWindows.of(Time.seconds(5)));   
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = window.sum(1);  
        summed.print();   
        env.execute(); 
    }
}

8.2.1.2 滑动窗口

滑动窗⼝是固定窗口的更⼴义的⼀种形式，滑动窗口由固定的窗口长度和滑动间隔组成。

特点：时间对齐，窗口长度固定，有重叠

该滑动窗口分配器分配元件以固定长度的窗口。与翻滚窗口分配器类似，窗口大小由窗口大小参数配置。附加的窗口滑动参数控制滑动窗口的启动频率。因此，如果幻灯片小于窗口大小，则滑动窗口可以重叠。在这种情况下，元素被分配给多个窗口。

例如，您可以将大小为10分钟的窗口滑动5分钟。有了这个，你每隔5分钟就会得到一个窗口，其中包含过去10分钟内到达的事件，如下图所示。

适⽤场景：对最近⼀个时间段内的统计（求某接口最近5min的失败率来决定是否要报警）。

8.2.1.2.1 全局滑动（默认Processing Time）

package com.wedoctor.flink; 
import org.apache.flink.streaming.api.datastream.AllWindowedStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow; 
public class TumblingTimeWindow {  
    public static void main(String[] args) throws Exception {    
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);    //默认的CountWindow是⼀个滚动窗⼝，只需要指定窗⼝⼤小即可，当元素数量达到窗口⼤小时，就会触发窗⼝的执⾏。
        SingleOutputStreamOperator<Integer> num = lines.map(Integer::parseInt);   
        //划分滑动窗口    
        AllWindowedStream<Integer, TimeWindow> timeWindowAll = num.timeWindowAll(Time.seconds(10),Time.seconds(5));  
        //对窗口数据进行计算   
        SingleOutputStreamOperator<Integer> sum = timeWindowAll.sum(0);    
        sum.print();     
        env.execute();  
    }
}

8.2.1.2.2 分组滑动（默认Processing Time）

package com.wedoctor.flink; 
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.GlobalWindow;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
public class TumblingTimeWindow2 {  
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);
        //默认的CountWindow是⼀个滚动窗⼝，只需要指定窗⼝⼤小即可，当元素数量达到窗口⼤小时，就会触发窗⼝的执⾏。     
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = lines.map(line -> {      
            String[] fileds = line.split(",");      
            return Tuple2.of(fileds[0], Integer.parseInt(fileds[1]));    
        }).returns(Types.TUPLE(Types.STRING,Types.INT));    
        KeyedStream<Tuple2<String, Integer>, String> keyedStream = wordAndCount.keyBy(t -> t.f0);    
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> timeWindow = keyedStream.timeWindow(Time.seconds(10),Time.seconds(5));    
        timeWindow.sum(1).print();   
        env.execute();
    }
}

8.2.1.3 会话窗口

由⼀系列事件组合⼀个指定时间长度的timeout间隙组成，类似于web应用的session，也就是一段时间没有接收到新数据就会生成新的窗口。

特点：时间⽆对⻬。

在会话窗口中按活动会话分配器组中的元素。会话窗口不重叠，没有固定的开始和结束时间，与翻滚窗口和滑动窗口相反。相反，当会话窗口在一段时间内没有接收到元素时，即当发生不活动的间隙时，会关闭会话窗口。会话窗口分配器可以配置静态会话间隙或会话间隙提取器功能，该功能定义不活动时间段的长度。当此期限到期时，当前会话将关闭，后续元素将分配给新的会话窗口。

8.2.1.3.1 不分组（默认Processing Time）

package com.wedoctor.flink; 
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.AllWindowedStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.ProcessingTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
public class ProcessingTimeSessionWindowAllDemo {  
    public static void main(String[] args) throws Exception {     
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());  
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);  
        SingleOutputStreamOperator<Integer> nums = lines.map(Integer::parseInt);   
        //不分组，划分会话窗口    
        AllWindowedStream<Integer, TimeWindow> windowed = 
            nums.windowAll(ProcessingTimeSessionWindows.withGap(Time.seconds(5)));  
        //划分完窗口要调用WindowFunction对窗口内的数据进行计算   
        SingleOutputStreamOperator<Integer> summed = windowed.sum(0);   
        summed.print();  
        env.execute();  
    }
}

8.2.1.3.2 分组（单个组出发，不是全部触发，默认Processing Time）

package com.wedoctor.flink;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.ProcessingTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
public class ProcessingTimeSessionWindwDemo {   
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());   
        //spark,3    //hadoop,2    //flink,1   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999); 
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = lines.map(line -> {      
            String[] fields = line.split(","); 
            return Tuple2.of(fields[0], Integer.parseInt(fields[1]));    
        }).returns(Types.TUPLE(Types.STRING, Types.INT));    
        //先分组  
        KeyedStream<Tuple2<String, Integer>, String> keyed = wordAndCount.keyBy(t -> t.f0);    
       
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowed = 
            keyed.window(ProcessingTimeSessionWindows.withGap(Time.seconds(5))); 
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = windowed.sum(1);    
        summed.print();     
        env.execute(); 
    }
}

8.2.1.3.3 不分组(使用Event time)

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.AllWindowedStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.EventTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
public class EventTimeSessionWindowAllDemo {  
    StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());     
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);    
    //1000,1    
    DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);   
    //提取数据中的时间   
    SingleOutputStreamOperator<String> watermarksDataStream = lines.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<String>(Time.seconds(0)) {    
        @Override      
        public long extractTimestamp(String element) {   
            return Long.parseLong(element.split(",")[0]); 
        }  
    });     
    SingleOutputStreamOperator<Integer> nums = watermarksDataStream.map(new MapFunction<String, Integer>() {     
        @Override      
        public Integer map(String value) throws Exception {    
            return Integer.parseInt(value.split(",")[1]);   
        } 
    });    
    //不分组划分窗口   
    AllWindowedStream<Integer, TimeWindow> windowed = 
        nums.windowAll(EventTimeSessionWindows.withGap(Time.seconds(5)));  
    windowed.sum(0).print();   
    env.execute();  
}
}

8.2.1.3.4分组(使用Event time)

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.EventTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
public class EventTimeSessionWindowDemo {
    public static void main(String[] args) throws Exception {    
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());   
        //设置EventTime作为时间标准    
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);     
        //1000,spark,1   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);    
        SingleOutputStreamOperator<String> watermarksDataStream = lines.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<String>(Time.seconds(0)) { 
            @Override     
            public long extractTimestamp(String element) {     
                return Long.parseLong(element.split(",")[0]);   
            }  
        });
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = watermarksDataStream.map(new MapFunction<String, Tuple2<String, Integer>>() {   
            @Override   
            public Tuple2<String, Integer> map(String value) throws Exception { 
                String[] fileds = value.split(",");       
                String word = fileds[1];        
                int count = Integer.parseInt(fileds[2]);     
                return Tuple2.of(word, count);      
            }  
        });     
        //先分组   
        KeyedStream<Tuple2<String, Integer>, String> keyed = wordAndCount.keyBy(t -> t.f0);
        //划分窗口   
        keyed.timeWindow(Time.seconds(5));   
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> window = 
            keyed.window(EventTimeSessionWindows.withGap(Time.seconds(5))); 
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = window.sum(1);   
        summed.print();     
        env.execute();
    }
}

8.2.2 GlobalWindow(CountWindow)

按照指定的数据条数生成⼀个Window，与时间无关

8.2.2.1 countWindowAll

全部数据发送到一个task里面并不是分布式执行

package com.wedoctor.flink; 
import org.apache.flink.streaming.api.datastream.AllWindowedStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.windows.GlobalWindow;
public class CountWindow { 
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();   
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);  
        //默认的CountWindow是⼀个滚动窗⼝，只需要指定窗⼝⼤小即可，当元素数量达到窗口⼤小时，就会触发窗⼝的执⾏。   
        SingleOutputStreamOperator<Integer> num = lines.map(Integer::parseInt);   
        //划分窗口   
        AllWindowedStream<Integer, GlobalWindow> windowd = num.countWindowAll(5);   
        //对窗口数据进行计算   
        SingleOutputStreamOperator<Integer> sum = windowd.sum(0);   
        sum.print();    
        env.execute();    
    }
}

8.2.2.2 countWindow

分组满足触发条件即可，并不是触发后每个分区都会执行

package com.wedoctor.flink; 
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.windows.GlobalWindow; 
public class CountWindow2 {  
    public static void main(String[] args) throws Exception {  
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
        DataStreamSource<String> lines = env.socketTextStream("192.168.xx.xx", 9999);    
        //默认的CountWindow是⼀个滚动窗⼝，只需要指定窗⼝⼤小即可，当元素数量达到窗口⼤小时，就会触发窗⼝的执⾏。
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = lines.map(line -> {    
            String[] fileds = line.split(",");    
            return Tuple2.of(fileds[0], Integer.parseInt(fileds[1]));   
        }).returns(Types.TUPLE(Types.STRING,Types.INT));     
        KeyedStream<Tuple2<String, Integer>, String> keyedStream = wordAndCount.keyBy(t -> t.f0);    
        WindowedStream<Tuple2<String, Integer>, String, GlobalWindow> countWindow = 
            keyedStream.countWindow(5);     
        countWindow.sum(1).print(); 
        env.execute(); 
    }
}

九 watermark

9.1 基本概念

Flink中可以让window延迟触发的一种机制

我们知道，流处理从事件产⽣，到流经source，再到operator，中间是有⼀个过程和时间的，虽然⼤部分情况下，流到operato的数据都是按照事件产⽣的时间顺序来的，但是也不排除由于⽹络、背压等原因，导致乱序的产⽣，所谓乱序，就是指Flink接收到的事件的先后顺序不是严格按照事件的Event Time顺序排列的。

那么此时出现⼀个问题，⼀旦出现乱序，如果只根据eventTime决定window的运⾏，我们不能明确数据是否全部到位，但⼜不能⽆限期的等下去，此时必须要有个机制来保证⼀个特定的时间后，必须触发window去进⾏计算了，这个特别的机制，就是Watermark。Watermark是⼀种衡量Event Time进展的机制，它是数据本身的⼀个隐藏属性，数据本身携带着对应Watermark。

Watermark是⽤于处理乱序事件的，⽽正确的处理乱序事件，通常⽤Watermark机制结合window来实现。数据流中的Watermark⽤于表示timestamp⼩于Watermark的数据，都已经到达了，因此，window的执⾏也是由Watermark触发的。

Watermark可以理解成⼀个延迟触发机制，我们可以设置Watermark的延时时⻓t，每次系统会校验已经到达的数据中最⼤的maxEventTime，然后认定eventTime⼩于maxEventTime- t的所有数据都已经到达，如果有窗⼝的停⽌时间等于maxEventTime – t，那么这个窗⼝被触发执⾏。

有序流的Watermarker如下图所示：（Watermark设置为0）

乱序流的Watermarker如下图所示：（Watermark设置为2）

当Flink接收到每一条数据时，都会产⽣一条Watermark，这条Watermark就等于当前所有到达数据中的maxEventTime - 延迟时⻓长，也就是说，Watermark是由数据携带的，一旦数据携带的Watermark比当前未触发的窗口的停止时间要晚，那么就会触发相应窗口的执行。由于Watermark是由数据携带的，因此，如果运行过程中⽆法获取新的数据，那么没有被触发的窗口将永远都不不被触发。

上图中，我们设置的允许最大延迟到达时间为2s，所以时间戳为7s的事件对应的Watermark是5s，时间戳为12s的事件的Watermark是10s，如果我们的窗口1是1s_{5s，窗口2是6s}10s，那么时间戳为7s的事件到达时的Watermarker恰好触发窗口1，时间戳为12s的事件到达时的Watermark恰好触发窗口2。

9.2 引入watermark

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 从调⽤时刻开始给env创建的每⼀个stream追加时间特征
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
val stream = env.readTextFile("eventTest.txt")
.assignTimestampsAndWatermarks( new BoundedOutOfOrdernessTimestampExtractor[String](Time.milliseconds(200)) {
    override def extractTimestamp(t: String): Long = { 
        // EventTime是⽇志⽣成时间，我们从⽇志中解析
        EventTime t.split(" ")(0).toLong 
    }
})

9.3生成watermark的两种方式

定义了抽取时间戳，以及生成 watermark 的方法，有两种类型

AssignerWithPeriodicWatermarks
周期性的生成 watermark：系统会周期性的将 watermark 插入到流中默认周期是200毫秒，可以使用 ExecutionConfig.setAutoWatermarkInterval()方法进行设置。升序和前面乱序的处理 BoundedOutOfOrderness ，都是基于周期性watermark 的。
AssignerWithPunctuatedWatermarks
- 没有时间周期规律，可打断的生成 watermark

9.4 EventTimeWindow API

当使⽤EventTimeWindow时，所有的Window在EventTime的时间轴上进⾏划分，也就是说，在Window启动后，会根据初始的EventTime时间每隔⼀段时间划分⼀个窗⼝，如果Window⼤⼩是3秒，那么1分钟内会把Window划分为如下的形式：

[00:00:00,00:00:03)
[00:00:03,00:00:06)
...
[00:00:57,00:01:00)

如果Window⼤⼩是10秒，则Window会被分为如下的形式：

[00:00:00,00:00:10)
[00:00:10,00:00:20)
...
[00:00:50,00:01:00)

注意，窗⼝是左闭右开的，形式为：[window_start_time,window_end_time)。

Window的设定⽆关数据本身，⽽是系统定义好了的，也就是说，Window会⼀直按照指定的时间间隔进⾏划分，不论这个Window中有没有数据，EventTime在这个Window期间的数据会进⼊这个Window。

Window会不断产⽣，属于这个Window范围的数据会被不断加⼊到Window中，所有未被触发的Window都会等待触发，只要Window还没触发，属于这个Window范围的数据就会⼀直被加⼊到Window中，直到Window被触发才会停⽌数据的追加，⽽当Window触发之后才接受到的属于被触发Window的数据会被丢弃。

Window会在以下的条件满⾜时被触发执⾏：

l watermark时间 >= window_end_time；

l 在[window_start_time,window_end_time)中有数据存在。

我们通过下图来说明Watermark、EventTime和Window的关系。

9.4.1 滚动窗口(TumblingEventTimeWindows)

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
    ;public class WaterMarkDemo1 {  public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());    
        //设置EventTime作为时间标准  
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);    
        //1000,spark,1   
        DataStreamSource<String> lines = env.socketTextStream("localhost", 8888);  
        //直接对Source提取EventTime   
        SingleOutputStreamOperator<String> watermarksDataStream = lines.assignTimestampsAndWatermarks(
            new BoundedOutOfOrdernessTimestampExtractor<String>(Time.seconds(2)) {    
                @Override    
                public long extractTimestamp(String element) {     
                    //当前分区中数据中最大的EventTime - 延迟时间 = 该分区的WaterMark       
                    return Long.parseLong(element.split(",")[0]);    
                }   
            });
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = watermarksDataStream.map(
            new MapFunction<String, Tuple2<String, Integer>>() {   
                @Override     
                public Tuple2<String, Integer> map(String value) throws Exception {      
                    String[] fileds = value.split(",");   
                    String word = fileds[1];      
                    int count = Integer.parseInt(fileds[2]);   
                    return Tuple2.of(word, count);   
                }  
            });   
        //先分组   
        KeyedStream<Tuple2<String, Integer>, String> keyed = wordAndCount.keyBy(t -> t.f0); 
        //划分窗口    //keyed.timeWindow(Time.seconds(5));    
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> window = 
            keyed.window(TumblingEventTimeWindows.of(Time.seconds(5))); 
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = window.sum(1);  
        summed.print();   
        env.execute();  
    }
}

结果是按照Event Time的时间窗⼝计算得出的，⽽⽆关系统的时间（包括输⼊的快慢）。

9.4.2 滑动窗⼝（SlidingEventTimeWindows）

// 获取执⾏环境
val env = StreamExecutionEnvironment.getExecutionEnvironmentenv
.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
// 创建
SocketSourceval stream = env.socketTextStream("localhost", 11111)
// 对stream进⾏处理并按key聚合
val streamKeyBy = stream.assignTimestampsAndWatermarks( 
    new BoundedOutOfOrdernessTimestampExtractor[String](Time.milliseconds(0)) {
        override def extractTimestamp(element: String): Long = { 
            val sysTime = element.split(" ")(0).toLong 
            println(sysTime) 
            sysTime
        }
    }).map(item => (item.split(" ")(1), 1)).keyBy(0)
// 引⼊滚动窗⼝
val streamWindow = streamKeyBy.window(SlidingEventTimeWindows.of(Time.seconds(10),Time.seconds(5)))
// 执⾏聚合操作
val streamReduce = streamWindow.reduce( (a,b) => (a._1, a._2 + b._2))
// 将聚合数据写⼊⽂件
streamReduce.print
// 执⾏程序
env.execute("TumblingWindow")

9.4.3 会话窗⼝（EventTimeSessionWindows）

相邻两次数据的EventTime的时间差超过指定的时间间隔就会触发执⾏。如果加⼊Watermark，那么当触发执⾏时，所有满⾜时间间隔⽽还没有触发的Window会同时触发执⾏。

package com.wedoctor.flink;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.datastream.WindowedStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.EventTimeSessionWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
public class WaterMarkDemo3 { 
    public static void main(String[] args) throws Exception {   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironmentWithWebUI(new Configuration());    
        //设置EventTime作为时间标准    
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);    
        //1000,spark,1    
        DataStreamSource<String> lines = env.socketTextStream("localhost", 8888); 
        //直接对Source提取EventTime  
        SingleOutputStreamOperator<String> watermarksDataStream = lines.assignTimestampsAndWatermarks(
            new BoundedOutOfOrdernessTimestampExtractor<String>(Time.seconds(2)) {  
                @Override     
                public long extractTimestamp(String element) {      
                    //当前分区中数据中最大的EventTime - 延迟时间 = 该分区的WaterMark      
                    return Long.parseLong(element.split(",")[0]);     
                }   
            });    
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndCount = watermarksDataStream.map(
            new MapFunction<String, Tuple2<String, Integer>>() {    
                @Override   
                public Tuple2<String, Integer> map(String value) throws Exception {       
                    String[] fileds = value.split(",");    
                    String word = fileds[1];      
                    int count = Integer.parseInt(fileds[2]);   
                    return Tuple2.of(word, count);    
                }  
            });    
        //先分组   
        KeyedStream<Tuple2<String, Integer>, String> keyed = wordAndCount.keyBy(t -> t.f0);   
        //分组后划分EventTime的SessionWindow  
        WindowedStream<Tuple2<String, Integer>, String, TimeWindow> windowed = 
            keyed.window(EventTimeSessionWindows.withGap(Time.seconds(5))); 
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = windowed.sum(1);  
        summed.print();    
        env.execute(); 
    }
}

十 flink 原理解读

10.1 Task和subtask

10.1.1 概念

Task(任务):Task 是一个阶段多个功能相同 subTask 的集合，类似于 Spark 中的 TaskSet。
subTask(子任务)：subTask 是 Flink 中任务最小执行单元，是一个 Java 类的实例，这个 Java 类中有属性和方法，完成具体的计算逻辑。
Operator Chains(算子链)：没有 shuffle 的多个算子合并在一个 subTask 中，就形成了 Operator Chains，类似于 Spark 中的 Pipeline。
Slot(插槽)：Flink 中计算资源进行隔离的单元，一个 Slot 中可以运行多个 subTask，但是这些 subTask 必须是来自同一个 application 的不同阶段的 subTask。

10.1.2 如何划分task

Task的并行度发生变化

调用Keyby这样产生shuffle的算子

调用startNewChain

调用disableChaining

处理分区器 Rebalance Shuffle Broadcast Rescale

10.1.3 区别

上图并行数据流，一共有 3个 Task，5个 subTask。（红框代表Task，黑框代表subTask）

10.2 startNewChain的使用

Forward no shuffle

Begin a new chain, starting with this operator. The two mappers will be chained, and filter will not be chained to the first
mapper.someStream.filter(...).map(...).startNewChain().map(...);

10.3 disableChain的使用

将该算子前面和后面的链都断开

Do not chain the map operatorsomeStream.map(...).disableChaining();

10.4 共享资源槽

Flink的任务资源草默认名称是default
可以通过调用slotSharingGroup方法指定槽位的名称
如果改变共享槽位的名称后，后面的没有再设置共享槽位的名称，那么跟上一次改变槽位的名称一致
槽位名称不同的subtask不能在一个槽位中执行

每个工作程序（TaskManager）是一个JVM进程，并且可以在单独的线程中执行一个或多个子任务。为了控制一个worker接受多少个任务，一个worker有一个所谓的任务槽（至少一个）。

每个任务槽代表TaskManager的资源的固定子集。例如，具有三个插槽的TaskManager会将其托管内存的1/3专用于每个插槽。分配资源意味着子任务不会与其他作业的子任务竞争托管内存，而是具有一定数量的保留托管内存。请注意，此处没有发生CPU隔离。当前插槽仅将任务的托管内存分开。

通过调整任务槽的数量，用户可以定义子任务如何相互隔离。每个TaskManager具有一个插槽，意味着每个任务组都在单独的JVM中运行（例如，可以在单独的容器中启动）。具有多个插槽意味着更多子任务共享同一JVM。同一JVM中的任务共享TCP连接（通过多路复用）和心跳消息。它们还可以共享数据集和数据结构，从而减少每个任务的开销。

默认情况下，Flink允许子任务共享插槽，即使它们是不同任务的子任务，只要它们来自同一作业即可。结果是一个插槽可以容纳整个作业流水线。允许此插槽共享有两个主要好处：

Flink集群所需的任务槽数与作业中使用的最高并行度恰好一样。无需计算一个程序总共包含多少个任务（并行度各不相同）。
更容易获得更好的资源利用率。如果没有插槽共享，则非密集型 source / map（）子任务将阻塞与资源密集型窗口子任务一样多的资源。通过插槽共享，我们示例中的基本并行度从2增加到6，可以充分利用插槽资源，同时确保沉重的子任务在TaskManager之间公平分配。

10.5 任务重启策略

Flink开启checkpoint功能，同时就开启了重启策略，默认是不停重启

如果不开启checkpoint功能，也是可以配置重启策略的(不能容错)

Flink的重启策略可以配置成启动固定次数且每次延迟指定时间启动

Flink出现异常后，会根据配置的重启策略重新启动，将原来的subtask释放，重新生成subtask并调度到taskmanage的slot中运行

Flink任务重启后，重新生成的subtask被调度到taskmanage中，会从stagebackend中恢复上一次checkpoint的状态

env.setRestartStrategy(RestartStrategies.fixedDelayRestart(10, 30000));

10.6 chekpoint

10.6.1 定义

Flink的 Checkpoint 默认是关闭的，当Flink程序的checkpoint被激活时，状态会被持久化到checkpoint，以防止数据丢失和无缝恢复。状态在内部如何组织和它们如何以及在哪持久化，依赖于所选的状态后端。

Flink默认状态是存储在 JM（JobManager）的 JVM内存中，当然也可以存储在远程文件系统如HDFS，只有将状态的快照持久化的保存起来，才能提供有利的保证，否则存储在 JM 的内存中，JM挂了之后状态就丢失了。

Fkink实时计算为了容错，可以将中间数据定期保存起来，这种定期出发保存中间结果的机制叫checkpointing，它是周期性执行的，具体的过程是JobManager定期的向TaskManager中的SubTask发送RPC消息，subTask将其计算的state保存到stateBackEnd中，并且向JobManager响应checkpointing是否成功，如果程序出现异常或重启，TaskManager中饭的SubTask可以从上一次成功的checkPointing的state恢复

10.6.2 配置checkpoint

StreamExecutionEnvironment env 
  =StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(10000);
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);
//2 个 Checkpoint 之间最少是要等 500ms，也就是刚做完一个 Checkpoint。比如某个 Checkpoint 做了700ms，按照原则过 300ms 应该是做下一个 Checkpoint，因为设置了 1000ms 做一次 Checkpoint 的，但是中间的等待时间比较短，不足 500ms 了，需要多等 200ms，因此以这样的方式防止 Checkpoint 太过于频繁而导致业务处理的速度下降。
env.getCheckpointConfig().setMinPauseBetweenCheckpoints(500);
env.getCheckpointConfig().setCheckpointTimeout(6000);
//程序异常退出或人为cancel掉，不删除checkpoint数据(默认是会删除)  
env.getCheckpointConfig().enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
//设置存储位置覆盖默认方式
env.setStateBackend(new FsStateBackend(args[0]));

10.7 Barrier

Flink的容错机制主要是通过持续产生快照的方式实现的，对应的快照机制的实现主要由2部分组成，一个是屏障(Barrier),另一个是状态(state)

对齐机制

流屏障(barrier)是Flink分布式快照中的核心元素。这些屏障将注入到数据流中，并与记录一起作为数据流的一部分流动。壁垒从不超越记录，它们严格按照顺序进行。屏障将数据流中的记录分为进入当前快照的记录集和进入下一个快照的记录集。每个屏障都带有快照的ID，快照的记录已推送到快照的前面。屏障不会中断流的流动，因此非常轻便。来自不同快照的多个障碍可以同时出现在流中，这意味着各种快照可能会同时发生。

流屏障在流源处注入并行数据流中。快照n的屏障被注入的点（我们称其为 S n）是快照中覆盖数据的源流中的位置。例如，在Apache Kafka中，此位置将是分区中最后一条记录的偏移量。该位置S n 被报告给检查点协调器（Flink的JobManager）。

然后，屏障向下游流动。当中间操作员从其所有输入流中收到快照n的屏障时，它会将快照n的屏障发射到其所有输出流中。接收器运算符（流式DAG的末尾）从其所有输入流接收到屏障n后，便将快照n确认给检查点协调器。所有接收器都确认快照后，就认为快照已完成。

一旦完成快照n，该作业将不再向源请求S n之前的记录，因为此时这些记录（及其后代记录）将通过整个数据流拓扑。

接收多个输入流的操作员需要在快照屏障上对齐输入流。上图说明了这一点：

1.操作员一旦从传入流接收到快照屏障n，就无法处理该流中的任何其他记录，直到它也从其他输入接收到屏障n为止。否则，它将混合属于快照n的记录和属于快照n + 1的记录。

2.一旦最后一个流接收到屏障n，操作员将发出所有未决的传出记录，然后自身发出快照n屏障。

3.它快照状态并恢复所有输入流中的记录处理，在处理来自流中的记录之前，先处理输入缓冲区中的记录。

4.最后，操作员将状态异步写入状态后端。

请注意，所有具有多个输入的运算符以及经过洗牌后的运算符使用多个上游子任务的输出流时，都需要对齐。

10.8 state

10.8.1 概念

State是flink计算过程的中间结果和状态信息，为了容错，必须把状态持久化到一个外部的系统中

State可以是多种类型的，默认是保存在jobManage的内存中，也可以保存到taskmanage本地文件系统或者HDFS这样的分布式文件系统中

10.8.2 分类

Keystate

调用keyby方法后，每个分区中相互独立的state

Operatorstate

没有分组，每一个subtask自己维护一个状态

与Keyed State不同，Operator State跟一个特定operator的一个并发实例绑定，整个operator只对应一个state。相比较而言，在一个operator上，可能会有很多个key，从而对应多个keyed state。而且operator state可以应用于非keyed stream中。

举例来说，Flink中的Kafka Connector，就使用了operator state。它会在每个connector实例中，保存该实例中消费topic的所有(partition, offset)映射。

Broadcast state

广播state，一个可以通过connect方法获取广播流的数据，广播流的特点是可以动态更新

广播state通常作为字典数据，维度数据关联，广播到属于该任务的所有taskmanager的每个taskslot中，类似于map

10.8.3 应用

1.先定义一个状态描述器

//广播数据的状态描述器 MapStateDescriptor mapStateDescriptor = new MapStateDescriptor( “broadcasr-state”, String.class, String.class );

2.通过context获取state

3.对数据处理后要更新数据

10.8.4 operator state和keyed state的一致性

参考10.7 Barrier

10.9 stateBackEnd

用来保存state的存储后端就叫做stateBackEnd，默认是保存在JobManager的内存中，也可以保存在本地文件系统或者HDFS这样的分布式文件系统

在没有配置的情况下，系统默认使用 MemoryStateBackend。

尽管有checkpoint保证exactly-once，但对于实时性要求高的业务场景，每次重启所消耗的时间都可能会导致业务不可用。也许你也经常遇到这样的情况，checkpoint又失败了？连续失败？task manager 内存爆了？这些情况都很容易导致Flink任务down了，这时候需要思考下你所处的业务场景下，选用的Flink State Backends是否合理？

10.9.1 MemoryStateBackend

Checkpoint 的存储，第一种是内存存储，即 MemoryStateBackend，构造方法是设置最大的StateSize，选择是否做异步快照，这种存储状态本身存储在 TaskManager 节点也就是执行节点内存中的，因为内存有容量限制，所以单个 State maxStateSize 默认5M，且需要注意 maxStateSize <= akka.framesize 默认 10 M。Checkpoint 存储在 JobManager 内存中，因此总大小不超过 JobManager 的内存。推荐使用的场景为：本地测试、几乎无状态的作业，比如 ETL、JobManager 不容易挂，或挂掉影响不大的情况。不推荐在生产场景使用。

10.9.2 FsStateBackend

存储在文件系统上的 FsStateBackend ，构建方法是需要传一个文件路径和是否异步快照。State 依然在 TaskManager 内存中，但不会像 MemoryStateBackend 有 5 M 的设置上限，Checkpoint 存储在外部文件系统（本地或 HDFS），打破了总大小 Jobmanager 内存的限制。容量限制上，单 TaskManager 上 State 总量不超过它的内存，总大小不超过配置的文件系统容量。推荐使用的场景、常规使用状态的作业、例如分钟级窗口聚合或 join、需要开启HA的作业。

10.9.4 RocksDBStateBackend

存储为 RocksDBStateBackend ，RocksDB 是一个 key/value 的内存存储系统，和其他的 key/value 一样，先将状态放到内存中，如果内存快满时，则写入到磁盘中，但需要注意 RocksDB 不支持同步的 Checkpoint，构造方法中没有同步快照这个选项。不过 RocksDB 支持增量的 Checkpoint，也是目前唯一增量 Checkpoint 的 Backend，意味着并不需要把所有 sst 文件上传到 Checkpoint 目录，仅需要上传新生成的 sst 文件即可。它的 Checkpoint 存储在外部文件系统（本地或HDFS），其容量限制只要单个 TaskManager 上 State 总量不超过它的内存+磁盘，单 Key最大 2G，总大小不超过配置的文件系统容量即可。推荐使用的场景为：超大状态的作业，例如天级窗口聚合、需要开启 HA 的作业、最好是对状态读写性能要求不高的作业。

10.10 flink如何保证ExactlyOnce的

使用执行exactly-once的数据源，如kafka

开启checkpoint，并且设置checkpointingMode.EXACTLY_ONCE,不让消费者自动提交偏移量

存储系统支持覆盖(redis,Hbase,ES),使用其幂等性，将原来的数据覆盖

Barrier（隔离带）可以保证一个流水线中的所有算子都处理完成了在对该条数据做checkpoint

存储系统支持事务

Jobmanager定时出发checkpoint的定时器(checkpointCodination)给有状态的subtask做checkpoint

Checkpoint成功后，将数据写入statebackend中

写成功后向jobmanager发送ack应答

Jobmanager接收到所有subtask的响应后，jobmanager向所有实现了checkpointListener的subtask发送notifycompleted方法成功的消息

把数据写入kafka，提交事务，即使提交事务失败，也没关系，会重启从checnkpoint恢复再写

10.11 flink背压机制

Flink 在运行时主要由 operators 和 streams 两大组件构成。每个 operator 会消费中间态的流，并在流上进行转换，然后生成新的流。对于 Flink 的网络机制一种形象的类比是，Flink 使用了高效有界的分布式阻塞队列，就像 Java 通用的阻塞队列（BlockingQueue）一样。还记得经典的线程间通信案例：生产者消费者模型吗？使用 BlockingQueue 的话，一个较慢的接受者会降低发送者的发送速率，因为一旦队列满了（有界队列）发送者会被阻塞。Flink 解决反压的方案就是这种感觉。

在 Flink 中，这些分布式阻塞队列就是这些逻辑流，而队列容量是通过缓冲池（LocalBufferPool）来实现的。每个被生产和被消费的流都会被分配一个缓冲池。缓冲池管理着一组缓冲(Buffer)，缓冲在被消费后可以被回收循环利用。这很好理解：你从池子中拿走一个缓冲，填上数据，在数据消费完之后，又把缓冲还给池子，之后你可以再次使用它。

10.12 两段提交原理

10.12.1 原理

Jobmanager定时出发checkpoint的定时器(checkpointCodination)给有状态的subtask做checkpoint;Checkpoint成功后，将数据写入statebackend中;写成功后向jobmanager发送ack应答;Jobmanager接收到所有subtask的响应后，jobmanager向所有实现了checkpointListener的subtask发送notifycompleted方法成功的消息.

把数据写入kafka，提交事务，即使提交事务失败，也没关系，会重启再写.

10.12.2 mysql分两段提交代码实现

package com.wedoctor.flink; 
import com.alibaba.druid.pool.DruidDataSourceFactory; 
import javax.sql.DataSource;
import java.sql.Connection;
import java.sql.SQLException;
import java.util.Properties; 
public class DruidConnectionPool { 
    private transient static DataSource dataSource = null;   
    private transient static Properties props = new Properties();   
    static {    
        props.put("driverClassName", "com.mysql.jdbc.Driver"); 
        props.put("url", "jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8");  
        props.put("username", "root");    
        props.put("password", "123456");   
        try {     
            dataSource = DruidDataSourceFactory.createDataSource(props);  
        } catch (Exception e) {  
            e.printStackTrace();   
        } 
    }  
    private DruidConnectionPool() {  }  
    public static Connection getConnection() throws SQLException {  
        return dataSource.getConnection();  
    }  
}

package com.wedoctor.flink; 
import org.apache.flink.api.common.ExecutionConfig;
import org.apache.flink.api.common.typeutils.base.VoidSerializer;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.typeutils.runtime.kryo.KryoSerializer;
import org.apache.flink.streaming.api.functions.sink.TwoPhaseCommitSinkFunction;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException; 
public class MySqlTwoPhaseCommitSink extends TwoPhaseCommitSinkFunction<Tuple2<String, Integer>, MySqlTwoPhaseCommitSink.ConnectionState, Void> {  
    public MySqlTwoPhaseCommitSink() {    
        super(new KryoSerializer<>(MySqlTwoPhaseCommitSink.ConnectionState.class, new ExecutionConfig()), VoidSerializer.INSTANCE); 
    }   
    @Override 
    protected MySqlTwoPhaseCommitSink.ConnectionState beginTransaction() throws Exception {   
        System.out.println("=====> beginTransaction... ");  
        Connection connection = DruidConnectionPool.getConnection();  
        connection.setAutoCommit(false);   
        return new ConnectionState(connection);  
    }   
    @Override
    protected void invoke(MySqlTwoPhaseCommitSink.ConnectionState connectionState, Tuple2<String, Integer> value, Context context) throws Exception {  
        Connection connection = connectionState.connection;   
        PreparedStatement pstm = connection.prepareStatement("INSERT INTO t_wordcount (word, counts) VALUES (?, ?) ON DUPLICATE KEY UPDATE counts = ?");   
        pstm.setString(1, value.f0);   
        pstm.setInt(2, value.f1);  
        pstm.setInt(3, value.f1);   
        pstm.executeUpdate();  
        pstm.close();  
    }  
    @Override 
    protected void preCommit(MySqlTwoPhaseCommitSink.ConnectionState connectionState) throws Exception { 
        System.out.println("=====> preCommit... " + connectionState); 
    }  
    @Override  protected void commit(MySqlTwoPhaseCommitSink.ConnectionState connectionState) {   
        System.out.println("=====> commit... ");  
        Connection connection = connectionState.connection;   
        try {    
            connection.commit();  
            connection.close();  
        } catch (SQLException e) { 
            throw new RuntimeException("提交事物异常");  
        } 
    }  
    @Override 
    protected void abort(MySqlTwoPhaseCommitSink.ConnectionState connectionState) { 
        System.out.println("=====> abort... ");  
        Connection connection = connectionState.connection;   
        try {   
            connection.rollback();  
            connection.close();  
        } catch (SQLException e) {   
            throw new RuntimeException("回滚事物异常");  
        } 
    }   
    static class ConnectionState { 
        private final transient Connection connection;   
    
        ConnectionState(Connection connection) {   
            this.connection = connection;   
        } 
    } 
}

十一 flink整合kafka

11.1 kafka–>flink–>redis

11.1.1 增加依赖

<dependency>
    <groupId>org.apache.flinkgroupId>
    <artifactId>flink-connector-kafka_2.11artifactId>
    <version>1.10.0version>
dependency>
<dependency>
    <groupId>org.apache.bahirgroupId>
    <artifactId>flink-connector-redis_2.11artifactId>
    <version>1.1-SNAPSHOTversion>
dependency>

11.1.2 代码实现

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.restartstrategy.RestartStrategies;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.streaming.connectors.redis.RedisSink;
import org.apache.flink.streaming.connectors.redis.common.config.FlinkJedisPoolConfig;
import org.apache.flink.streaming.connectors.redis.common.mapper.RedisCommand;
import org.apache.flink.streaming.connectors.redis.common.mapper.RedisCommandDescription;
import org.apache.flink.streaming.connectors.redis.common.mapper.RedisMapper;
import org.apache.flink.util.Collector; 
import java.util.Properties; 
public class KafkaSourceToRedis { 
    public static void main(String[] args) throws Exception{   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();   
        //本地环境读取hdfs需要设置，集群上不需要   
        System.setProperty("HADOOP_USER_NAME","root");    
        //默认情况下，检查点被禁用。要启用检查点    
        env.enableCheckpointing(30000);   
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);  
        //程序异常退出或人为cancel掉，不删除checkpoint数据(默认是会删除)    
        env.getCheckpointConfig()
      .enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); 
        env.setStateBackend(new FsStateBackend(args[0]));    
        //设置重启策略 默认不停重启   
        env.setRestartStrategy(RestartStrategies.fixedDelayRestart(10, 30000));  
        Properties properties = new Properties();  
        properties.setProperty("bootstrap.servers", 
                               "com.wedoctor:9092,com.wedoctor:9092,com.wedoctor:9092"); 
        properties.setProperty("group.id", args[1]);   
        properties.setProperty("auto.offset.reset", "earliest");  
        //properties.setProperty("enable.auto.commit", "false");  
        //如果没有开启checkpoint功能，为了不重复读取数据，FlinkKafkaConsumer会将偏移量保存到了Kafka特殊的topic中（__consumer_offsets）  
        //这种方式没法实现Exactly-Once   
        FlinkKafkaConsumer<String> flinkKafkaConsumer = new FlinkKafkaConsumer<String>(args[2], new 
 SimpleStringSchema(), properties);     //在Checkpoint的时候将Kafka的偏移量保存到Kafka特殊的Topic中，默认是true  
        flinkKafkaConsumer.setCommitOffsetsOnCheckpoints(false);    
        DataStreamSource<String> lines = env.addSource(flinkKafkaConsumer);   
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndOne = lines.flatMap(
            new FlatMapFunction<String, Tuple2<String, Integer>>() {  
                @Override     
                public void flatMap(String line, Collector<Tuple2<String, Integer>> out) throws Exception {
                    String[] words = line.split(" ");    
                    for (String word : words) {      
                        out.collect(Tuple2.of(word, 1));  
                    }   
                }   
            });    
        KeyedStream<Tuple2<String, Integer>, Tuple> keyed = wordAndOne.keyBy(0);   
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = keyed.sum(1);  
        //Transformation 结束   
        //调用RedisSink将计算好的结果保存到Redis中     
        //创建Jedis连接的配置信息    
        FlinkJedisPoolConfig conf = new FlinkJedisPoolConfig.Builder()
            .setHost(args[3])       
            .setPassword(args[4])        
            .build();     
        summed.addSink(new RedisSink<>(conf, new RedisWordCountMapper())); 
        env.execute("KafkaSourceDemo");   
    }   
    
    public static class RedisWordCountMapper implements RedisMapper<Tuple2<String, Integer>> {  
        @Override   
        public RedisCommandDescription getCommandDescription() {  
            //指定写入Redis中的方法和最外面的大key的名称     
            return new RedisCommandDescription(RedisCommand.HSET, "wc");  
        }    
        @Override  
        public String getKeyFromData(Tuple2<String, Integer> data) {   
            return data.f0; 
            //将数据中的哪个字段作为key写入  
        }    
        @Override   
        public String getValueFromData(Tuple2<String, Integer> data) {      
            return data.f1.toString(); 
            //将数据中的哪个字段作为value写入   
        } 
    }
}

11.1.3 自定义RedisSink

package com.wedoctor.flink;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.functions.sink.RichSinkFunction;
import redis.clients.jedis.Jedis; 
public class MyRedisSink extends RichSinkFunction<Tuple3<String,String,String>> { 
    private transient Jedis jedis; 
    @Override  
    public void open(Configuration parameters) throws Exception {   
        super.open(parameters); 
        jedis = new Jedis("192.168.1.1", 6379, 5000);  
        jedis.auth("123456");  
        jedis.select(0);  
    }  
    @Override  public void invoke(Tuple3<String, String, String> value, Context context) throws Exception {     
        if (!jedis.isConnected()){     
            jedis.connect();   
        }    
        jedis.hset(value.f0,value.f1,value.f2); 
    }  
    @Override 
    public void close() throws Exception {
        super.close();    jedis.close();  
    }
}

11.2 kafka–>flink–>mysql

11.2.1 增加依赖

       
<dependency>     
    <groupId>mysqlgroupId>
    <artifactId>mysql-connector-javaartifactId> 
    <version>5.1.47version> 
dependency>

11.2.2 代码实现

package com.wedoctor.flink; 
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.functions.sink.RichSinkFunction; 
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement; 
public class MySqlSink extends RichSinkFunction<Tuple2<String, Integer>> {  
    private Connection connection = null;  
    @Override  
    public void open(Configuration parameters) throws Exception {  
        //可以创建数据库连接    
        connection = DriverManager.getConnection("jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8", "root", "123456");   
    }  
    @Override 
    public void invoke(Tuple2<String, Integer> value, Context context) throws Exception {   
        PreparedStatement preparedStatement = connection.prepareStatement("INSERT INTO test VALUES (?, ?) ON DUPLICATE KEY UPDATE counts = ?");   
        preparedStatement.setString(1, value.f0);   
        preparedStatement.setLong(2, value.f1);  
        preparedStatement.setLong(3, value.f1);  
        preparedStatement.executeUpdate();  
        preparedStatement.close(); 
    }  
    @Override  
    public void close() throws Exception {  
        connection.close();
    } 
}

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.restartstrategy.RestartStrategies;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.runtime.state.filesystem.FsStateBackend;
import org.apache.flink.streaming.api.CheckpointingMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.CheckpointConfig;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.util.Collector;
import java.util.Properties;
public class KafkaSourceToMySQL {  
    public static void main(String[] args) throws Exception{     
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
        //如果开启Checkpoint，偏移量会存储到哪呢？   
        env.enableCheckpointing(30000);  
        env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.AT_LEAST_ONCE);  
        //就是将job cancel后，依然保存对应的checkpoint数据  
        env.getCheckpointConfig()          .enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); 
        env.setStateBackend(new FsStateBackend(args[0]));  
        env.setRestartStrategy(RestartStrategies.fixedDelayRestart(10, 30000));   
        Properties properties = new Properties(); 
        properties.setProperty("bootstrap.servers", "node-1.51doit.cn:9092,node-2.51doit.cn:9092,node-3.51doit.cn:9092");  
        properties.setProperty("group.id", args[1]);   
        properties.setProperty("auto.offset.reset", "earliest");   
        //properties.setProperty("enable.auto.commit", "false");  
        //如果没有开启checkpoint功能，为了不重复读取数据，FlinkKafkaConsumer会将偏移量保存到了Kafka特殊的topic中（__consumer_offsets）    
        //这种方式没法实现Exactly-Once   
        FlinkKafkaConsumer<String> flinkKafkaConsumer = new FlinkKafkaConsumer<String>(args[2], new SimpleStringSchema(), properties);    
        //在Checkpoint的时候将Kafka的偏移量保存到Kafka特殊的Topic中，默认是true    
        flinkKafkaConsumer.setCommitOffsetsOnCheckpoints(false);   
        DataStreamSource<String> lines = env.addSource(flinkKafkaConsumer);    
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndOne = lines.flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {   
            @Override    
            public void flatMap(String line, Collector<Tuple2<String, Integer>> out) throws Exception { 
                String[] words = line.split(" ");       
                for (String word : words) {    
                    out.collect(Tuple2.of(word, 1));     
                }   
            }  
        });  
        KeyedStream<Tuple2<String, Integer>, Tuple> keyed = wordAndOne.keyBy(0); 
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = keyed.sum(1);   
        //Transformation 结束    
        //调用MySQLSink将计算好的结果保存到MySQL中  
        summed.addSink(new MySqlSink());   
        env.execute("KafkaSourceToMySQL");   } }

十二 table API

12.1 依赖


<dependency>
    <groupId>org.apache.flinkgroupId>
    <artifactId>flink-table-api-java-bridge_2.11artifactId>
    <version>1.11.2version>
dependency>
<dependency>
    <groupId>org.apache.flinkgroupId>
    <artifactId>flink-table-planner_2.11artifactId>
    <version>1.11.2version>
    
dependency>

12.2 代码实现

package com.wedoctor.flink; 
public class WC {   
    public  String word;  
    public Integer cnt;  
    public WC(String word, Integer cnt) { 
        this.word = word;  
        this.cnt = cnt;  
    }   
    public WC() {  } 
    public String getWord() {  
        return word; 
    }  
    public void setWord(String word) {  
        this.word = word; 
    }  
    public Integer getCnt() { 
        return cnt;  
    }  
    public void setCnt(Integer cnt) {  
        this.cnt = cnt;
    }  
    @Override 
    public String toString() {   
        return "WC{" +        "word='" + word + '\'' +        ", cnt=" + cnt +        '}';  }   
    public static WC of(String word, Integer cnt) {  
        WC wc = new WC();    wc.word = word;    wc.cnt = cnt;    return wc; 
    }
} 



package com.wedoctor.flink;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.BatchTableEnvironment;
public class WordCountTableApi {  
    public static void main(String[] args) throws Exception {    
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();   
        BatchTableEnvironment tEnv = BatchTableEnvironment.create(env);   
        DataSet<WC> input = env.fromElements(   
            WC.of("spark", 1),      
            WC.of("kafka", 1),  
            WC.of("java", 1),    
            WC.of("flink", 1),   
            WC.of("flink", 1)  
        );  
        tEnv.registerDataSet("WordCount", input, "word, cnt");   
        //执行SQL，并结果集做为一个新表   
        Table table = tEnv.sqlQuery("SELECT word, SUM(cnt) as cnt FROM WordCount GROUP BY word"); 
        DataSet<WC> result = tEnv.toDataSet(table, WC.class);   
        result.print(); 
    }
}

十三双流join

13.1 window join

Window join如果并行的不为，任务不会触发执行，自定义一个trigger，trigger中有2个方法 onElement(来一条数据就执行该方法)，onEventTime，waterMark => 窗口结束边界执行

左表迟到侧流输出，查询数据库关联右表数据

右表迟到直接查询数据库关联右表数据

将正常的数据和迟到的数据union到一起写入es，hbase或者clickhouse

 import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
import org.apache.flink.api.common.functions.CoGroupFunction;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.functions.KeySelector;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.functions.windowing.AllWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag; 
import java.sql.*; 
public class OrderJoinAdv {  
    public static void main(String[] args) throws Exception {    
        ParameterTool parameters = ParameterTool.fromPropertiesFile(args[0]);    
        FlinkUtilsV2.getEnv().setParallelism(1);    
        //使用EventTime作为时间标准    
        FlinkUtilsV2.getEnv().setStreamTimeCharacteristic(TimeCharacteristic.EventTime);  
        DataStream<String> orderMainLinesDataStream = FlinkUtilsV2.createKafkaDataStream(parameters, "ordermain", "g1", SimpleStringSchema.class);   
        DataStream<String> orderDetailLinesDataStream = FlinkUtilsV2.createKafkaDataStream(parameters, "orderdetail", "g1", SimpleStringSchema.class);     
        //对数据进行解析   
        SingleOutputStreamOperator<OrderMain> orderMainDataStream = orderMainLinesDataStream.process(new ProcessFunction<String, OrderMain>() {      
            @Override    
            public void processElement(String line, Context ctx, Collector<OrderMain> out) throws Exception {        
               //flatMap+filter   
                try {        
                    JSONObject jsonObject = JSON.parseObject(line);    
                    String type = jsonObject.getString("type");  
                    if (type.equals("INSERT") || type.equals("UPDATE")) {   
                        JSONArray jsonArray = jsonObject.getJSONArray("data");   
                        for (int i = 0; i < jsonArray.size(); i++) {     
                            OrderMain orderMain = jsonArray.getObject(i, OrderMain.class);    
                            orderMain.setType(type); 
                            //设置操作类型         
                            out.collect(orderMain);       
                        }      
                    }   
                } catch (Exception e) {    
                    //e.printStackTrace();     
                    //记录错误的数据    
                }    
            }  
        });  
        //对数据进行解析    
        SingleOutputStreamOperator<OrderDetail> orderDetailDataStream = orderDetailLinesDataStream.process(new ProcessFunction<String, OrderDetail>() {     
            @Override      
            public void processElement(String line, Context ctx, Collector<OrderDetail> out) throws Exception {       
                //flatMap+filter       
                try {     
                    JSONObject jsonObject = JSON.parseObject(line);       
                    String type = jsonObject.getString("type");      
                    if (type.equals("INSERT") || type.equals("UPDATE")) {        
                        JSONArray jsonArray = jsonObject.getJSONArray("data");   
                        for (int i = 0; i < jsonArray.size(); i++) {     
                            OrderDetail orderDetail = jsonArray.getObject(i, OrderDetail.class);  
                            orderDetail.setType(type); 
                            //设置操作类型    
                            out.collect(orderDetail);  
                        }       
                    }     
                } catch (Exception e) {    
                    //e.printStackTrace();      
                    //记录错误的数据      
                }    
            }  
        });   
        int delaySeconds = 2;  
        int windowSize = 5; 
        //提取EventTime生成WaterMark   
        SingleOutputStreamOperator<OrderMain> orderMainStreamWithWaterMark = orderMainDataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<OrderMain>(Time.seconds(delaySeconds)) {   
            @Override    
            public long extractTimestamp(OrderMain element) {      
                return element.getCreate_time().getTime();    
            }  
        });   
        SingleOutputStreamOperator<OrderDetail> orderDetailStreamWithWaterMark = orderDetailDataStream.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<OrderDetail>(Time.seconds(delaySeconds)) {    
            @Override
            public long extractTimestamp(OrderDetail element) { 
                return element.getCreate_time().getTime();   
            } 
        });   
        //定义迟到侧流输出的Tag 
        OutputTag<OrderDetail> lateTag = new OutputTag<OrderDetail>("late-date") {
            
        };   
        //对左表进行单独划分窗口，窗口的长度与cogroup的窗口长度一样  
        SingleOutputStreamOperator<OrderDetail> orderDetailWithWindow = 
        orderDetailStreamWithWaterMark.windowAll(TumblingEventTimeWindows.of(Time.seconds(windowSize)))        .sideOutputLateData(lateTag)
            //将迟到的数据打上Tag       
            .apply(new AllWindowFunction<OrderDetail, OrderDetail, TimeWindow>() {      
                @Override       
                public void apply(TimeWindow window, Iterable<OrderDetail> values, Collector<OrderDetail> out) throws Exception {          
                    for (OrderDetail value : values) {        
                        out.collect(value);   
                    }      
                }    
            });  
        //获取迟到的数据   
        DataStream<OrderDetail> lateOrderDetailStream = orderDetailWithWindow.getSideOutput(lateTag);     //应为orderDetail表的数据迟到数据不是很多，没必要使用异步IO，直接使用RichMapFunction    
        SingleOutputStreamOperator<Tuple2<OrderDetail, OrderMain>> lateOrderDetailAndOrderMain = lateOrderDetailStream.map(new RichMapFunction<OrderDetail, Tuple2<OrderDetail, OrderMain>>() {      @Override     
            public Tuple2<OrderDetail, OrderMain> map(OrderDetail detail) throws Exception {    
                return Tuple2.of(detail, null);    
                                                                                   
            }  
        });    
        //Left Out JOIN，并且将订单明细表作为左表   
        DataStream<Tuple2<OrderDetail, OrderMain>> joined = orderDetailWithWindow.coGroup(orderMainStreamWithWaterMark)    
            .where(new KeySelector<OrderDetail, Long>() {     
                @Override      
                public Long getKey(OrderDetail value) throws Exception {      
                    return value.getOrder_id();       
                                           
                }   
            })    
            .equalTo(new KeySelector<OrderMain, Long>() {  
                @Override         
                public Long getKey(OrderMain value) throws Exception {    
                    return value.getOid();     
                }     
            })     
            .window(TumblingEventTimeWindows.of(Time.seconds(windowSize)))     
            .apply(new CoGroupFunction<OrderDetail, OrderMain, Tuple2<OrderDetail, OrderMain>>() {
                @Override     
                public void coGroup(Iterable<OrderDetail> first, Iterable<OrderMain> second, Collector<Tuple2<OrderDetail, OrderMain>> out) throws Exception {      
                    for (OrderDetail orderDetail : first) {      
                        boolean isJoined = false;     
                        for (OrderMain orderMain : second) {   
                            out.collect(Tuple2.of(orderDetail, orderMain));       
                            isJoined = true;   
                        }         
                        if (!isJoined) {      
                            out.collect(Tuple2.of(orderDetail, null));    
                        }        
                    }     
                }       
            });    
        joined.union(lateOrderDetailAndOrderMain).map(new RichMapFunction<Tuple2<OrderDetail, OrderMain>, Tuple2<OrderDetail, OrderMain>>() {   
            private transient Connection connection;  
            @Override    
            public void open(Configuration parameters) throws Exception {      
                //可以创建数据库连接       
                connection = DriverManager.getConnection("jdbc:mysql://172.16.100.100:3306/doit?characterEncoding=UTF-8", "root", "123456");    
            }    
            @Override   
            public Tuple2<OrderDetail, OrderMain> map(Tuple2<OrderDetail, OrderMain> tp) throws Exception {        //每个关联上订单主表的数据，就查询书库      
                if (tp.f1 == null) {       
                    tp.f1 = queryOrderMainFromMySQL(tp.f0.getOrder_id(), connection);     
                }       
                return tp;    
            }     
            @Override    
            public void close() throws Exception {   
                //关闭数据库连接   
            }  
        }).print();    
        FlinkUtilsV2.getEnv().execute(); 
    }   
    private static OrderMain queryOrderMainFromMySQL(Long order_id, Connection connection) throws Exception {   
        PreparedStatement preparedStatement = connection.prepareStatement("SELECT * ordermain WHERE oid = ?");   
        //设置参数    
        preparedStatement.setLong(1, order_id); 
        //执行查询  
        ResultSet resultSet = preparedStatement.executeQuery(); 
        //取出结果  
        long oid = resultSet.getLong("oid"); 
        Date createTime = resultSet.getDate("create_time");   
        double totalMoney = resultSet.getDouble("total_money");  
        int status = resultSet.getInt("status");   
        OrderMain orderMain = new OrderMain(); 
        orderMain.setOid(oid);    
        orderMain.setStatus(status);   
        return orderMain;
    }
}

13.2 interval join

先keyBy 再进行join

十四侧流输出

14.1 数据流拆分

Flik中，可以将一个流中的数据根据数据的不同属性进行if判断或者模式匹配，然后给各个流打上标签，以后可以根据标签的名字，取出想要的，类型的数据流，侧流输出的优点是比filter效率高，不必对数据进行多次处理，就可以将不同类型的数据拆分

DataStream<Integer> input = ...; 
final OutputTag<String> outputTag = new OutputTag<String>("side-output"){}; SingleOutputStreamOperator<Integer> mainDataStream = input.process(new ProcessFunction<Integer, Integer>() {    @Override   
    public void processElement(   
        Integer value,    
        Context ctx,    
        Collector<Integer> out) throws Exception { 
        // emit data to regular output   
        out.collect(value);     
        // emit data to side output   
        ctx.output(outputTag, "sideout-" + String.valueOf(value));  
    } 
});

package com.wedoctor.flink;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag; 
/** * 1.将数据整理成Tuple3 * 2.然后使用侧流输出将数据分类 */
public class SideOutputsDemo {   
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); 
        //     view,pid,2020-03-09 11:42:30
        //     activity,a10,2020-03-09 11:42:38
        //     order,o345,2020-03-09 11:42:38    
        DataStreamSource<String> lines = env.socketTextStream("localhost", 8888);    
        OutputTag<Tuple3<String, String, String>> viewTag = new OutputTag<Tuple3<String, String, String>>("view-tag") {    };  
        OutputTag<Tuple3<String, String, String>> activityTag = new OutputTag<Tuple3<String, String, String>>("activity-tag") {    };  
        OutputTag<Tuple3<String, String, String>> orderTag = new OutputTag<Tuple3<String, String, String>>("order-tag") {    };   
        //直接调用process方法 
        SingleOutputStreamOperator<Tuple3<String, String, String>> tpDataStream = lines.process(new ProcessFunction<String, Tuple3<String, String, String>>() {      
            @Override     
            public void open(Configuration parameters) throws Exception {      
                super.open(parameters);     
            }     
            @Override    
            public void processElement(String input, Context ctx, Collector<Tuple3<String, String, String>> out) throws Exception {      
                //1.将字符串转成Tuple2    
                String[] fields = input.split(","); 
                String type = fields[0];   
                String id = fields[1];   
                String time = fields[2];  
                Tuple3<String, String, String> tp = Tuple3.of(type, id, time);    
                //2.对数据打标签       
                //将数据打上标签   
                if (type.equals("view")) {    
                    //输出数据，将数据和标签关联   
                    ctx.output(viewTag, tp); 
                    //ctx.output  输出侧流的  
                } else if (type.equals("activity")) { 
                    ctx.output(activityTag, tp);     
                } else {         
                    ctx.output(orderTag, tp);      
                }      
                //输出主流的数据      
                out.collect(tp);     
            }  
        });    
        //输出的测流只能通过getSideOutput  
        DataStream<Tuple3<String, String, String>> viewDataStream = tpDataStream.getSideOutput(viewTag); 
        //分别处理各种类型的数据。  
        viewDataStream.print();  
        env.execute(); 
    }
}

14.2 获取窗口延迟数据

package com.wedoctor.flink; 
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.java.tuple.Tuple;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.OutputTag; 
public class WindowLateDataDemo {  
    public static void main(String[] args) throws Exception {  
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();  
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);    
        //1000,hello  
        //2000,jerry  
        DataStreamSource<String> lines = env.socketTextStream("localhost", 8888);  
        //设置了窗口的延迟时间为2秒 
        SingleOutputStreamOperator<String> linesWithWaterMark = lines.assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<String>(Time.seconds(2)) {    
            @Override    
            public long extractTimestamp(String element) {     
                return Long.parseLong(element.split(",")[0]);   
            } 
        }); 
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordAndOne = linesWithWaterMark.map(new MapFunction<String, Tuple2<String, Integer>>() {    
            @Override     
            public Tuple2<String, Integer> map(String value) throws Exception {    
                //切除时间字段，保留单词       
                return Tuple2.of(value.split(",")[1], 1);    
            }  
        });    
        KeyedStream<Tuple2<String, Integer>, Tuple> keyed = wordAndOne.keyBy(0);   
        OutputTag<Tuple2<String, Integer>> lateDataTag = new OutputTag<Tuple2<String, Integer>>("late-data"){};  
        SingleOutputStreamOperator<Tuple2<String, Integer>> summed = 
            keyed.window(TumblingEventTimeWindows.of(Time.seconds(5)))   
            .sideOutputLateData(lateDataTag)       
            .sum(1);     
        //获取迟到数据的侧流  
        DataStream<Tuple2<String, Integer>> lateDataStream = summed.getSideOutput(lateDataTag);    
        //summed.print("准时的数据: ");   
        //lateDataStream.print("迟到的数据：");    
        SingleOutputStreamOperator<Tuple2<String, Integer>> result = 
            summed.union(lateDataStream).keyBy(0).sum(1);  
        result.print();  
        env.execute(); 
    } 
}

十五异步IO

15.1 Httpclient

15.1.1 官方示例

15.1.2 通过HttpClient访问高德接口

    
<dependency>     
    <groupId>org.apache.httpcomponentsgroupId>    
    <artifactId>httpclientartifactId>   
    <version>4.5.7version>    
dependency>     
   
<dependency>      
    <groupId>org.apache.httpcomponentsgroupId>  
    <artifactId>httpasyncclientartifactId>     
    <version>4.1.4version>   
dependency>   
   
<dependency>      
    <groupId>commons-httpclientgroupId>     
    <artifactId>commons-httpclientartifactId>   
    <version>3.1version>   
dependency>    
<dependency>      
    <groupId>com.alibabagroupId>   
    <artifactId>fastjsonartifactId>   
    <version>1.2.57version>  
dependency>

  
<dependency>     
    <groupId>org.apache.httpcomponentsgroupId>  
    <artifactId>httpclientartifactId>   
    <version>4.5.7version>   
dependency>    
   
<dependency>      
    <groupId>org.apache.httpcomponentsgroupId>  
    <artifactId>httpasyncclientartifactId>    
    <version>4.1.4version>  
dependency>  
 
<dependency>    
    <groupId>commons-httpclientgroupId>  
    <artifactId>commons-httpclientartifactId>    
    <version>3.1version>  
dependency>   
<dependency>   
    <groupId>com.alibabagroupId>      
    <artifactId>fastjsonartifactId>    
    <version>1.2.57version> 
dependency>

15.2 Mysql

<dependency>     
    <groupId>com.alibabagroupId>    
    <artifactId>druidartifactId>    
    <version>1.0.18version>   
dependency>

package com.wedoctor.flink; 
import com.alibaba.druid.pool.DruidDataSource;
import org.apache.flink.configuration.Configuration;
import org.apache.flink.streaming.api.functions.async.ResultFuture;
import org.apache.flink.streaming.api.functions.async.RichAsyncFunction;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.util.Collections;
import java.util.concurrent.CompletableFuture;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;
import java.util.function.Supplier; 
public class AsyncMysqlRequest extends RichAsyncFunction<String,String> { 
    private transient DruidDataSource dataSource; 
    private transient ExecutorService executorService; 
    @Override  
    public void open(Configuration parameters) throws Exception {   
        super.open(parameters);   
        executorService = Executors.newFixedThreadPool(20);  
        dataSource = new DruidDataSource();   
        dataSource.setDriverClassName("com.mysql.jdbc.Driver"); 
        dataSource.setUsername("root");    dataSource.setPassword("123456"); 
        dataSource.setUrl("jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8"); 
        dataSource.setInitialSize(5);    dataSource.setMinIdle(10);   
        dataSource.setMaxActive(20);  }   
    @Override
    public void close() throws Exception {  
        super.close();   
        dataSource.close(); 
        executorService.shutdown();
    }  
    @Override 
    public void asyncInvoke(String id, ResultFuture<String> resultFuture) throws Exception {   
        Future<String> future = executorService.submit(() -> {  
            return queryFromMysql(id);  
        });  
        CompletableFuture.supplyAsync(new Supplier<String>() { 
            @Override     
            public String get() {     
                try {    
                    return future.get();    
                } catch (Exception e) {   
                    return null;     
                }     
            }  
        }).thenAccept( (String dbResult) -> {  
            resultFuture.complete(Collections.singleton(dbResult)); 
        });  
    } 
    private String queryFromMysql(String param) throws SQLException {   
        String sql = "select name from info where id = ?";  
        String result = null;   
        Connection connection = null;  
        PreparedStatement stmt = null;  
        ResultSet rs = null;   
        try {   
            connection = dataSource.getConnection();  
            stmt = connection.prepareStatement(sql);   
            stmt.setString(1,param);   
            rs = stmt.executeQuery();    
            while (rs.next()){      
                result = rs.getString("name");    
            }  
        }finally {  
            if (rs != null){ 
                rs.close();  
            }    
            if (stmt != null){   
                stmt.close();  
            }    
            if (connection != null){ 
                connection.close();  
            }   
        }    
        if (result != null){  
            //可以放入缓存中  
        }  
        return result; 
    }
}

你可能感兴趣的:(#,Flink,flink,flink实时计算,flink异步io,watermark,flink架构原理)

【RAG专题】如何选择合适的RAG架构？星际棋手人工智能
选择适合的RAG架构需结合自身业务需求、数据特点、性能要求等因素综合判断，以下是关键考量维度及对应架构选择建议：1.按数据规模与类型选择•小规模、单一类型数据（如纯文本文档库）：适合基础单阶段检索架构（检索模块+生成模块）。◦检索：用轻量级嵌入模型（如BGE-base、all-MiniLM）+简单向量数据库（如FAISS）。◦生成：搭配中小型LLM（如Llama2-7B、Mistral），无需复杂
2020-6-9晚间日记 Miss亚姐聊职业生涯成长
今天是什么日子起床：07:20就寝：23:00天气：晴心情：太阳任务清单今日完成的任务，最重要的三件事：1.组织架构调整拟定3.整理档案室+找档案4.解约函5.在职证明6.职级调整7.新建岗位+发录用8.入职办理学习·信息·阅读《跟汪涵学说话之道》阅读中～健康·饮食·锻炼早餐：燕麦片➕两片面包中餐：带饭晚餐：麦片➕酸奶工作·思考客户思维就是，怎么给对方呈现对方最容易理解，以及对方怎么最简单操作可以
前端基础知识Vue系列 - 17（vue中key的原理）
一、Key是什么开始之前，我们先还原两个实际工作场景当我们在使用v-for时，需要给单元加上key...用+newDate()生成的时间戳作为key，手动强制触发重新渲染那么这背后的逻辑是什么，key的作用又是什么？一句话来讲key是给每一个vnode的唯一id，也是diff的一种优化策略，可以根据key，更准确，更快的找到对应的vnode节点场景背后的逻辑当我们在使用v-for时，需要给单元加上
汽车ECU控制器通信架构汽车电子实验室车载通信架构汽车架构汽车ECU控制器通信架构 web安全电子电气架构分布式
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
Python爬虫【四十七章】异步爬虫与K8S弹性伸缩：构建百万级并发数据采集引擎程序员_CLUB Python入门到进阶 kubernetes python 爬虫
目录一、背景与行业痛点二、核心技术架构解析2.1异步爬虫引擎设计2.2K8S弹性伸缩架构三、生产环境实践数据3.1性能基准测试3.2成本优化效果四、高级优化技巧4.1协程级熔断降级4.2预测式扩容五、总结Python爬虫相关文章（推荐）一、背景与行业痛点在数字经济时代，企业每天需要处理TB级结构化数据。某头部金融风控平台曾面临以下挑战：数据时效性：需实时采集10万+新闻源，传统爬虫系统延迟超12小
如何通过视频进度条打点守护视频安全？菜包eo 教育视频 polyv 视频安全音视频安全
文章目录前言一、什么是视频进度条打点？二、实现视频进度条打点的技术原理三、如何实现视频进度条打点？总结前言人们对视频内容的获取越来越追求效率，尤其是在教育培训、企业直播、知识付费等场景中，用户希望能够快速定位重点内容。视频进度条打点功能应运而生，不仅提升了用户体验，更成为视频安全管理的重要一环。本文将带你深入了解打点技术的原理与应用，一起看看它如何为视频安全加上一道“智能防线”。一、什么是视频进度
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 InnoDB 架构与核心特性） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）一、InnoDB架构概述1.内存结构2.磁盘结构二、核心特性深度解析1.事务支持(ACID)2.多版本并发控制(MVCC)3.锁机制4.缓冲池优化5.双写缓冲区(DoubleWriteBuffer)三、关键性能优
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
Vue 3.6 Alpha 深度解析：Vapor Mode 如何颠覆虚拟 DOM 时代给钱，谢谢！ vue3 前端 js vue.js javascript 前端 vue3.6 Vapor Mode
无虚拟DOM、原生级性能、渐进式迁移——Vue进入双运行时新纪元在最近的VueConf大会上，尤雨溪正式发布了Vue3.6Alpha版本，其中最引人瞩目的特性VaporMode（无虚拟DOM模式）标志着Vue在渲染引擎上的革命性突破。本文将深入解析其技术原理、性能表现和实践方案，并附带完整可运行的代码示例。一、为何需要VaporMode？传统虚拟DOM的瓶颈：-️虚拟节点创建与对比的运行时开销-内
SFBT（焦点解决法）改变你与孩子（十四）夏日凉凉
21天是一个人的养习惯养成期，心理学家研究发现，有意识的让自己执行新的想法，只要坚持21天就会对习惯产生影响，进而形成新的行为模式。SFBT就是焦点解决法，使用焦点解决法改变你与孩子之间的关系。第十四天，目标架构，帮助孩子找到方向找到灯塔-设定目标目标犹如灯塔般重要，若是没有目标，人就如迷失方向，随意飘荡，没有方向的谈话也不容易有成效。目标是咨询对象的目标，孩子想要的目标，不是助人者父母想要的目标
第1章：微服务架构概述 liangxh2010 架构微服务云原生
1.1传统单体架构vs微服务架构文字讲解在软件开发的早期阶段，单体架构（MonolithicArchitecture）是最主流的架构模式。在这种模式下，一个大型应用程序的所有功能模块（如用户界面、业务逻辑、数据访问层）都被打包在一个独立的单元中，通常是一个WAR或JAR文件。单体架构的优点：开发简单：所有代码都在一个项目中，易于管理和调试。部署直接：只需将单个应用包部署到服务器即可。单体架构的缺点
“AI多模态视频解析引擎：毫秒级智能解构视听内容，生成结构化语义图谱。“
产品介绍在数字化浪潮席卷全球的当下，视频数据以前所未有的速度爆发式增长，社交媒体、安防监控、交通管理等各个领域每天都在产生海量视频信息。这些视频数据如同蕴藏丰富宝藏的深海，蕴含着巨大价值，但如何高效挖掘其中关键信息，成为横亘在各行业面前的一道难题。多模态视频结构化系统，正是为解决这一痛点而生，凭借其强大的功能、前沿的技术和创新的架构，成为视频数据处理领域的革新者与引领者。一、核心功能详解（一）音频
大学专业科普 | 人工智能、物联网和云计算技术鸭鸭鸭进京赶烤人工智能物联网云计算 5G 信号处理信息与通信网络
一、专业概述人工智能专业是一门融合计算机科学、数学、信息学等多学科知识的交叉学科。它旨在培养学生掌握人工智能领域的基本理论、方法和技能，以应对人工智能在各个领域的应用需求和发展挑战。二、主要课程基础课程：包括高等数学、线性代数、概率论与数理统计、离散数学等数学基础课程，为人工智能算法提供理论支撑；以及数据结构、算法设计与分析、计算机组成原理、操作系统、计算机网络等计算机科学基础课程，帮助学生理解人
推客系统”小程序全链路开发指南：从技术架构到爆发增长的核心方法论
一、行业背景与产品定位1.1社交电商的3大趋势流量去中心化：微信生态贡献超60%的社交电商GMV（2023年数据）推客经济崛起：头部平台超30%订单来自用户分享（如拼多多、京东芬香）小程序技术成熟：微信官方插件（如物流助手、分账系统）降低开发门槛1.2为什么选择小程序？天然裂变场景：微信社交关系链+即用即走体验成本优势：对比APP开发成本降低70%，迭代周期缩短50%商业化闭环：从获客→支付→售后
分销系统开发：从架构设计到核心功能实现全解析 ywyy6798 推客分销系统分销系统分销系统开发短剧分销系统聚合分销系统聚合分销系统开发系统开发
一、分销系统概述与市场价值分销系统作为现代电商生态的重要组成部分，已成为企业拓展销售渠道、实现裂变增长的关键工具。根据最新市场研究数据，2023年全球分销电商市场规模已达到1.2万亿美元，预计未来五年将保持18.7%的年复合增长率。1.1分销系统的商业价值分销系统的核心价值体现在三个维度：渠道拓展：通过多级分销网络快速覆盖目标市场成本优化：相比传统广告投放，分销模式具有更高的ROI（平均可达1:5
中原焦点团队焦点初级32期梁怡2021年12月26日坚持分享第39天怡_96d8
SFBT来说,开放式问句的运用乃使咨询师更能聚焦在当事人的参照架构之上，并能在回应当事人的关键用字下，试图从当事人身上引出相关细节，而扩大当事人的知觉领域。举例来说,咨询师不会用“是的……但是”(yes...but...)来回应当事人，而会以“是的……而且”(yesand-)的概念来连接当事人与自己语言的关系。更为可贵的是，当咨询师由衷地、好奇地使用开放式问句询问当事人时，咨询师已经将控制权和责任
【python】向AWS Dynamodb中插入数据
一、背景AWSDynamodb数据库在架构中起到的作用是配置数据库，s3上buckect_a-->bucket_b-->bucket_c对应着层与层之间的关系，总所周知，Dynamobd是非关系型数据库，数据插入的格式是键值对形式的二、代码importboto3importjsonimportpandasaspdAWS_ACCESS_KEY_ID=''AWS_SECRET_ACCESS_KEY='
今日复盘 Milly叶子
在昨天和悄悄老师聊过之后，我知道我需要停止我的无效高效学习的假态，要让我的心好好休息下。在2018年，我总是看着身边的朋友一个个开始在网络上活跃起来，曾经一起在群里打卡学习，转身就已开始在网络上带领小伙伴一起学习成长，顺便开始变现。在这样的情况下我越来越焦虑，我开始怀疑自己的学习能力。本着笨鸟先飞的原理，我开始在网络上报了超多的课程，但是，时间有限，根本没有精力让自己在同一时间上完那么多课。因为上
大型网站技术架构演进与性能优化(四) 全球化下的网站演进：全球部署方案我是索隆系统架构性能优化系统架构性能优化
四、全球化下的网站演进：全球部署方案全球化部署需要解决以下几个问题：第一，业务核心单元的梳理。这些核心单元必须可以裁剪或添加。第二，核心单元必须可以快速部署到国防的机房，最好能够一键部署，即首先要实现单元化部署。第三，实现全球数据连通。第四，处于研发效率的考虑，部署在全球的业务系统要有良好的定制型和扩展性。1、国际化的背景国际化一般有两种类型：一种是进口业务，像天猫国际和全球购；一种是出口业务，像
Vue.js 全面解析：构建现代前端应用的渐进式框架斯~内克 vue知识点前端 vue.js
一、Vue.js的核心价值与演进1.1前端框架的变革与Vue的定位根据2024年StateofJS调查报告，Vue.js以82%的开发者满意度稳居前端框架前三甲。其核心优势体现在：渐进式架构：可从轻量级视图层扩展至全栈解决方案响应式系统：基于Proxy的精准依赖追踪（Vue3）组合式API：代码复用率提升60%以上生态系统：覆盖SSR、状态管理、移动端等20+场景1.2版本演进里程碑版本发布时间里
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
转行网络安全门槛高吗？网络安全零基础入门到精通，收藏这篇就够了 leah126 网络安全安全
在当前就业形势下，不少朋友面临转行的困境。网络安全作为一个热门领域，自然也吸引了许多人的目光。本文将就转行网络安全这一话题，提供一些切实可行的建议。网络安全行业概况网络安全涵盖了从基础的脚本编写到高级的漏洞研究等多个层面。该领域包括但不限于：渗透测试、漏洞评估、恶意软件分析、入侵检测、信息安全管理等。这些内容的复杂性不一，从基础的安全监控到复杂的安全架构设计都涉及其中。这就意味着，尽管有些领域可能
[硬件电路-64]：模拟器件 -二极管在稳压电路中的应用文火冰糖的硅基工坊硬件电路单片机嵌入式硬件跨学科融合架构电路
二极管在稳压电路中的应用主要基于其单向导电性和特定类型二极管（如稳压二极管）的电压稳定特性。以下是详细解释：一、普通二极管的稳压作用（有限场景）正向导通压降的利用：原理：普通二极管在正向导通时，两端会保持一个相对稳定的压降（硅管约0.6-0.7V，锗管约0.2-0.3V）。应用场景：在低电压、小电流的电路中，可通过串联多个二极管来分压，实现简单的稳压功能。例如，用3个硅二极管串联可获得约1.8-2
[硬件电路-66]：模拟器件 - 运算符放大器内部组成与工作原理文火冰糖的硅基工坊硬件电路嵌入式硬件架构电子跨学科融合
运放放大器（运算放大器，OperationalAmplifier，简称运放）是一种具有高电压增益、高输入阻抗、低输出阻抗的直流耦合多级放大电路，其核心功能是对输入信号进行线性放大，并通过外部反馈网络实现多种数学运算和信号处理功能。以下是运放的详细解析：一、运放的核心特性高开环增益运放的开环电压增益通常高达105至107倍（即80dB至140dB），能将微小的输入电压差放大为显著的输出电压变化。虚短
[硬件电路-63]：模拟器件 - 二极管的种类、各自的内部组成、工作原理、主要应用文火冰糖的硅基工坊硬件电路嵌入式硬件架构电子跨学科融合电路
一、二极管的种类与内部组成二极管的核心结构为PN结，即P型半导体（空穴主导导电）与N型半导体（自由电子主导导电）的交界区域。根据功能与结构差异，模拟电路中常见的二极管类型及内部组成如下：整流二极管：大电流内部组成：面接触型PN结，结面积大，允许通过较大电流（如1N4007系列）。特点：正向压降约0.7V（硅管），反向恢复时间较长，适用于低频整流。稳压二极管（齐纳二极管）内部组成：高掺杂PN结，反向
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
【0基础PS】图层蒙版的全方位解析与应用技巧小一亿【0基础PS】photoshop 平面学习传媒职场和发展 adobe 信息可视化
图层蒙版前言一、图层蒙版的底层原理：用「灰度」定义「可见性」二、图层蒙版的基础操作：从创建到编辑三、实战场景：图层蒙版的3大核心应用四、进阶技巧：让蒙版更高效的3个秘诀总结前言在Photoshop的学习过程中，很多新手会遇到这样的困惑：为什么同样的素材，别人合成的效果自然和谐，而自己拼接的却生硬突兀？答案往往藏在一个核心工具里——图层蒙版（LayerMask）。图层蒙版是PS实现「非破坏性编辑」的
碰一碰发视频源码搭建：支持OEM 18538162800于音视频
在短视频交互场景日益丰富的当下，“碰一碰发视频”作为一种创新的近距离内容分享模式，正逐渐成为社交、营销、线下互动等场景的新载体。相较于标准化解决方案，定制化开发能让源码更好地适配特定业务场景，实现功能、性能与体验的精准匹配。本文将从技术架构、开发流程、核心定制方向等维度，详解碰一碰发视频源码搭建的定制化开发要点，为开发者提供实践参考。一、定制化开发的核心价值：从“能用”到“好用”碰一碰发视频的核心
任务管理工具红黑榜：科学匹配你的生物缺陷类型花海如潮淹学习方法经验分享笔记
任务管理的本质与价值定义：任务管理是通过系统化方法将目标拆解为可执行单元，并优化其完成路径的过程。核心价值：对抗熵增：将混沌目标→有序行动认知卸载：释放大脑内存，专注决策而非记忆协作熵减：消除团队协调中的能量耗散现实中的五大深渊级痛点（附科学机制与血泪场景）痛点1：人脑记忆的生物学缺陷→任务黑洞神经科学原理：→工作记忆容量仅4±1条信息（Baddeley模型）→未记录任务24小时遗忘率40%（哈佛
全球化短剧平台全栈技术架构白皮书：多区域部署、智能分发与沉浸式体验的完整解决方案 ywyy6798 推客系统短剧小程序海外短剧短剧分销海外短剧系统开发短剧系统开发
一、全球化基础架构深度设计全球网络基础设施构建采用多活数据中心部署模式，在北美（弗吉尼亚）、欧洲（法兰克福）、亚太（新加坡）建立三大核心枢纽节点构建混合CDN网络，整合AWSCloudFront、Akamai、Fastly等主流CDN服务商，同时接入当地优质运营商CDN部署边缘计算节点网络，在全球200+边缘位置部署轻量级计算单元，实现用户请求的就近处理建立智能流量调度系统，基于实时网络状况监测数
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开