Baby 看你们浪。

Flink基础介绍

学习目标

Flink基本介绍
- 大数据发展历史
- Flink性能比较
- Flink在阿里的现状
Flink集群安装
- 伪分布式安装
- StandAlone模式安装
- StandAlone的高可用模式
- Yarn模式
- Yarn-Session
Flink架构介绍
- Flink组件栈
- 编程模型
- 程序结构
- 任务调度与执行
- Flink的应用场景

1. Flink介绍

1.1. Flink引入

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。

在国外一些社区，有很多人将大数据的计算引擎分成了4 代，当然也有很多人不会认同。我们先姑且这么认为和讨论。

第1代——Hadoop MapReduce

批处理
Mapper、Reducer

Hadoop的MapReduce将计算分为两个阶段，分别为 Map 和 Reduce。对于上层应用来说，就不得不想方设法去拆分算法，甚至于不得不在上层应用实现多个Job的串联，以完成一个完整的算法，例如迭代计算。

第2代——DAG框架（Tez） + MapReduce

批处理
1个Tez = MR(1) + MR(2) + ... + MR(n)
相比MR效率有所提升

第3代——Spark

批处理、流处理、SQL高层API支持
自带DAG
内存迭代计算、性能较之前大幅提升

第4代——Flink

批处理、流处理、SQL高层API支持
自带DAG
流式计算性能更高、可靠性更高

1.2. 什么是Flink

Flink概述:

分布式的计算引擎
支持批处理，即处理静态的数据集、历史的数据集
支持流处理，即实时地处理一些实时数据流
支持基于事件的应用【比如说滴滴通过Flink CEP实现实时监测司机的行为流来判断司机的行为是否正当】

官网地址: Apache Flink: Stateful Computations over Data Streams

官网介绍:

Stateful Computations over Data Streams，即数据流上的有状态的计算。

Data Streams ，Flink认为有界数据集是无界数据流的一种特例，所以说有界数据集也是一种数据流，事件流也是一种数据流。Everything is streams，即Flink可以用来处理任何的数据，可以支持批处理、流处理、AI、MachineLearning等等。
Stateful Computations，即有状态计算。有状态计算是最近几年来越来越被用户需求的一个功能。比如说一个网站一天内访问UV数，那么这个UV数便为状态。Flink提供了内置的对状态的一致性的处理，即如果任务发生了Failover，其状态不会丢失、不会被多算少算，同时提供了非常高的性能。

无界流：意思很明显，只有开始没有结束。必须连续的处理无界流数据，也即是在事件注入之后立即要对其进行处理。不能等待数据到达了再去全部处理，因为数据是无界的并且永远不会结束数据注入。处理无界流数据往往要求事件注入的时候有一定的顺序性，例如可以以事件产生的顺序注入，这样会使得处理结果完整。

有界流：也即是有明确的开始和结束的定义。有界流可以等待数据全部注入完成了再开始处理。注入的顺序不是必须的了，因为对于一个静态的数据集，我们是可以对其进行排序的。有界流的处理也可以称为批处理。

其它特点:

性能优秀(尤其在流计算领域)
高可扩展性
支持容错
纯内存式的计算引擎，做了内存管理方面的大量优化
支持eventime的处理
支持超大状态的Job(在阿里巴巴中作业的state大小超过TB的是非常常见的)
支持exactly-once的处理。

1.3. 性能比较

首先，我们可以通过下面的性能测试初步了解两个框架的性能区别，它们都可以基于内存计算框架进行实时计算，所以都拥有非常好的计算性能。经过测试，Flink计算性能上略好。

测试环境：

1.CPU：7000个； 2.内存：单机128GB； 3.版本：Hadoop 2.3.0，Spark 1.4，Flink 0.9 4.数据：800MB，8GB，8TB； 5.算法：K-means：以空间中K个点为中心进行聚类，对最靠近它们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。 6.迭代：K=10，3组数据

测试结果:

纵坐标是秒，横坐标是次数

结论:

Spark和Flink全部都运行在Hadoop YARN上，性能为Flink > Spark > Hadoop(MR)，迭代次数越多越明显

性能上，Flink优于Spark和Hadoop最主要的原因是Flink支持增量迭代，具有对迭代自动优化的功能

1.4. 发展历史

2008年，Flink 的前身已经是柏林理工大学一个研究性项目，原名 StratoSphere。

2014年，Flink被Apache孵化器所接受然后迅速地成为了 ASF（Apache Software Foundation）的顶级项目之一。

最新版本已经到了1.8.0

spark是2009年诞生在加州大学伯克利分校的AMP实验室，2013年开源成为Apache孵化项目

1.5. Flink在阿里的现状

基于Apache Flink在阿里巴巴搭建的平台于2016年正式上线，并从阿里巴巴的搜索和推荐这两大场景开始实现。

目前阿里巴巴所有的业务，包括阿里巴巴所有子公司都采用了基于Flink搭建的实时计算平台。

同时Flink计算平台运行在开源的Hadoop集群之上。

采用Hadoop的YARN做为资源管理调度，以 HDFS作为数据存储。

因此，Flink可以和开源大数据软件Hadoop无缝对接。

目前，这套基于Flink搭建的实时计算平台不仅服务于阿里巴巴集团内部，而且通过阿里云的云产品API向整个开发者生态提供基于Flink的云产品支持。

Flink在阿里巴巴的大规模应用，表现如何？

规模：一个系统是否成熟，规模是重要指标，Flink最初上线阿里巴巴只有数百台服务器，目前规模已达上万台，此等规模在全球范围内也是屈指可数；
状态数据：基于Flink，内部积累起来的状态数据已经是PB级别规模；
Events：如今每天在Flink的计算平台上，处理的数据已经超过万亿条;
TPS：在峰值期间可以承担每秒超过4.72亿次的访问，最典型的应用场景是阿里巴巴双11大屏；

Flink分支Blink

阿里自15年起开始调研开源流计算引擎，最终决定基于Flink打造新一代计算引擎
阿里贡献了数百个commiter，并对Flink进行高度定制，并取名为Blink
阿里是Flink SQL的最大贡献者，一半以上的功能都是阿里的工程师开发的

logo介绍

在德语中，flink 一词表示快速和灵巧 , 松鼠具有快速和灵巧的特点

柏林的松鼠是红棕色，Flink的松鼠 logo尾巴的颜色与 Apache 软件基金会的 logo 颜色相呼应

2. Flink集群安装

Flink支持多种安装模式

local（本地）—— 单机模式，一般不使用
standalone——独立模式，Flink自带集群，开发测试环境使用
yarn——计算资源统一由Hadoop YARN管理，生产测试环境使用

2.1. 伪分布环境部署

Flink程序需要提交给Job Client
Job Client将作业提交给Job Manager
Job Manager负责协调资源分配和作业执行。资源分配完成后，任务将提交给相应的Task Manager
Task Manager启动一个线程以开始执行。Task Manager会向Job Manager报告状态更改。例如开始执行，正在进行或已完成。
作业执行完成后，结果将发送回客户端（Job Client）

环境准备:

下载安装包 https://archive.apache.org/dist/flink/flink-1.9.2/flink-1.9.2-bin-scala_2.11.tgz
服务器: hadoop10

安装步骤：

上传压缩包

解压

tar -zxf flink-1.9.2-bin-scala_2.11.tgz -C /opt/installs/

启动
```
cd /opt/installs/flink-1.9.2/
./bin/start-cluster.sh 
```
使用JPS可以查看到下面两个进程
- TaskManagerRunner
- StandaloneSessionClusterEntrypoint

访问web界面
```
http://hadoop10:8081
```
slot在flink里面可以认为是资源组，Flink是通过将任务分成子任务并且将这些子任务分配到slot来并行执行程序。

运行测试任务

在/opt/datas/目录下创建一个wc.txt文件，编写一些单词，例如:
zs lisi wangwu
zs lisi
zs zs

[root@hadoop10 flink-1.9.2]# bin/flink run examples/batch/WordCount.jar --input /opt/datas/wc.txt --output /opt/datas/out.txt

2.2. Standalone模式集群安装部署

Standalone集群架构

client客户端提交任务给JobManager
JobManager负责Flink集群计算资源管理，并分发任务给TaskManager执行
TaskManager定期向JobManager汇报状态

环境准备:

服务器: hadoop11(Master + Slave)
服务器: hadoop12(Slave)
服务器: hadoop13(Slave)

安装步骤:

解压缩flink到/opt/modules/目录

tar -zxf flink-1.9.2-bin-scala_2.11.tgz -C /opt/installs/

使用vi修改conf/flink-conf.yaml

# jobManager 的IP地址
jobmanager.rpc.address: hadoop11

# 每个 TaskManager 提供的任务 slots 数量大小
taskmanager.numberOfTaskSlots: 2

# 程序默认并行计算的个数
parallelism.default: 1

slot和parallelism总结

taskmanager.numberOfTaskSlots: 2

每一个taskmanager中的分配2个TaskSlot,3个taskmanager一共有6个TaskSlot

parallelism.default:1 运行程序默认的并行度为1，6个TaskSlot只用了1个，有5个空闲

slot是静态的概念，是指taskmanager具有的并发执行能力

parallelism是动态的概念，是指程序运行时实际使用的并发能力

使用vi修改slaves文件
```
hadoop11
hadoop12
hadoop13
```

使用vi修改/etc/profile系统环境变量配置文件

export FLINK_HOME=/opt/installs/flink-1.9.2
export PATH=$PATH:$FLINK_HOME/bin

分发/etc/profile到其他两个节点

scp -r /etc/profile hadoop12:/etc
scp -r /etc/profile hadoop13:/etc

每个节点重新加载环境变量
```
source /etc/profile
```

使用scp命令分发flink到其他节点

scp -r /opt/installs/flink-1.9.2/ hadoop12:/opt/installs
scp -r /opt/installs/flink-1.9.2/ hadoop13:/opt/installs

启动Flink集群
```
./bin/start-cluster.sh
```
启动/停止flink集群
- 启动：./bin/start-cluster.sh
- 停止：./bin/stop-cluster.sh
启动/停止jobmanager 如果集群中的jobmanager进程挂了，执行下面命令启动
- bin/jobmanager.sh start
- bin/jobmanager.sh stop
启动/停止taskmanager 添加新的taskmanager节点或者重启taskmanager节点
- bin/taskmanager.sh start
- bin/taskmanager.sh stop
启动HDFS集群
```
start-dfs.sh
```
在HDFS中创建/test/input目录
```
hdfs dfs -mkdir -p /test/input
```

上传wordcount.txt文件到HDFS /test/input目录

hdfs dfs -put /opt/installs/flink-1.9.2/README.txt /test/input

并运行测试任务

flink run /opt/installs/flink-1.9.2/examples/batch/WordCount.jar --input hdfs://hdfs-cluster/test/input/README.txt --output hdfs://hdfs-cluster/test/output/result.txt

浏览Flink Web UI界面
```
http://hadoop11:8081
```

2.3. Yarn集群环境

在一个企业中，为了最大化的利用集群资源，一般都会在一个集群中同时运行多种类型的 Workload。因此 Flink 也支持在Yarn上面运行；flink on yarn的前提是：hdfs、yarn均启动

集群规划

JobManager: hadoop11

WorkManager: hadoop11 hadoop12 hadoop13

步骤

修改Hadoop的yarn-site.xml，添加该配置表示内存超过分配值，是否将任务杀掉。默认为true。

运行Flink程序，很容易超过分配的内存。
```
    yarn.nodemanager.vmem-check-enabled
    false
```

分发yarn-site.xml到其它服务器节点

scp yarn-site.xml hadoop12:$PWD
scp yarn-site.xml hadoop13:$PWD

启动HDFS、YARN集群
```
start-all.sh
```

2.4. yarn-session

Flink运行在YARN上，可以使用yarn-session来快速提交作业到YARN集群。我们先来看下Flink On Yarn模式，Flink是如何和Yarn进行交互的。

上传jar包和配置文件到HDFS集群上
申请资源和请求AppMaster容器

Yarn分配资源AppMaster容器，并启动JobManager

JobManager和ApplicationMaster运行在同一个container上。
一旦他们被成功启动，AppMaster就知道JobManager的地址（AM它自己所在的机器）。
它就会为TaskManager生成一个新的Flink配置文件（他们就可以连接到JobManager）。
这个配置文件也被上传到HDFS上。
此外，AppMaster容器也提供了Flink的web服务接口。
YARN所分配的所有端口都是临时端口，这允许用户并行执行多个Flink

申请worker资源，启动TaskManager

yarn-session提供两种模式: 会话模式和分离模式

2.5. 会话模式

使用Flink中的yarn-session（yarn客户端），会启动两个必要服务JobManager和TaskManager
客户端通过yarn-session提交作业
yarn-session会一直启动，不停地接收客户端提交的作业
有大量的小作业，适合使用这种方式

使用步骤:

在flink目录启动yarn-session

bin/yarn-session.sh -n 1 -tm 800 -s 2 -d

# -n 表示申请1个容器，
# -s 表示每个容器启动多少个slot
# -tm 表示每个TaskManager申请800M内存
# -d 表示以后台程序方式运行

yarn-session.sh脚本可以携带的参数:
   Required
     -n,--container                分配多少个yarn容器 (=taskmanager的数量)  
   Optional
     -D                         动态属性
     -d,--detached                    后台独立模式启动，守护进程
     -id,--applicationId             YARN集群上的任务id，附着到一个后台运行的yarn session中
     -j,--jar                       Path to Flink jar file
     -jm,--jobManagerMemory      JobManager的内存 [in MB] 
     -m,--jobmanager         指定需要连接的jobmanager(主节点)地址  
                                    使用这个参数可以指定一个不同于配置文件中的jobmanager  
     -n,--container                分配多少个yarn容器 (=taskmanager的数量) 
     -nm,--name                  在YARN上为一个自定义的应用设置一个名字
     -q,--query                        显示yarn中可用的资源 (内存, cpu核数) 
     -qu,--queue                  指定YARN队列
     -s,--slots                    每个TaskManager使用的slots数量
     -st,--streaming                   在流模式下启动Flink
     -tm,--taskManagerMemory     每个TaskManager的内存 [in MB] 
     -z,--zookeeperNamespace      针对HA模式在zookeeper上创建NameSpace

使用flink提交任务

bin/flink run examples/batch/WordCount.jar

如果程序运行完了，可以使用yarn application -kill application_id杀掉任务
```
yarn application -kill application_1554377097889_0002
```

2.6. 分离模式

直接提交任务给YARN
大作业，适合使用这种方式

使用flink直接提交任务

bin/flink run -m yarn-cluster -yn 2 ./examples/batch/WordCount.jar  

# -m  jobmanager的地址
# -yn 表示TaskManager的个数  
org.apache.flink.examples.java.wordcount.WordCount

查看WEB UI

3. Flink架构介绍

3.1. Flink基石

Flink之所以能这么流行，离不开它最重要的四个基石：Checkpoint、State、Time、Window。

首先是Checkpoint机制，这是Flink最重要的一个特性。Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照，从而提供了一致性的语义。Chandy-Lamport算法实际上在1985年的时候已经被提出来，但并没有被很广泛的应用，而Flink则把这个算法发扬光大了。Spark最近在实现Continue streaming，Continue streaming的目的是为了降低它处理的延时，其也需要提供这种一致性的语义，最终采用Chandy-Lamport这个算法，说明Chandy-Lamport算法在业界得到了一定的肯定。

提供了一致性的语义之后，Flink为了让用户在编程时能够更轻松、更容易地去管理状态，还提供了一套非常简单明了的State API，包括里面的有ValueState、ListState、MapState，近期添加了BroadcastState，使用State API能够自动享受到这种一致性的语义。

除此之外，Flink还实现了Watermark的机制，能够支持基于事件的时间的处理，或者说基于系统时间的处理，能够容忍数据的迟到、容忍乱序的数据。

另外流计算中一般在对流数据进行操作之前都会先进行开窗，即基于一个什么样的窗口上做这个计算。Flink提供了开箱即用的各种窗口，比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义的窗口。

3.2. 组件栈

Flink是一个分层架构的系统，每一层所包含的组件都提供了特定的抽象，用来服务于上层组件。Flink分层的组件栈如下图所示：

从下至上：

部署层：Flink 支持本地运行、能在独立集群或者在被 YARN 管理的集群上运行，也能部署在云上。
运行时：Runtime层提供了支持Flink计算的全部核心实现，为上层API层提供基础服务。
API：DataStream、DataSet、Table、SQL API。
扩展库：Flink 还包括用于复杂事件处理，机器学习，图形处理和 Apache Storm 兼容性的专用代码库。

3.3. Flink数据流编程模型抽象级别

Flink 提供了不同的抽象级别以开发流式或批处理应用。

最底层提供了有状态流。它将通过过程函数（Process Function）嵌入到 DataStream API 中。它允许用户可以自由地处理来自一个或多个流数据的事件，并使用一致、容错的状态。除此之外，用户可以注册事件时间和处理事件回调，从而使程序可以实现复杂的计算。
DataStream / DataSet API 是 Flink 提供的核心 API ，DataSet 处理有界的数据集，DataStream 处理有界或者无界的数据流。用户可以通过各种方法（map / flatmap / window / keyby / sum / max / min / avg / join 等）将数据进行转换 / 计算。

Table API 是以表为中心的声明式 DSL，其中表可能会动态变化（在表达流数据时）。Table API 提供了例如 select、project、join、group-by、aggregate 等操作，使用起来却更加简洁（代码量更少）。你可以在表与 DataStream/DataSet 之间无缝切换，也允许程序将 Table API 与 DataStream 以及 DataSet 混合使用。

Flink 提供的最高层级的抽象是 SQL 。这一层抽象在语法与表达能力上与 Table API 类似，但是是以 SQL查询表达式的形式表现程序。SQL 抽象与 Table API 交互密切，同时 SQL 查询可以直接在 Table API 定义的表上执行。

3.4. Flink程序结构

Flink程序的基本构建块是流和转换（请注意，Flink的DataSet API中使用的DataSet也是内部流）。从概念上讲，流是（可能永无止境的）数据记录流，而转换是将一个或多个流作为一个或多个流的操作。输入，并产生一个或多个输出流。

Flink 应用程序结构就是如上图所示：

Source: 数据源，Flink 在流处理和批处理上的 source 大概有 4 类：基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。自定义的 source 常见的有 Apache kafka、RabbitMQ 等，当然你也可以定义自己的 source。

Transformation：数据转换的各种操作，有 Map / FlatMap / Filter / KeyBy / Reduce / Fold / Aggregations / Window / WindowAll / Union / Window join / Split / Select等，操作很多，可以将数据转换计算成你想要的数据。

Sink：接收器，Flink 将转换计算后的数据发送的地点，你可能需要存储下来，Flink 常见的 Sink 大概有如下几类：写入文件、打印出来、写入 socket 、自定义的 sink 。自定义的 sink 常见的有 Apache kafka、RabbitMQ、MySQL、ElasticSearch、Apache Cassandra、Hadoop FileSystem 等，同理你也可以定义自己的 sink。

3.5. Flink并行数据流

Flink程序在执行的时候，会被映射成一个Streaming Dataflow，一个Streaming Dataflow是由一组Stream和Transformation Operator组成的。在启动时从一个或多个Source Operator开始，结束于一个或多个Sink Operator。

Flink程序本质上是并行的和分布式的，在执行过程中，一个流(stream)包含一个或多个流分区，而每一个operator包含一个或多个operator子任务。操作子任务间彼此独立，在不同的线程中执行，甚至是在不同的机器或不同的容器上。operator子任务的数量是这一特定operator的并行度。相同程序中的不同operator有不同级别的并行度。

一个Stream可以被分成多个Stream的分区，也就是Stream Partition。一个Operator也可以被分为多个Operator Subtask。如上图中，Source被分成Source1和Source2，它们分别为Source的Operator Subtask。每一个Operator Subtask都是在不同的线程当中独立执行的。一个Operator的并行度，就等于Operator Subtask的个数。上图Source的并行度为2。而一个Stream的并行度就等于它生成的Operator的并行度。

数据在两个operator之间传递的时候有两种模式：

One to One模式：两个operator用此模式传递的时候，会保持数据的分区数和数据的排序；如上图中的Source1到Map1，它就保留的Source的分区特性，以及分区元素处理的有序性。

Redistributing （重新分配）模式：这种模式会改变数据的分区数；每个一个operator subtask会根据选择transformation把数据发送到不同的目标subtasks,比如keyBy()会通过hashcode重新分区,broadcast()和rebalance()方法会随机重新分区；

3.6. Task和Operator chain

Flink的所有操作都称之为Operator，客户端在提交任务的时候会对Operator进行优化操作，能进行合并的Operator会被合并为一个Operator，合并后的Operator称为Operator chain，实际上就是一个执行链，每个执行链会在TaskManager上一个独立的线程中执行。

3.7. 任务调度与执行

当Flink执行executor会自动根据程序代码生成DAG数据流图
ActorSystem创建Actor将数据流图发送给JobManager中的Actor
JobManager会不断接收TaskManager的心跳消息，从而可以获取到有效的TaskManager
JobManager通过调度器在TaskManager中调度执行Task（在Flink中，最小的调度单元就是task，对应就是一个线程）
在程序运行过程中，task与task之间是可以进行数据传输的

Job Client
- 主要职责是提交任务, 提交后可以结束进程, 也可以等待结果返回
- Job Client 不是 Flink 程序执行的内部部分，但它是任务执行的起点。
- Job Client 负责接受用户的程序代码，然后创建数据流，将数据流提交给 Job Manager 以便进一步执行。执行完成后，Job Client 将结果返回给用户
JobManager
- 主要职责是调度工作并协调任务做检查点
- 集群中至少要有一个 master，master 负责调度 task，协调checkpoints 和容错，
- 高可用设置的话可以有多个 master，但要保证一个是 leader, 其他是standby;
- Job Manager 包含 Actor System、Scheduler、CheckPoint三个重要的组件
- JobManager从客户端接收到任务以后, 首先生成优化过的执行计划, 再调度到TaskManager中执行
TaskManager
- 主要职责是从JobManager处接收任务, 并部署和启动任务, 接收上游的数据并处理
- Task Manager 是在 JVM 中的一个或多个线程中执行任务的工作节点。
- TaskManager在创建之初就设置好了Slot, 每个Slot可以执行一个任务

3.8. 任务槽（task-slot）和槽共享（Slot Sharing）

每个TaskManager是一个JVM的进程, 可以在不同的线程中执行一个或多个子任务。

为了控制一个worker能接收多少个task。worker通过task slot来进行控制（一个worker至少有一个task slot）。

每个task slot表示TaskManager拥有资源的一个固定大小的子集。

flink将进程的内存进行了划分到多个slot中。

图中有2个TaskManager，每个TaskManager有3个slot的，每个slot占有1/3的内存。

内存被划分到不同的slot之后可以获得如下好处:

TaskManager最多能同时并发执行的任务是可以控制的，那就是3个，因为不能超过slot的数量。
slot有独占的内存空间，这样在一个TaskManager中可以运行多个不同的作业，作业之间不受影响。

槽共享（Slot Sharing）

默认情况下，Flink允许子任务共享插槽，即使它们是不同任务的子任务，只要它们来自同一个作业。结果是一个槽可以保存作业的整个管道。允许插槽共享有两个主要好处：

只需计算Job中最高并行度（parallelism）的task slot,只要这个满足，其他的job也都能满足。
资源分配更加公平，如果有比较空闲的slot可以将更多的任务分配给它。图中若没有任务槽共享，负载不高的Source/Map等subtask将会占据许多资源，而负载较高的窗口subtask则会缺乏资源。
有了任务槽共享，可以将基本并行度（base parallelism）从2提升到6.提高了分槽资源的利用率。同时它还可以保障TaskManager给subtask的分配的slot方案更加公平。

3.9. Flink统一的流处理与批处理

在大数据处理领域，批处理任务与流处理任务一般被认为是两种不同的任务

一个大数据框架一般会被设计为只能处理其中一种任务

Storm只支持流处理任务
MapReduce、Spark只支持批处理任务
Spark Streaming是Apache Spark之上支持流处理任务的子系统，看似是一个特例，其实并不是——Spark Streaming采用了一种micro-batch的架构，即把输入的数据流切分成细粒度的batch，并为每一个batch数据提交一个批处理的Spark任务，所以Spark Streaming本质上还是基于Spark批处理系统对流式数据进行处理，和Storm等完全流式的数据处理方式完全不同。
Flink通过灵活的执行引擎，能够同时支持批处理任务与流处理任务

在执行引擎这一层，流处理系统与批处理系统最大不同在于节点间的数据传输方式：

对于一个流处理系统，其节点间数据传输的标准模型是：
- 当一条数据被处理完成后，序列化到缓存中，然后立刻通过网络传输到下一个节点，由下一个节点继续处理
对于一个批处理系统，其节点间数据传输的标准模型是：
- 当一条数据被处理完成后，序列化到缓存中，并不会立刻通过网络传输到下一个节点，当缓存写满，就持久化到本地硬盘上，当所有数据都被处理完成后，才开始将处理后的数据通过网络传输到下一个节点

这两种数据传输模式是两个极端，对应的是流处理系统对低延迟的要求和批处理系统对高吞吐量的要求

Flink的执行引擎采用了一种十分灵活的方式，同时支持了这两种数据传输模型

Flink以固定的缓存块为单位进行网络数据传输，用户可以通过设置缓存块超时值指定缓存块的传输时机。如果缓存块的超时值为0，则Flink的数据传输方式类似上文所提到流处理系统的标准模型，此时系统可以获得最低的处理延迟

如果缓存块的超时值为无限大，则Flink的数据传输方式类似上文所提到批处理系统的标准模型，此时系统可以获得最高的吞吐量

同时缓存块的超时值也可以设置为0到无限大之间的任意值。缓存块的超时阈值越小，则Flink流处理执行引擎的数据处理延迟越低，但吞吐量也会降低，反之亦然。通过调整缓存块的超时阈值，用户可根据需求灵活地权衡系统延迟和吞吐量

3.10. Flink的应用场景

阿里在Flink的应用主要包含四个模块：实时监控、实时报表、流数据分析和实时仓库。

实时监控：

用户行为预警、app crash 预警、服务器攻击预警
对用户行为或者相关事件进行实时监测和分析，基于风控规则进行预警

实时报表：

双11、双12等活动直播大屏
对外数据产品：生意参谋等
数据化运营

流数据分析：

实时计算相关指标反馈及时调整决策
内容投放、无线智能推送、实时个性化推荐等

实时仓库：

数据实时清洗、归并、结构化
数仓的补充和优化

从很多公司的应用案例发现，其实Flink主要用在如下三大场景：

场景一：Event-driven Applications【事件驱动】

事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算、状态更新或其他外部动作。

事件驱动型应用是在计算存储分离的传统应用基础上进化而来。

在传统架构中，应用需要读写远程事务型数据库。

相反，事件驱动型应用是基于状态化流处理来完成。在该设计中，数据和计算不会分离，应用只需访问本地（内存或磁盘）即可获取数据。系统容错性的实现依赖于定期向远程持久化存储写入 checkpoint。下图描述了传统应用和事件驱动型应用架构的区别。

典型的事件驱动类应用：

欺诈检测(Fraud detection)
异常检测(Anomaly detection)
基于规则的告警(Rule-based alerting)
业务流程监控(Business process monitoring)
Web应用程序(社交网络)

场景二：Data Analytics Applications【数据分析】

数据分析任务需要从原始数据中提取有价值的信息和指标。

如下图所示，Apache Flink 同时支持流式及批量分析应用。

Data Analytics Applications包含Batch analytics（批处理分析）和Streaming analytics（流处理分析）。

Batch analytics可以理解为周期性查询：比如Flink应用凌晨从Recorded Events中读取昨天的数据，然后做周期查询运算，最后将数据写入Database或者HDFS，或者直接将数据生成报表供公司上层领导决策使用。

Streaming analytics可以理解为连续性查询：比如实时展示双十一天猫销售GMV，用户下单数据需要实时写入消息队列，Flink 应用源源不断读取数据做实时计算，然后不断的将数据更新至Database或者K-VStore，最后做大屏实时展示。

典型的数据分析应用实例

电信网络质量监控
移动应用中的产品更新及实验评估分析
消费者技术中的实时数据即席分析
大规模图分析

场景三：Data Pipeline Applications【数据管道】

什么是数据管道？

提取-转换-加载（ETL）是一种在存储系统之间进行数据转换和迁移的常用方法。

ETL 作业通常会周期性地触发，将数据从事务型数据库拷贝到分析型数据库或数据仓库。

数据管道和 ETL 作业的用途相似，都可以转换、丰富数据，并将其从某个存储系统移动到另一个。

但数据管道是以持续流模式运行，而非周期性触发。因此它支持从一个不断生成数据的源头读取记录，并将它们以低延迟移动到终点。例如：数据管道可以用来监控文件系统目录中的新文件，并将其数据写入事件日志；另一个应用可能会将事件流物化到数据库或增量构建和优化查询索引。

和周期性 ETL 作业相比，持续数据管道可以明显降低将数据移动到目的端的延迟。此外，由于它能够持续消费和发送数据，因此用途更广，支持用例更多。

下图描述了周期性 ETL 作业和持续数据管道的差异。

Periodic ETL：比如每天凌晨周期性的启动一个Flink ETL Job，读取传统数据库中的数据，然后做ETL，最后写入数据库和文件系统。

Data Pipeline：比如启动一个Flink 实时应用，数据源（比如数据库、Kafka）中的数据不断的通过Flink Data Pipeline流入或者追加到数据仓库（数据库或者文件系统），或者Kafka消息队列。

典型的数据管道应用实例

电子商务中的实时查询索引构建
电子商务中的持续 ETL

思考：

假设你是一个电商公司，经常搞运营活动，但收效甚微，经过细致排查，发现原来是羊毛党在薅平台的羊毛，把补给用户的补贴都薅走了，钱花了不少，效果却没达到。我们应该怎么办呢？

你可以做一个实时的异常检测系统，监控用户的高危行为，及时发现高危行为并采取措施，降低损失。 

系统流程：
1.用户的行为经由app上报或web日志记录下来，发送到一个消息队列里去；
2.然后流计算订阅消息队列，过滤出感兴趣的行为，比如：购买、领券、浏览等；
3.流计算把这个行为特征化；
4.流计算通过UDF调用外部一个风险模型，判断这次行为是否有问题（单次行为）；
5.流计算里通过CEP功能，跨多条记录分析用户行为（比如用户先做了a，又做了b，又做了3次c），整体识别是否有风险；
6.综合风险模型和CEP的结果，产出预警信息。

你可能感兴趣的:(flink,spark,big,data)

C#：使用UDP协议实现数据的发送和接收妮妮学代码 c#UDP c#udp
UDP（UserDatagramProtocol）是一种无连接的、轻量级的传输协议，适用于对实时性要求较高的应用场景，如视频流、在线游戏等。与TCP不同，UDP不保证数据的可靠传输，但其传输效率更高。本文将详细介绍如何使用C#实现基于UDP协议的数据发送和接收，并结合代码示例解析其实现过程。1.概述UDP通讯的核心是UdpClient类，它封装了UDP协议的底层操作，提供了简单易用的接口。以下是U
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Vue.js 中常见的以 $ 开头的实例属性和方法遇见~未来 Vue.js vue.js javascript 前端
1.$data作用：包含Vue实例或组件的响应式数据对象。用法：通过this.$data访问组件的data数据。示例：exportdefault{data(){return{message:'Hello,Vue!'};},created(){console.log(this.$data.message);//输出:Hello,Vue!}};2.$el作用：指向Vue实例或组件的根DOM元素。用法：
DataEase二开记录--踩坑和详细步骤（一）风_间 DataEase 数据库 mysql java
最近在看DataEase，发现挺好用的，推荐使用。用的过程中萌生了二开的想法，于是自己玩了玩，并做了一些记录。开发环境问题下载源码，选稳定版本的，本案例是1.17.0版本。下载地址开源社区-FIT2CLOUD飞致云数据库配置数据库初始化：DataEase使用MySQL数据库，推荐使用MySQL5.7版本。同时DataEase对数据库部分配置项有要求，请参考下附的数据库配置，修改开发环境中的数据库配
java 实现数据库备份李逍遙️ mysql 数据库 java mysql
importcom.guangyi.project.model.system.DataBaseInFo;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.Inp
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
微信小程序检测滚动到某元素位置的计算方法萧寂173 微信小程序微信小程序小程序
wxml{{item}}回到顶部jsPage({data:{arr:['111','222','333','444','555','666','777','888','999','101010','111111','121212','131313','141414'],btnShow:false,//是否显示btntargetViewHeight:0//目标view的高度},onLoad(){th
echarts柱状图区间滚动没有天赋的搬砖者 echarts 前端 javascript
constxData=['00:00','01:00','02:00','03:00','04:00','05:00','06:00'];constbarData=[5,20,36,10,10,20];option={tooltip:{show:true,trigger:'axis',confine:true,formatter(item){consthtml=`${xData[item[0].d
【机器视觉】少量样本图片情况下的图片识别技术方案 yuanpan 机器学习人工智能计算机视觉
在只有少量图片样本的情况下，进行图像识别是一个具有挑战性的任务。以下是一些应对小样本问题的有效方案：1.数据增强（DataAugmentation）通过对现有样本进行各种变换来生成更多的训练数据，例如：几何变换：旋转、缩放、平移、翻转等。颜色变换：调整亮度、对比度、饱和度等。噪声添加：高斯噪声、椒盐噪声等。裁剪和填充：随机裁剪图像的一部分或填充边缘。工具：Keras：ImageDataGenera
table点击行事件，且点击行高亮爱吃玉米的兔子 vue.js javascript elementui
consttableData=[{id:1,date:"2025-03-20",name:"Tom",},{id:2,date:"2025-03-21",name:"Hom",},{id:3,date:"2025-03-22",name:"Rem",},];constselectedRow=ref(null);//储存选中的行//点击行操作事件constrowChange=(row)=>{sele
都快3202年了，你还不会用Java生成计算机统一标识符 Heping_Ge2333 java
Java生成计算机统一标识符计算机统一标识符的概念什么是计算机统一标识符？计算机统一标识符就相当于每台电脑每个系统的“身份证”。它是唯一的。通常，计算机统一标识符是根据电脑的硬件情况（主板、cpu的序列号，mac地址）和系统情况（windows/linux/unix）生成的。Java语言的实现下面这段代码浅浅的实现了计算机统一标识符importlombok.Data;importlombok.ex
DMA工作原理，过程超详解凭君语未可软考 DMA
DMADMA的工作原理DMA传输数据的步骤1.设备发出DMA请求2.CPU暂停并授权DMA控制器3.DMA控制器接管总线4.数据传输（传输周期）5.中断与总线释放DMA传输占用的总线周期详解（1）请求周期（RequestCycle）（2）仲裁周期（ArbitrationCycle）（3）地址周（AddressCycle）（4）数据周期（DataCycle）（5）释放周期（ReleaseCycle）
android MutableLiveData setValue 响应速速 postValue 快 mmsx Android 常用开发技术 android livedata
MutableLiveData是LiveData的一个可变版本，常用于在ViewModel中保存和管理UI相关的数据。MutableLiveData提供了两种主要的方法来更新其值：setValue和postValue。关于这两者的响应速度，通常认为setValue比postValue更快。下面详细解释这两者的区别以及影响响应速度的因素。一、setValuevspostValue1.setValue
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
Trading星周二Space第三期：理性应对波动，聚焦长期价值 web3区块链比特币
作者：Trading星周二在3月20日美联储利率决议这一关键节点前夕，TechubNews王牌栏目「Trading星周二」第三期以「加密资产仓位攻防战：政策拐点下的BTC/ETH配置法则」为主题，引发行业高度关注。数据显示，本期由主持人茄哥与Balance（Kingdata&Geniidata联合创始人）、A神（RITDLab联合创始人）、交易员Beyond、Cassie（LYSLab研究员）组成
K8S学习之基础三十六：node-exporter部署云上艺旅 K8S学习 kubernetes 学习贪心算法 prometheus 云原生
Prometheusv2.2.1编写yaml文件，包含创建ns、configmap、deployment、service#创建monitoring空间viprometheus-ns.yamlapiVersion:v1kind:Namespacemetadata:name:monitoring#创建SA并绑定权限kubectlcreateserviceaccountmonitor-nmonitori
快速上手系列丨如何管理 PieCloudDB Database 虚拟数仓云原生数据库教程管理
为增强社区用户的体验，PieCloudDBDatabase社区版已于8月完成了全面改版升级。同时，PieCloudDB社区还特别制作了《快速入门PieCloudDB社区版》系列课程，旨在帮助大家全面了解新版本，逐步探索PieCloudDB的强大功能。PieCloudDB社区版提供免费下载，可用于体验产品新特性、个人学习、PoC验证等场景，方便社区用户快速体验领先的数仓虚拟化技术。PieCloudD
python pip报错：Preparing metadata (pyproject.toml) ... error 我有一个魔盒其他 python pip 开发语言
环境：win11（Python3.9.13）原因：想安装低版本python，结果安装成了32位的，但是依赖包基本都是64位的。解决办法：重装64位python（可能还需要VisualStudio内安装“使用C++的桌面开发”）异常报错：Collectingmatplotlib~=3.0(fromgradio)Usingcachedhttps://pypi.tuna.tsinghua.edu.cn/
【使用 Element UI 实现手动上传文件：FormData 追加文件和其他参数，支持单文件覆盖上传】 Hermione_log vue.js elementui 前端
在开发Web应用时，文件上传是一个常见的需求。ElementUI提供了强大的el-upload组件，可以轻松实现文件上传功能。本文将详细介绍如何使用ElementUI实现以下功能：手动触发文件上传：用户选择文件后，点击按钮手动上传。使用FormData追加文件和其他参数：将文件和其他表单数据一起提交。单文件覆盖上传：只允许上传一个文件，新文件会覆盖旧文件。1.实现思路为了实现上述功能，我们需要以下
数据重放和数据倒灌的意思一样吗赛恩斯 android
数据重放与数据倒灌在机制上有相似性，但设计目的和适用场景存在本质差异：‌1.核心定义对比‌‌维度‌‌数据倒灌‌‌数据重放‌‌技术场景‌LiveData特有的现象，新观察者自动接收最后一次数据更新‌78通用异步流机制（如Flow的StateFlow/SharedFlow），允许新订阅者获取历史数据‌45‌设计意图‌LiveData的默认行为，旨在确保观察者始终获取最新数据‌38开发者主动配置的数据保
RAMS数据处理程序—垂直剖面分析程序 Hardess-god RAMS 人工智能算法
该程序的主要特点：使用Cartopy创建地图投影添加海岸线、国界线等地理要素绘制等值线图显示气象要素分布自动设置颜色标尺和标题支持不同层次的数据展示importmatplotlib.pyplotaspltdefplot_vertical_cross_section(data,start_lat,start_lon,end_lat,end_lon):"""绘制垂直剖面图"""#计算剖面线上的点num
BigemapPro 图斑名称自定义修改全攻略 Bigemap软件软件需求信息可视化
在地图制作中，图斑名称的显示和修改是一个常见但重要的任务。今天，我们就来详细讲解如何使用BigemapPro自定义修改图斑名称，并通过字段信息组合显示它的名称，让你的地图更加专业和直观！在完成图斑绘制后，若想让图斑名称即刻显示在地图上，操作非常简便。只需选中图层文件夹，点击鼠标右键，选择【显示图元名称】选项，图斑名称便会迅速出现在地图对应位置，帮助我们快速识别各个图斑。一、单个图斑名称修改手动修改
Bigemap Pro：国产数据要素设计软件(DED)正式发布 Bigemap软件信息可视化
在数字化时代，数据如同新时代的石油，蕴含着巨大的价值。从商业决策到科研探索，从城市规划到环境监测，海量数据的高效处理、精准分析与直观可视化，已成为各行业突破发展瓶颈、实现转型升级的关键所在。历经十年精心打磨与自主研发，BigemapPro这款国产数据要素设计软件犹如一匹黑马，强势闯入数据应用领域。接下来，就让我们一同揭开BigemapPro的神秘面纱，深入探寻其独特魅力，见证它如何重塑基础数据应用
python学习笔记之异常（内置标准异常总结） Molly_DD Python学习笔记 python 软件测试
python异常处理机制异常处理是python的一种高级工具，当异常发生时，程序会停止当前的所有工作，跳转到异常处理部分去执行。异常既可以是程序错误引发的，也可以由代码主动触发。异常处理基本结构try:可能引发异常的代码except异常类型名称：异常处理代码else：没有发生异常时执行的代码异常报错：try：classtest:defgetdata(self):returnself.datay=t
物联网为什么用MQTT不用 HTTP 或 UDP？工程师焱记物联网 http udp 硬件架构嵌入式硬件开源协议网络
先来两个代码对比，上传温度数据给服务器。MQTT代码示例//MQTT客户端连接到MQTT服务器mqttClient.connect("mqtt://broker.server.com:8883",clientId)//订阅特定主题mqttClient.subscribe("sensor/data",qos=1)//发布消息到主题mqttClient.publish("sensor/data","t
JQ实现异步请求的几种方法 CsharpDev-奶豆哥开发语言 javascript
在jQuery中，实现异步请求（AJAX）有多种方法。以下是几种常见的实现方式及其示例代码。1.$.ajax()方法$.ajax()是jQuery中最通用的AJAX方法，支持高度定制化。示例$.ajax({url:'你的请求地址',//请求URLmethod:'GET',//请求方法dataType:'json',//预期返回的数据类型success:function(response){cons
嵌入式硬件篇---Keil51中的关键字 Ronin-Lotus 嵌入式硬件篇程序代码篇上位机知识篇嵌入式硬件 c Keil 单片机关键字
文章目录前言1.存储类型关键字1.1code作用地址范围用途示例1.2data作用地址范围用途示例1.3idata作用地址范围用途示例1.4xdata作用地址范围用途示例1.5pdata作用地址范围用途示例1.6volatile作用用途示例2.其他常用关键字2.1bit作用示例2.2sbit作用示例2.3sfr/sfr16作用示例2.4reentrant作用示例2.5interrupt作用示例2.
10 分钟学会SpringValidation数据校验和全局异常处理 ohn.yu spring spring boot java
以下是一个使用Spring开发的简单RESTAPI小程序，通过对一张user表进行操作，代码演示如何RestAPI开发中实现数据校验、全局异常处理和返回Json格式数据。使用的核心框架包括SpringBootSpringWebSpringDataJPABeanValidation（JSR-303）Lombok1.项目依赖（pom.xml）创建一个Maven项目，添加以下依赖："xmlns:xsi=
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数