数据架构师

flink在k8s上的部署和使用教程

进大厂,身价翻倍的法宝来了!

主讲内容：docker/kubernetes 云原生技术，大数据架构，分布式微服务，自动化测试、运维。

视频地址：ke.qq.com/course/419718

官网：https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/python.html

架构

要了解一个系统，一般都是从架构开始。我们关心的问题是：系统部署成功后各个节点都启动了哪些服务，各个服务之间又是怎么交互和协调的。下方是 Flink 集群启动后架构图。

当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager，JobManager 再调度任务到各个 TaskManager 去执行，然后 TaskManager 将心跳和统计信息汇报给 JobManager。TaskManager 之间以流的形式进行数据的传输。上述三者均为独立的 JVM 进程。

Client 为提交 Job 的客户端，可以是运行在任何机器上（与 JobManager 环境连通即可）。提交 Job 后，Client 可以结束进程（Streaming的任务），也可以不结束并等待结果返回。
JobManager 主要负责调度 Job 并协调 Task 做 checkpoint，职责上很像 Storm 的 Nimbus。从 Client 处接收到 Job 和 JAR 包等资源后，会生成优化后的执行计划，并以 Task 的单元调度到各个 TaskManager 去执行。
TaskManager 在启动的时候就设置好了槽位数（Slot），每个 slot 能启动一个 Task，Task 为线程。从 JobManager 处接收需要部署的 Task，部署启动后，与自己的上游建立 Netty 连接，接收数据并处理。

可以看到 Flink 的任务调度是多线程模型，并且不同Job/Task混合在一个 TaskManager 进程中。

Graph

Flink 中的执行图可以分成四层：StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图。

StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑结构。
JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。主要的优化为，将多个符合条件的节点 chain 在一起作为一个节点，这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。
ExecutionGraph：JobManager 根据 JobGraph 生成ExecutionGraph。ExecutionGraph是JobGraph的并行化版本，是调度层最核心的数据结构。
物理执行图：JobManager 根据 ExecutionGraph 对 Job 进行调度后，在各个TaskManager 上部署 Task 后形成的“图”，并不是一个具体的数据结构。

这里对一些名词进行简单的解释。

StreamGraph：根据用户通过 Stream API 编写的代码生成的最初的图。
- StreamNode：用来代表 operator 的类，并具有所有相关的属性，如并发度、入边和出边等。
- StreamEdge：表示连接两个StreamNode的边。
JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。
- JobVertex：经过优化后符合条件的多个StreamNode可能会chain在一起生成一个JobVertex，即一个JobVertex包含一个或多个operator，JobVertex的输入是JobEdge，输出是IntermediateDataSet。
- IntermediateDataSet：表示JobVertex的输出，即经过operator处理产生的数据集。producer是JobVertex，consumer是JobEdge。
- JobEdge：代表了job graph中的一条数据传输通道。source 是 IntermediateDataSet，target 是 JobVertex。即数据通过JobEdge由IntermediateDataSet传递给目标JobVertex。
ExecutionGraph：JobManager 根据 JobGraph 生成ExecutionGraph。ExecutionGraph是JobGraph的并行化版本，是调度层最核心的数据结构。
- ExecutionJobVertex：和JobGraph中的JobVertex一一对应。每一个ExecutionJobVertex都有和并发度一样多的 ExecutionVertex。
- ExecutionVertex：表示ExecutionJobVertex的其中一个并发子任务，输入是ExecutionEdge，输出是IntermediateResultPartition。
- IntermediateResult：和JobGraph中的IntermediateDataSet一一对应。一个IntermediateResult包含多个IntermediateResultPartition，其个数等于该operator的并发度。
- IntermediateResultPartition：表示ExecutionVertex的一个输出分区，producer是ExecutionVertex，consumer是若干个ExecutionEdge。
- ExecutionEdge：表示ExecutionVertex的输入，source是IntermediateResultPartition，target是ExecutionVertex。source和target都只能是一个。
- Execution：是执行一个 ExecutionVertex 的一次尝试。当发生故障或者数据需要重算的情况下 ExecutionVertex 可能会有多个 ExecutionAttemptID。一个 Execution 通过 ExecutionAttemptID 来唯一标识。JM和TM之间关于 task 的部署和 task status 的更新都是通过 ExecutionAttemptID 来确定消息接受者。
物理执行图：JobManager 根据 ExecutionGraph 对 Job 进行调度后，在各个TaskManager 上部署 Task 后形成的“图”，并不是一个具体的数据结构。
- Task：Execution被调度后在分配的 TaskManager 中启动对应的 Task。Task 包裹了具有用户执行逻辑的 operator。
- ResultPartition：代表由一个Task的生成的数据，和ExecutionGraph中的IntermediateResultPartition一一对应。
- ResultSubpartition：是ResultPartition的一个子分区。每个ResultPartition包含多个ResultSubpartition，其数目要由下游消费 Task 数和 DistributionPattern 来决定。
- InputGate：代表Task的输入封装，和JobGraph中JobEdge一一对应。每个InputGate消费了一个或多个的ResultPartition。
- InputChannel：每个InputGate会包含一个以上的InputChannel，和ExecutionGraph中的ExecutionEdge一一对应，也和ResultSubpartition一对一地相连，即一个InputChannel接收一个ResultSubpartition的输出。

首先我们看到，JobGraph 之上除了 StreamGraph 还有 OptimizedPlan。OptimizedPlan 是由 Batch API 转换而来的。StreamGraph 是由 Stream API 转换而来的。为什么 API 不直接转换成 JobGraph？因为，Batch 和 Stream 的图结构和优化方法有很大的区别，比如 Batch 有很多执行前的预分析用来优化图的执行，而这种优化并不普适于 Stream，所以通过 OptimizedPlan 来做 Batch 的优化会更方便和清晰，也不会影响 Stream。JobGraph 的责任就是统一 Batch 和 Stream 的图，用来描述清楚一个拓扑图的结构，并且做了 chaining 的优化，chaining 是普适于 Batch 和 Stream 的，所以在这一层做掉。ExecutionGraph 的责任是方便调度和各个 tasks 状态的监控和跟踪，所以 ExecutionGraph 是并行化的 JobGraph。而“物理执行图”就是最终分布式在各个机器上运行着的tasks了。所以可以看到，这种解耦方式极大地方便了我们在各个层所做的工作，各个层之间是相互隔离的。

在k8s上的部署集群版flink服务器端

官网：https://ci.apache.org/projects/flink/flink-docs-stable/ops/deployment/kubernetes.html

Flink会话群集作为长期运行的Kubernetes部署执行。请注意，您可以在会话群集上运行多个Flink作业。部署群集后，需要将每个作业提交到群集。

安装后打开web页面

master节点运行jobManager程序
每一个worker节点将运行一个taskmanager程序。

The Web Client is on port 8081
JobManager RPC port 6123
TaskManagers RPC port 6122
TaskManagers Data port 6121

下载flink二进制软件

下载地址https://flink.apache.org/downloads.html

我这边使用的是flink1.7.2，hadoop2.7，scala2.11，所以我下载的是flink-1.7.2-bin-hadoop27-scala_2.11.tgz

我们开发的代码只是在客户端上，如果用服务器端的flink，需要我们在客户端的配置文件里面把flink服务器端信息配置进去。

配置文件在flink-1.7.2/conf/flink-conf.yaml中

jobmanager.rpc.address : master 节点ip
jobmanager.rpc.port: 6123        端口
rest.port: 8081  端口号
jobmanager.heap.mb : JobManager可用的内存数量  单位MB
taskmanager.heap.mb : 每个TaskManager可以用内存数量 单位MB
taskmanager.numberOfTaskSlots : 每个机器可用的CPU数量
parallelism.default : 集群中总的CPU数量
taskmanager.tmp.dirs : 临时目录

因为我们这里提交的是python进程，所以需要在jobmanager和taskmanager使用的flink镜像中封装python的包。
这里我们重构镜像，如果你的python代码用到其他的包，需要你自己把包封装进来

Dockerfile文件内容如下

FROM flink:latest
RUN apt update && apt install -y python3-dev && ln -s /usr/bin/python3 /usr/bin/python && apt install -y procps && apt clean

重新构建镜像

docker build -t luanpeng/lp:flink-1.7.2 .

将k8s部署文件中的镜像改为 luanpeng/lp:flink-1.7.2

提交流程

要想提交本地py文件的应用到集群，需要在配置文件中加入集群启动的相关信息，在flink-1.7.2/conf/flink-conf.yaml文件中修改内容

# JobManager的地址
jobmanager.rpc.address: 192.168.11.127
#JobManager的端口，默认6123
jobmanager.rpc.port: 32224

其他的任务调度的配置信息也可以在这个文件中修改。

我们在客户端上，我们编写了python代码，通过flink的pyflink.sh脚本，将我们的代码分解为job，并向jobmanager服务器发送job启动，并接收返回结果。在显示给我们的python代码端。

默认情况下，Flink通过调用”python”或”python3″来启动python进程，这取决于使用了哪种启动脚本。通过在 flink-conf.yaml 中设置 “python.binary.python[2/3]”对应的值，来设定你所需要的启动方式。

我们这里测试的python代码如下wordcount.py

from flink.plan.Environment import get_environment
from flink.functions.GroupReduceFunction import GroupReduceFunction

class Adder(GroupReduceFunction):
    def reduce(self, iterator, collector):
        count, word = iterator.next()
        count += sum([x[0] for x in iterator])
        collector.collect((count, word))
# 加载本地配置文件，获取一个集群运行环境
env = get_environment()
# 加载/创建一个运行环境
data = env.from_elements("Who's there?", "I think I hear them. Stand, ho! Who's there?")

# 指定对这些数据的操作
data \
    .flat_map(lambda x, c: [(1, word) for word in x.lower().split()]) \
    .group_by(1) \
    .reduce_group(Adder(), combinable=True) \
    .output()

# 运行程序
# env.execute(local=True)   # 设置execute(local=True)强制程序在本机运行
result = env.execute()   # 设置execute(local=True)强制程序在本机运行
print(result)

其中，output()方法仅适用于在本机上进行开发/调试，它会将数据集的内容输出到标准输出。（请注意，当函数在集群上运行时，结果将会输出到整个集群节点的标准输出流，即输出到workers的.out文件。）前两种方法，能够将数据集写入到对应的文件中。

使用客户端，将python脚本生成job推送到jobmanager

$  flink-1.7.2/bin/pyflink.sh ./wordcount.py 

Starting execution of program

Program execution finished
Job with JobID 22b8b06de9a5f56a71468d60063f1e94 has finished.
Job Runtime: 496 ms

这样就可以在taskmanager的pod中看到输出结果了。

在web页面上，我们也能看到执行成功

点击进入可以看到job进度图

如果执行不成功，可以在该页面查看Exceptions中显示的报错信息。

任务详解

从示例程序可以看出，Flink程序看起来就像普通的python程序一样。每个程序都包含相同的基本组成部分：不能缺少了某些部分，不然会无法执行。

获取一个运行环境
加载/创建初始数据
指定对这些数据的操作
指定计算结果的存放位置
运行程序

Environment（运行环境）是所有Flink程序的基础。通过调用Environment类中的一些静态方法来建立一个环境:

get_environment()

运行环境可通过多种读文件的方式来指定数据源。如果是简单的按行读取文本文件:

env = get_environment()
text = env.read_text("file:///path/to/file")

这样，你就获得了可以进行操作（apply transformations）的数据集。关于数据源和输入格式的更多信息，请参考Data Sources

一旦你获得了一个数据集DataSet，你就可以通过transformations来创建一个新的数据集，并把它写入到文件，再次transform，或者与其他数据集相结合。你可以通过对数据集调用自己个性化定制的函数来进行数据操作。例如，一个类似这样的数据映射操作：

data.map(lambda x: x*2)

这将会创建一个新的数据集，其中的每个数据都是原来数据集中的2倍。若要获取关于所有transformations的更多信息，及所有数据操作的列表，请参考Transformations。

当需要将所获得的数据集写入到磁盘时，调用下面三种函数的其中一个即可。

  data.write_text("", WriteMode=Constants.NO_OVERWRITE)
  write_csv("", line_delimiter='\n', field_delimiter=',', write_mode=Constants.NO_OVERWRITE)
  output()

其中，最后一种方法仅适用于在本机上进行开发/调试，它会将数据集的内容输出到标准输出。（请注意，当函数在集群上运行时，结果将会输出到整个集群节点的标准输出流，即输出到workers的.out文件。）前两种方法，能够将数据集写入到对应的文件中。关于写入到文件的更多信息，请参考Data Sinks。

当设计好了程序之后，你需要在环境中执行execute命令来运行程序。可以选择在本机运行，也可以提交到集群运行，这取决于Flink的创建方式。你可以通过设置execute(local=True)强制程序在本机运行。

本地调试

如果先不适用集群版flink，先使用本地flink进行代码调试，可以先在本地启动集群

flink-1.7.2/bin/start-cluster.sh

在配置文件conf/flink-conf.yaml中，设置集群的ip为localhost，端口可以不变。然后在代码中设置

env.execute(local=True)   # 设置execute(local=True)强制程序在本机运行

这样就能调用本地的flink进行代码调试。

flink 日志

Flink中的日志记录是使用slf4j日志记录界面实现的。作为底层日志记录框架，使用log4j。flink还提供了logback配置文件，并将它们作为属性传递给JVM。愿意使用logback而不是log4j的用户可以只排除log4j（或从lib /文件夹中删除它）。

log4j的配置文件在conf/log4j.properties中，flink使用-Dlog4j.configuration=参数将此文件的文件名和位置传递给JVM。

Flink附带以下默认属性文件：

log4j-cli.properties：由Flink命令行客户端使用（例如flink run）（不是在集群上执行的代码）
log4j-yarn-session.properties：启动YARN会话时由Flink命令行客户端使用（yarn-session.sh）
log4j.properties：JobManager / Taskmanager日志（独立和YARN）

调试日志在flink文件夹的log目录下面，由于flink没找到哪里配置日志level，所以控制台只会输出

starting execution of program
Failed to run plan: Job failed. (JobID: b8c522c0257bbd3a62b422045e21acad)

The program didn't contain a Flink job. Perhaps you forgot to call execute() on the execution environment.

所以只能自己查看日志文件。

延迟(惰性)求值

所有的Flink程序都是延迟执行的。当程序的主函数执行时，数据的载入和操作并没有在当时发生。与此相反，每一个被创建出来的操作都被加入到程序的计划中。当程序环境中的某个对象调用了execute()函数时，这些操作才会被真正的执行。不论该程序是在本地运行还是集群上运行。

延迟求值能够让你建立复杂的程序，并在Flink上以一个整体的计划单元来运行。

数据变换

数据变换（Data transformations）可以将一个或多个数据集映射为一个新的数据集。程序能够将多种变换结合到一起来进行复杂的整合变换。

该小节将概述各种可以实现的数据变换。transformations documentation数据变换文档中，有关于所有数据变换和示例的全面介绍。

Map:输入一个元素，输出一个元素

data.map(lambda x: x * 2)

FlatMap:输入一个元素，输出0,1，或多个元素

data.flat_map(
lambda x,c: [(1,word) for word in line.lower().split() for line 
in x])

MapPartition:通过一次函数调用实现并行的分割操作。该函数将分割变换作为一个”迭代器”，并且能够产生任意数量的输出值。每次分割变换的元素数量取决于变换的并行性和之前的操作结果。

data.map_partition(lambda x,c: [value * 2 for value in x])

Filter:对每一个元素，计算一个布尔表达式的值，保留函数计算结果为true的元素。

data.filter(lambda x: x > 1000)

Reduce:通过不断的将两个元素组合为一个，来将一组元素结合为一个单一的元素。这种缩减变换可以应用于整个数据集，也可以应用于已分组的数据集。

data.reduce(lambda x,y : x + y)

ReduceGroup:将一组元素缩减为1个或多个元素。缩减分组变换可以被应用于一个完整的数据集，或者一个分组数据集。

lass Adder(GroupReduceFunction):
def reduce(self, iterator, collector):
    count, word = iterator.next()
    count += sum([x[0] for x in iterator)      
    collector.collect((count, word))

data.reduce_group(Adder())

Aggregate:对一个数据集包含所有元组的一个域，或者数据集的每个数据组，执行某项built-in操作(求和，求最小值，求最大值)。聚集变换可以被应用于一个完整的数据集，或者一个分组数据集。

# This code finds the sum of all of the values in the first field
and the maximum of all of the values in the second field
data.aggregate(Aggregation.Sum, 0).and_agg(Aggregation.Max, 1)

# min(), max(), and sum() syntactic sugar functions are also available
data.sum(0).and_agg(Aggregation.Max, 1)

Join:对两个数据集进行联合变换，将得到一个新的数据集，其中包含在两个数据集中拥有相等关键字的所有元素对。也可通过JoinFunction来把成对的元素变为单独的元素。关于join keys的更多信息请查看 keys

# In this case tuple fields are used as keys.
# "0" is the join field on the first tuple
# "1" is the join field on the second tuple.
result = input1.join(input2).where(0).equal_to(1)

CoGroup:是Reduce变换在二维空间的一个变体。将来自一个或多个域的数据加入数据组。变换函数transformation function将被每一对数据组调用。关于定义coGroup keys的更多信息，请查看 keys 。

data1.co_group(data2).where(0).equal_to(1)

Cross:计算两个输入数据集的笛卡尔乘积(向量叉乘)，得到所有元素对。也可通过CrossFunction实现将一对元素转变为一个单独的元素。

result = data1.cross(data2)

Union:将两个数据集进行合并。

data.union(data2)

ZipWithIndex:为数据组中的元素逐个分配连续的索引。了解更多信息，请参考【Zip Elements Guide】(zip_elements_guide.html#zip-with-a-dense-index).

data.zip_with_index()

指定keys

一些变换（例如Join和CoGroup），需要在进行变换前，为作为输入参数的数据集指定一个关键字，而另一些变换（例如Reduce和GroupReduce），则允许在变换操作之前，对数据集根据某个关键字进行分组。

数据集可通过如下方式分组

reduced = data \
.group_by() \
.reduce_group()

Flink中的数据模型并不是基于键-值对。你无需将数据集整理为keys和values的形式。键是”虚拟的”：它们被定义为在真实数据之上，引导分组操作的函数。

为元组定义keys

最简单的情形是对一个数据集中的元组按照一个或多个域进行分组：

grouped = data \
.group_by(0) \
.reduce(/*do something*/)

数据集中的元组被按照第一个域分组。对于接下来的group-reduce函数，输入的数据组中，每个元组的第一个域都有相同的值。

grouped = data \
.group_by(0,1) \
.reduce(/*do something*/)

在上面的例子中，数据集的分组基于第一个和第二个域形成的复合关键字，因此，reduce函数输入数据组中，每个元组两个域的值均相同。
关于嵌套元组需要注意：如果你有一个使用了嵌套元组的数据集，指定group_by()操作，系统将把整个元组作为关键字使用。

向Flink传递函数

一些特定的操作需要采用用户自定义的函数，因此它们都接受lambda表达式和rich functions作为输入参数。

data.filter(lambda x: x > 5)

class Filter(FilterFunction):
    def filter(self, value):
        return value > 5

data.filter(Filter())

Rich functions可以将函数作为输入参数，允许使用broadcast-variables（广播变量），能够由init()函数参数化，是复杂函数的一个可考虑的实现方式。它们也是在reduce操作中，定义一个可选的combine function的唯一方式。
Lambda表达式可以让函数在一行代码上实现，非常便捷。需要注意的是，如果某个操作会返回多个数值，则其使用的lambda表达式应当返回一个迭代器。（所有函数将接收一个collector输入参数）。

数据类型

Flink的Python API目前仅支持python中的基本数据类型(int,float,bool,string)以及byte arrays。
运行环境对数据类型的支持，包括序列化器serializer，反序列化器deserializer，以及自定义类型的类。

class MyObj(object):
    def __init__(self, i):
        self.value = i

class MySerializer(object):
    def serialize(self, value):
        return struct.pack(">i", value.value)

class MyDeserializer(object):
    def _deserialize(self, read):
        i = struct.unpack(">i", read(4))[0]
        return MyObj(i)

env.register_custom_type(MyObj, MySerializer(), MyDeserializer())

Tuples/Lists

可以使用元组（或列表）来表示复杂类型。Python中的元组可以转换为Flink中的Tuple类型，它们包含数量固定的不同类型的域（最多25个）。每个域的元组可以是基本数据类型，也可以是其他的元组类型，从而形成嵌套元组类型。

word_counts = env.from_elements(("hello", 1), ("world",2))
counts = word_counts.map(lambda x: x[1])

当进行一些要求指定关键字的操作时，例如对数据记录进行分组或配对。通过设定关键字，可以非常便捷地指定元组中各个域的位置。你可以指定多个位置，从而实现复合关键字（更多信息，查阅Section Data Transformations）。

wordCounts \
.group_by(0) \
.reduce(MyReduceFunction())

数据源

数据源创建了初始的数据集，包括来自文件，以及来自数据接口/集合两种方式。

基于文件的：

read_text(path) – 按行读取文件，并将每一行以String形式返回。
read_csv(path,type) – 解析以逗号（或其他字符）划分数据域的文件。
返回一个包含若干元组的数据集。支持基本的java数据类型作为字段类型。

基于数据集合的：

from_elements(*args) – 基于一系列数据创建一个数据集，包含所有元素。
generate_sequence(from, to) – 按照指定的间隔，生成一系列数据。

Examples

env  = get_environment

\# read text file from local files system
localLiens = env.read_text("file:#/path/to/my/textfile")

\# read text file from a HDFS running at nnHost:nnPort
hdfsLines = env.read_text("hdfs://nnHost:nnPort/path/to/my/textfile")

\# read a CSV file with three fields, schema defined using constants defined in flink.plan.Constants
csvInput = env.read_csv("hdfs:///the/CSV/file", (INT, STRING, DOUBLE))

\# create a set from some given elements
values = env.from_elements("Foo", "bar", "foobar", "fubar")

\# generate a number sequence
numbers = env.generate_sequence(1, 10000000)

数据接收器

数据接收器可以接受DataSet，并用来存储和返回它们：

write_text() –按行以String形式写入数据。可通过对每个数据项调用str()函数获取String。
write_csv(…) – 将元组写入逗号分隔数值文件。行数和数据字段均可配置。每个字段的值可通过对数据项调用str()方法得到。
output() – 在标准输出上打印每个数据项的str()字符串。
一个数据集可以同时作为多个操作的输入数据。程序可以在写入或打印一个数据集的同时，对其进行其他的变换操作。

标准数据池相关方法示例如下：

write DataSet to a file on the local file system
textData.write_text("file:///my/result/on/localFS")

 write DataSet to a file on a HDFS with a namenode running at nnHost:nnPort
textData.write_text("hdfs://nnHost:nnPort/my/result/on/localFS")

 write DataSet to a file and overwrite the file if it exists
textData.write_text("file:///my/result/on/localFS", WriteMode.OVERWRITE)

 tuples as lines with pipe as the separator "a|b|c"
values.write_csv("file:///path/to/the/result/file", line_delimiter="\n", field_delimiter="|")

 this writes tuples in the text formatting "(a, b, c)", rather than as CSV lines
values.write_text("file:///path/to/the/result/file")

广播变量

使用广播变量，能够在使用普通输入参数的基础上，使得一个数据集同时被多个并行的操作所使用。这对于实现辅助数据集，或者是基于数据的参数化法非常有用。这样，数据集就可以以集合的形式被访问。
注册广播变量：广播数据集可通过调用with_broadcast_set(DataSet,String)函数，按照名字注册广播变量。
访问广播变量：通过对调用self.context.get_broadcast_variable(String)可获取广播变量。

class MapperBcv(MapFunction):
def map(self, value):
    factor = self.context.get_broadcast_variable("bcv")[0][0]
    return value * factor

# 1. The DataSet to be broadcasted
toBroadcast = env.from_elements(1, 2, 3)
data = env.from_elements("a", "b")

# 2. Broadcast the DataSet
data.map(MapperBcv()).with_broadcast_set("bcv", toBroadcast)

确保在进行广播变量的注册和访问时，应当采用相同的名字（示例中的”bcv”）。

注意：由于广播变量的内容被保存在每个节点的内部存储中，不适合包含过多内容。一些简单的参数，例如标量值，可简单地通过参数化rich function来实现。

并行执行

该章节将描述如何在Flink中配置程序的并行执行。一个Flink程序可以包含多个任务（操作，数据源和数据池）。一个任务可以被划分为多个可并行运行的部分，每个部分处理输入数据的一个子集。并行运行的实例数量被称作它的并行性或并行度degree of parallelism (DOP)。
在Flink中可以为任务指定不同等级的并行度。

运行环境级

Flink程序可在一个运行环境execution environment的上下文中运行。一个运行环境为其中运行的所有操作，数据源和数据池定义了一个默认的并行度。运行环境的并行度可通过对某个操作的并行度进行配置来修改。

一个运行环境的并行度可通过调用set_parallelism()方法来指定。例如，为了将WordCount示例程序中的所有操作，数据源和数据池的并行度设置为3，可以通过如下方式设置运行环境的默认并行度。

env = get_environment()
env.set_parallelism(3)
  
text.flat_map(lambda x,c: x.lower().split()) \
    .group_by(1) \
    .reduce_group(Adder(), combinable=True) \
    .output()
  
env.execute()

系统级

通过设置位于./conf/flink-conf.yaml.文件的parallelism.default属性，改变系统级的默认并行度，可设置所有运行环境的默认并行度。具体细节可查阅Configuration文档。

执行方法

为了在Flink中运行计划任务，到Flink目录下，运行/bin文件夹下的pyflink.sh脚本。对于python2.7版本，运行pyflink2.sh；对于python3.4版本，运行pyflink3.sh。包含计划任务的脚本应当作为第一个输入参数，其后可添加一些另外的python包，最后，在“-”之后，输入其他附加参数。

./bin/pyflink<2/3>.sh


    
        你可能感兴趣的:(架构,微服务架构)
        
            
                
                    一周热点：微软攻克语音输入、文本输出难题-Phi-4-multimodal
                        数据分析能量站
机器学习人工智能
                        微软Phi-4-multimodal模型是人工智能领域的一个重要进展，它标志着微软在多模态人工智能技术上的突破。以下是对该模型的详细解释：模型概述微软Phi-4-multimodal是一个能够同时处理文本、图像和语音的多模态大型语言模型。它通过创新的架构和训练方法，实现了在不同模态之间的无缝交互，为用户提供更自然、更智能的交互体验。模型架构该模型采用多模态Transformer架构，通过LoRA（
                    
                    MVC框架详解
                        大王算法
软件架构设计指南mvc
                        目录一、背景二、MVC框架简介2.1、模型（Model）2.2、视图（View）2.3、控制器（Controller）三、Qt的MVC框架设计3.1、Qt中的模型（Model）3.2、Qt中的视图（View）3.3、Qt中的控制器（Controller）四、MVC架构的优缺点1、MVC的优点(1).分离关注点：(2).促进模块化：(3).代码重用：2、MVC的缺点(1).学习曲线(2).代码复杂性
                    
                    深入了解 Kafka：应用场景、架构和GO代码示例
                        spiker_
kafka架构golang
                        深入了解Kafka：应用场景、架构和GO代码示例ApacheKafka是一个分布式流平台，用于实时数据处理和流处理。在这篇博客中，我们将介绍Kafka的主要应用场景、架构及主要组件，并展示如何使用Go语言操作Kafka，包括Kafka生产者、消费者的示例代码，以及如何通过KafkaConnectRESTAPI配置连接器。Kafka的主要应用场景实时数据流处理：Kafka用于处理实时数据流，如用户行
                    
                    用Python打造智能姓名生成器：从数据分离到AI赋能
                        灏瀚星空
python人工智能开发语言经验分享笔记
                        用Python打造智能姓名生成器：从数据分离到AI赋能目录项目概述与功能清单环境准备与工具选择项目架构设计核心代码实现AI古文解析模块交互界面开发使用示例与效果展示扩展思路与优化建议1.项目概述与功能清单核心功能数据管理CSV文件存储姓氏/名字库支持用户导入/导出数据交互界面姓名生成与实时预览已选名单管理（增删改查）排除词输入框（黑名单过滤）AI赋能从古文中提取字词及注解自动生成姓名寓意解析扩展功
                    
                    Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构
                        weixin_42587823
linux云计算nginx负载均衡架构
                        Nginx负载均衡策略详解：从轮询到智能分发，打造高可用服务架构一、负载均衡的核心价值当单台服务器无法承载高并发流量时，负载均衡通过将请求分发到多台服务器，实现：横向扩展：突破单机性能瓶颈故障隔离：自动剔除异常节点动态调度：根据策略优化资源利用率二、Nginx原生负载均衡策略1.轮询（RoundRobin）配置示例：upstreambackend{server192.168.1.10:8080;s
                    
                    在 Python 中实现 RESTful API 的完整指南
                        清水白石008
pythonPython题库pythonrestful开发语言
                        在Python中实现RESTfulAPI的完整指南随着互联网的发展，RESTfulAPI（RepresentationalStateTransfer）已成为现代应用程序架构的重要组成部分。RESTfulAPI允许不同系统之间通过HTTP协议进行通信，提供了一种简单而灵活的方式来访问和操作资源。在这篇文章中，我们将深入探讨如何在Python中实现RESTfulAPI，并提供简单的示例代码。一、什么是
                    
                    【无标题】采集板设计
                        weixin_42366388
测试工具
                        设计包含16片AD9680ADC和XilinxXC7V690FPGA的电路板需要解决高速数据接口、电源管理、时钟同步及PCB布局等关键挑战。**1.系统架构设计**####**核心组件**-**ADC**:16片AD9680（双通道14-bit1GSPS，JESD204B接口）-**FPGA**:XilinxXC7V690T-2FFG1761I（含48个GTX收发器，12.5Gbps/通道）-**
                    
                    python restful api 高并发_Python 之路，Restful API设计规范
                        IT小霸王
pythonrestfulapi高并发
                        理解RESTful架构RestfulAPI设计指南理解RESTful架构越来越多的人开始意识到，网站即软件，而且是一种新型的软件。这种"互联网软件"采用客户端/服务器模式，建立在分布式体系上，通过互联网通信，具有高延时(highlatency)、高并发等特点。网站开发，完全可以采用软件开发的模式。但是传统上，软件和网络是两个不同的领域，很少有交集；软件开发主要针对单机环境，网络则主要研究系统之间的
                    
                    4A架构：企业数字化转型的核心引擎
                        ronshi
架构架构
                        4A架构，即业务架构、应用架构、数据架构和技术架构的统称，是构建数字化企业的基石。这四个方面相互关联、相互支撑，共同构成了企业信息化建设的完整体系。一、业务架构：明确方向与目标业务架构是数字化转型的起点，通过对企业价值流和业务目标的梳理，为后续的架构设计提供指导。企业需明确战略定位，识别核心业务流程，并优化组织结构，以确保数字化转型与业务目标相契合。二、应用架构：实现业务能力应用架构将业务架构转化
                    
                    Java直通车系列43【Spring Boot】（断路器Hystrix）
                        浪九天
Java直通车java开发语言springcloud后端spring
                        目录断路器（Hystrix）1.基本概念2.工作原理3.主要功能场景示例1.项目准备2.添加依赖3.启用Hystrix4.定义服务调用方法并添加Hystrix注解5.在控制器中调用服务方法6.测试断路器（Hystrix）1.基本概念在微服务架构中，服务之间通常存在大量的依赖关系。当某个下游服务出现故障或响应超时，可能会导致调用它的上游服务出现请求堆积、资源耗尽，最终引发整个系统的雪崩效应。断路器（
                    
                    4A架构之间的关系和集成
                        chuixue24
架构设计架构
                        首先我们还是来看业务架构业务域，大家都知道在业务架构里面其实有三个核心的内容，一个是价值流，一个是业务能力，一个是业务流程。价值流往往就是顶端的流程，业务能力的分解往往是2~4级，对于详细的业务流程的分解往往就到了5~7级，只是原来在业务架构里面，我们没有太强调流程架构，实际上从架构的Y模型里面可以看到，在业务架构里面是有两个视角，一个就是业务能力的视角，一个是业务流程的视角。所以说我在这个地方专
                    
                    Java程序开发之分布式事务终极方案：Seata原理与实战
                        微风不留尘
javajava分布式Seatajava入门
                        一、分布式事务挑战与Seata定位1.CAP理论下的事务困境场景一致性要求可用性要求典型方案支付交易强一致性中等SeataAT/TCC订单创建最终一致高消息事务+Saga库存扣减强一致性高TCC+重试补偿2.Seata架构全景图发起全局事务协调分支事务协调分支事务注册分支注册分支全局提交/回滚
                    
                    使用Spring Boot Admin监控和管理微服务
                        微赚淘客系统开发者@聚娃科技
springboot微服务后端
                        使用SpringBootAdmin监控和管理微服务大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天我们将深入探讨如何利用SpringBootAdmin来监控和管理微服务，提升系统的稳定性和可靠性。1.引言随着微服务架构的流行，系统的复杂性和服务数量不断增加，监控和管理这些微服务变得尤为重要。SpringBootAdmin作为一款
                    
                    YOLO11改进-模块-引入CMUNeXt Block 增强全局信息
                        一勺汤
YOLOv11模型改进系列网络YOLO目标检测模块魔改YOLOv11YOLOV11模型改进
                        在医学图像分割领域面临诸多问题，如U形架构卷积网络难以提取全局信息，混合架构因计算资源受限在实际医疗场景应用受阻，轻量化网络在保证性能与提取全局信息上存在矛盾。因此，设计了CMUNeXtBlock，CMUNeXtBlock采用大核深度可分离卷积替代普通卷积来提取全局信息，凭借深度可分离卷积减少参数和计算成本以维持轻量化，同时综合利用卷积归纳偏置和全局信息提取能力，有效解决了这些问题。代码：http
                    
                    DG-Manba模型详解及代码复现
                        清风AI
深度学习计算机视觉pytorch人工智能神经网络
                        模型特点在DG-Manba模型的基础架构中，其独特的模型特点使其在处理序列数据时展现出卓越的性能。本节将详细介绍DG-Manba模型在架构、功能和性能方面的创新之处。选择性机制DG-Manba模型的核心创新在于其选择性机制。这种机制允许模型根据输入数据的特征动态调整其行为，类似于递归神经网络（RNN）中的门控机制，但在状态空间模型（SSM）的框架下提供了更广泛的应用可能性。通过这种方式，DG-Ma
                    
                    通过数据库网格架构构建现代分布式数据系统
                        Navicat中国
Navicat技术智库数据库架构分布式navicat信息可视化mongodbredis
                        在当今微服务驱动的世界中，企业在跨分布式系统管理数据方面面临着越来越多的挑战。数据库网格架构已成为应对这些挑战的强大解决方案，它提供了一种与现代应用架构相匹配的分散式数据管理方法。本文将探讨数据库网格架构的工作原理，以及如何使用PostgreSQL和MongoDB等流行数据库实施该架构。究竟什么是数据库网格架构？数据库网格架构是一种分散的数据基础架构管理方法，不同的数据库作为一个有凝聚力的系统协同
                    
                    RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践
                        小爷毛毛（卓寿杰）
系统架构与解决方案搜索推荐架构语言模型人工智能自然语言处理
                        重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展一、什么是RAGAgent？1.从信息处理到智能生成在自然语言处
                    
                    Linux企业级应用（二）深入解析LNMP架构与Nginx在企业级应用中的关键角色
                        洛秋_
Linux企业级应用linux架构nginx
                        文章目录深入解析LNMP架构与Nginx在企业级应用中的关键角色引言第一部分：LNMP架构概述第二部分：Nginx的核心功能与优势第三部分：LNMP平台的搭建与配置第四部分：LNMP平台的应用部署与管理第五部分：LNMP架构的优劣势分析结语个人网站：【洛秋导航】【洛秋资源小站】深入解析LNMP架构与Nginx在企业级应用中的关键角色引言随着互联网技术的飞速发展，Web服务的架构和性能需求不断提升。
                    
                    解锁命令模式：Java 编程中的解耦神器
                        编程巫师
设计模式命令模式java开发语言
                        系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
                    
                    解锁外观模式：Java 编程中的优雅架构之道
                        编程巫师
设计模式外观模式java架构
                        系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
                    
                    Free QWQ - 世界首个免费无限制分布式 QwQ API
                        安替-AnTi
大模型理论&实战指南开源大模型qwen分布式免费
                        文章目录简介截图网址/二维码介绍/推荐语核心特点使用方式技术栈简介一句话简介：基于QwQ32B大语言模型的完全免费、无限制、无需注册登录的分布式AI算力平台。截图网址/二维码官方网站：https://qwq.aigpu.cn介绍/推荐语FreeQWQ是世界上第一个完全免费、无限制的分布式AI算力平台，基于阿里最新开源的QwQ32B大语言模型提供强大的AI服务。通过创新的分布式算力架构，整合了来自全
                    
                    【2025】Electron Git Desktop 实战一（上）（架构及首页设计开发）
                        IsMShmily
_Electronelectrongitjavascript
                        源代码仓库：Github仓库【electron_git】Commit：bb40040GithubDesktop页面分析本节目标：1、实现类似GithubDesktop的「空仓库」提示页2、添加本地仓库逻辑编写从GithubDesktop我们看到他的主要页面分为三个区域Head头部区域（操作分支)Side侧边栏区域（查看更新的文件）Main主区域（查看文件Diff内容）Tip：其实初始化的时候只有一
                    
                    解锁适配器模式：代码重构与架构优化的魔法钥匙
                        编程巫师
设计模式java适配器模式设计模式
                        系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
                    
                    即插即用模块--KANLinear
                        苏格拉没有鞋底
模型训练深度学习人工智能python
                        KAN网络KAN网络即Kolmogorov-Arnold网络，是一类基于Kolmogorov-Arnold表示定理的神经网络架构，具有强大的非线性表达能力。在相同迭代次数下超越传统MLP，不仅训练速度更快，收敛性更好，而且在拟合复杂函数时的精度也明显提高。这是一个即插即用模块–KANLinear，使用时import这个代码文件，然后模型中的nn.Linear换成这个KANLinear即可impor
                    
                    DeepSeek 发布开源第二弹！让MoE架构效率提升的神助攻【DeepEP】
                        碣石潇湘无限路
开源架构llamaai
                        摘要：本文将针对DeepEP项目进行深入浅出的功能解析与设计分析，并在此基础上提出一些潜在的优化思路。本报告分为三个主要部分：功能解析、创新设计点、可能的优化方案。为了便于理解，文中会适度引用部分代码片段或函数接口说明。一、功能解析DeepEP旨在为MoE（MixtureofExperts）及其专家并行（Expert-Parallel）场景提供高效的通信库，核心功能包括：分发（Dispatch）：
                    
                    StarRocks x Demandbase ，助力北美 ABM 营销平台降本 90%！
                        
营销clickhouse
                        开源无国界，在“StarRocks全球用户精选案例”专栏中，我们将介绍北美营销平台Demandbase的用户案例。Demandbase于2007年创立于美国加州旧金山，专注于AI驱动的ABM平台，助力B2B营销人员实现业务突破。通过将ClickHouse替换为StarRocks，Demandbase解决了性能与灵活性问题。新架构基于ApacheIceberg和StarRocks，显著提升了数据处理
                    
                    WPF Prism模块加载 1.Appconfig的配置方式
                        她说彩礼65万
WPFPrism框架wpf
                        在使用Prism框架构建模块化WPF应用程序时，可以通过多种方式加载模块。其中一种方法是通过手动配置app.config文件来定义模块。这种方法允许你在不修改代码的情况下添加或移除模块，提高了灵活性和可维护性。手动配置app.config加载Prism模块的步骤1.添加必要的NuGet包确保你的项目中包含了以下NuGet包：Prism.Unity或其他你选择的依赖注入容器（如Prism.DryIo
                    
                    cursor全栈网页开发最合适的技术架构和开发语言
                        getapi
架构开发语言
                        在使用Cursor（一个基于AI的代码编辑器）进行前后端全栈网页开发时，选择合适的技术架构和开发语言非常重要。以下是一个推荐的技术架构和语言组合，能够帮助你高效开发并充分利用Cursor的功能。1.技术架构推荐对于全栈开发，建议采用MERN/MEAN技术栈或现代化的微前端架构，具体如下：(1)MERN技术栈MERN是MongoDB、Express.js、React和Node.js的缩写，是目前非常
                    
                    应用层之网络应用模型，HTTP/HTTPS协议
                        @ANONYME
httphttps网络协议p2p
                        应用层是网络协议栈的最顶层，直接为应用程序提供通信服务，定义了不同主机间应用进程交互的规则，包括报文类型、语法、语义及通信时序一、网络应用模型1.定义及特点模型定义核心特点典型应用场景C/S客户端向服务器发起请求，服务器集中处理并响应资源，依赖中心化架构1.角色明确（客户端与服务器分离）2.资源集中在服务器端3.依赖网络稳定性与服务器性能4.易于管理和维护Web服务（HTTP）、邮件系统（SMTP
                    
                    j2ee java是什么意思,j2ee是什么
                        sherlockhj
j2eejava是什么意思
                        熟悉Java的人有很多，但对于j2ee，很多人估计都是次听说了。那么这个j2ee是什么呢?它和Java有着什么千丝万缕的联系呢?1、j2ee是什么?要想知道j2ee是什么，必须先知道Java的三大分支。Java分为三个体系，分别为JavaSE(标准版)，JavaEE(企业版)，JavaME(微型版)这样看来的话，j2ee是属于java三大分支的一个。j2ee是一套全然不同于传统应用开发的技术架构，
                    
                                JAVA中的Enum
                                    周凡杨
javaenum枚举
                                    Enum是计算机编程语言中的一种数据类型---枚举类型。 在实际问题中，有些变量的取值被限定在一个有限的范围内。       例如，一个星期内只有七天 我们通常这样实现上面的定义： 
public String monday;
public String tuesday;
public String wensday;
public String thursday
                                
                                赶集网mysql开发36条军规
                                    Bill_chen
mysql业务架构设计mysql调优mysql性能优化
                                    (一)核心军规   (1)不在数据库做运算      cpu计算务必移至业务层；   (2)控制单表数据量      int型不超过1000w，含char则不超过500w；      合理分表；      限制单库表数量在300以内；   (3)控制列数量      字段少而精，字段数建议在20以内
                                
                                Shell test命令
                                    daizj
shell字符串test数字文件比较
                                    Shell test命令 
Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。  数值测试    参数 说明   -eq 等于则为真   -ne 不等于则为真   -gt 大于则为真   -ge 大于等于则为真   -lt 小于则为真   -le 小于等于则为真    
实例演示： 
num1=100
num2=100if test $[num1]
                                
                                XFire框架实现WebService(二)
                                    周凡杨
javawebservice
                                       有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 
Webservice的服务端(WEB工程)： 
两个java bean类： 
Course.java 
   package cn.com.bean; 
public class Course { 
    private 
                                
                                重绘之画图板
                                    朱辉辉33
画图板
                                           上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。 
       画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
                                
                                Java的IO流
                                    西蜀石兰
java
                                    刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。 
每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 
 
IO流作用是什么？ 
答：实现对文件的读写，这里的文件是广义的； 
 
Java如何实现程序到文件
                                
                                No matching PlatformTransactionManager bean found for qualifier 'add' - neither
                                    林鹤霄

                                    java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 
  
网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
                                
                                Row size too large (> 8126). Changing some columns to TEXT or BLOB
                                    aigo
column
                                    原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 
  
异常信息： 
Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
                                
                                JS 格式化时间
                                    alxw4616
JavaScript
                                    /**
 * 格式化时间 2013/6/13 by 半仙 [email protected]
 * 需要 pad 函数
 * 接收可用的时间值.
 * 返回替换时间占位符后的字符串
 *
 * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数
 * 如 YYYY 4占4位 YY 占2位<p></p>
 * MM DD hh mm
                                
                                队列中数据的移除问题
                                    百合不是茶
队列移除
                                      
   队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除,  代码如下; 
  
   // 
package com.Thread0715.com;

import java.util.ArrayList;

public class Threa
                                
                                Runnable接口使用实例
                                    bijian1013
javathreadRunnablejava多线程
                                    Runnable接口 
a.       该接口只有一个方法：public void run(); 
b.       实现该接口的类必须覆盖该run方法 
c.       实现了Runnable接口的类并不具有任何天
                                
                                oracle里的extend详解
                                    bijian1013
oracle数据库extend
                                    扩展已知的数组空间，例： 
DECLARE
  TYPE CourseList IS TABLE OF VARCHAR2(10);
  courses CourseList;
BEGIN
  --   初始化数组元素，大小为3
  courses := CourseList('Biol   4412 ', 'Psyc   3112 ', 'Anth   3001 ');
  --   
                                
                                【httpclient】httpclient发送表单POST请求
                                    bit1129
httpclient
                                    浏览器Form Post请求 
浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 
1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 
2. Form 
                                
                                【Hive十三】Hive读写Avro格式的数据
                                    bit1129
hive
                                     1. 原始数据 
hive> select * from word; 
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype  
  
  
 2. 创建avro格式的数据表 
  
hive> CREATE TABLE avro_table(age INT, name STRING)STORE
                                
                                nginx+lua+redis自动识别封解禁频繁访问IP
                                    ronin47

                                    在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段 内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在 指定的封禁时间后实行自动解封的目的。 
一、安装环境： 
 
 CentOS x64 release 6.4(Fin
                                
                                java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历
                                    bylijinnan
java
                                    
import java.util.LinkedList;
import java.util.List;
import java.util.Stack;


public class BinTreeTraverse {
	//private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 };
	private int[] array={ 10,6,
                                
                                Spring源码学习-XML 配置方式的IoC容器启动过程分析
                                    bylijinnan
javaspringIOC
                                    以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： 
 

ApplicationContext context = new FileSystemXmlApplicationContext
            ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
                                
                                [科研与项目]民营企业请慎重参与军事科技工程
                                    comsci
企业
                                     
 
     军事科研工程和项目 并非要用最先进，最时髦的技术，而是要做到“万无一失” 
 
   而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
                                
                                spring 定时器-两种方式
                                    cuityang
springquartz定时器
                                    方式一： 
间隔一定时间 运行 
 
<bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> 
 
 <bean id="updateSessionIdSchedule
                                
                                简述一下关于BroadView站点的相关设计
                                    damoqiongqiu
view
                                    终于弄上线了，累趴，戳这里http://www.broadview.com.cn 
  
简述一下相关的技术点 
  
前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。 
  
后端：U
                                
                                运维 PHP问题汇总
                                    dcj3sjt126com
windows2003
                                    1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页 
解决方法： 
后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。 
后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 
  
2、解决PHP168超级管理员上传图片提示你的空间不足 
网站是用PHP168做的，反映使用管理员在后台无法
                                
                                mac 下 安装php扩展 - mcrypt
                                    dcj3sjt126com
PHP
                                    MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下： 
 
  
  下载并解压libmcrypt-2.5.8.tar.gz。 
  在终端执行如下命令：  tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
                                
                                MongoDB更新文档 [四]
                                    eksliang
mongodbMongodb更新文档
                                    MongoDB更新文档 
转载请出自出处：http://eksliang.iteye.com/blog/2174104 
MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。 
语法结构如下： 
db.collection.update( criteria, objNew, upsert, multi) 
参数含义    参数   
                                
                                Linux下的解压，移除，复制，查看tomcat命令
                                    y806839048
tomcat
                                    重复myeclipse生成webservice有问题删除以前的，干净 
 
 1、先切换到：cd usr/local/tomcat5/logs 
 
2、tail -f catalina.out 
 
3、这样运行时就可以实时查看运行日志了 
 
 
 
 
Ctrl+c 是退出tail命令。 
 有问题不明的先注掉 
   cp /opt/tomcat-6.0.44/webapps/g
                                
                                Spring之使用事务缘由(3-XML实现)
                                    ihuning
spring
                                      
用事务通知声明式地管理事务 
  
事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
                                
                                GCD使用经验与技巧浅谈
                                    啸笑天
GC
                                    前言 
GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 
dispatch_once_t必须是全局或static变量 
这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下：        1  
                                
                                linux（Ubuntu）下常用命令备忘录1
                                    macroli
linux工作ubuntu
                                    在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls 
 
 ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息：  
 ls / 显示/.下的所有文件和目录  
 ls -l 给出文件或者文件夹的详细信息 
 ls -a 显示所有文件，包括隐藏文
                                
                                nodejs同步操作mysql
                                    qiaolevip
学习永无止境每天进步一点点mysqlnodejs
                                    // db-util.js
var mysql = require('mysql');
var pool = mysql.createPool({
  connectionLimit : 10,
  host: 'localhost',
  user: 'root',
  password: '',
  database: 'test',
  port: 3306
});


                                
                                一起学Hive系列文章
                                    superlxw1234
hiveHive入门
                                      
[一起学Hive]系列文章 目录贴，入门Hive，持续更新中。 
  
[一起学Hive]之一—Hive概述，Hive是什么 
[一起学Hive]之二—Hive函数大全-完整版 
[一起学Hive]之三—Hive中的数据库(Database)和表(Table) 
[一起学Hive]之四-Hive的安装配置 
[一起学Hive]之五-Hive的视图和分区 
[一起学Hive
                                
                                Spring开发利器：Spring Tool Suite 3.7.0 发布
                                    wiselyman
spring
                                    Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。 
  
在3.7.0版本主要做了如下的更新： 
  
 
 将eclipse版本更新至Eclipse Mars 4.5 GA 
 Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.