Function instance(函数实例)是函数执行框架的核心元素,由以下元素组成:
函数实例的内部工作流
Function worker 是一个逻辑组件,用于在Pulsar Functions的集群模式部署中监视、编排和执行单个函数。每个函数实例都可以作为线程或进程执行,具体取决于所选的配置。如果Kubernetes集群可用,则可以在Kubernetes中以StatefulSets的形式生成函数。
Function worker的内部架构和工作流如下
函数实例是在运行时内调用的,许多实例可以并行运行。Pulsar支持三种不同成本和隔离保证的函数运行时类型,以最大限度地提高部署灵活性。可以根据需要使用其中之一来运行函数。
Pulsar提供了三种不同的消息传递语义,可以将它们应用于一个函数。根据ack时间节点确定不同的传递语义实现。
提示
可以在创建函数时设置函数的处理保证。如下面的命令创建了一个应用了“精确一次”保证的函数。
bin/pulsar-admin functions create \
--name my-effectively-once-function \
--processing-guarantees EFFECTIVELY_ONCE \
可以使用update命令更改应用于函数的处理保证。
bin/pulsar-admin functions update \
--processing-guarantees ATMOST_ONCE \
目前,窗口函数仅在Java中可用,并且不支持MANUAL和effective -once delivery语义。窗口函数是跨数据窗口(即事件流的有限子集)执行计算的函数。如下图所示,流被划分为“桶”,其中可以应用函数。
函数的数据窗口定义包含两个策略:
触发策略和驱逐策略都由时间或计数驱动。
提示
滚动窗口将元素分配给具有指定时间长度或计数的窗口。滚动窗口的驱逐策略总是基于窗口已满。因此只需要指定触发器策略,基于计数或基于时间。在具有基于计数的触发策略的滚动窗口中,如以下示例所示,触发策略被设置为2。当窗口中有两个项目时,无论时间如何,都会触发并执行每个函数。
相反,如下面的示例所示,滚动窗口的窗口长度为10秒,这意味着当10秒的时间间隔过去时,函数将被触发,而不管窗口中有多少事件。
滑动窗口方法通过设置清除策略来限制保留用于处理的数据量,并使用滑动间隔设置触发器策略来定义固定的窗口长度。如果滑动间隔小于窗口长度,则存在数据重叠,这意味着同时落入相邻窗口的数据将被多次用于计算。如下面的示例所示,窗口长度为2秒,这意味着任何超过2秒的数据都将被清除,不会在计算中使用。滑动间隔被配置为1秒,这意味着该函数每秒执行一次,以处理整个窗口长度内的数据。
在独立的Pulsar中创建和验证函数(包括有状态函数和窗口函数)的分步说明和示例
functionsWorkerEnabled=true
如果是standalone Pulsar 在conf/standalone.conf文件中增加上面的字段。
bin/pulsar-daemon stop broker
bin/pulsar-daemon start broker
bin/pulsar-admin functions-worker get-cluster
使用官方的函数示例演示,查看根目录下examples文件夹
bin/pulsar-admin tenants create my-test
bin/pulsar-admin namespaces create my-test/my-namespace
bin/pulsar-admin namespaces list my-test
tenant: "my-test"
namespace: "my-namespace"
name: "example"
className: "org.apache.pulsar.functions.api.examples.ExclamationFunction"
inputs: ["persistent://my-test/my-namespace/test_src"]
userConfig:
"PublishTopic": "persistent://my-test/my-namespace/test_result"
output: "persistent://my-test/my-namespace/test_result"
autoAck: true
parallelism: 1
bin/pulsar-admin functions create \
--function-config-file examples/example-function-config.yaml \
--jar examples/api-examples.jar
bin/pulsar-admin functions get \
--tenant my-test \
--namespace my-namespace \
--name example
bin/pulsar-admin functions status \
--tenant my-test \
--namespace my-namespace \
--name example
bin/pulsar-client consume persistent://my-test/my-namespace/test_result -s 'my-subscription' -p Earliest -n 0
bin/pulsar-client produce persistent://my-test/my-namespace/test_src --messages "test-messages-`date`" -n 10
### Grpc Server ###
#
## the grpc server port to listen on. default is 4181
storageserver.grpc.port=4181
#
#### Dlog Settings for table service ###
#
##### Replication Settings
dlog.bkcEnsembleSize=3
dlog.bkcWriteQuorumSize=2
dlog.bkcAckQuorumSize=2
#
#### Storage ###
#
## local storage directories for storing table ranges data (e.g. rocksdb sst files)
storage.range.store.dirs=data/bookkeeper/ranges
#
## whether the storage server capable of serving readonly tables. default is false.
storage.serve.readonly.tables=false
#
## the cluster controller schedule interval, in milliseconds. default is 30 seconds.
storage.cluster.controller.schedule.interval.ms=30000
tenant: "my-test"
namespace: "my-namespace"
name: "word_count"
className: "org.apache.pulsar.functions.api.examples.WordCountFunction"
inputs: ["persistent://my-test/my-namespace/wordcount_src"] # this function will read messages from these topics
autoAck: true
parallelism: 1
bin/pulsar-admin functions create \
--function-config-file examples/example-stateful-function-config.yaml \
--jar examples/api-examples.jar
bin/pulsar-admin functions querystate \
--tenant my-test \
--namespace my-namespace \
--name word_count -k itxs -w
bin/pulsar-client consume persistent://my-test/my-namespace/wordcount_result -s 'my-subscription' -p Earliest -n 0
bin/pulsar-client consume test_wordcount_dest -s 'my-subscription' -p Earliest -n 0
bin/pulsar-client produce persistent://my-test/my-namespace/wordcount_src --messages "itxs" -n 10
tenant: "my-test"
namespace: "my-namespace"
name: "window-example"
className: "org.apache.pulsar.functions.api.examples.AddWindowFunction"
inputs: ["persistent://my-test/my-namespace/window_src"]
userConfig:
"PublishTopic": "persistent://my-test/my-namespace/window_result"
output: "persistent://my-test/my-namespace/window_result"
autoAck: true
parallelism: 1
windowConfig:
windowLengthCount: 10
slidingIntervalCount: 5
bin/pulsar-admin functions create \
--function-config-file examples/example-window-function-config.yaml \
--jar examples/api-examples.jar
bin/pulsar-client consume -s test-sub -n 0 persistent://my-test/my-namespace/window_result
bin/pulsar-client produce -m "3" -n 10 persistent://my-test/my-namespace/window_src
Pulsar 函数支持Java、Python和Go等语言,如果是Java语言则支持下面三类接口:
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0modelVersion>
<groupId>cn.itxsgroupId>
<artifactId>pulsar-demoartifactId>
<version>1.0version>
<properties>
<maven.compiler.source>17maven.compiler.source>
<maven.compiler.target>17maven.compiler.target>
<project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
properties>
<build>
<plugins>
<plugin>
<artifactId>maven-assembly-pluginartifactId>
<configuration>
<appendAssemblyId>falseappendAssemblyId>
<descriptorRefs>
<descriptorRef>jar-with-dependenciesdescriptorRef>
descriptorRefs>
<archive>
<manifest>
<mainClass>sn.itxs.pulsar.function.NativeFunctionDemomainClass>
manifest>
archive>
configuration>
<executions>
<execution>
<id>make-assemblyid>
<phase>packagephase>
<goals>
<goal>assemblygoal>
goals>
execution>
executions>
plugin>
<plugin>
<groupId>org.apache.maven.pluginsgroupId>
<artifactId>maven-compiler-pluginartifactId>
<version>3.10.1version>
plugin>
plugins>
build>
project>
package sn.itxs.pulsar.function;
import java.util.function.Function;
public class NativeFunctionDemo implements Function<String, String> {
@Override
public String apply(String s) {
return String.format("hahaha,native implement %s!", s);
}
}
打包生成pulsar-demo-1.0.jar,上传到安装Pulsar服务器上的,这里就放在pulsar根目录下的examples文件夹,后续的操作就和前面函数示例一样
创建函数描述文件,vim examples/native-example-function-config.yaml
tenant: "my-test"
namespace: "my-namespace"
name: "native-example"
className: "sn.itxs.pulsar.function.NativeFunctionDemo"
inputs: ["persistent://my-test/my-namespace/native_src"]
userConfig:
"PublishTopic": "persistent://my-test/my-namespace/native_result"
output: "persistent://my-test/my-namespace/native_result"
autoAck: true
parallelism: 1
bin/pulsar-admin functions create \
--function-config-file examples/native-example-function-config.yaml \
--jar examples/pulsar-demo-1.0.jar
bin/pulsar-client consume persistent://my-test/my-namespace/native_result -s 'my-subscription' -p Earliest -n 0
bin/pulsar-client produce persistent://my-test/my-namespace/native_src --messages "actual pulsar" -n 10
<properties>
<pulsar.version>2.11.0</pulsar.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.pulsar</groupId>
<artifactId>pulsar-functions-api</artifactId>
<version>${pulsar.version}</version>
</dependency>
</dependencies>
打包指定sn.itxs.pulsar.function.SdkFunctionDemo
创建SdkFunctionDemo.java
package sn.itxs.pulsar.function;
import org.apache.pulsar.functions.api.Context;
import org.apache.pulsar.functions.api.Function;
public class SdkFunctionDemo implements Function<String, String> {
@Override
public String process(String input, Context context) {
return String.format("hahaha,pulsar sdk implement %s!", input);
}
}
打包生成pulsar-demo-1.0.jar,上传到安装Pulsar服务器上的,这里还是覆盖pulsar根目录下的examples文件夹文件,其他和前面一样
创建函数描述文件,vim examples/sdk-example-function-config.yaml
tenant: "my-test"
namespace: "my-namespace"
name: "sdk-example"
className: "sn.itxs.pulsar.function.SdkFunctionDemo"
inputs: ["persistent://my-test/my-namespace/sdk_src"]
userConfig:
"PublishTopic": "persistent://my-test/my-namespace/sdk_result"
output: "persistent://my-test/my-namespace/sdk_result"
autoAck: true
parallelism: 1
bin/pulsar-admin functions create \
--function-config-file examples/sdk-example-function-config.yaml \
--jar examples/pulsar-demo-1.0.jar
bin/pulsar-client consume persistent://my-test/my-namespace/sdk_result -s 'my-subscription' -p Earliest -n 0
bin/pulsar-client produce persistent://my-test/my-namespace/sdk_src --messages "actual pulsar" -n 10