weixin_34055910

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink

https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247492538&idx=2&sn=9a2bd9fe2d7fd681c10ebd368ef81c9c&chksm=fbea5a75cc9dd3636c148ebe6e296621d0c07132938a62f0b3643f34af414b3fd85e616e754b&scene=0&key=f9325dcb38245ddcc4d3ff16d58d0602dc8b5a680b011fb377597865a73a9fe39fb1a37a2ac92b1374a6e89170f0e7d366ebdfd286651f10ac319eb028a94291f051cce5ac3c287c1ab69751b6dc19cd&ascene=1&uin=MjgwMTEwNDQxNg%3D%3D&devicetype=Windows-QQBrowser&version=6103000b&lang=zh_CN&pass_ticket=DXC1954%2BK1SGTbNf0BfROhv9qHwlnnEPi%2BhWkN5VYUoPmHizjz4O33VIful%2FVDWv

AI 前线导读： 本文是 Apache Beam 实战指南系列文章 第二篇，将重点介绍 Apache Beam 与 Flink 的关系，对 Beam 框架中的 KafkaIO 和 Flink 源码进行剖析，并结合应用示例和代码解读带你进一步了解如何结合 Beam 玩转 Kafka 和 Flink。系列文章第一篇回顾《Apache Beam 实战指南之基础入门》。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

关于 Apache Beam 实战指南系列文章

随着大数据 2.0 时代悄然到来，大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌现出诸多大数据应用组件，如 HBase、Hive、Kafka、Spark、Flink 等。开发者经常要用到不同的技术、框架、API、开发语言和 SDK 来应对复杂应用的开发，这大大增加了选择合适工具和框架的难度，开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。

面对这种情况，Google 在 2016 年 2 月宣布将大数据流水线产品（Google DataFlow）贡献给 Apache 基金会孵化，2017 年 1 月 Apache 对外宣布开源 Apache Beam，2017 年 5 月迎来了它的第一个稳定版本 2.0.0。在国内，大部分开发者对于 Beam 还缺乏了解，社区中文资料也比较少。InfoQ 期望通过 Apache Beam 实战指南系列文章 推动 Apache Beam 在国内的普及。

一．概述

大数据发展趋势从普通的大数据，发展成 AI 大数据，再到下一代号称万亿市场的 lOT 大数据。技术也随着时代的变化而变化，从 Hadoop 的批处理，到 Spark Streaming，以及流批处理的 Flink 的出现，整个大数据架构也在逐渐演化。

Apache Beam 作为新生技术，在这个时代会扮演什么样的角色，跟 Flink 之间的关系是怎样的？Apache Beam 和 Flink 的结合会给大数据开发者或架构师们带来哪些意想不到的惊喜呢？

二．大数据架构发展演进历程2.1 大数据架构 Hadoop

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第1张图片

图 2-1 MapReduce 流程图

最初做大数据是把一些日志或者其他信息收集后写入 Hadoop 的 HDFS 系统中，如果运营人员需要报表，则利用 Hadoop 的 MapReduce 进行计算并输出，对于一些非计算机专业的统计人员，后期可以用 Hive 进行统计输出。

2.2 流式处理 Storm

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第2张图片

图 2-2Storm 流程图

业务进一步发展，运营人员需要看到实时数据的展示或统计。例如电商网站促销的时候，用于统计用户实时交易数据。数据收集也使用 MQ，用流式 Storm 解决这一业务需求问题。

2.3 Spark 批处理和微批处理

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第3张图片

图 2-3 Spark 流程图

业务进一步发展，服务前端加上了网关进行负载均衡，消息中心也换成了高吞吐量的轻量级 MQ Kafka，数据处理渐渐从批处理发展到微批处理。

2.4 Flink：真正的流批处理统一

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第4张图片

图 2-4 Flink 流程图

随着 AI 和 loT 的发展，对于传感设备的信息、报警器的警情以及视频流的数据量微批计算引擎已经满足不了业务的需求，Flink 实现真正的流处理让警情更实时。

2.5 下一代大数据处理统一标准 Apache Beam

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第5张图片

图 2-5 Apache Beam 流程图

BeamSDKs 封装了很多的组件 IO，也就是图左边这些重写的高级 API，使不同的数据源的数据流向后面的计算平台。通过将近一年的发展，Apache Beam 不光组件 IO 更加丰富了，并且计算平台在当初最基本的 Apache Apex、Direct Runner、Apache Flink、Apache Spark、Google Cloud Dataflow 之上，又增加了 Gearpump、Samza 以及第三方的 JStorm 等计算平台。

为什么说 Apache Beam 会是大数据处理统一标准呢？

因为很多现在大型公司都在建立自己的“大中台”，建立统一的数据资源池，打通各个部门以及子公司的数据，以解决信息孤岛问题，把这些数据进行集中式管理并且进行后期的数据分析、BI、AI 以及机器学习等工作。这种情况下会出现很多数据源，例如之前用的 MySQL、MongodDB、HDFS、HBase、Solr 等，如果想建立中台就会是一件令人非常苦恼的事情，并且多计算环境更是让技术领导头疼。Apache Beam 的出现正好迎合了这个时代的新需求，它集成了很多数据库常用的数据源并把它们封装成 SDK 的 IO，开发人员没必要深入学习很多技术，只要会写 Beam 程序就可以了，大大节省了人力、时间以及成本。

三．Apache Beam 和 Flink 的关系

随着阿里巴巴 Blink 的开源，Flink 中国社区开始活跃起来。很多人会开始对各种计算平台进行对比，比如 Storm、Spark、JStorm、Flink 等，并且有人提到之前阿里巴巴开源的 JStorm 比 Flink 性能高出 10-15 倍，为什么阿里巴巴却转战基于 Flink 的 Blink 呢? 在最近 Flink 的线下技术会议上，阿里巴巴的人已经回答了这一问题。其实很多技术都是从业务实战出来的，随着业务的发展可能还会有更多的计算平台出现，没有必要对此过多纠结。

不过，既然大家最近讨论得这么火热，这里也列出一些最近问的比较多的、有代表性的关于 Beam 的问题，逐一进行回答。

1. Flink 支持 SQL，请问 Beam 支持吗？

现在 Beam 是支持 SQL 处理的，底层技术跟 Flink 底层处理是一样的。

Beam SQL 现在只支持 Java，底层是 Apache Calcite 的一个动态数据管理框架，用于大数据处理和一些流增强功能，它允许你自定义数据库功能。例如 Hive 使用了 Calcite 的查询优化，当然还有 Flink 解析和流 SQL 处理。Beam 在这之上添加了额外的扩展，以便轻松利用 Beam 的统一批处理 / 流模型以及对复杂数据类型的支持。以下是 Beam SQL 具体处理流程图：

Beam SQL 一共有两个比较重要的概念：

SqlTransform：用于 PTransforms 从 SQL 查询创建的接口。

Row：Beam SQL 操作的元素类型。例如：PCollection。

在将 SQL 查询应用于 PCollection 之前，集合中 Row 的数据格式必须要提前指定。一旦 Beam SQL 指定了管道中的类型是不能再改变的。PCollection 行中字段 / 列的名称和类型由 Schema 进行关联定义。您可以使用 Schema.builder() 来创建 Schemas。

示例：

// Define the schema for the records.
Schema appSchema = 
 Schema
   .builder()
   .addInt32Field("appId")
   .addStringField("description")
   .addDateTimeField("rowtime")
   .build();
// Create a concrete row with that type.
Row row = 
 Row
   .withSchema(appSchema)
   .addValues(1, "Some cool app", new Date())
   .build();
// Create a source PCollection containing only that row
PCollection<Row> testApps = 
 PBegin
   .in(p)
   .apply(Create
             .of(row)
             .withCoder(appSchema.getRowCoder()));

也可以是其他类型，不是直接是 Row，利用 PCollection通过应用 ParDo 可以将输入记录转换为 Row 格式。如：

// An example POJO class.
class AppPojo {
Integer appId;
String description;
Date timestamp;
}
// Acquire a collection of POJOs somehow.
PCollection pojos = ...
// Convert them to Rows with the same schema as defined above via a DoFn.
PCollection apps = pojos
.apply(
    ParDo.of(new DoFn() {
      @ProcessElement
      public void processElement(ProcessContext c) {
        // Get the current POJO instance
        AppPojo pojo = c.element();
        // Create a Row with the appSchema schema 
          // and values from the current POJO
          Row appRow = 
                Row
                  .withSchema(appSchema)
                 .addValues(
                    pojo.appId, 
                    pojo.description, 
                   pojo.timestamp)
                  .build();
        // Output the Row representing the current POJO
        c.output(appRow);
      }
    }));

2. Flink 有并行处理，Beam 有吗？

Beam 在抽象 Flink 的时候已经把这个参数抽象出来了，在 Beam Flink 源码解析中会提到。

3. 我这里有个流批混合的场景，请问 Beam 是不是支持？

这个是支持的，因为批也是一种流，是一种有界的流。Beam 结合了 Flink，Flink dataset 底层也是转换成流进行处理的。

4. Flink 流批写程序的时候和 Beam 有什么不同？底层是 Flink 还是 Beam?

打个比喻，如果 Flink 是 Lucene，那么 Beam 就是 Solr，把 Flink 的 API 进行二次重写，简化了 API，让大家使用更简单、更方便。此外，Beam 提供了更多的数据源，这是 Flink 不能比的。当然，Flink 后期可能也会往这方面发展。

四．Apache Beam KafkaIO 源码剖析KafkaIO 对 kafka-clients 支持依赖情况

KafkaIO 是 Kafka 的 API 封装，主要负责 Apache Kafka 读取和写入消息。如果想使用 KafkaIO，必须依赖 beam-sdks-java-io-kafka ，KafkaIO 同时支持多个版本的 Kafka 客户端，使用时建议用高版本的或最新的 Kafka 版本，因为使用 KafkaIO 的时候需要包含 kafka-clients 的依赖版本。

Apache Beam KafkaIO 对各个 kafka-clients 版本的支持情况如下表：

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第7张图片

表 4-1 KafkaIO 与 kafka-clients 依赖关系表

Apache Beam V2.1.0 版本之前源码中的 pom 文件都显式指定了特定的 0.9.0.1 版本支持，但是从 V2.1.0 版本和 V2.1.1 两个版本开始已经替换成了 kafka-clients 的 0.10.1.0 版本，并且源码中提示 0.10.1.0 版本更安全。这是因为去年 Kafka 0.10.1.0 之前的版本曝出了安全漏洞。在 V2.2.0 以后的版本中，Beam 对 API 做了调整和更新，对之前的两种版本都支持，不过需要在 pom 中引用的时候自己指定 Kafka 的版本。但是在 Beam V2.5.0 和 V2.6.0 版本，源码中添加了以下提示：

* Supported Kafka Client Versions

* KafkaIO relies on kafka-clients for all its interactions with the Kafka cluster.
* kafka-clients versions 0.10.1 and newer are supported at runtime. The older versions
* 0.9.x - 0.10.0.0 are also supported, but are deprecated and likely be removed in near future.
* Please ensure that the version included with the application is compatible with the version of
* your Kafka cluster. Kafka client usually fails to initialize with a clear error message in
* case of incompatibility.
*/

也就说在这两个版本已经移除了对 Kafka 客户端 0.10.1.0 以前版本的支持，旧版本还会支持，但是在以后不久就会删除。所以大家在使用的时候要注意版本的依赖关系和客户端的版本支持度。

如果想使用 KafkaIO，pom 必须要引用，版本跟 4-1 表中的对应起来就可以了。

<dependency>
  <groupId>org.apache.beamgroupId>
  <artifactId>beam-sdks-java-io-kafkaartifactId>
  <version>...version>
dependency>
<dependency>
<groupId>org.apache.kafkagroupId>
<artifactId>kafka-clientsartifactId>
<version>a_recent_versionversion>
<scope>runtimescope>
dependency>

KafkaIO 读写源码解析

KafkaIO 源码链接如下：

https://github.com/apache/beam/blob/master/sdks/java/io/kafka/src/main/java/org/apache/beam/sdk/io/kafka/KafkaIO.java

在 KafkaIO 里面最主要的两个方法是 Kafka 的读写方法。

KafkaIO 读操作

pipeline.apply(KafkaIO.String>read() 
      .withBootstrapServers("broker_1:9092,broker_2:9092")// 
      .withTopic("my_topic")    // use withTopics(List) to read from multiple topics. 
      .withKeyDeserializer(LongDeserializer.class) 
     .withValueDeserializer(StringDeserializer.class) 
     // Above four are required configuration. returns   PCollection> 
     // Rest of the settings are optional :  
      // you can further customize KafkaConsumer used to read the records by   adding more 
     // settings for ConsumerConfig. e.g : 
     .updateConsumerProperties(ImmutableMap.of("group.id",   "my_beam_app_1")) 

      // set event times and watermark based on 'LogAppendTime'. To provide   a custom 
     // policy see withTimestampPolicyFactory(). withProcessingTime() is   the default. 
     // Use withCreateTime() with topics that have 'CreateTime' timestamps. 
      .withLogAppendTime()  
     // restrict reader to committed messages on Kafka (see method   documentation). 
      .withReadCommitted()  
      // offset consumed by the pipeline can be committed back. 
      .commitOffsetsInFinalize()  
      // finally, if you don't need Kafka metadata, you can drop it.g 
     .withoutMetadata() // PCollection> 
   ) 
   .apply(Values.<String>create()) // PCollection

1) 指定 KafkaIO 的模型，从源码中不难看出这个地方的 KafkaIO类型是 Long 和 String 类型，也可以换成其他类型。

pipeline.apply(KafkaIO.read()

2) 设置 Kafka 集群的集群地址。

.withBootstrapServers("broker_1:9092,broker_2:9092")

3) 设置 Kafka 的主题类型，源码中使用了单个主题类型，如果是多个主题类型则用 withTopics(List) 方法进行设置。设置情况基本跟 Kafka 原生是一样的。

.withTopic("my_topic") // use withTopics(List<String>) to read from multiple topics.

4) 设置序列化类型。Apache Beam KafkaIO 在序列化的时候做了很大的简化，例如原生 Kafka 可能要通过 Properties 类去设置，还要加上很长一段 jar 包的名字。

Beam KafkaIO 的写法：

.withKeyDeserializer(LongDeserializer.class) 
.withValueDeserializer(StringDeserializer.class)

原生 Kafka 的设置：

Properties props = new Properties();
props.put("key.deserializer","org.apache.kafka.common.serialization.ByteArrayDeserializer");
props.put("value.deserializer","org.apache.kafka.common.serialization.ByteArrayDeserializer");

5) 设置 Kafka 的消费者属性，这个地方还可以设置其他的属性。源码中是针对消费分组进行设置。

.updateConsumerProperties(ImmutableMap.of("group.id", my_beam_app_1"))

6) 设置 Kafka 吞吐量的时间戳，可以是默认的，也可以自定义。

.withLogAppendTime()

7) 相当于 Kafka 中"isolation.level", "read_committed" ，指定 KafkaConsumer 只应读取非事务性消息，或从其输入主题中提交事务性消息。流处理应用程序通常在多个读取处理写入阶段处理其数据，每个阶段使用前一阶段的输出作为其输入。通过指定 read_committed 模式，我们可以在所有阶段完成一次处理。针对"Exactly-once" 语义，支持 Kafka 0.11 版本。

.withReadCommitted()

8) 设置 Kafka 是否自动提交属性"AUTO_COMMIT"，默认为自动提交，使用 Beam 的方法来设置。

set CommitOffsetsInFinalizeEnabled(boolean commitOffsetInFinalize)
.commitOffsetsInFinalize()

9) 设置是否返回 Kafka 的其他数据，例如 offset 信息和分区信息，不用可以去掉。

.withoutMetadata() // PCollection>

10) 设置只返回 values 值，不用返回 key。例如 PCollection，而不是 PCollection。

.apply(Values.create()) // PCollection

KafkaIO 写操作

写操作跟读操作配置基本相似，我们看一下具体代码。

PCollectionString>> kvColl = ...;
kvColl.apply(KafkaIO.String>write()
    .withBootstrapServers("broker_1:9092,broker_2:9092")
    .withTopic("results")
    .withKeySerializer(LongSerializer.class)
    .withValueSerializer(StringSerializer.class)
    // You can further customize KafkaProducer used to write the records by adding more
    // settings for ProducerConfig. e.g, to enable compression :
    .updateProducerProperties(ImmutableMap.of("compression.type", "gzip"))
   // You set publish timestamp for the Kafka records.
    .withInputTimestamp() // element timestamp is used while publishing to Kafka
    // or you can also set a custom timestamp with a function.
    .withPublishTimestampFunction((elem, elemTs) -> ...)
    // Optionally enable exactly-once sink (on supported runners). See JavaDoc for withEOS().
    .withEOS(20, "eos-sink-group-id");
 );

下面这个是 Kafka 里面比较重要的一个属性设置，在 Beam 中是这样使用的，非常简单，但是要注意这个属性.withEOS 其实就是 Kafka 中"Exactly-once"。

.withEOS(20, "eos-sink-group-id");

在写入 Kafka 时完全一次性地提供语义，这使得应用程序能够在 Beam 管道中的一次性语义之上提供端到端的一次性保证。它确保写入接收器的记录仅在 Kafka 上提交一次，即使在管道执行期间重试某些处理也是如此。重试通常在应用程序重新启动时发生（如在故障恢复中）或者在重新分配任务时（如在自动缩放事件中）。Flink runner 通常为流水线的结果提供精确一次的语义，但不提供变换中用户代码的副作用。如果诸如 Kafka 接收器之类的转换写入外部系统，则这些写入可能会多次发生。

在此处启用 EOS 时，接收器转换将兼容的 Beam Runners 中的检查点语义与 Kafka 中的事务联系起来，以确保只写入一次记录。由于实现依赖于 runners checkpoint 语义，因此并非所有 runners 都兼容。Beam 中 FlinkRunner 针对 Kafka 0.11+ 版本才支持，然而 Dataflow runner 和 Spark runner 如果操作 kafkaIO 是完全支持的。

关于性能的注意事项

"Exactly-once" 在接收初始消息的时候，除了将原来的数据进行格式化转换外，还经历了 2 个序列化 - 反序列化循环。根据序列化的数量和成本，CPU 可能会涨的很明显。通过写入二进制格式数据（即在写入 Kafka 接收器之前将数据序列化为二进制数据）可以降低 CPU 成本。

关于参数

numShards——设置接收器并行度。存储在 Kafka 上的状态元数据，使用 sinkGroupId 存储在许多虚拟分区中。一个好的经验法则是将其设置为 Kafka 主题中的分区数。

sinkGroupId——用于在 Kafka 上将少量状态存储为元数据的组 ID。它类似于与 KafkaConsumer 一起使用的使用 groupID。每个作业都应使用唯一的 groupID，以便重新启动 / 更新作业保留状态以确保一次性语义。状态是通过 Kafka 上的接收器事务原子提交的。有关更多信息，请参阅 KafkaProducer.sendOffsetsToTransaction（Map，String）。接收器在初始化期间执行多个健全性检查以捕获常见错误，以便它不会最终使用似乎不是由同一作业写入的状态。

五．Apache Beam Flink 源码剖析FlinkRunner 对 Flink 支持依赖情况

Flink 是一个流和批处理的统一的计算框架，Apache Beam 跟 Flink API 做了无缝集成。在 Apache Beam 中对 Flink 的操作主要是 FlinkRunner.java，Apache Beam 支持不同版本的 flink 客户端。我根据不同版本列了一个 Flink 对应客户端支持表如下：

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第8张图片

图 5-1 FlinkRunner 与 Flink 依赖关系表

从图 5-1 中可以看出，Apache Beam 对 Flink 的 API 支持的更新速度非常快，从源码可以看到 2.0.0 版本之前的 FlinkRunner 是非常 low 的，并且直接拿 Flink 的实例做为 Beam 的实例，封装的效果也比较差。但是从 2.0.0 版本之后，Beam 就像打了鸡血一样 API 更新速度特别快，抛弃了以前的冗余，更好地跟 Flink 集成，让人眼前一亮。

Apache Beam Flink 源码解析

因为 Beam 在运行的时候都是显式指定 Runner，在 FlinkRunner 源码中只是成了简单的统一入口，代码非常简单，但是这个入口中有一个比较关键的接口类 FlinkPipelineOptions。

请看代码：

/** Provided options. */
private final FlinkPipelineOptions options;

通过这个类我们看一下 Apache Beam 到底封装了哪些 Flink 方法。

首先 FlinkPipelineOptions 是一个接口类，但是它继承了 PipelineOptions、ApplicationNameOptions、StreamingOptions 三个接口类，第一个 PipelineOptions 大家应该很熟悉了，用于基本管道创建；第二个 ApplicationNameOptions 用于设置应用程序名字；第三个用于判断是流式数据还是批数据。源代码如下：

public interface FlinkPipelineOptions  extends 
PipelineOptions, ApplicationNameOptions, StreamingOptions {
//....
}

1) 设置 Flink Master 方法，这个方法用于设置 Flink 集群地址的 Master 地址。可以填写 IP 和端口，或者是 hostname 和端口，默认 local 。当然测试也可以是单机的，在 Flink 1.4 利用 start-local.sh 启动，而到了 1.5 以上就去掉了这个脚本，本地直接换成了 start-cluster.sh。大家测试的时候需要注意一下。

/**
* The url of the Flink JobManager on which to execute pipelines.   This can either be the the   * address of a cluster JobManager, in the form "host:port" or one of the special Strings  * "[collection]" will execute the pipeline on Java Collections while "[auto]" will let the system
*/
@Description( "Address of the Flink Master where the Pipeline should  be executed. Can"+ "[collection] or [auto].")
void setFlinkMaster(String value);

2) 设置 Flink 的并行数，属于 Flink 高级 API 里面的属性。设置合适的 parallelism 能提高运算效率，太多了和太少了都不行。设置 parallelism 有多种方式，优先级为 api>env>p>file。

@Description("The degree of parallelism to be used when distributing operations onto workers.")
@Default.InstanceFactory(DefaultParallelismFactory.class)
Integer getParallelism();
void setParallelism(Integer value);

3) 设置连续检查点之间的间隔时间（即当前的快照）用于容错的管道状态。

@Description("The interval between consecutive checkpoints (i.e.  snapshots of the current"
@Default.Long(-1L)
Long getCheckpointingInterval();
void setCheckpointingInterval(Long interval)

4) 定义一致性保证的检查点模式，默认为"AT_LEAST_ONCE"，在 Beam 的源码中定义了一个枚举类 CheckpointingMode，除了默认的"AT_LEAST_ONCE"，还有"EXACTLY_ONCE"。

"AT_LEAST_ONCE"：这个模式意思是系统将以一种更简单地方式来对 operator 和 udf 的状态进行快照：在失败后进行恢复时，在 operator 的状态中，一些记录可能会被重放多次。

"EXACTLY_ONCE"：这种模式意思是系统将以如下语义对 operator 和 udf(user defined function) 进行快照：在恢复时，每条记录将在 operator 状态中只被重现 / 重放一次。

@Description("The checkpointing mode that defines consistency guarantee.")
@Default.Enum("AT_LEAST_ONCE")
CheckpointingMode getCheckpointingMode();
void setCheckpointingMode(CheckpointingMode mode);

5) 设置检查点的最大超时时间，默认为 20*60*1000(毫秒)=20(分钟)。

@Description("The maximum time that a checkpoint may take before being discarded.")
@Default.Long(20 * 60 * 1000)
Long getCheckpointTimeoutMillis();
void setCheckpointTimeoutMillis(Long checkpointTimeoutMillis);

6) 设置重新执行失败任务的次数，值为 0 有效地禁用容错，值为 -1 表示使用系统默认值（在配置中定义)。

@Description(
"Sets the number of times that failed tasks are re-executed. "
+ "A value of zero effectively disables fault tolerance. A value of -1 indicates "+ "that the system default value (as defined in the configuration) should be used.")
@Default.Integer(-1)
Integer getNumberOfExecutionRetries();
void setNumberOfExecutionRetries(Integer retries);

7) 设置执行之间的延迟，默认值为 -1L。

@Description(
    "Sets the delay between executions. A value of {@code -1} "
        + "indicates that the default value should be used.")
@Default.Long(-1L)
Long getExecutionRetryDelay();
void setExecutionRetryDelay(Long delay);

8) 设置重用对象的行为。

@Description("Sets the behavior of reusing objects.")
@Default.Boolean(false)
Boolean getObjectReuse();
void setObjectReuse(Boolean reuse);

9) 设置状态后端在计算期间存储 Beam 的状态，不设置从配置文件中读取默认值。注意：仅在执行时适用流媒体模式。

@Description("Sets the state backend to use in streaming mode. "
@JsonIgnore
AbstractStateBackend getStateBackend();
void setStateBackend(AbstractStateBackend stateBackend);

10) 在 Flink Runner 中启用 / 禁用 Beam 指标。

@Description("Enable/disable Beam metrics in Flink Runner")
@Default.Boolean(true)
BooleangetEnableMetrics();
voidsetEnableMetrics(BooleanenableMetrics);

11) 启用或禁用外部检查点，与 CheckpointingInterval 一起使用。

@Description(
"Enables or disables externalized checkpoints."
+"Works in conjunction with CheckpointingInterval")
@Default.Boolean(false)
BooleanisExternalizedCheckpointsEnabled();
voidsetExternalizedCheckpointsEnabled(BooleanexternalCheckpoints);

12) 设置当他们的 Wartermark 达到 + Inf 时关闭源，Watermark 在 Flink 中其中一个作用是根据时间戳做单节点排序，Beam 也是支持的。

@Description("If set, shutdown sources when their watermark reaches +Inf.")
@Default.Boolean(false)
BooleanisShutdownSourcesOnFinalWatermark();
voidsetShutdownSourcesOnFinalWatermark(BooleanshutdownOnFinalWatermark);

剩余两个部分这里不再进行翻译，留给大家去看源码。

六. KafkaIO 和 Flink 实战

本节通过解读一个真正的 KafkaIO 和 Flink 实战案例，帮助大家更深入地了解 Apache Beam KafkaIO 和 Flink 的运用。

设计架构图和设计思路解读

Apache Beam 外部数据流程图

设计思路：Kafka 消息生产程序发送 testmsg 到 Kafka 集群，Apache Beam 程序读取 Kafka 的消息，经过简单的业务逻辑，最后发送到 Kafka 集群，然后 Kafka 消费端消费消息。

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink_第9张图片

Apache Beam 内部数据处理流程图

Apache Beam 程序通过 kafkaIO 读取 Kafka 集群的数据，进行数据格式转换。数据统计后，通过 KafkaIO 写操作把消息写入 Kafka 集群。最后把程序运行在 Flink 的计算平台上。

软件环境和版本说明

系统版本 centos 7
Kafka 集群版本： kafka_2.10-0.10.1.1.tgz
Flink 版本：flink-1.5.2-bin-hadoop27-scala_2.11.tgz

Kafka 集群和 Flink 单机或集群配置，大家可以去网上搜一下配置文章，操作比较简单，这里就不赘述了。

实践步骤

1）新建一个 Maven 项目

2）在 pom 文件中添加 jar 引用

<dependency>
 <groupId>org.apache.beamgroupId>
 <artifactId>beam-sdks-java-io-kafkaartifactId>
 <version>2.4.0version>
dependency>
<dependency>
 <groupId>org.apache.kafkagroupId>
 <artifactId>kafka-clientsartifactId>
 <version>0.10.1.1version>
dependency>
<dependency>
 <groupId>org.apache.beamgroupId>
 <artifactId>beam-runners-core-javaartifactId>
 <version>2.4.0version>
dependency>
<dependency>
 <groupId>org.apache.beamgroupId>
 <artifactId>beam-runners-flink_2.11artifactId>
 <version>2.4.0version>
dependency>
<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-javaartifactId>
 <version>1.5.2version>
dependency>
<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-clients_2.11artifactId>
 <version>1.5.2version>
dependency>
<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-coreartifactId>
<version>1.5.2version>
dependency>
<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-runtime_2.11artifactId>
 <version>1.5.2version>
 
dependency>
<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-streaming-java_2.11artifactId>
 <version>1.5.2version>
 
dependency>
<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-metrics-coreartifactId>
 <version>1.5.2version>
 
dependency>

3）新建 BeamFlinkKafka.java 类

4）编写以下代码：

public static void main(String[] args) {
// 创建管道工厂
PipelineOptions options = PipelineOptionsFactory.create(); 
// 显式指定 PipelineRunner：FlinkRunner 必须指定如果不制定则为本地 
options.setRunner(FlinkRunner.class); 
// 设置相关管道
Pipeline pipeline = Pipeline.create(options);
// 这里 kV 后说明 kafka 中的 key 和 value 均为 String 类型
PCollection> lines = 
pipeline.apply(KafkaIO.// 必需设置 kafka 的服务器地址和端口
String>read().withBootstrapServers("192.168.1.110:11092,192.168.1.119:11092,192.168.1.120:11092")
    .withTopic("testmsg")// 必需设置要读取的 kafka 的 topic 名称
    .withKeyDeserializer(StringDeserializer.class)// 必需序列化 key
    .withValueDeserializer(StringDeserializer.class)// 必需序列化 value
    .updateConsumerProperties(ImmutableMap.of("auto.offset.reset", "earliest")));// 这个属性 kafka 最常见的.
// 为输出的消息类型。或者进行处理后返回的消息类型
PCollection kafkadata = lines.apply("Remove Kafka Metadata", ParDo.of(new DoFn, String>() { 
private static final long serialVersionUID = 1L;
 @ProcessElement
 public void processElement(ProcessContext ctx) {
  System.out.print("输出的分区为 ----：" + ctx.element().getKV());
  ctx.output(ctx.element().getKV().getValue());// 其实我们这里是把"张海     涛在发送消息 ***"进行返回操作
 }
}));
PCollection windowedEvents = kafkadata.apply(Window.into(FixedWindows.of(Duration.standardSeconds(5))));
PCollection> wordcount = windowedEvents.apply(Count.perElement()); // 统计每一个 kafka 消息的 Count
PCollection wordtj = wordcount.apply("ConcatResultKVs", MapElements.via( // 拼接最后的格式化输出（Key 为 Word，Value 为 Count）
new SimpleFunction, String>() {
 private static final long serialVersionUID = 1L;
  @Override
  public String apply(KV input) {
  System.out.print("进行统计：" + input.getKey() + ": " + input.getValue());
    return input.getKey() + ": " + input.getValue();
   }
  }));
wordtj.apply(KafkaIO.write()  .withBootstrapServers("192.168.1.110:11092,192.168.1.119:11092,192.168.1.120:11092")// 设置写会 kafka 的集群配置地址
  .withTopic("senkafkamsg")// 设置返回 kafka 的消息主题
  // .withKeySerializer(StringSerializer.class)// 这里不用设置了，因为上面 Void 
  .withValueSerializer(StringSerializer.class)
  // Dataflow runner and Spark 兼容， Flink 对 kafka0.11 才支持。我的版本是 0.10 不兼容
  //.withEOS(20, "eos-sink-group-id")
  .values() // 只需要在此写入默认的 key 就行了，默认为 null 值
); // 输出结果
pipeline.run().waitUntilFinish();
｝

5）打包 jar，本示例是简单的实战，并没有用 Docker，Apache Beam 新版本是支持 Docker 的。

6）通过 Apache Flink Dashboard 提交 job

7）查看结果

程序接收的日志如下：

七．实战解析

本次实战在源码分析中已经做过详细解析，在这里不做过多的描述，只选择部分问题再重点解释一下。此外，如果还没有入门，甚至连管道和 Runner 等概念都还不清楚，建议先阅读本系列的第一篇文章《Apache Beam 实战指南之基础入门》。

1.FlinkRunner 在实战中是显式指定的，如果想设置参数怎么使用呢？其实还有另外一种写法，例如以下代码：

//FlinkPipelineOptions options =PipelineOptionsFactory.as(FlinkPipelineOptions.class);
//options.setStreaming(true);
//options.setAppName("app_test");
//options.setJobName("flinkjob");
//options.setFlinkMaster("localhost:6123");
//options.setParallelism(10);// 设置 flink 的并行度
// 显式指定 PipelineRunner：FlinkRunner，必须指定，如果不指定则为本地 
options.setRunner(FlinkRunner.class);

2.Kafka 有三种数据读取类型，分别是 “earliest ”，“latest ”，“none ”，分别的意思代表是：

earliest

当各分区下有已提交的 offset 时，从提交的 offset 开始消费；无提交的 offset 时，从头开始消费。

latest

当各分区下有已提交的 offset 时，从提交的 offset 开始消费；无提交的 offset 时，消费新产生的该分区下的数据。

none

topic 各分区都存在已提交的 offset 时，从 offset 后开始消费；只要有一个分区不存在已提交的 offset，则抛出异常。

.updateConsumerProperties(ImmutableMap.<String,Object>of("auto.offset.reset", "earliest")));

3. 实战中我自己想把 Kafka 的数据写入，key 不想写入，所以出现了 Kafka 的 key 项为空，而 values 才是真正发送的数据。所以开始和结尾要设置个.values()，如果不加上就会报错。

KafkaIO.write()
.values() // 只需要在此写入默认的 key 就行了，默认为 null 值

八．小结

随着 AI 和 loT 的时代的到来，各个公司不同结构、不同类型、不同来源的数据进行整合的成本越来越高。Apache Beam 技术的统一模型和大数据计算平台特性优雅地解决了这一问题，相信在 loT 万亿市场中，Apache Beam 将会发挥越来越重要的角色。

作者介绍

张海涛，目前就职于海康威视云基础平台，负责云计算大数据的基础架构设计和中间件的开发，专注云计算大数据方向。Apache Beam 中文社区发起人之一，如果想进一步了解最新 Apache Beam 动态和技术研究成果，请加微信 cyrjkj 入群共同研究和运用。

传送门：系列文章第一篇《Apache Beam 实战指南之基础入门》

你可能感兴趣的:(Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓