weixin_34088583

Apache Beam实战指南 | 玩转KafkaIO与Flink

AI前线导读：本文是 Apache Beam实战指南系列文章 的第二篇内容，将重点介绍 Apache Beam与Flink的关系，对Beam框架中的KafkaIO和Flink源码进行剖析，并结合应用示例和代码解读带你进一步了解如何结合Beam玩转Kafka和Flink。系列文章第一篇回顾Apache Beam实战指南之基础入门

关于Apache Beam实战指南系列文章

随着大数据 2.0 时代悄然到来，大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌现出诸多大数据应用组件，如 HBase、Hive、Kafka、Spark、Flink 等。开发者经常要用到不同的技术、框架、API、开发语言和 SDK 来应对复杂应用的开发，这大大增加了选择合适工具和框架的难度，开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。

面对这种情况，Google 在 2016 年 2 月宣布将大数据流水线产品（Google DataFlow）贡献给 Apache 基金会孵化，2017 年 1 月 Apache 对外宣布开源 Apache Beam，2017 年 5 月迎来了它的第一个稳定版本 2.0.0。在国内，大部分开发者对于 Beam 还缺乏了解，社区中文资料也比较少。InfoQ 期望通过 Apache Beam 实战指南系列文章 推动 Apache Beam 在国内的普及。

一．概述

大数据发展趋势从普通的大数据，发展成AI大数据，再到下一代号称万亿市场的lOT大数据。技术也随着时代的变化而变化，从Hadoop的批处理，到Spark Streaming，以及流批处理的Flink的出现，整个大数据架构也在逐渐演化。

Apache Beam作为新生技术，在这个时代会扮演什么样的角色，跟Flink之间的关系是怎样的？Apache Beam和Flink的结合会给大数据开发者或架构师们带来哪些意想不到的惊喜呢？

二．大数据架构发展演进历程

2.1 大数据架构Hadoop

图2-1 MapReduce 流程图

最初做大数据是把一些日志或者其他信息收集后写入Hadoop 的HDFS系统中，如果运营人员需要报表，则利用Hadoop的MapReduce进行计算并输出，对于一些非计算机专业的统计人员，后期可以用Hive进行统计输出。

2.2 流式处理Storm

图2-2Storm流程图

业务进一步发展，运营人员需要看到实时数据的展示或统计。例如电商网站促销的时候，用于统计用户实时交易数据。数据收集也使用MQ，用流式Storm解决这一业务需求问题。

2.3 Spark批处理和微批处理

图2-3 Spark流程图

业务进一步发展，服务前端加上了网关进行负载均衡，消息中心也换成了高吞吐量的轻量级MQ Kafka，数据处理渐渐从批处理发展到微批处理。

2.4 Flink：真正的流批处理统一

图2-4 Flink 流程图

随着AI和loT的发展，对于传感设备的信息、报警器的警情以及视频流的数据量微批计算引擎已经满足不了业务的需求，Flink实现真正的流处理让警情更实时。

2.5 下一代大数据处理统一标准Apache Beam

图2-5 Apache Beam 流程图

BeamSDKs封装了很多的组件IO，也就是图左边这些重写的高级API，使不同的数据源的数据流向后面的计算平台。通过将近一年的发展，Apache Beam 不光组件IO更加丰富了，并且计算平台在当初最基本的 Apache Apex、Direct Runner、Apache Flink、Apache Spark、Google Cloud Dataflow之上，又增加了Gearpump、Samza 以及第三方的JStorm等计算平台。

为什么说Apache Beam 会是大数据处理统一标准呢？

因为很多现在大型公司都在建立自己的“大中台”，建立统一的数据资源池，打通各个部门以及子公司的数据，以解决信息孤岛问题，把这些数据进行集中式管理并且进行后期的数据分析、BI、AI以及机器学习等工作。这种情况下会出现很多数据源，例如之前用的MySQL、MongodDB、HDFS、HBase、Solr 等，如果想建立中台就会是一件令人非常苦恼的事情，并且多计算环境更是让技术领导头疼。Apache Beam的出现正好迎合了这个时代的新需求，它集成了很多数据库常用的数据源并把它们封装成SDK的IO，开发人员没必要深入学习很多技术，只要会写Beam 程序就可以了，大大节省了人力、时间以及成本。

三．Apache Beam和Flink的关系

随着阿里巴巴Blink的开源，Flink中国社区开始活跃起来。很多人会开始对各种计算平台进行对比，比如Storm、Spark、JStorm、Flink等，并且有人提到之前阿里巴巴开源的JStorm比Flink性能高出10-15倍，为什么阿里巴巴却转战基于Flink的Blink呢? 在最近Flink的线下技术会议上，阿里巴巴的人已经回答了这一问题。其实很多技术都是从业务实战出来的，随着业务的发展可能还会有更多的计算平台出现，没有必要对此过多纠结。

不过，既然大家最近讨论得这么火热，这里也列出一些最近问的比较多的、有代表性的关于Beam的问题，逐一进行回答。

1. Flink支持SQL，请问Beam支持吗？

现在Beam是支持SQL处理的，底层技术跟Flink底层处理是一样的。

Beam SQL现在只支持Java，底层是Apache Calcite 的一个动态数据管理框架，用于大数据处理和一些流增强功能，它允许你自定义数据库功能。例如Hive 使用了Calcite的查询优化，当然还有Flink解析和流SQL处理。Beam在这之上添加了额外的扩展，以便轻松利用Beam的统一批处理/流模型以及对复杂数据类型的支持。以下是Beam SQL具体处理流程图：

Beam SQL一共有两个比较重要的概念：

SqlTransform：用于PTransforms从SQL查询创建的接口。

Row：Beam SQL操作的元素类型。例如：PCollection。

在将SQL查询应用于PCollection 之前，集合中Row的数据格式必须要提前指定。一旦Beam SQL 指定了管道中的类型是不能再改变的。PCollection行中字段/列的名称和类型由Schema进行关联定义。您可以使用Schema.builder()来创建 Schemas。

示例：

// Define the schema for the records.Schema appSchema =     Schema      .builder()      .addInt32Field(\u0026quot;appId\u0026quot;)      .addStringField(\u0026quot;description\u0026quot;)      .addDateTimeField(\u0026quot;rowtime\u0026quot;)      .build();// Create a concrete row with that type.Row row =     Row      .withSchema(appSchema)      .addValues(1, \u0026quot;Some cool app\u0026quot;, new Date())      .build();// Create a source PCollection containing only that row PCollection\u0026lt;Row\u0026gt; testApps =     PBegin      .in(p)      .apply(Create                .of(row)                .withCoder(appSchema.getRowCoder()));

也可以是其他类型，不是直接是Row，利用**PCollection**通过应用ParDo可以将输入记录转换为Row格式。如：

// An example POJO class. class AppPojo {  Integer appId;  String description;  Date timestamp;}// Acquire a collection of POJOs somehow.  PCollection\u0026lt;AppPojo\u0026gt; pojos = ...// Convert them to Rows with the same schema as defined above via a DoFn.PCollection\u0026lt;Row\u0026gt; apps = pojos  .apply(      ParDo.of(new DoFn\u0026lt;AppPojo, Row\u0026gt;() {        @ProcessElement        public void processElement(ProcessContext c) {          // Get the current POJO instance          AppPojo pojo = c.element();          // Create a Row with the appSchema schema             // and values from the current POJO            Row appRow =                   Row                    .withSchema(appSchema)                   .addValues(                      pojo.appId,                       pojo.description,                      pojo.timestamp)                    .build();          // Output the Row representing the current POJO          c.output(appRow);        }      }));

2. Flink 有并行处理，Beam 有吗？

Beam 在抽象Flink的时候已经把这个参数抽象出来了，在Beam Flink 源码解析中会提到。

3. 我这里有个流批混合的场景，请问Beam是不是支持？

这个是支持的，因为批也是一种流，是一种有界的流。Beam 结合了Flink，Flink dataset 底层也是转换成流进行处理的。

4. Flink流批写程序的时候和Beam有什么不同？底层是Flink还是Beam?

打个比喻，如果Flink是Lucene，那么Beam 就是Solr，把Flink 的API进行二次重写，简化了API，让大家使用更简单、更方便。此外，Beam提供了更多的数据源，这是Flink不能比的。当然，Flink 后期可能也会往这方面发展。

四．Apache Beam KafkaIO源码剖析

Apache Beam KafkaIO 对kafka-clients支持依赖情况

KafkaIO是Kafka的API封装，主要负责Apache Kafka读取和写入消息。如果想使用KafkaIO，必须依赖beam-sdks-java-io-kafka ，KafkaIO 同时支持多个版本的Kafka客户端，使用时建议用高版本的或最新的Kafka 版本，因为使用KafkaIO的时候需要包含kafka-clients 的依赖版本。

Apache Beam KafkaIO 对各个kafka-clients 版本的支持情况如下表：

表4-1 KafkaIO 与kafka-clients 依赖关系表

Apache Beam V2.1.0版本之前源码中的pom文件都显式指定了特定的0.9.0.1版本支持，但是从V2.1.0版本和V2.1.1两个版本开始已经替换成了kafka-clients 的0.10.1.0 版本，并且源码中提示0.10.1.0 版本更安全。这是因为去年Kafka 0.10.1.0 之前的版本曝出了安全漏洞。在V2.2.0 以后的版本中，Beam对API做了调整和更新，对之前的两种版本都支持，不过需要在pom中引用的时候自己指定Kafka的版本。但是在Beam V2.5.0 和V2.6.0 版本，源码中添加了以下提示：

* \u0026lt;h3\u0026gt;Supported Kafka Client Versions\u0026lt;/h3\u0026gt; * KafkaIO relies on \u0026lt;i\u0026gt;kafka-clients\u0026lt;/i\u0026gt; for all its interactions with the Kafka cluster. * \u0026lt;i\u0026gt;kafka-clients\u0026lt;/i\u0026gt; versions 0.10.1 and newer are supported at runtime. The older versions * 0.9.x - 0.10.0.0 are also supported, but are deprecated and likely be removed in near future. * Please ensure that the version included with the application is compatible with the version of * your Kafka cluster. Kafka client usually fails to initialize with a clear error message in * case of incompatibility. */

也就说在这两个版本已经移除了对Kafka 客户端 0.10.1.0 以前版本的支持，旧版本还会支持，但是在以后不久就会删除。所以大家在使用的时候要注意版本的依赖关系和客户端的版本支持度。

如果想使用KafkaIO，pom 必须要引用，版本跟4-1表中的对应起来就可以了。

\u0026lt;dependency\u0026gt;    \u0026lt;groupId\u0026gt;org.apache.beam\u0026lt;/groupId\u0026gt;    \u0026lt;artifactId\u0026gt;beam-sdks-java-io-kafka\u0026lt;/artifactId\u0026gt;    \u0026lt;version\u0026gt;...\u0026lt;/version\u0026gt;\u0026lt;/dependency\u0026gt;\u0026lt;dependency\u0026gt;  \u0026lt;groupId\u0026gt;org.apache.kafka\u0026lt;/groupId\u0026gt;  \u0026lt;artifactId\u0026gt;kafka-clients\u0026lt;/artifactId\u0026gt;  \u0026lt;version\u0026gt;a_recent_version\u0026lt;/version\u0026gt;  \u0026lt;scope\u0026gt;runtime\u0026lt;/scope\u0026gt;\u0026lt;/dependency\u0026gt;

KafkaIO读写源码解析

KafkaIO源码链接如下：

链接

在KafkaIO里面最主要的两个方法是Kafka的读写方法。

KafkaIO读操作

pipeline.apply(KafkaIO.\u0026lt;Long, String\u0026gt;read()         .withBootstrapServers(\u0026quot;broker_1:9092,broker_2:9092\u0026quot;)//         .withTopic(\u0026quot;my_topic\u0026quot;)    // use withTopics(List\u0026lt;String\u0026gt;) to read from multiple topics.         .withKeyDeserializer(LongDeserializer.class)        .withValueDeserializer(StringDeserializer.class)        // Above four are required configuration. returns   PCollection\u0026lt;KafkaRecord\u0026lt;Long, String\u0026gt;\u0026gt;        // Rest of the settings are optional :          // you can further customize KafkaConsumer used to read the records by   adding more        // settings for ConsumerConfig. e.g :        .updateConsumerProperties(ImmutableMap.of(\u0026quot;group.id\u0026quot;,   \u0026quot;my_beam_app_1\u0026quot;))          // set event times and watermark based on 'LogAppendTime'. To provide   a custom        // policy see withTimestampPolicyFactory(). withProcessingTime() is   the default.        // Use withCreateTime() with topics that have 'CreateTime' timestamps.         .withLogAppendTime()         // restrict reader to committed messages on Kafka (see method   documentation).         .withReadCommitted()          // offset consumed by the pipeline can be committed back.         .commitOffsetsInFinalize()          // finally, if you don't need Kafka metadata, you can drop it.g        .withoutMetadata() // PCollection\u0026lt;KV\u0026lt;Long, String\u0026gt;\u0026gt;      )      .apply(Values.\u0026lt;String\u0026gt;create()) // PCollection\u0026lt;String\u0026gt;

1) 指定KafkaIO的模型，从源码中不难看出这个地方的KafkaIO\u0026lt;K,V\u0026gt;类型是Long和String 类型，也可以换成其他类型。

pipeline.apply(KafkaIO.\u0026lt;Long, String\u0026gt;read() pipeline.apply(KafkaIO.\u0026lt;Long, String\u0026gt;read()

2) 设置Kafka集群的集群地址。

.withBootstrapServers(\u0026quot;broker_1:9092,broker_2:9092\u0026quot;)

3) 设置Kafka的主题类型，源码中使用了单个主题类型，如果是多个主题类型则用withTopics(List)方法进行设置。设置情况基本跟Kafka原生是一样的。

.withTopic(\u0026quot;my_topic\u0026quot;) // use withTopics(List\u0026lt;String\u0026gt;) to read from multiple topics.

4) 设置序列化类型。Apache Beam KafkaIO 在序列化的时候做了很大的简化，例如原生Kafka可能要通过Properties 类去设置，还要加上很长一段jar包的名字。

Beam KafkaIO的写法：

 .withKeyDeserializer(LongDeserializer.class)  .withValueDeserializer(StringDeserializer.class)

原生Kafka的设置：

Properties props = new Properties();props.put(\u0026quot;key.deserializer\u0026quot;,\u0026quot;org.apache.kafka.common.serialization.ByteArrayDeserializer\u0026quot;);props.put(\u0026quot;value.deserializer\u0026quot;,\u0026quot;org.apache.kafka.common.serialization.ByteArrayDeserializer\u0026quot;);

5) 设置Kafka的消费者属性，这个地方还可以设置其他的属性。源码中是针对消费分组进行设置。

.updateConsumerProperties(ImmutableMap.of(\u0026quot;group.id\u0026quot;, my_beam_app_1\u0026quot;))

6) 设置Kafka吞吐量的时间戳，可以是默认的，也可以自定义。

.withLogAppendTime()

7) 相当于Kafka 中\u0026quot;isolation.level\u0026quot;, “read_committed” ，指定KafkaConsumer只应读取非事务性消息，或从其输入主题中提交事务性消息。流处理应用程序通常在多个读取处理写入阶段处理其数据，每个阶段使用前一阶段的输出作为其输入。通过指定read_committed模式，我们可以在所有阶段完成一次处理。针对\u0026quot;Exactly-once\u0026quot; 语义，支持Kafka 0.11版本。

.withReadCommitted()

8) 设置Kafka是否自动提交属性\u0026quot;AUTO_COMMIT\u0026quot;，默认为自动提交，使用Beam 的方法来设置。

set CommitOffsetsInFinalizeEnabled(boolean commitOffsetInFinalize).commitOffsetsInFinalize()

9) 设置是否返回Kafka的其他数据，例如offset 信息和分区信息，不用可以去掉。

.withoutMetadata() // PCollection\u0026lt;KV\u0026lt;Long, String\u0026gt;\u0026gt;

10) 设置只返回values值，不用返回key。例如 PCollection，而不是PCollection\u0026lt;Long，String\u0026gt;。

.apply(Values.\u0026lt;String\u0026gt;create()) // PCollection\u0026lt;String\u0026gt;

KafkaIO写操作

写操作跟读操作配置基本相似，我们看一下具体代码。

PCollection\u0026lt;KV\u0026lt;Long, String\u0026gt;\u0026gt; kvColl = ...;kvColl.apply(KafkaIO.\u0026lt;Long, String\u0026gt;write()      .withBootstrapServers(\u0026quot;broker_1:9092,broker_2:9092\u0026quot;)      .withTopic(\u0026quot;results\u0026quot;)      .withKeySerializer(LongSerializer.class)      .withValueSerializer(StringSerializer.class)      // You can further customize KafkaProducer used to write the records by adding more      // settings for ProducerConfig. e.g, to enable compression :      .updateProducerProperties(ImmutableMap.of(\u0026quot;compression.type\u0026quot;, \u0026quot;gzip\u0026quot;))     // You set publish timestamp for the Kafka records.      .withInputTimestamp() // element timestamp is used while publishing to Kafka      // or you can also set a custom timestamp with a function.      .withPublishTimestampFunction((elem, elemTs) -\u0026gt; ...)      // Optionally enable exactly-once sink (on supported runners). See JavaDoc for withEOS().      .withEOS(20, \u0026quot;eos-sink-group-id\u0026quot;);   );

下面这个是Kafka里面比较重要的一个属性设置，在Beam中是这样使用的，非常简单，但是要注意这个属性.withEOS 其实就是Kafka中\u0026quot;Exactly-once\u0026quot;。

.withEOS(20, \u0026quot;eos-sink-group-id\u0026quot;);

在写入Kafka时完全一次性地提供语义，这使得应用程序能够在Beam管道中的一次性语义之上提供端到端的一次性保证。它确保写入接收器的记录仅在Kafka上提交一次，即使在管道执行期间重试某些处理也是如此。重试通常在应用程序重新启动时发生（如在故障恢复中）或者在重新分配任务时（如在自动缩放事件中）。Flink runner通常为流水线的结果提供精确一次的语义，但不提供变换中用户代码的副作用。如果诸如Kafka接收器之类的转换写入外部系统，则这些写入可能会多次发生。

在此处启用EOS时，接收器转换将兼容的Beam Runners中的检查点语义与Kafka中的事务联系起来，以确保只写入一次记录。由于实现依赖于runners checkpoint语义，因此并非所有runners都兼容。Beam中FlinkRunner针对Kafka 0.11+版本才支持，然而Dataflow runner和Spark runner如果操作kafkaIO是完全支持的。

关于性能的注意事项

“Exactly-once” 在接收初始消息的时候，除了将原来的数据进行格式化转换外，还经历了2个序列化 - 反序列化循环。根据序列化的数量和成本，CPU可能会涨的很明显。通过写入二进制格式数据（即在写入Kafka接收器之前将数据序列化为二进制数据）可以降低CPU成本。

关于参数

numShards——设置接收器并行度。存储在Kafka上的状态元数据，使用sinkGroupId存储在许多虚拟分区中。一个好的经验法则是将其设置为Kafka主题中的分区数。

sinkGroupId——用于在Kafka上将少量状态存储为元数据的组ID。它类似于与KafkaConsumer一起使用的使用groupID。每个作业都应使用唯一的groupID，以便重新启动/更新作业保留状态以确保一次性语义。状态是通过Kafka上的接收器事务原子提交的。有关更多信息，请参阅KafkaProducer.sendOffsetsToTransaction（Map，String）。接收器在初始化期间执行多个健全性检查以捕获常见错误，以便它不会最终使用似乎不是由同一作业写入的状态。

五．Apache Beam Flink源码剖析

Apache Beam FlinkRunner对 Flink支持依赖情况

Flink 是一个流和批处理的统一的计算框架，Apache Beam 跟Flink API做了无缝集成。在Apache Beam中对Flink 的操作主要是 FlinkRunner.java，Apache Beam支持不同版本的flink 客户端。我根据不同版本列了一个Flink 对应客户端支持表如下：

图5-1 FlinkRunner与Flink依赖关系表

从图5-1中可以看出，Apache Beam 对Flink 的API支持的更新速度非常快，从源码可以看到2.0.0版本之前的FlinkRunner是非常low的，并且直接拿Flink的实例做为Beam的实例，封装的效果也比较差。但是从2.0.0 版本之后，Beam就像打了鸡血一样API更新速度特别快，抛弃了以前的冗余，更好地跟Flink集成，让人眼前一亮。

Apache Beam Flink 源码解析

因为Beam在运行的时候都是显式指定Runner，在FlinkRunner源码中只是成了简单的统一入口，代码非常简单，但是这个入口中有一个比较关键的接口类FlinkPipelineOptions。

请看代码：

/** Provided options. */private final FlinkPipelineOptions options;

通过这个类我们看一下Apache Beam到底封装了哪些Flink方法。

首先FlinkPipelineOptions是一个接口类，但是它继承了 PipelineOptions、ApplicationNameOptions、StreamingOptions 三个接口类，第一个PipelineOptions大家应该很熟悉了，用于基本管道创建；第二个ApplicationNameOptions 用于设置应用程序名字；第三个用于判断是流式数据还是批数据。源代码如下：

public interface FlinkPipelineOptions  extends PipelineOptions, ApplicationNameOptions, StreamingOptions {  //....}

1) 设置 Flink Master 方法，这个方法用于设置Flink 集群地址的Master地址。可以填写IP和端口，或者是hostname 和端口，默认local 。当然测试也可以是单机的，在Flink 1.4 利用 start-local.sh 启动，而到了1.5以上就去掉了这个脚本，本地直接换成了 start-cluster.sh。大家测试的时候需要注意一下。

/*** The url of the Flink JobManager on which to execute pipelines.   This can either be the the   * address of a cluster JobManager, in the form \u0026quot;host:port\u0026quot; or one of the special Strings  * \u0026quot;[collection]\u0026quot; will execute the pipeline on Java Collections while \u0026quot;[auto]\u0026quot; will let the system */@Description( \u0026quot;Address of the Flink Master where the Pipeline should  be executed. Can\u0026quot;+ \u0026quot;[collection] or [auto].\u0026quot;)void setFlinkMaster(String value);

2) 设置 Flink 的并行数，属于Flink 高级API里面的属性。设置合适的parallelism能提高运算效率，太多了和太少了都不行。设置parallelism有多种方式，优先级为api\u0026gt;env\u0026gt;p\u0026gt;file。

@Description(\u0026quot;The degree of parallelism to be used when distributing operations onto workers.\u0026quot;)@Default.InstanceFactory(DefaultParallelismFactory.class)Integer getParallelism();void setParallelism(Integer value);

3) 设置连续检查点之间的间隔时间（即当前的快照）用于容错的管道状态。

@Description(\u0026quot;The interval between consecutive checkpoints (i.e.  snapshots of the current\u0026quot;@Default.Long(-1L)Long getCheckpointingInterval();void setCheckpointingInterval(Long interval)

4) 定义一致性保证的检查点模式，默认为\u0026quot;AT_LEAST_ONCE\u0026quot;，在Beam的源码中定义了一个枚举类CheckpointingMode，除了默认的\u0026quot;AT_LEAST_ONCE\u0026quot;，还有\u0026quot;EXACTLY_ONCE\u0026quot;。

\u0026quot;AT_LEAST_ONCE\u0026quot;：这个模式意思是系统将以一种更简单地方式来对operator和udf的状态进行快照：在失败后进行恢复时，在operator的状态中，一些记录可能会被重放多次。

\u0026quot;EXACTLY_ONCE\u0026quot;：这种模式意思是系统将以如下语义对operator和udf(user defined function)进行快照：在恢复时，每条记录将在operator状态中只被重现/重放一次。

@Description(\u0026quot;The checkpointing mode that defines consistency guarantee.\u0026quot;)@Default.Enum(\u0026quot;AT_LEAST_ONCE\u0026quot;)CheckpointingMode getCheckpointingMode();void setCheckpointingMode(CheckpointingMode mode);

5) 设置检查点的最大超时时间，默认为20*60*1000(毫秒)=20(分钟)。

@Description(\u0026quot;The maximum time that a checkpoint may take before being discarded.\u0026quot;)@Default.Long(20 * 60 * 1000)Long getCheckpointTimeoutMillis();void setCheckpointTimeoutMillis(Long checkpointTimeoutMillis);

6) 设置重新执行失败任务的次数，值为0有效地禁用容错，值为-1表示使用系统默认值（在配置中定义)。

@Description(\u0026quot;Sets the number of times that failed tasks are re-executed. \u0026quot;+ \u0026quot;A value of zero effectively disables fault tolerance. A value of -1 indicates \u0026quot;+ \u0026quot;that the system default value (as defined in the configuration) should be used.\u0026quot;)@Default.Integer(-1)Integer getNumberOfExecutionRetries();void setNumberOfExecutionRetries(Integer retries);

7) 设置执行之间的延迟，默认值为-1L。

@Description(      \u0026quot;Sets the delay between executions. A value of {@code -1} \u0026quot;          + \u0026quot;indicates that the default value should be used.\u0026quot;)@Default.Long(-1L)Long getExecutionRetryDelay();void setExecutionRetryDelay(Long delay);

8) 设置重用对象的行为。

@Description(\u0026quot;Sets the behavior of reusing objects.\u0026quot;)@Default.Boolean(false)Boolean getObjectReuse();void setObjectReuse(Boolean reuse);

9) 设置状态后端在计算期间存储Beam的状态，不设置从配置文件中读取默认值。注意：仅在执行时适用流媒体模式。

@Description(\u0026quot;Sets the state backend to use in streaming mode. \u0026quot;@JsonIgnoreAbstractStateBackend getStateBackend();void setStateBackend(AbstractStateBackend stateBackend);

10) 在Flink Runner中启用/禁用Beam指标。

@Description(\u0026quot;Enable/disable Beam metrics in Flink Runner\u0026quot;)@Default.Boolean(true)BooleangetEnableMetrics();voidsetEnableMetrics(BooleanenableMetrics);

11) 启用或禁用外部检查点，与CheckpointingInterval一起使用。

@Description(\u0026quot;Enables or disables externalized checkpoints.\u0026quot;+\u0026quot;Works in conjunction with CheckpointingInterval\u0026quot;)@Default.Boolean(false)BooleanisExternalizedCheckpointsEnabled();voidsetExternalizedCheckpointsEnabled(BooleanexternalCheckpoints);

12) 设置当他们的Wartermark达到+ Inf时关闭源，Watermark在Flink 中其中一个作用是根据时间戳做单节点排序，Beam也是支持的。

@Description(\u0026quot;If set, shutdown sources when their watermark reaches +Inf.\u0026quot;)@Default.Boolean(false)BooleanisShutdownSourcesOnFinalWatermark();voidsetShutdownSourcesOnFinalWatermark(BooleanshutdownOnFinalWatermark);

剩余两个部分这里不再进行翻译，留给大家去看源码。

六. KafkaIO和Flink实战

本节通过解读一个真正的KafkaIO和Flink实战案例，帮助大家更深入地了解Apache Beam KafkaIO和Flink的运用。

设计架构图和设计思路解读

Apache Beam 外部数据流程图

设计思路：Kafka消息生产程序发送testmsg到Kafka集群，Apache Beam 程序读取Kafka的消息，经过简单的业务逻辑，最后发送到Kafka集群，然后Kafka消费端消费消息。

Apache Beam 内部数据处理流程图

Apache Beam 程序通过kafkaIO读取Kafka集群的数据，进行数据格式转换。数据统计后，通过KafkaIO写操作把消息写入Kafka集群。最后把程序运行在Flink的计算平台上。

软件环境和版本说明

系统版本 centos 7
Kafka集群版本： kafka_2.10-0.10.1.1.tgz
Flink 版本：flink-1.5.2-bin-hadoop27-scala_2.11.tgz

Kafka集群和Flink单机或集群配置，大家可以去网上搜一下配置文章，操作比较简单，这里就不赘述了。

实践步骤

1）新建一个Maven项目

2）在pom文件中添加jar引用

\u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.beam\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;beam-sdks-java-io-kafka\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;2.4.0\u0026lt;/version\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.kafka\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;kafka-clients\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;0.10.1.1\u0026lt;/version\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.beam\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;beam-runners-core-java\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;2.4.0\u0026lt;/version\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.beam\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;beam-runners-flink_2.11\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;2.4.0\u0026lt;/version\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.flink\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;flink-java\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;1.5.2\u0026lt;/version\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.flink\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;flink-clients_2.11\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;1.5.2\u0026lt;/version\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.flink\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;flink-core\u0026lt;/artifactId\u0026gt;  \u0026lt;version\u0026gt;1.5.2\u0026lt;/version\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.flink\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;flink-runtime_2.11\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;1.5.2\u0026lt;/version\u0026gt;   \u0026lt;!--\u0026lt;scope\u0026gt;provided\u0026lt;/scope\u0026gt;--\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.flink\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;flink-streaming-java_2.11\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;1.5.2\u0026lt;/version\u0026gt;   \u0026lt;!--\u0026lt;scope\u0026gt;provided\u0026lt;/scope\u0026gt;--\u0026gt;  \u0026lt;/dependency\u0026gt;  \u0026lt;dependency\u0026gt;   \u0026lt;groupId\u0026gt;org.apache.flink\u0026lt;/groupId\u0026gt;   \u0026lt;artifactId\u0026gt;flink-metrics-core\u0026lt;/artifactId\u0026gt;   \u0026lt;version\u0026gt;1.5.2\u0026lt;/version\u0026gt;   \u0026lt;!--\u0026lt;scope\u0026gt;provided\u0026lt;/scope\u0026gt;--\u0026gt;  \u0026lt;/dependency\u0026gt;

3）新建BeamFlinkKafka.java类

4）编写以下代码：

public static void main(String[] args) {//创建管道工厂PipelineOptions options = PipelineOptionsFactory.create(); // 显式指定PipelineRunner：FlinkRunner必须指定如果不制定则为本地  options.setRunner(FlinkRunner.class); //设置相关管道 Pipeline pipeline = Pipeline.create(options); //这里kV后说明kafka中的key和value均为String类型PCollection\u0026lt;KafkaRecord\u0026lt;String, String\u0026gt;\u0026gt; lines = pipeline.apply(KafkaIO.\u0026lt;String, // 必需设置kafka的服务器地址和端口String\u0026gt;read().withBootstrapServers(\u0026quot;192.168.1.110:11092,192.168.1.119:11092,192.168.1.120:11092\u0026quot;)      .withTopic(\u0026quot;testmsg\u0026quot;)// 必需设置要读取的kafka的topic名称      .withKeyDeserializer(StringDeserializer.class)// 必需序列化key      .withValueDeserializer(StringDeserializer.class)// 必需序列化value      .updateConsumerProperties(ImmutableMap.\u0026lt;String, Object\u0026gt;of(\u0026quot;auto.offset.reset\u0026quot;, \u0026quot;earliest\u0026quot;)));//这个属性kafka最常见的.  // 为输出的消息类型。或者进行处理后返回的消息类型PCollection\u0026lt;String\u0026gt; kafkadata = lines.apply(\u0026quot;Remove Kafka Metadata\u0026quot;, ParDo.of(new DoFn\u0026lt;KafkaRecord\u0026lt;String, String\u0026gt;, String\u0026gt;() {  private static final long serialVersionUID = 1L;   @ProcessElement   public void processElement(ProcessContext ctx) {    System.out.print(\u0026quot;输出的分区为----：\u0026quot; + ctx.element().getKV());    ctx.output(ctx.element().getKV().getValue());// 其实我们这里是把\u0026quot;张海     涛在发送消息***\u0026quot;进行返回操作   }  }));PCollection\u0026lt;String\u0026gt; windowedEvents = kafkadata.apply(Window.\u0026lt;String\u0026gt;into(FixedWindows.of(Duration.standardSeconds(5)))); PCollection\u0026lt;KV\u0026lt;String, Long\u0026gt;\u0026gt; wordcount = windowedEvents.apply(Count.\u0026lt;String\u0026gt;perElement()); // 统计每一个kafka消息的CountPCollection\u0026lt;String\u0026gt; wordtj = wordcount.apply(\u0026quot;ConcatResultKVs\u0026quot;, MapElements.via( // 拼接最后的格式化输出（Key为Word，Value为Count）  new SimpleFunction\u0026lt;KV\u0026lt;String, Long\u0026gt;, String\u0026gt;() {   private static final long serialVersionUID = 1L;    @Override    public String apply(KV\u0026lt;String, Long\u0026gt; input) {    System.out.print(\u0026quot;进行统计：\u0026quot; + input.getKey() + \u0026quot;: \u0026quot; + input.getValue());      return input.getKey() + \u0026quot;: \u0026quot; + input.getValue();     }    }));  wordtj.apply(KafkaIO.\u0026lt;Void, String\u0026gt;write()  .withBootstrapServers(\u0026quot;192.168.1.110:11092,192.168.1.119:11092,192.168.1.120:11092\u0026quot;)//设置写会kafka的集群配置地址    .withTopic(\u0026quot;senkafkamsg\u0026quot;)//设置返回kafka的消息主题    // .withKeySerializer(StringSerializer.class)//这里不用设置了，因为上面 Void     .withValueSerializer(StringSerializer.class)    // Dataflow runner and Spark 兼容， Flink 对kafka0.11才支持。我的版本是0.10不兼容    //.withEOS(20, \u0026quot;eos-sink-group-id\u0026quot;)    .values() // 只需要在此写入默认的key就行了，默认为null值  ); // 输出结果  pipeline.run().waitUntilFinish();｝

5）打包jar，本示例是简单的实战，并没有用Docker，Apache Beam新版本是支持Docker的。

6）通过Apache Flink Dashboard 提交job

7）查看结果

程序接收的日志如下：

七．实战解析

本次实战在源码分析中已经做过详细解析，在这里不做过多的描述，只选择部分问题再重点解释一下。此外，如果还没有入门，甚至连管道和Runner等概念都还不清楚，建议先阅读本系列的第一篇文章《Apache Beam实战指南之基础入门》。

1.FlinkRunner在实战中是显式指定的，如果想设置参数怎么使用呢？其实还有另外一种写法，例如以下代码：

//FlinkPipelineOptions options =PipelineOptionsFactory.as(FlinkPipelineOptions.class); //options.setStreaming(true); //options.setAppName(\u0026quot;app_test\u0026quot;); //options.setJobName(\u0026quot;flinkjob\u0026quot;); //options.setFlinkMaster(\u0026quot;localhost:6123\u0026quot;); //options.setParallelism(10);//设置flink 的并行度//显式指定PipelineRunner：FlinkRunner，必须指定，如果不指定则为本地  options.setRunner(FlinkRunner.class);

2.Kafka 有三种数据读取类型，分别是 “earliest ”，“latest ”，“none ”，分别的意思代表是：

earliest

当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费。

latest

当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，消费新产生的该分区下的数据。

none

topic各分区都存在已提交的offset时，从offset后开始消费；只要有一个分区不存在已提交的offset，则抛出异常。

.updateConsumerProperties(ImmutableMap.\u0026lt;String,Object\u0026gt;of(\u0026quot;auto.offset.reset\u0026quot;, \u0026quot;earliest\u0026quot;)));

3.实战中我自己想把Kafka的数据写入，key不想写入，所以出现了Kafka的key项为空，而values才是真正发送的数据。所以开始和结尾要设置个.values()，如果不加上就会报错。

KafkaIO.\u0026lt;Void, String\u0026gt;write().values() // 只需要在此写入默认的key就行了，默认为null值

八．小结

随着AI和loT的时代的到来，各个公司不同结构、不同类型、不同来源的数据进行整合的成本越来越高。Apache Beam 技术的统一模型和大数据计算平台特性优雅地解决了这一问题，相信在loT万亿市场中，Apache Beam将会发挥越来越重要的角色。

作者介绍

张海涛，目前就职于海康威视云基础平台，负责云计算大数据的基础架构设计和中间件的开发，专注云计算大数据方向。Apache Beam 中文社区发起人之一，如果想进一步了解最新 Apache Beam 动态和技术研究成果，请加微信 cyrjkj 入群共同研究和运用。

你可能感兴趣的:(java,人工智能,大数据)

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
Java中的Tomcat，开启Web应用腾飞【基础版】
目录一、Tomcat初登场：揭开神秘面纱（一）啥是Tomcat（二）为啥要有Tomcat二、Tomcat的安装与启动：开启第一步（一）下载Tomcat（二）启动Tomcat三、Tomcat的目录结构：探秘内部布局（一）核心目录介绍（二）目录间的协同工作四、部署JavaWeb应用到Tomcat：让应用上线（一）打包Web应用为WAR文件（二）部署WAR文件到Tomcat五、Tomcat的配置优化：让
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro