wangweislk

【Flink】Basic API的核心概念

1.DataSet and DataStream

2.Anatomy of a Flink Program(Flink程序剖析)

3.Lazy Evaluation（延迟执行）

4.Specifying Keys（key的定义）

1.Define keys for Tuples（元组键）

2.Define keys using Field Expressions（字段表达式键）

3.Define keys using Key Selector Functions（Key选择器函数）

5.Specifying Transformation Functions（转换函数）

1.实现接口

2.匿名内部类

3.Java 8 Lambdas

4.Rich functions

6.Flink数据类型

1.Tuples and Case Classes

2.POJOs

3.Primitive Types（基本类型）

4.Values

5.Hadoop Writables

6.Special Types（特殊类型）

7.Type Erasure & Type Inference（类型擦除和类型推断）

7.Accumulators & Counters（累加器和计数器）

Flink程序是实现分布式集合转换的常规程序（例如：filter，map，update state，join，group，window，aggregate）。集合最初是由source创建的（例如：读文件，kafka，本地文件，内存集合）。结果通过sink返回，例如，可以将数据写入分布式文件系统，标准输出（命令行终端）。Flink程序可以在各种各样的环境中运行，standalone，嵌入到其他程序等。可以在本地JVM中执行，也可以在集群中执行。

根据数据源的类型，分为有界或无界的source，可以编写一个批处理或流处理程序，其中DataSet API用于批处理，DataStream API用于流处理。本文档将介绍两种API常见的基本概念。

注意：在实际展示如何使用这些API的例子，我们将使用StreamingExecutionEnvironment 和DataStreamAPI。在DataSet API中概念完全相同，有ExecutionEnvironment 和DataSetAPI替代。

1.DataSet and DataStream

Flink有特殊的类DataSet和DataStream来表示程序中的数据。你可以将它们认为包含副本的不可变的数据集合。DataSet数据集是有界的，而DataStream数据元素是无界的。

这些集合在某些关键的方面与常规的Java集合不同。首先，它们是不可变的，这意味着一旦创建了它们，就不能添加或删除元素。也不能简单的检查内部的元素。一个集合最初是通过在Flink程序中添加一个source来创建的，而新的集合则是通过诸如map，filter等API方法来转换它们的。

2.Anatomy of a Flink Program(Flink程序剖析)

Flink程序看起来像普通的数据集合转换程序。每个程序有相同的基本组成部分：

1、获取一个执行环境（ExecutionEnvironment）

2、加载或创建初始化数据（Load/create）

3、指定该数据的转换操作（transformation）

4、指定在存储的计算结果（sink）

5、触发程序执行（execute()）

现在我们将对每一个步骤做一个概述，请参考相应部分以获得更多的详细信息。

请注意，Java DataSet API的所有核心类在org.apache.flink.api.java中，Java DataStream API在org.apache.flink.streaming.api。

StreamExecutionEnvironment是所有Flink程序的基础。你可以使用下面的静态方法获取该对象的实例：

getExecutionEnvironment()

createLocalEnvironment()

createRemoteEnvironment(String host, int port, String... jarFiles)

通常，你只需要使用getExecutionEnvironment()，因为这将根据上下文来初始化环境。如果你在IDE中执行程序或作为一个常规的Java程序，它将创建一个本地环境，它将在你本地机器上执行程序。如果创建了一个Jar文件，并通过命令行调用它，那么Flink集群管理器将执行main方法，并且调用getExecutionEnvironment()返回一个执行环境，然后在集群上执行你的程序。

对于指定的数据源，执行环境有多种方式使用各种方法来读取文件，对于CSV可以逐行读取，或者使用完全自定义的数据输入格式。只需要将文本文件作为序列的行读取。

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream text = env.readTextFile("file:///path/to/file");

这将为你返回一个DataStream，然后你可以应用转换来创建新的派生DataStream。你可以使用转换函数调用DataStream的转换方法。例如，map转换：

DataStream input = ...;
DataStream parsed = input.map(new MapFunction() {
    @Override
    public Integer map(String value) {
        return Integer.parseInt(value);
    }
});

这将通过将原始集合中的每个字符串转换为整数来创建新的DataStream.

一旦有了一个最终结果的DataStream，就可以通过创建一个sink来讲其写入外部系统。这些只是创建一个sink的实例方法：

writeAsText(String path)
print()

只要你指定了需要触发执行的完整程序，通过调用StreamExecutionEnvironment的execute()方法来执行，依靠ExecutionEnvironment的类型，将在本地机器触发执行，或者在集群上提交你的程序。execute()方法返回一个JobExecutionResult，它包含执行时间和累加器结果。

3.Lazy Evaluation（延迟执行）

所有的Flink程序都是延迟执行的。当程序的main方法被执行时，加载数据和转换不会直接发生。相反，每个操作都被创建并添加到程序的计划中。当执行环境中的execute()显示地触发执行时，才开始执行实际的操作。程序在本地执行还是集群上执行取决于执行环境的类型。

延迟执行可以让你创建复杂的程序，Flink作为一个整体计划单元执行

4.Specifying Keys（key的定义）

一些转换（join，cogroup，keyBy，groupBy）要求在一个元素的集合上指定一个key。其他转换（reduce，groupReduce，aggregate，window）允许数据在应用之前被分组在一个key上。

// A DataSet is grouped as
DataSet<...> input = // [...]
DataSet<...> reduced = input
  .groupBy(/*define key here*/)
  .reduceGroup(/*do something*/);

// while a key can be specified on a DataStream using
DataStream<...> input = // [...]
DataStream<...> windowed = input
  .keyBy(/*define key here*/)
  .window(/*window specification*/);

Flink的数据模型不是基于key-value的。因此，你不需要物理地将数据集类型封装成keys和values。keys是虚拟的：它们被定义为对实际数据的函数，以指导分组操作符。

注意：在接下来的讨论中将使用DataStream API和keyBy。对于DataSet API 只需使用DataSet 和groupBy替代。

1.Define keys for Tuples（元组键）

最简单的情况是在元组的一个或多个字段上对元组进行分组：

元组被分组在第一个字段（整数类型）

DataStream> input = // [...]
KeyedStream,Tuple> keyed = input.keyBy(0)

在这里，我们将元组分组在一个由第一和第二个字段组成的组合键上。

DataStream> input = // [...]
KeyedStream,Tuple> keyed = input.keyBy(0,1)

嵌套元组的一个注释：如果你有一个带有嵌套元组的DataStream，例如：

指定keyBy(0)将导致系统使用完成的Tuple2作为键（使用整数和浮点数作为键）。如果你想要导航到嵌套的Tuple2上，你必须使用后面介绍的字段表达式键。DataStream,String,Long>> ds;

2.Define keys using Field Expressions（字段表达式键）

你可以使用基于字符串的字段表达式来引用嵌套的字段，并定义用于group，sort，join，cogroup.

字段表达式可以很容易地选择复合类型的字段，例如Tuple和POJO类型。

在下面的实例中，我们有个WC的POJO，它有两个字段word和count，按照word来分组，我们只是将其传递给keyBy函数。

// some ordinary POJO (Plain old Java Object)
public class WC {
  public String word;
  public int count;
}
DataStream words = // [...]
DataStream wordCounts = words.keyBy("word").window(/*window specification*/);

字段表达式的语法：

根据字段名选择POJO字段。例如，"user"指的是POJO类型的“user”字段
通过字段名或0偏移量开始的索引来选择Tuple类型的字段。例如，“f0” 和 “5” 指的是Java Tuple类型的第一个和第六个字段
你可以在POJO和Tuple中选择嵌套的字段。例如，“user.zip” 指的是一个POJO的“zip”字段，该字段存储在POJO类型的“user”字段中。对POJO和Tuple的任意嵌套和混合都是支持的。如，“f1.user.zip” or “user.f3.1.zip”
你可以使用同配置表达式“*”选择完整的类型。这也适用于非Tuple和POJO类型的类型

字段表达式实例：

public static class WC {
  public ComplexNestedClass complex; //nested POJO
  private int count;
  // getter / setter for private field (count)
  public int getCount() {
    return count;
  }
  public void setCount(int c) {
    this.count = c;
  }
}
public static class ComplexNestedClass {
  public Integer someNumber;
  public float someFloat;
  public Tuple3 word;
  public IntWritable hadoopCitizen;
}

这些是上面示例代码的有效字段表达式：

“count”：WC类中的count字段
“complex”：递归的选择POJO类型ComplexNestedClass类的复杂字段
“complex.word.f2”：选择嵌套Tuple3的最后一个字段
“complex.hadoopCitizen”：选择Hadoop IntWritable类型

3.Define keys using Key Selector Functions（Key选择器函数）

定义键的另一个方法是“key selector”函数。一个键选择器函数将一个元素作为输入，并返回元素的键。键可以是任何类型的，并且是由确定性计算派生出来的。

下面的示例显示了一个键选择器函数，它简单的地返回一个对象的字段。

// some ordinary POJO
public class WC {public String word; public int count;}
DataStream words = // [...]
KeyedStream kyed = words
  .keyBy(new KeySelector() {
     public String getKey(WC wc) { return wc.word; }
   });

5.Specifying Transformation Functions（转换函数）

大多数转换都需要用户自定义函数。本节列出了如何指定它们的不同方式。

1.实现接口

// 最基本的方法是实现所提供的接口之一：
class MyMapFunction implements MapFunction {
  public Integer map(String value) { return Integer.parseInt(value); }
});
data.map(new MyMapFunction());

2.匿名内部类

// 可以用一个匿名类传给一个函数
data.map(new MapFunction () {
  public Integer map(String value) { return Integer.parseInt(value); }
});

3.Java 8 Lambdas

// Flink also supports Java 8 Lambdas in the Java API. Please see the full Java 8 Guide.
data.filter(s -> s.startsWith("http://"));
data.reduce((i1,i2) -> i1 + i2);

4.Rich functions

// 所有需要用户定义函数的转换可以将其作为一个rich function。例如，而不是
class MyMapFunction implements MapFunction {
  public Integer map(String value) { return Integer.parseInt(value); }
});
// 可以写成下面这种实现：
class MyMapFunction extends RichMapFunction {
  public Integer map(String value) { return Integer.parseInt(value); }
});
// and pass the function as usual to a map transformation:
data.map(new MyMapFunction());
Rich functions can also be defined as an anonymous class:
data.map (new RichMapFunction() {
  public Integer map(String value) { return Integer.parseInt(value); }
});

除了用户定义的函数（map，reduce等）之外，Rich function还提供了四个方法：open，close，getRuntimeContext，setRuntimeContext。这些对于参数化的函数，创建和终结局部状态，访问广播变量，访问诸如累加器和计数器之类的运行时信息，以及迭代的信息，都是很有用的。

6.Flink数据类型

Flink对可能在DataSet或DataStream中元素类型进行了一些限制。这样做的原因是系统分析这些类型来决定有效的执行策略。

有六种不同类别的数据类型：

Java Tuples and Scala Case Classes
Java POJOs
Primitive Types（基本类型）
Regular Classes（普通的class类型）
Values（Flink自带的一种对应基本类型一种高效序列化类型）
Hadoop Writables
Special Types

1.Tuples and Case Classes

Tuple是包含有不同类型的固定数量的字段的复合类型。Java API提供了从Tuple1到Tuple25的类。Tuple的每个字段都可以是任意的Flink类型，包括further Tuple，结果是嵌套的元组。可以使用字段的名称作为Tuple直接访问Tuple的字段tuple.f4，或使用通用的getter方法 tuple.getField(int position)。字段索引从0开始。注意，这与Scala的Tuple形成了对比，但是它更符合Java的一般索引。

DataStream> wordCounts = env.fromElements(
    new Tuple2("hello", 1),
    new Tuple2("world", 2));

wordCounts.map(new MapFunction, Integer>() {
    @Override
    public Integer map(Tuple2 value) throws Exception {
        return value.f1;
    }
});

wordCounts.keyBy(0); // also valid .keyBy("f0")

2.POJOs

Java和Scala类被Flink视为一种特殊的POJO数据类型，如果它们满足以下要求：

class必须是public
必须有一个public的无参构造函数
所有的字段要么是public，要么必须通过getter和setter方法访问
字段类型必须由Flink支持。目前Flink使用avro来序列化任意对象（如date）

Flink分析了POJO类型的结构，它学习了一个POJO字段。因此，POJO类型比一般类型更容易使用。此外，Flink可以比一般类型更有效的处理POJO

下面的示例展示了一个具有两个public字段的简单POJO：

public class WordWithCount {
    public String word;
    public int count;
    public WordWithCount() {}
    public WordWithCount(String word, int count) {
        this.word = word;
        this.count = count;
    }
}
DataStream wordCounts = env.fromElements(
    new WordWithCount("hello", 1),
    new WordWithCount("world", 2));
wordCounts.keyBy("word"); // key by field expression "word"

3.Primitive Types（基本类型）

Flink支持所有的Java和Scala的基本类型，如Integer，String，Double等

4.General Class Types

Flink支持大多数Java和Scala类（API和自定义）。限制适用于包含不能序列化的字段的类，比如文件指针，IO流，或其他本地资源。遵循JavaBean的约定的类通常工作的很好。

所有没有被确定为POJO类型的class都是由Flink作为一般类型处理。Flink将这些数据类型视为黑盒子，无法访问他们的内容（例如，有效的排序）。一般类型使用Kryo进行序列化和反序列化。

4.Values

Value类型可以手动描述它们的序列化和反序列化。它们没有使用通用的序列化框架，而是通过实现org.apache.flinktypes.Value接口的write和read方法来提供定制操作。使用Value类型是合理的，因为一般的序列化是非常低效的。例如，一个数据类型实现了作为数组元素的稀疏向量。知道数组大部分为零，可以为非零元素使用特殊的编码，而一般的序列化则只需要编写所有的数组元素。org.apache.flinktyps.CopyableValue接口以类型的方式支持手动的内存克隆逻辑。

Flink带着与基本数据类型对应的预定义Value类型（ByteValue，ShortValue，IntValue，LongValue，FloatValue，DoubleValue，StringValue，CharValue，BooleanValue）.这些Value类型充当基本数据类型可变变体。他们的值可以被修改，允许程序员重用对象并垃圾收集器中释放压力。

5.Hadoop Writables

你可以使用实现了org.apache.hadoop.Writable接口的类型。在write和readFields方法中定义序列化逻辑用于序列化。

6.Special Types（特殊类型）

可以使用特殊类型，包括Scala的Either，Option，Try。Java API 也有Either自己的自定义实现。与Scala的Either类似，它代表一种两种可能的类型的值，Left和Right。对于需要输出两种不同类型记录的错误处理或操作，Either是有用的。

7.Type Erasure & Type Inference（类型擦除和类型推断）

注意：这部分只与Java有关。

Java编译器在编译之后会抛出很多泛型类型的信息。这在Java中称为类型擦除。这意味着在运行时，对象的实例不再知道它的泛型类型。例如，DataStream和DataStream对于JVM来说是一样的。

Flink在准备执行程序的时候需要类型信息（当程序的主要方法被调用时）。Flink Java API试图重构以各种方式抛出的类型信息，并将其显示地存储在数据集合操作符中。你可以通过DataStream.getType()来检索类型。这个方法返回一个TypeInfomation实例，这是Flink的内部方式来表示类型。

类型推断有其局限性，在某些情况下需要程序员的“合作”。例如，创建数据集的方法的示例，ExecutionEnvironment,fromCollection()，你可以传递一个参数描述类型，还有个泛型函数MapFunction可能需要额外的类型信息。

可以通过输入格式和函数来实现ResultTypeQueryable接口，从而明确地告诉API 他们的返回类型。函数调用的输入类型通常可以通过前一个操作的结果类型来推断。

7.Accumulators & Counters（累加器和计数器）

累加器是一个简单的构造，有一个添加操作（ add operation）和最终积累的结果（ final accumulated result），在作业结束后可用。

最简单的累加器是一个计数器（counter），可以使用Accumulator.add(V value)方法来增加它。在job结束时，Flink将sum（merge）所有的部分结果，并将结果发送给客户端。在调试过程中，累加器是非常有用的，或者如果你想要了解更多关于你的数据信息。

Flink目前有以下内置的累加器，每个都实现了累加器接口：

IntCounter, LongCounter and DoubleCounter
Histogram: 一个用于离散数量的容器的直方图实现。在内部，它只是一个从整数到整数的映射。你可以使用它来计算值的分布，例如，一个单词计数程序的每一行单词的分布。

如何使用累加器：

首先，在自定义的转换函数中创建一个累加器对象（例如：counter）

private IntCounter numLines = new IntCounter();

其次，注册累加器对象，通常在rich function中的open()方法。还可以定义累加器名称

getRuntimeContext().addAccumulator("num-lines", this.numLines);

现在，可以在operator 函数的任何地方使用累加器，包括open()和close()方法

this.numLines.add(1);

整个结果将存储在JobExecutionResult对象中，该对象是从执行环境的execute()方法返回的（当前这仅在等待作业执行完成时才有效）

myJobExecutionResult.getAccumulatorResult("num-lines")

所有累加器在每个Job中共享一个命名空间。因此，在一个JOb的不同operator函数中使用相同的累加器。Flink将在内部合并所有相同名称的累加器。

关于累加器和迭代器的注释：

目前累加器的结果仅在整个作业结束后才可用。我们还计划在下一次迭代中使前一次迭代的可用结果。您可以使用聚合器来计算每次迭代统计信息，并根据此类统计信息确定迭代的终止。

自定义累加器：

你可能感兴趣的:(Apache,Flink)

Apache Tomcat 漏洞CVE-2024-50379条件竞争文件上传漏洞 servlet readonly spring boot 修复方式李三醒 apache tomcat spring boot
1，关于漏洞ApacheTomcat是一个流行的开源Web服务器和JavaServlet容器。二、漏洞描述ApacheTomcat中修复了个TOCTOU竞争条件远程代码执行漏洞(CVE-2024-50379)，该漏洞的CVSS评分为9.8。ApacheTomcat中JSP编译期间存在检查时间使用时间(TOCTOU)竞争条件漏洞，当ApacheTomcat的默认servlet被配置为允许写入（即re
org.apache.flink.runtime.client.JobInitializationException: Could not start the JobMaster. ForwardSummer Error集锦大数据 JVM java jvm flink
IDEA执行Flink的类的main方法时，遇到如下错误，还以为是啥大错误，没想到只是路径错了，txt的文件格式没有拼全，加上txt就好了。Exceptioninthread"main"java.lang.RuntimeException:java.util.concurrent.ExecutionException:java.lang.RuntimeException:org.apache.fl
Flink执行jar报错：java.io.IOException: Error opening the Input Split file 或者 java.io.FileNotFoundExceptio 故明所以 Flink jar flink 大数据
一、报错内容Flink执行jar时，报如下错误：org.apache.flink.client.program.ProgramInvocationException:Jobfailed.(JobID:80bbed7b2180c6fd5904c29e7e8af447)atorg.apache.flink.client.program.rest.RestClusterClient.submitJob(
Flink Standalone集群模式安装部署全攻略自节码 java 面试开发语言 flink 大数据
FlinkStandalone集群模式安装部署全攻略一、引言Flink作为一款强大的分布式流处理和批处理框架，在大数据领域有着广泛的应用。本文将详细介绍FlinkStandalone集群模式的安装部署过程，帮助大家快速搭建起开发测试环境。二、安装前准备首先，确保已经安装好了Hadoop环境（因为后续配置中涉及到与Hadoop的集成）。三、安装步骤（一）环境准备退出conda的base环境（如果存在
Caused by: java.io.NotSerializableException: org.apache.parquet.schema.MessageType 黄瓜炖啤酒鸭 Flink 依赖冲突
目前没解决，本地代码可以运行，打包集群运行也没问题，可能是zeppelin哪里的依赖包冲突。scala任务代码Headdefault%flink.confflink.execution.packagesorg.apache.flink:flink-connector-kafka_2.11:1.11.2,com.alibaba:fastjson:1.2.60,org.apache.flink:fli
Flink报错：java.io.IOException: Insufficient number of network buffers 九师兄
1.美图2.概述Flink的master与worker进程有不同的内存需求。Master进程主要管理计算资源（也就是ResourceManager）以及协调applications的执行（也就是JobManager）。而worker进程的需要进行各类计算并处理数据（可能是大量数据）。一般来说，master进程的内存需求并不是特别大。默认情况下，它使用1GB的JVM堆内存。如果一个master进程需
Caused by: java.lang.ClassNotFoundExceptionorg/apache/flink/shaded/jackson2/com/fasterxml/jackson/co 木生火18624 大数据实战异常错误
Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/flink/shaded/jackson2/com/fasterxml/jackson/core/JsonParseExceptionatorg.apache.flink.runtime.webmonitor.WebMonitorEndpoint.initializeH
【Flink】集群环境下的搭建（Standalone 模式）つ情绪 flink 大数据
前言Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架，支持多种安装部署模式。主要包括以下几种‌1‌.Standalone模式‌：这是独立运行的模式，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务。这种模式适合开发和测试环境‌。2‌.YARN模式‌：在这种模式下，Flink应用提交给YARN的ResourceManager，Resource
Flink cdc3 2401_84167086 程序员 flink 大数据
flink环境准备FlinkStandalone集群，下载最新版本Flink1.18.0，解压后得到flink-1.18.0目录。并且设置FLINK_HOME为flink-1.18.0所在目录。通过在conf/flink-conf.yaml配置文件追加下列参数开启checkpoint，每隔3秒做一次checkpoint，方便后续观察数据变更。execution.checkpointing.inte
CVE-2021-41773 目录穿越复现并反弹shell 小彭爱学习网络安全网络安全 web安全安全
CVE-2021-41773目录穿越复现ApacheHTTPServer2.4.49路径穿越漏洞（CVE-2021-41773）ApacheHTTPServer是Apache基金会开源的一款流行的HTTP服务器。在其2.4.49版本中，引入了一个路径穿越漏洞，满足下面两个条件的Apache服务器将会受到影响：版本等于2.4.49穿越的目录允许被访问，比如配置了Requireallgranted。（
Compilation error org.eclipse.jdt.internal.compiler.classfmt.ClassFormatException 布碗异常处理 tomcat intellij maven
异常信息严重:Compilationerrororg.eclipse.jdt.internal.compiler.classfmt.ClassFormatExceptionatorg.eclipse.jdt.internal.compiler.classfmt.ClassFileReader.(ClassFileReader.java:342)atorg.apache.jasper.compile
Apache Iceberg数据湖技术在海量实时数据处理、实时特征工程和模型训练的应用技术方案和具体实施步骤及代码 weixin_30777913 音视频语言模型大数据人工智能
ApacheIceberg在处理海量实时数据、支持实时特征工程和模型训练方面的强大能力。Iceberg支持实时特征工程和模型训练，特别适用于需要处理海量实时数据的机器学习工作流。Iceberg作为数据湖，以支持其机器学习平台中的特征存储。Iceberg的分层结构、快照机制、并发读写能力以及模式演进等特性，使得它能够高效地处理海量数据，并且保证数据的一致性和可用性。特别是在特征工程和模型训练方面，I
【漏洞复现】Apache Tomcat条件竞争代码执行漏洞（CVE-2024-50379）李火火安全阁漏洞复现中间件漏洞 apache tomcat
文章目录前言声明一、漏洞描述二、漏洞版本三、环境部署四、漏洞复现五、修复建议前言由于Windows文件系统与Tomcat在路径大小写区分处理上的不一致，当启用了默认servlet的写入功能（设置readonly=false且允许PUT方法），未经身份验证的攻击者可以构造特殊路径绕过Tomcat的路径校验机制，通过条件竞争不断发送请求上传包含恶意JSP代码的文件触发Tomcat对其解析和执行，从而实
14 2D矩形模块（ rect.rs） Source.Liu euclid库 rust euclid CAD
一、rect.rs源码//Copyright2013TheServoProjectDevelopers.SeetheCOPYRIGHT//fileatthetop-leveldirectoryofthisdistribution.////LicensedundertheApacheLicense,Version2.0ortheMITlicense//,atyour//option.Thisfile
13 尺寸结构模块（size.rs） Source.Liu euclid库 rust euclid CAD
一、size.rs源码//Copyright2013TheServoProjectDevelopers.SeetheCOPYRIGHT//fileatthetop-leveldirectoryofthisdistribution.////LicensedundertheApacheLicense,Version2.0ortheMITlicense//,atyour//option.Thisfile
简述Apache Airflow：分布式工作流调度与管理利器心上之秋 apache 分布式
目录什么是ApacheAirflow?核心概念与架构DAGOperatorsTasksExecutorsAirflow的安装与配置环境要求安装步骤Airflow示例项目简单任务调度使用PythonOperator实现数据处理任务集成外部工具：MySQL和S3Airflow的高级功能自定义Operators使用Sensors实现动态依赖分布式调度Airflow的优缺点总结什么是ApacheAirfl
Airflow：选择合适执行器扩展任务执行梦想画家数据分析工程 #Airflow 数据集成数据工程 airflow
ApacheAirflow是面向开发人员使用的，以编程方式编写、调度和监控的数据流程平台。可伸缩性是其关键特性之一，Airflow支持使用不同的执行器来执行任务。在本文中，我们将深入探讨如何利用这些执行器在Airflow中有效地扩展任务执行。理解Airflow中的执行者执行器是运行任务的机制。Airflow带有几个执行器，每个执行器都有自己的长处和理想的用例。核心执行者有：SequentialEx
HttpClient使用详解 get与post请求 licux JavaHttp
转自：https://www.jianshu.com/p/375be5929bed一、HttpClient使用详解与实战一：普通的GET和POST请求简介HttpClient是ApacheJakartaCommon下的子项目，用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient最新版本是HttpClient4.5.3(G
【Java进阶营】java 读取 excel 表格内容_java读取表格数据,表格列包含不同对象的属性 2401_84619245 2024年程序员学习 python
一、添加依赖org.apache.poipoi3.8org.apache.poipoi-ooxml3.8二、工具类根据文件后缀判断2003||2007||2010格式。importorg.apache.poi.hssf.usermodel.HSSFWorkbook;importorg.apache.poi.ss.usermodel.*;importorg.apache.poi.xssf.userm
解析与使用 Apache HttpClient 进行网络请求和数据抓取 Future_yzx apache 网络
目录1.什么是HttpClient？2.基本使用3.使用HttpClient爬取腾讯天气的数据4.爬取拉勾招聘网站的职位信息5.总结前言ApacheHttpClient是Apache提供的一个用于处理HTTP请求和响应的工具类库。它提供了一种便捷、功能强大的方式来发送HTTP请求，并解析HTTP响应。HttpClient适用于多种网络请求场景，能够帮助我们高效地与Web服务进行交互。1.什么是Ht
kylin套_Apache Kylin（一）Kylin介绍 weixin_39898011 kylin套
1.传统大数据分析的问题在基于Hadoop生态的传统大数据分析中，主要使用的技术是MPP(MassivelyParallelProcessing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于Hadoop的SQL查询速度从小时级降为分钟级。不过分钟级别的查询响应仍未达到交互式分析级别，主要问题在于：MPP以及列式存储
linux的apache安装,Apache Kylin | 安装指南姜白的树洞 linux的apache安装
软件要求Hadoop:2.7+,3.1+(sincev2.5)Hive:0.13-1.2.1+HBase:1.1+,2.0(sincev2.5)Spark(可选)2.3.0+Kafka(可选)1.0.0+(sincev2.5)JDK:1.8+(sincev2.5)OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+在HortonworksHDP2.2-2.6and3.0,C
kylin linux 安装教程,Apache Kylin | 安装指南社本 kylin linux 安装教程
软件要求Hadoop:2.7+Hive:0.13-1.2.1+HBase:1.1+Spark2.1.1+JDK:1.7+OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+用HortonworksHDP2.2-2.6,ClouderaCDH5.7-5.11,AWSEMR5.7-5.10,AzureHDInsight3.5-3.6进行测试。出于试用和开发的目的，我们建议您使用
Java Map 深拷贝方法 qq_41482600 java基础 java 开发语言
1、JSON.parseObject(JSON.toJSONString(map))importcom.alibaba.fastjson.JSON;importorg.apache.commons.lang3.SerializationUtils;importjava.util.HashMap;importjava.util.Map;publicclassJSONDemo{publicstatic
Exception in thread “main“ org.apache.ibatis.exceptions.PersistenceException: ### Error building Sq yandajiangjun Java maven mybatis java
Exceptioninthread“main”org.apache.ibatis.exceptions.PersistenceException:ErrorbuildingSqlSession.TheerrormayexistinMybatis/dao/UserDao.xmlCause:org.apache.ibatis.builder.BuilderException:ErrorparsingS
使用URL Rewrite实现网站伪静态
实现网站的伪静态功能，通常是通过配置Web服务器的URL重写功能（URLRewrite）来实现的。伪静态能有效提升网站的用户体验与SEO优化，给用户呈现简洁、易懂的URL地址，而实际上服务器内部还是通过动态的URL进行处理。下面，我们详细介绍如何通过配置URLRewrite规则来实现这一目标。1.配置Web服务器：确保你的网站运行在支持URLRewrite的Web服务器上，如Apache或Ngin
Kafka 下载安装及使用总结 GreyFable 开发技术及框架 kafka 分布式
1.下载安装官网下载地址：ApacheKafka下载对应的文件上传到服务器上，解压tar-xzfkafka_2.13-3.7.0.tgz目录结果如下├──bin│└──windows├──config│└──kraft├──libs├──licenses└──site-docs官方文档：ApacheKafkakafka有两种启动方式，ZooKeeper和KRaft，这里采用KRaft的方式，使用k
Java与Kafka：消息队列使用指南墨瑾轩一起学学Java【一】java kafka linq
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣大家好呀！今天我们要来聊聊如何使用Java语言与ApacheKafka搭建消息队列系统。Kafka是一款分布式流处理平台，它能够高效地处理大量实时数据。无论是构建实时数据分析系统还是简单的消息队列应用，Kafka都能胜任。那么，我们就开始吧！什么是Kafka？
hbase无法建表：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing magicchu CDH HBASE 大数据
1.环境：cdh6.2.12.现象：hbaseshell进去后，list命令执行正常，执行建表语句后报错：ERROR:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing提示master正在初始化中，查看master日志：WARNorg.apache.hadoop.hbase.master.HMaster:hbase:na
Flink中定时器的使用_flink 定时器 ontimerf()方法获取事件字节全栈_vBr flink java 大数据
处理时间——调用Context.timerService().registerProcessingTimeTimer()注册；onTimer()在系统时间戳达到Timer设定的时间戳时触发。事件时间——调用Context.timerService().registerEventTimeTimer()注册；onTimer()在Flink内部水印达到或超过Timer设定的时间戳时触发。Context和
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s