sdut菜鸟

【Flink】DataStream API使用之转换算子（Transformation）

转换算子（Transformation）

数据源读入数据之后，就是各种转换算子的操作，将一个或者多个DataSream转换为新的DataSteam，并且Flink可以针对一条流进行转换处理，也可以进行分流或者河流等多流转换操作，从而组成复杂的数据流拓扑。

1. 基本转换算子

这里介绍的都是最基本的转换算子，在官方文档会有更多的算子介绍

1.1 Map(映射)

-------	内容
描述：	在 `DataStream` 上应用映射转换。转换为`DataStream`的每个元素调用一个 `MapFunction`。每个 `MapFunction` 调用只返回一个元素。用户还可以扩展 `RichMapFunction` 以访问`org.apache.flink.api.common.functions.RichFunction` 接口提供的其他功能。
参数：	`DataStream` 的每个元素调用的 `MapFunction`。
返回值：	`SingleOutputStreamOperator`转换后的数据流
总结：	数据转换，一一映射

图示：

源码：

public <R> SingleOutputStreamOperator<R> map(MapFunction<T, R> mapper) {

        TypeInformation<R> outType =
                TypeExtractor.getMapReturnTypes(
                        clean(mapper), getType(), Utils.getCallLocationName(), true);

        return map(mapper, outType);
    }
public <R> SingleOutputStreamOperator<R> map(
            MapFunction<T, R> mapper, TypeInformation<R> outputType) {
        return transform("Map", outputType, new StreamMap<>(clean(mapper)));
    }

可以看到参数是一个MapFunction，然后通过实现的map方法去一一返回对应的元素。

实例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 2. 从集合中读取数据
        ArrayList<String> list = new ArrayList<>();
        list.add("one");
        list.add("two");
        list.add("three");
        // 3. 读取数据
        DataStreamSource<String> stringDataStreamSource = env.fromCollection(list, BasicTypeInfo.STRING_TYPE_INFO);
        // 4. map操作
        SingleOutputStreamOperator<String> mapStreamOperator = stringDataStreamSource.map(string -> string + " yes");
        mapStreamOperator.print();
        // 5. 执行程序
        env.execute();
    }

这里的public class SingleOutputStreamOperator extends DataStream {} 可以看出map 是将一个 DataStream 转换成另一个 DataStream 是完全正确的。

1.2 filter(过滤)

-------	内容
描述：	对 `DataStream` 应用过滤器转换。转换为 `DataStream` 的每个元素调用 `FilterFunction`，并仅保留函数返回 `true` 的那些元素。过滤函数返回 `false` 的元素。用户还可以扩展 `RichFilterFunction` 以访问 `org.apache.flink.api.common.functions.RichFunction` 接口提供的其他功能。
参数：	为 `DataStream` 的每个元素调用的 `FilterFunction`
返回值：	`SingleOutputStreamOperator`转换后的数据流
总结：	筛选数据

图示：

源码：

public SingleOutputStreamOperator<T> filter(FilterFunction<T> filter) {
        return transform("Filter", getType(), new StreamFilter<>(clean(filter)));
    }

这里的参数是一个FilterFunction，然后通过实现的filter方法判断是否返回改元素。

实例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 2. 从集合中读取数据
        ArrayList<String> list = new ArrayList<>();
        list.add("one");
        list.add("two");
        list.add("three");
        // 3. 读取数据
        DataStreamSource<String> stringDataStreamSource = env.fromCollection(list, BasicTypeInfo.STRING_TYPE_INFO);
        // 4. filter操作
        SingleOutputStreamOperator<String> filterStreamOperator = stringDataStreamSource.filter(string -> string.contains("o"));
        filterStreamOperator.print();
        // 5. 执行程序
        env.execute();
    }

进行 filter 转换之后的新数据流的数据类型与原数据流是相同的。

1.3 FlatMap(扁平映射)

-------	内容
描述：	在 `DataStream` 上应用 `FlatMap 转换。转换为 DataStream 的每个元素调用 FlatMapFunction。每个 FlatMapFunction 调用都可以返回任意数量的元素，包括无元素。用户还可以扩展 RichFlatMapFunction 以访问 org.apache.flink.api.common.functions.RichFunction 接口提供的其他功能。
参数：	为 `DataStream` 的每个元素调用的 `FlatMapFunction`
返回值：	`SingleOutputStreamOperator`转换后的数据流
总结：	是将数据流中的整体（一般是集合类型）拆分成一个一个的个体使用。消费一个元素，可以产生 0 到多个元素

图示：

源码：

public <R> SingleOutputStreamOperator<R> flatMap(FlatMapFunction<T, R> flatMapper) {

    TypeInformation<R> outType =
            TypeExtractor.getFlatMapReturnTypes(
                    clean(flatMapper), getType(), Utils.getCallLocationName(), true);

    return flatMap(flatMapper, outType);
}

public <R> SingleOutputStreamOperator<R> flatMap(
        FlatMapFunction<T, R> flatMapper, TypeInformation<R> outputType) {
    return transform("Flat Map", outputType, new StreamFlatMap<>(clean(flatMapper)));
}

这里的参数是一个FlatMapFunction，然后通过实现的flatMap方法来处理返回 0 个、1 个或多个结果数据。因此 flatMap 并没有直接定义返回值类型，而是通过一个“收集器”（Collector）来指定输出。希望输出结果时，只要调用收集器的.collect()方法就可以了；这个方法可以多次调用，也可以不调用。

实例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 2. 从集合中读取数据
        ArrayList<String> list = new ArrayList<>();
        list.add("one,yes");
        list.add("two,no");
        list.add("three");
        // 3. 读取数据
        DataStreamSource<String> stringDataStreamSource = env.fromCollection(list, BasicTypeInfo.STRING_TYPE_INFO);
        // 4. flatMap操作
        SingleOutputStreamOperator<String> flatMapStreamOperator = stringDataStreamSource.flatMap((FlatMapFunction<String, String>) (s, collector) -> {
            if (s.contains(",")) {
                for (String str : s.split(",")) {
                    collector.collect(str);
                }
            } else {
                collector.collect(s + ", go");
            }
        }).returns(BasicTypeInfo.STRING_TYPE_INFO);
        // 这里的returns要指定返回类型 因为类型擦出不知道Collector返回的泛型是什么类型
        flatMapStreamOperator.print();
        // 5. 执行程序
        env.execute();
    }

要注意要指定返回类型.returns(BasicTypeInfo.STRING_TYPE_INFO);

2.聚合算子（Aggregation）

基本转换算子确实是在“转换”——因为它们都是基于当前数据，去做了处理和输出。而在实际应用中，我们往往需要对大量的数据进行统计或整合，从而提炼出更有用的信息。比如之前 word count 程序中，要对每个词出现的频次进行叠加统计。这种操作，计算的结果不仅依赖当前数据，还跟之前的数据有关，相当于要把所有数据聚在一起进行汇总合并——这就是所谓的“聚合”（Aggregation），也对应着 MapReduce 中的 reduce 操作。

2.1 KeyBy(按键分区)

对于Flink而言，DataStream是没有直接进行聚合的API的，因此对海量数据处理做聚合一定要先做分区处理，这样才能提高效率。而分区就是通过KeyBy来完成的。

标题	内容
描述：	它创建一个新的 `KeyedStream`，它使用提供的`Key`来划分其操作员状态。
参数：	用于提取分区键的 `KeySelector`
返回值：	具有分区状态的 `DataStream`（即 `KeyedStream`）
总结：	根据`Key`的`hashCode`方法进行分区
注意：	以下情况，一个类不能作为 key：1.它是一种 POJO 类，但没有重写 hashCode() 方法而是依赖于Object.hashCode() 实现。2.它是任意类的数组。

图示：

基于不同的 key，流中的数据将被分配到不同的分区中去，如图 5-8 所示；这样一来，所
有具有相同的 key 的数据，都将被发往同一个分区，那么下一步算子操作就将会在同一个 slot
中进行处理了。在内部，是通过计算key的哈希值（hash code），对分区数进行取模运算来实现的。所以这里 key 如果是 POJO 的话，必须要重写 hashCode()方法。

源码：

public <K> KeyedStream<T, K> keyBy(KeySelector<T, K> key) {
    Preconditions.checkNotNull(key);
    return new KeyedStream<>(this, clean(key));
}

public <K> KeyedStream<T, K> keyBy(KeySelector<T, K> key, TypeInformation<K> keyType) {
    Preconditions.checkNotNull(key);
    Preconditions.checkNotNull(keyType);
    return new KeyedStream<>(this, clean(key), keyType);
}

这里的参数是一个KeySelector，然后通过实现的getKey方法返回指定的Key值来分区。需要注意的是KeyBy的结果不在是DataStream，而是将DataStream 转换为KeyedStream。KeyedStream 可以认为是“分区流”或者“键控流”，它是对 DataStream 按照key 的一个逻辑分区，所以泛型有两个类型：除去当前流中的元素类型外，还需要指定key的类型。

实例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",1200L));
        list.add(new Event("xiaohu","www.baidu2.com",1200L));
        list.add(new Event("xiaohu","www.baidu5.com",1267L));
        list.add(new Event("gala","www.baidu6.com",1200L));
        list.add(new Event("ming","www.baidu7.com",4200L));
        list.add(new Event("xiaohu","www.baidu8.com",5500L));

        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 4. keyBy操作
        KeyedStream<Event, String> keyedStream = eventDataStreamSource.keyBy(event -> event.user);
        keyedStream.print();
        // 5. 执行程序
        env.execute();
    }

KeyedStream 也继承自 DataStream，所以基于它的操作也都归属于 DataStream API。但它跟之前的转换操作得到的SingleOutputStreamOperator不同，只是一个流的分区操作，并不是一个转换算子。KeyedStream 是一个非常重要的数据结构，只有基于它才可以做后续的聚合操作（比如 sum，reduce）；而且它可以将当前算子任务的状态（state）也按照 key 进行划分、限定为仅对当前key有效。

2.2 简单聚合操作

KeyedStream提供了很多种简单的聚合操作，比如求和，求最大值等，主要有以下几种：

聚合操作名称	简介
`sum()`	在输入流上，对指定的字段做叠加求和的操作。
`min()`	在输入流上，对指定的字段求最小值。
`max()`	在输入流上，对指定的字段求最大值。
`minBy()`	与 `min()`类似，在输入流上针对指定字段求最小值。不同的是，`min()`只计算指定字段的最小值，其他字段会保留最初第一个数据的值；而 `minBy()`则会返回包含字段最小值的整条数据。
`maxBy()`	与 `max()`类似，在输入流上针对指定字段求最大值。两者区别与`min()`/`minBy()`完全一致。

这些简单聚合函数的参数很简单，不需要自定义函数，只需要说明聚合指定的字段就可以，指定字段的方式有两种，指定位置和指定名称

对于元祖类型，如果指定字段名，需要这样写字段名f0，f1，类似于这种stream.keyBy(r -> r.f0).max("f1").print();

对于POJO类，只能通过通过字段名称来指定，不能通过位置来指定，类似这种stream.keyBy(e -> e.user).max("timestamp")

public SingleOutputStreamOperator<T> maxBy(String positionToMaxBy) {
        return this.maxBy(positionToMaxBy, true);
    }
 
public SingleOutputStreamOperator<T> maxBy(int positionToMaxBy, boolean first) {
        return aggregate(
                new ComparableAggregator<>(
                        positionToMaxBy,
                        getType(),
                        AggregationFunction.AggregationType.MAXBY,
                        first,
                        getExecutionConfig()));
    }

简单聚合算子返回的是SingleOutputStreamOperator，从KeyStream又转换成了常规的DataStream，所以可以理解为KeyBy和聚合是成对出现的，先分区后聚合，得到的依然是一个DataStream。经过简单聚合之后的数据流，元素的类型是保持不变的。

一个聚合算子，会为每一个Key保存一个聚合的值，在Flink中这称为状态(state)，每当有一个新的数据输入，算子就会更新保存聚合结果，并发送一个更新后的聚合值的事件到下游算子。

对于无界流来说，这个状态是永远不会被清除的，所以使用聚合算子应该只用在有限个Key的数据流上。

实例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",1200L));
        list.add(new Event("xiaohu","www.baidu2.com",1200L));
        list.add(new Event("xiaohu","www.baidu5.com",1267L));
        list.add(new Event("gala","www.baidu6.com",1200L));
        list.add(new Event("ming","www.baidu7.com",4200L));
        list.add(new Event("xiaohu","www.baidu8.com",5500L));

        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 4. keyBy操作
        SingleOutputStreamOperator<Event> timestamp1 = eventDataStreamSource.keyBy(event -> event.user).max("timestamp");
        SingleOutputStreamOperator<Event> timestamp2 = eventDataStreamSource.keyBy(event -> event.user).maxBy("timestamp");
        // 这里的returns要指定返回类型 因为类型擦出不知道Collector返回的泛型是什么类型
        timestamp1.print("max:");
        timestamp2.print("maxBy:");
        // 5. 执行程序
        env.execute();
    }

注意这里的Max和MaxBy Max只返回指定的字段取最大值，MaxBy返回指定字段的最大的整条记录。

2.3 Reduce(归约聚合)

简单聚合是对一些特定需求的实现，呢么reduce算子就是一个一般化的聚合统计操作，reduce是对已有的数据进行归约处理，把每一个新输入的数据和当前已经归约出来的值再做一个聚合计算

与简单聚合类似，reduce也是将KeyStream转换为DataStream，不会改变流的元素数据，所以输入输出都是一样的

标题	内容
描述：	对按给定键位置分组的分组数据流应用减少转换。 `ReduceFunction` 将根据键值接收输入值。只有具有相同键的输入值才会进入相同的 `reducer`。
参数：	将为具有相同键的输入值的每个元素调用的 `ReduceFunction`。
返回值：	转换后的数据流
总结：	对已有数据进行归约处理，把每一个新输入的数据和当前已经归约的值在做一次聚合运算

与简单聚合类似，reduce操作也是将KeyedStream转换为DataStream，reduce不会改变流的元素数据类型，所以输出类型和输入类型是一样的。

源码：

public SingleOutputStreamOperator<T> reduce(ReduceFunction<T> reducer) {
        ReduceTransformation<T, KEY> reduce =
                new ReduceTransformation<>(
                        "Keyed Reduce",
                        environment.getParallelism(),
                        transformation,
                        clean(reducer),
                        keySelector,
                        getKeyType());

        getExecutionEnvironment().addOperator(reduce);

        return new SingleOutputStreamOperator<>(getExecutionEnvironment(), reduce);
    }

调用KeyedStream的reduce方法时，需要传入一个参数，实现ReduceFunction接口的reduce方法，接口源码如下：

@FunctionalInterface
@Public
public interface ReduceFunction<T> extends Function, Serializable {
    T reduce(T var1, T var2) throws Exception;
}

处理过程类似下图，这个方法接收两个参数，经过转换处理之后输出同一个相同类型的事件；所以，对于一组数据，我们可以先取两个进行合并，然后在将合并的结果看做一个数据，在跟后面的数据合并，最终简化成唯一的一个数据。

ReduceFunction内部会维护一个初始值为空的累加器，累加器的类型和输入数据的类型一致，当第一条数据到来时，累加器更新为第一条数据的值，当新数据到来时，新元素就和累加器进行累加操作，然后将更新后的累加器的值向下游输出。

实例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",1200L));
        list.add(new Event("xiaohu","www.baidu2.com",1200L));
        list.add(new Event("xiaohu","www.baidu5.com",1267L));
        list.add(new Event("gala","www.baidu6.com",1200L));
        list.add(new Event("ming","www.baidu7.com",4200L));
        list.add(new Event("xiaohu","www.baidu8.com",5500L));

        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 4. 统计访问频率
        SingleOutputStreamOperator<Tuple2<String, Long>> clickDataStreamSource = eventDataStreamSource.map(new MapFunction<Event, Tuple2<String, Long>>() {
            @Override
            public Tuple2<String, Long> map(Event event) throws Exception {
                return Tuple2.of(event.user, 1L);
            }
        }).keyBy(data -> data.f0).reduce(new ReduceFunction<Tuple2<String, Long>>() {
            @Override
            public Tuple2<String, Long> reduce(Tuple2<String, Long> t1, Tuple2<String, Long> t2) throws Exception {
                return Tuple2.of(t1.f0, t1.f1 + t2.f1);
            }
        });
        // 5. 找到最大的频率

        SingleOutputStreamOperator<Tuple2<String, Long>> maxClickStreamSource = clickDataStreamSource.keyBy(data -> "key").reduce(new ReduceFunction<Tuple2<String, Long>>() {
            @Override
            public Tuple2<String, Long> reduce(Tuple2<String, Long> t1, Tuple2<String, Long> t2) throws Exception {
                return t1.f1 > t2.f1 ? t1 : t2;
            }
        });

        // 6. 输出数据
        maxClickStreamSource.print();

        // 7. 执行程序
        env.execute();
    }

3. 用户自定义函数UDF

大多数操作都需要用户自定义 function，至于什么是自定义函数？我们可以通过自定义函数类或者匿名类来实现接口，也可以直接传入 Lambda 表达式。这就是谓的用户自定义函数（user-defined function，UDF）

3.1 Function Classes（函数类）

Flink暴露了所有的UDF函数的接口，具体实现方式为接口或者抽象类，例如 MapFunction、FilterFunction、ReduceFunction 等。所以最简单的方式就是自定义一个函数类，实现对应的接口即可。

示例：

class MyMapFunction implements MapFunction<String, String > {
   public String map(String value) { return value.startsWith("https") ? value.concat("_https") : value.concat("_http"); }
}
data.map(new MyMapFunction());

更丰富一点的方式，也可以参加一点构造函数

class MyMapFunction implements MapFunction<String, String> {
    private final String defaultStr;

    public MyMapFunction(String defaultStr) {
        this.defaultStr = defaultStr;
    }
    public String map(String value) { return value.startsWith(defaultStr) ? value.concat("_https") : value.concat("_http"); }
}

data.map(new MyMapFunction("https"));

3.2 Lambda（匿名函数）

Java8就已经支持Lambda表达式了，Flink的所有算子都支持Lambda表达式来编码，但是当Lambda表达式使用Java泛型的时候，需要显式声明类型信息。

示例：

// 匿名类
data.map(new MapFunction<String, Integer> () {
  public Integer map(String value) { return Integer.parseInt(value); }
});
// Lambda碰到泛型擦除的时候，需要指定returns
data.map(event -> event.user);

如果碰到flatmap则必须指定returns，map操作如果是简单类型就可以不用指定，但是碰到复杂数据类型或者POJO就需要指定returns

3.3 Rich Function Classes（富函数类）

富函数类也是DataStreamAPI提供的一个函数类接口，所有的Flink函数类都有Rich版本。例如：RichMapFunction、RichFilterFunction、RichReduceFunction 等。

@Public
public abstract class RichMapFunction<IN, OUT> extends AbstractRichFunction implements MapFunction<IN, OUT> {
    private static final long serialVersionUID = 1L;

    public RichMapFunction() {
    }

    public abstract OUT map(IN var1) throws Exception;
}

富函数类会比常规函数类提供更多的功能，

富函数类可以获取运行环境的上下文getRuntimeContext 和setRuntimeContext。
富函数类拥有生命周期方法，提供了open、close方法

对于富函数类有生命周期的概念。典型的生命周期方法有：

open()方法，是 Rich Function 的初始化方法，也就是会开启一个算子的生命周期。当
一个算子的实际工作方法例如 map()或者 filter()方法被调用之前，open()会首先被调
用。所以像文件 IO 的创建，数据库连接的创建，配置文件的读取等等这样一次性的
工作，都适合在 open()方法中完成。。
close()方法，是生命周期中的最后一个调用的方法，类似于解构方法。一般用来做一
些清理工作。

需要注意的是，这里的生命周期方法，对于一个并行子任务来说只会调用一次；而对应的，
实际工作方法，例如 RichMapFunction 中的 map()，在每条数据到来后都会触发一次调用。

示例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",1200L));
        list.add(new Event("xiaohu","www.baidu2.com",1200L));
        list.add(new Event("xiaohu","www.baidu5.com",1267L));
        list.add(new Event("gala","www.baidu6.com",1200L));
        list.add(new Event("ming","www.baidu7.com",4200L));
        list.add(new Event("xiaohu","www.baidu8.com",5500L));

        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 4. map操作
        SingleOutputStreamOperator<String> userSingleOutputStream = eventDataStreamSource.map(new RichMapFunction<Event, String>() {
            @Override
            public void open(Configuration parameters) throws Exception {
                super.open(parameters);
                System.out.println("这是 open方法, 索引为 " + getRuntimeContext().getIndexOfThisSubtask() + "的任务开始了");
            }

            @Override
            public void close() throws Exception {
                super.close();
                System.out.println("这是 close, 索引为 " + getRuntimeContext().getIndexOfThisSubtask() + "的任务结束了");

            }

            @Override
            public String map(Event event) throws Exception {
                return event.user;
            }
        });
        // 5. 打印
        userSingleOutputStream.print();
        // 6. 执行程序
        env.execute();
    }

打印结果：

这是 open方法, 索引为 0的任务开始了
ming
xiaohu
xiaohu
gala
ming
xiaohu
这是 close, 索引为 0的任务结束了

4. 物理分区

分区操作就是要将数据进行重新分布，传递到不同的流分区去进行下一步处理。

之前使用的keyBy是一种按照键的哈希值来重新分区的操作，只不过这种分区操作只能保证把数据按Key分开，至于分得均不均匀，每个key的数据具体分到哪一个区，这些都是无从控制的，所以KeyBy是一种逻辑分区操作。

KeyBy是一种软分区，Flink还有一种物理分区，是真正控制分区策略，精准地调整数据，告诉每个数据到底去哪。在Flink任务过程中，当我们设置多个处理任务并设置了不同的并行度，当数据执行的上下游任务并行度发生变化时，系统会自动地将数据均匀的发往下游的所有并行任务，保证各个分区的负载均衡。

但是有些时候需要我们手动控制数据分区分配策略。比如当数据发生数据倾斜的时候，系统无法调整，就需要我们进行干预重新进行负载均衡，将数据流较为平均的发送到下游任务中去。Flink为提供了多种操作接口帮助我们实现数据流的手动重分区。这种操作叫做物理分区操作

物理分区和keyBy的一大区别在于keyBy得到的是一个KeyedStream，而物理分区结果之后还是DataStream，并且流中元素数据类型保持不变。分区算子并不对数据进行转换处理，只是定义了数据的传输方式。

常见的物理分区策略有有随机分配（shuffle）、轮询分配（Round-Robin）、重缩放（Rescale）和广播（Broadcast），

4.1 随机分区（shuffle）

标题	描述
简介：	随机分区就是洗牌，将数据随机地分到下游算子的并行任务中去，随机分区服从均匀分布，会把数据流中的数据随机打乱，均匀地传递到下游任务分区
特点：	完全随机，均分分布; 经过随机分区之后，得到的依然是一个 DataStream。
调用方法：	`DataStream.shuffle()`方法

图解：

示例代码：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",1200L));
        list.add(new Event("xiaohu","www.baidu2.com",1200L));
        list.add(new Event("xiaohu","www.baidu5.com",1267L));
        list.add(new Event("gala","www.baidu6.com",1200L));
        list.add(new Event("ming","www.baidu7.com",4200L));
        list.add(new Event("xiaohu","www.baidu8.com",5500L));
        list.add(new Event("xiaohu2","www.baidu8.com",5500L));
        list.add(new Event("xiaohu3","www.baidu8.com",5500L));

        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 4. map操作
       eventDataStreamSource.shuffle().print("shuffle").setParallelism(4);
        // 5. 执行程序
        env.execute();
    }

多执行几次，结果看起来是没有规律的，并且也不是均匀处理相同个数的，其实数据量多起来的话，结果就近似于每个下游算子处理的任务数相同了。

4.2 轮询分配（Round-Robin）

标题	描述
简介：	轮询分区是常见的一种重分区方式，可以看做是`发牌`，按照先后顺序将数据一次分发。
特点：	按照顺序，均分分布; 经过轮询分区之后，得到的依然是一个 DataStream。
调用方法：	`DataStream.rebalance()`方法，rebalance使用的是 `Round-Robin` 负载均衡算法

注：Round-Robin 算法用在了很多地方，例如 Kafka 和 Nginx。
图解：

示例代码：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",0L));
        list.add(new Event("xiaohu","www.baidu2.com",1L));
        list.add(new Event("xiaohu","www.baidu5.com",2L));
        list.add(new Event("gala","www.baidu6.com",3L));
        list.add(new Event("ming","www.baidu7.com",4L));
        list.add(new Event("xiaohu","www.baidu8.com",5L));
        list.add(new Event("xiaohu2","www.baidu8.com",6L));
        list.add(new Event("xiaohu3","www.baidu8.com",7L));
        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 4. map操作
       eventDataStreamSource.rebalance().print("shuffle").setParallelism(4);
        // 5. 执行程序
        env.execute();
    }

打印结果：

shuffle:2> Event{user='gala', url='www.baidu6.com', timestamp=1970-01-01 08:00:00.003}
shuffle:3> Event{user='ming', url='www.baidu1.com', timestamp=1970-01-01 08:00:00.0}
shuffle:2> Event{user='xiaohu3', url='www.baidu8.com', timestamp=1970-01-01 08:00:00.007}
shuffle:4> Event{user='xiaohu', url='www.baidu2.com', timestamp=1970-01-01 08:00:00.001}
shuffle:1> Event{user='xiaohu', url='www.baidu5.com', timestamp=1970-01-01 08:00:00.002}
shuffle:3> Event{user='ming', url='www.baidu7.com', timestamp=1970-01-01 08:00:00.004}
shuffle:4> Event{user='xiaohu', url='www.baidu8.com', timestamp=1970-01-01 08:00:00.005}
shuffle:1> Event{user='xiaohu2', url='www.baidu8.com', timestamp=1970-01-01 08:00:00.006}

看着好像不是按照顺序，其实按照时间排序之后再看，顺序是3412

4.3 重缩放分区（rescale）

标题	描述
简介：	重缩放分区和轮询分区很相似，重缩放也是使用的Round-Robin算法轮询，只不过是将数据轮询发送到下游算子并行任务的一部分中，也就是类似于只会在自己的小团体中进行轮询。
特点：	团体内部，轮询分区
调用方法：	`DataStream.rescale()`方法，rescale使用的是 `Round-Robin` 负载均衡算法

图解：

这里说一下当下游任务的数量是上游任务数量的整数倍时，rescale的效率会更高一些。rescale和rebalance的区别在于：

rebalance是所有分区数据的重新平衡，当TaskManger数据量较多时，这种跨节点的网络传输必然影响效率，如果配置的task slot数量合适，rescale方式进行局部重缩放，就可以让数据只在当前TaskManger的多个slot之间重新分配，从而避免网络传输带来的损耗。
底层区别是rescale和rebalance在于任务之间的连接机制不同，rebalance会针对所有上游任务和所有下游任务之间建立通信通道，呈现笛卡尔积的关系，而rescale仅仅针对每一个任务以及通过某种方式得到的分组内的任务之间建立通信，节省很多资源。

示例代码：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",0L));
        list.add(new Event("xiaohu","www.baidu2.com",1L));
        list.add(new Event("xiaohu","www.baidu5.com",2L));
        list.add(new Event("gala","www.baidu6.com",3L));
        list.add(new Event("ming","www.baidu7.com",4L));
        list.add(new Event("xiaohu","www.baidu8.com",5L));
        list.add(new Event("xiaohu2","www.baidu8.com",6L));
        list.add(new Event("xiaohu3","www.baidu8.com",7L));
        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 4. map操作
       eventDataStreamSource.rescale().print("shuffle").setParallelism(4);
        // 5. 执行程序
        env.execute();
    }

这里的打印结果其实是1234，为什么？因为我的数据输入使用的fromCollection 本身就是只有一个任务，所以下游任务的4个都是一组，如果换成addSource效果会好一些。

示例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 读取数据
        DataStreamSource<Integer> integerDataStreamSource = env.addSource(new RichParallelSourceFunction<Integer>() {
            @Override
            public void run(SourceContext<Integer> ctx) throws Exception {
                for (int i = 0; i< 10 ;i ++) {
                    // 将奇数发送到索引为 1 的并行子任务
                    // 将偶数发送到索引为 0 的并行子任务
                    if ((i + 1) % 2 == getRuntimeContext().getIndexOfThisSubtask()) {
                        ctx.collect(i + 1);
                    }
                }
            }

            @Override
            public void cancel() {

            }
        }).setParallelism(2);
        // 3. map操作
        integerDataStreamSource.rescale().print("shuffle").setParallelism(4);
        // 4. 执行程序
        env.execute();
    }

输出结果：

// 手动排序后的
shuffle:3> 1
shuffle:4> 3
shuffle:3> 5
shuffle:4> 7
shuffle:3> 9

shuffle:1> 2
shuffle:2> 4
shuffle:1> 6
shuffle:2> 8
shuffle:1> 10

可以看出来，1和2是一组，3和4是一组

4.4 广播（Broadcast）

标题	描述
简介：	广播方式不算重分区，使用广播方式后，数据会在不同的分区都保留一份，可能进行重复处理。
特点：	所有分区都保留一份
调用方法：	`DataStream.broadcast()`方法

示例代码：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("ming","www.baidu1.com",1200L));
        list.add(new Event("xiaohu","www.baidu2.com",1200L));
        list.add(new Event("xiaohu","www.baidu5.com",1267L));
        list.add(new Event("gala","www.baidu6.com",1200L));
        list.add(new Event("ming","www.baidu7.com",4200L));
        list.add(new Event("xiaohu","www.baidu8.com",5500L));

        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        // 3. map操作
        eventDataStreamSource.broadcast().print("shuffle").setParallelism(2);
        // 4. 执行程序
        env.execute();
    }

这里设置了2个并行度，所以最后会有16条数据输出。

4.5 全局分区（global）

全局分区是一种特殊分区，这种分区非常极端，会将所有的输入流数据都发送到下游算子的第一个并行子任务中去。等于强行让下游任务并行度变为1，所以使用这个需谨慎。使用方式
eventDataStreamSource.global().print("shuffle").setParallelism(2);

4.6 自定义分区（Custom）

当Flink提供的分区策略不能满足我们的要求时，还可以通过使用partitionCustom()方法来自定义分区策略

public <K> DataStream<T> partitionCustom(
            Partitioner<K> partitioner, KeySelector<T, K> keySelector) {
        return setConnectionType(
                new CustomPartitionerWrapper<>(clean(partitioner), clean(keySelector)));
    }

参数说明：

partitioner：自定义分区器（Partitioner）对象
keySelector：对 DataStream 进行分区的 KeySelector。应用分区器的字段，指定方式与KeyBy指定key基本一样，可以通过字段名指定也可以通过字段位置索引来指定。

示例：

public static void main(String[] args) throws Exception {
        // 1. 直接调用getExecutionEnvironment 方法，底层源码可以自由判断是本地执行环境还是集群的执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // 2. 从集合中读取数据
        ArrayList<Event> list = new ArrayList<>();
        list.add(new Event("xiaoming","www.baidu1.com",1200L));
        list.add(new Event("xiaohu","www.baidu2.com",1200L));
        list.add(new Event("xiaohu","www.baidu5.com",1267L));
        list.add(new Event("gala","www.baidu6.com",1200L));
        list.add(new Event("xiaoming","www.baidu7.com",4200L));
        list.add(new Event("xiaohu","www.baidu8.com",5500L));

        // 3. 读取数据
        DataStreamSource<Event> eventDataStreamSource = env.fromCollection(list, BasicTypeInfo.of(Event.class));
        eventDataStreamSource.partitionCustom(new Partitioner<Event>() {
            @Override
            public int partition(Event event, int numPartitions) {
                if (event != null && event.getUser().contains("xiaohu")) {
                    return 0;
                } else {
                    return 1;
                }
            }
        }, new KeySelector<Event, Event>() {
            @Override
            public Event getKey(Event event) throws Exception {
                if (event.getUser().contains("x")) {
                    return event;
                } else {
                    return null;
                }
            }
        }).print().setParallelism(2);
        // 4. 执行程序
        env.execute();
    }

结果就是只有 0 输出xiaohu

你可能感兴趣的:(Flink从0开始,flink,java,大数据)

jdk-8u121-windows-x64 安装步骤及下载心灵宝贝 java windows 开发语言
1.下载JDK安装包JDK安装包下载链接：https://pan.quark.cn/s/50b825f5c31f2.运行安装程序双击下载的jdk-8u121-windows-x64.exe文件启动安装程序。3.选择安装路径安装程序会提示选择JDK的安装路径，默认路径为C:\ProgramFiles\Java\jdk1.8.0_121\，可自定义路径。4.安装JDK点击“下一步”开始安装，安装完成后
DeepSeek smallpond搅动大数据风云彭铖洋 javascript reactjs
DuckDB走向分布式？DeepSeek的smallpond涉足大数据DuckDB！降维打击传统大数据领域，搅动中台数据工程风云！DeepSeek正在利用smallpond（一种新的、简单的分布式计算方法）推动DuckDB超越其单节点根源。但它是否解决了可扩展性挑战——还是带来了新的权衡？DeepSeek最近搞了个大新闻。他们的R1模型在2025年1月发布时，就直接干翻了OpenAI的O1等竞争对
Excel筛选两列重复的内容瑞瑞大大 linq c#
工作中经常会遇到通过excel内容的需要，判断两列是否有重复的内容，或者通过一列数据筛选出需要的数据。一般都会使用vlookup函数进行操作，这里提供一种思路=IF(ISERROR(VLOOKUP(H1,$I$2:$I$40,1,0)),"不重复","重复")解释：VLOOKUP(需要判断是否重复的单元格，判断依据列，重复（找到）的赋值，不重复（找不到）的赋值)ISERROR(判断是否为“正确”（
打卡信奥刷题（920）用C++信奥P1076[普及组/提高] [NOIP 2012 普及组] 寻宝 Loge编程生活 C++c++算法开发语言青少年编程数据结构
P1076[NOIP2012普及组]寻宝题目描述传说很遥远的藏宝楼顶层藏着诱人的宝藏。小明历尽千辛万苦终于找到传说中的这个藏宝楼，藏宝楼的门口竖着一个木板，上面写有几个大字：寻宝说明书。说明书的内容如下：藏宝楼共有N+1N+1N+1层，最上面一层是顶层，顶层有一个房间里面藏着宝藏。除了顶层外，藏宝楼另有NNN层，每层MMM个房间，这MMM个房间围成一圈并按逆时针方向依次编号为0,…,M−10,…,
Manus：一场颠覆认知的AI Agent革命，重新定义人机协作范式大禹智库《实战AI智能体》人工智能 RAG AI智能体 Manus 智能体
一、凌晨三点引爆科技圈：AIAgent的"iPhone时刻"降临2024年3月6日，当全球目光聚焦苹果新品发布会时，科技圈却因另一场革命彻夜未眠——Monica.im团队打造的AIAgent产品Manus以摧枯拉朽之势席卷社交平台。在硅谷VC机构的Slack群组里，投资人争相分享邀请码获取攻略；知乎"如何看待Manus"话题1小时内突破百万浏览；推特#ManusRevolution标签下，科技大V
2000-2022年上市公司-企业投资羊群效应、投资从众行为数据（指标+计算+代码）-社科数据泡芙萝莉酱大数据社科数据人工智能大数据深度学习数据挖掘数据分析数据统计毕业论文
上市公司-企业投资羊群效应、投资从众行为数据（指标+计算+代码）（2000-2022年）-社科数据https://download.csdn.net/download/paofuluolijiang/90027719https://download.csdn.net/download/paofuluolijiang/90027719在企业投资领域，"羊群效应"指的是投资者在信息不确定的情况下，倾向
C语言习题---数组篇努力做小白 C语言学习 c语言算法数据结构
基础一维数组：1、用数组实现求10个数的和。#includeintmain(){inta[10]={0};intsum=0;for(inti=0;iintmain(){inta[500]={0};intn=0;inttmp=0;intsum=0;printf("数据总量:");scanf("%d",&n);for(inti=0;ia[j+1]){tmp=a[j];a[j]=a[j+1];a[j+1
算法每日一练 (9) 张胤尘算法每日一练算法数据结构
欢迎来到张胤尘的技术站技术如江河，汇聚众志成。代码似星辰，照亮行征程。开源精神长，传承永不忘。携手共前行，未来更辉煌文章目录算法每日一练(9)最小路径和题目描述解题思路解题代码`c/c++``golang``lua`官方站点：力扣Leetcode算法每日一练(9)最小路径和题目地址：最小路径和题目描述给定一个包含非负整数的mxn网格grid，请找出一条从左上角到右下角的路径，使得路径上的数字总和为
广工anyview数据结构第六章676869 L比8伯数据结构
DC06PE67试写一非递归算法，在二叉查找树T中插入元素e。二叉查找树的类型BSTree定义如下typedefstructfKeyTypekey;//其他数据域TElemType;typedefstructBSTNodefTElemTypedata;structBSTNode*lchild,*rchild;BSTNode，*BSTree;实现下列函数StatusInsertBSTI(BSTree
Java注解说明书：从正确姿势到防坑指南，让你的代码会说话！双囍菜菜 Java java python 开发语言
《Java注解说明书：从正确姿势到防坑指南，让你的代码会说话！》——手把手教你玩转官方小标签，避开90%新手踩过的坑文章目录《Java注解说明书：从正确姿势到防坑指南，让你的代码会说话！》第一章：初识注解——代码世界的智能便利贴1.1注解的前世今生：从纸质标签到数字革命1.2注解的四大核心价值与实现原理第二章：基础三巨头——每个Javaer必须刻进DNA的标签2.1@Override：防手残终极护
RTS5765DL量产工具下载，金士顿NV2 2TB假固态硬盘抢救记，RL6577/RTS5765DL量产工具，RTS5765DL+B47R扩容开卡修复 SM2259XT3 经验分享
之前因为很长时间不买固态硬盘，没注意到NVME的固态盘也有了假货和扩容盘，花200多块买了个2TB的金士顿NV2固态硬盘，我原本以为NV1的假货最多是用黑片冒充正片，结果没想到NV2居然有扩容的。后来发现是扩容盘的时候，已经过了自动收货期限了。最后只能尝试重新开卡，尽量降低损失。首先感谢一下量产部落网，兜兜转转一直找不到量产工具，最后终于从量产部落网找到了，这里分享一下我的金士顿NV22TB假固态
Python多进程，多线程和异步实例汤米先生 Python学习多线程 python 多进程
文章目录前言一、多进程1.进程间通信使用Queue队列2.多进程中的通信【一个往Queue里写，一个从Queue里读】3.进程池中的通信【只需要就上述的Queue()转换成Manager().Queue()】4.多进程拷贝文件【多个文件的拷贝】二、多线程1.加入互斥锁2.不加入互斥锁3.在屏幕上连续打印10次ABC4.死锁的产生5.针对死锁的处理方法6.生产者消费者模型【常用】—>比如爬虫：爬取数
【保姆级 HAL 库学习定时器】 CircuitWizard 单片机单片机嵌入式硬件
以下以STM32的HAL库为例，针对定时器（Timer）的初始化函数进行逐行详解，以定时器基本配置（TIMBase）为例：示例代码（以TIM6为例）TIM_HandleTypeDefhtim6;//定时器句柄voidMX_TIM6_Init(void){TIM_MasterConfigTypeDefsMasterConfig={0};htim6.Instance=TIM6;//选择定时器TIM6h
P10948 升降梯上灰题解 M_CI_ 算法
Part0.前言没想到SPFA-SLF冲进了最优解第一版，比多数Dijkstra还快。评测记录（SPFA-SLF43ms）评测记录（Dijkstra44ms）Part1.题意简述有MMM个移动系数−Nusingnamespacestd;#defineintlonglong#definepiipair#definefifirst#definesesecondintn,m,s,c[30],dis[10
学生信息系统---手把手教你实现单链表的增删改查小青龙emmm c语言数据结构
一，定义学生信息结构体：/学生信息链表节点结构体typedefstructStuLinkList{charname[20];//学生姓名（最大20字符）charStuID[20];//学号（字符串类型）intage;//学生年龄doublescore;//学生成绩（浮点数）structStuLinkList*next;//指向下一个节点的指针}StuLinkList;二，单链表的初始化：/初始化链
01背包问题简介天狼星——白羽 python
01背包问题是动态规划算法中非常经典的一个问题，广泛应用于优化选择场景。它描述的是：给定一组物品（每个物品有重量和价值），以及一个最大承重能力的背包，在不超过背包容积的前提下，如何挑选这些物品使得装入背包中的总价值最高。基本要素n件物品每一件都有两个属性：weight[i]表示第i物品的重量；value[i]表示该物品的价值。背包的最大承载量为W；目标是在满足重量限制的情况下获得最大的总价值Vma
Python, Java 联合开发全国以及港澳主要商业银行办信用卡实操APP (Siliver) Geeker-2025 python java
以下是一个使用Python和Java联合开发全国以及港澳主要商业银行办信用卡实操APP的示例架构和部分代码示例。这个APP主要功能包括查询银行信息、了解办信用流程、模拟申请信用卡等操作。###整体架构概述-**Python部分**：-用于数据处理和分析，例如从各种数据源获取银行信息、信用政策等数据，并进行数据清洗和整理。-可以利用数据分析和可视化库来辅助生成信用评估报告和相关图表。-**Java部
Java nmap 命令网络安全（king）网络安全黑客网络工程师网络 web安全安全
Java与Nmap的结合：网络安全监测利器在现代网络环境中，安全性是至关重要的。尤其在企业和组织中，维护网络的安全性将直接影响到其运营的正常进行。Nmap（NetworkMapper）是一个开源的网络扫描工具，广泛应用于网络安全评估。今天，我们结合Java语言，探讨如何利用Java调用Nmap命令以实现网络安全监测的目的。什么是Nmap？Nmap是一个强大的网络扫描工具，可以用于发现网络上的设备、
【华三】STP端口角色与状态深度解析张白夕 #新华三网络华三数通 STP 生成树协议端口角色
STP端口角色与状态深度解析：构建无环网络的基石引言一、STP基础回顾二、端口角色详解1.根端口（RootPort）2.指定端口（DesignatedPort）3.非指定端口（阻塞端口）三、端口状态转换流程四、角色与状态的关联流程图流程图解读五、链路故障时的行为分析1.传统STP（802.1D）2.RSTP（802.1w）六、实例演示：网络拓扑中的STP行为拓扑说明链路故障模拟收敛时间分析正常ST
Redis数据类型--布隆过滤器类型详解及应用码农爱java 【Redis】redis 数据库缓存
数据结构Redis无论什么数据类型，存储的时候都是以键值对key-value形势存储，并且所有的key都是String类型，本文讨论的数据类型是value的数据类型。布隆过滤器概述：布隆过滤器（BloomFilter）是1970年由布隆提出的，Redis4.0版本已插件的形式引入到Redis中，布隆过滤器是一种占用空间非常小的概率数据结构，效率高，有一定的误判率，而且无法删除元素，主要用于去重场景
C语言优先队列作用,优先队列--C语言实现 CyberStar C语言优先队列作用
优先队列--C语言实现向乔布斯致敬世界的今天因他而改变!世界的今天因他而多彩!JOBS优先队列--C语言实现/*binomial.h*/#ifndef_BINOMIAL_H_#define_BINOMIAL_H_typedeflongelement_type;#defineINFINITY(30000L)#defineMAX_TREES(14)#defineCAPACITY(16383)struc
regionserver实例僵住问题分析 spring208208 hbase hbase
问题现象：应用提交超时，发现regionserver实例异常。hbase原生页面这个实例dead，业务连接到这个rs的进程超时8个regionserver实例。D08在18：30分后显示warning，应用提交任务到这个rs节点超时，hbase控制台不显示d08的rs信息了。19：30在页面停止rs实例失败，然后kill进程。18：30统计图等就不刷新了，但是机器里rs进程在。d08节点还有dn，
elasticsearch7.10.2 安装实战 spring208208 ES 大数据运维 elasticsearch
Es7.10.2安装：1.下载es：https://www.elastic.co/cn/downloads/past-releases/elasticsearch-7-10-2useraddes_userpasswdes_user//123456chgrp-Res_user/home/apps/elasticsearch-7.10.2chown-Res_user/home/apps/elastic
hbase-05 namespace、数据的确界&TTL 小技工丨大数据技术学习 hbase 数据库大数据
要点掌握HBase的命名空间namespace概念掌握HBase数据版本确界掌握HBase数据TTL1.HBase的namespace1.1namespace基本介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。ApacheHBase从0.98.0,0.95.2两个版本号开始支持namespace级别的授权操作，HBase
Hbase在hdfs上的archive目录占用空间过大宝罗Paul 大数据 hbase
hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息alert:datanode_storageistriggered告警信息表明某个或某些datanode的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdfs@master-2r
基于STM32单片机智能储物柜快递柜无线摄像头视频监控GSM短信设计DIY24-294 通旺科技单片机 stm32 语音识别
本系统由STM32F103C8T6单片机核心板、无线模块、TFT1.44寸彩屏液晶显示电路、智能语音电路、四路舵机驱动电路、矩阵按键电路、GSM模块和继电器模块及电源电路。【1】硬件相当于存取柜，可通过工作员验证密码后存件及获取柜号及密码。用户可以通过扫描二维码、输入取件码进行取件。同时液晶显示所有相关信息。语音播报操作结果。APP手机端相当于用户手机以及后台服务器功能，能够设置手机号码同时显示该
1998-2022年各地级市第一产业占GDP比重/地级市第一产业占比数据（市辖区） m0_71334485 数据 #地级市地级市第一产业占GDP比重地级市第一产业占比
1998-2022年各地级市第一产业占GDP比重/地级市第一产业占比数据（市辖区）1、时间：1998-2022年2、指标：地级市第一产业占GDP比重/地级市第一产业占比3、来源：城市统计年鉴4、范围：299个地级市5、缺失情况：缺失情况与年鉴一致，表内附有年鉴第一产业占比原始数据，以2022年地级市名单进行统计整理，为市辖区数据6、下载链接：1998-2022年各地级市第一产业占GDP比重/地级市
RustDesk开源远程桌面工具部署【图文详解】岚天start 开源云原生 ruskdesk 桌面远程远程
目录1.服务端安装1.1服务器环境1.2安装docker1.3配置docker加速器1.4安装docker-compose2.客户端安装3.映射或防火墙配置4.客户端配置1.服务端安装1.1服务器环境[root@test~]#cat/etc/redhat-releaseCentOSLinuxrelease7.9.2009(Core)[root@test~]#uname-aLinuxtest3.10
【自然语言处理-NLP】情感分析与主题建模云博士的AI课堂深度学习哈佛博后带你玩转机器学习自然语言处理人工智能情感分析主题建模深度学习机器学习 NLP
以下内容详细剖析了NLP中情感分析（SentimentAnalysis）和主题建模（TopicModeling）的技术与方法，分别展示如何从文本中提取情感倾向和潜在主题，并提供示例代码和讲解，可在Python环境下直接运行。目录情感分析（SentimentAnalysis）1.1概念与方法概览1.2传统机器学习方法1.3深度学习与预训练模型1.4代码示例：基于机器学习的情感分类主题建模（Topic
%a和%A格式串？为什么%lx会将lx作为格式串, %fx只会将f作为格式串?C语言是如何区分开%f和%lf的?%ld和%d的区别？%d和%i的区别？%l %h和%d %o %u %x？万能格式串？程序员小迷小话c语言 Java 小话c++格式串 c c++objective-c gc java swift
%a和%A格式串C语言中，%a或%A用于在*printf函数中以十六进制浮点数的形式输出一个float或double类型的值。输出格式一般是[-]0xh.hhhhp[+-]d，其中h.hhhh是十六进制的小数部分，p是分隔符，d是指数部分，底数是2.doublevalue=1.5;printf("%a\n",value);printf("%A\n",value);输出结果：0x1.8p+00X1.
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite