Yanko24

Flink中的多流转换

文末附下载地址

1. 分流

在Flink的使用过程中，经常可能会遇到将一个流的数据拆分成多个流，此时就需要将一个DataStream拆分成独立的两个或多个DataStream，一般情况下可能需要根据一些条件将不同的数据过滤出来写入不同的流。

在1.13版本中，使用处理函数（process function）的侧输出流（side output）将一个流进行拆分。处理函数本身可以认为是一个转换算子，它的输出类型比较单一，处理之后得到的仍然是一个DataStream。但是侧输出流并不受此限制，可以任意自定义输出数据，看起来就像从主流分叉出来的支流。

将一个流拆分成多个流，首先需要定义一个输出标签（OutputTag）,在处理时将被标记的数据写入单独的流中，之后通过getSideOutput获取对应的被输出标签所标记的流。

public class SplitStreamByOutputTag {
    private static final Logger log = LoggerFactory.getLogger(SplitStreamByOutputTag.class);

    private static OutputTag<Tuple3<String, String, Long>> MaryTag = new OutputTag<Tuple3<String, String, Long>>("Mary-pv") {
    };
    private static OutputTag<Tuple3<String, String, Long>> BobTag = new OutputTag<Tuple3<String, String, Long>>("Mary" + "-pv") {
    };

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<Event> stream = env.addSource(new ClickSource());

        SingleOutputStreamOperator<Event> processedStream = stream.process(new ProcessFunction<Event, Event>() {
            @Override
            public void processElement(Event value, ProcessFunction<Event, Event>.Context ctx, Collector<Event> out) throws Exception {
                if (value.getUser().equals("Mary")) {
                    ctx.output(MaryTag, new Tuple3<>(value.getUser(), value.getUrl(), value.getTimestamp()));
                } else if (value.getUser().equals("Bob")) {
                    ctx.output(BobTag, Tuple3.of(value.getUser(), value.getUrl(), value.getTimestamp()));
                } else {
                    out.collect(value);
                }
            }
        });

        processedStream.print("Other>>>>>");
        processedStream.getSideOutput(MaryTag).print("Mary>>>>>");
        processedStream.getSideOutput(BobTag).print("Bob>>>>>");

        env.execute();
    }
}

2. 合流

2.1 基本合流操作

2.1.1 Union

最简单的合流操作就是将多条流合并在一起，在Flink中的算子为Union。Union操作要求所有合并的流的类型必须一致，合并之后的新流会包含流中的所有元素，数据类型不变。这种操作比较简单粗暴，就类似于高速路上的岔道，两个道路的车直接汇入主路一样。需要注意的是，Union操作的参数可以是多个DataStream，最后的结果也是DataStream。

同时还需要注意，在事件时间语义下，水位线是时间的进度标志，不同的流中的水位线进展快慢可能不一样，将它们合并在一起之后，对于合并之后的水位线也是以最小的为准，这样才可以保证所有流都不会再传来之前的数据。

public class UnionExample {
    private static final Logger log = LoggerFactory.getLogger(UnionExample.class);

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<Event> stream1 = env.socketTextStream("localhost", 9998)
                .map(data -> {
                    String[] fields = data.split(",");
                    return new Event(fields[0].trim(), fields[1].trim(), Long.valueOf(fields[2].trim()));
                })
                .assignTimestampsAndWatermarks(WatermarkStrategy.<Event>forBoundedOutOfOrderness(Duration.ofSeconds(2))
                        .withTimestampAssigner((SerializableTimestampAssigner<Event>) (element, recordTimestamp) -> element.getTimestamp()));

        stream1.print("stream1>>>>>");

        SingleOutputStreamOperator<Event> stream2 = env.socketTextStream("localhost", 9997)
                .map(data -> {
                    String[] fields = data.split(",");
                    return new Event(fields[0].trim(), fields[1].trim(), Long.valueOf(fields[2].trim()));
                })
                .assignTimestampsAndWatermarks(WatermarkStrategy.<Event>forBoundedOutOfOrderness(Duration.ofSeconds(5))
                        .withTimestampAssigner((SerializableTimestampAssigner<Event>) (element, recordTimestamp) -> element.getTimestamp()));

        stream2.print("stream2>>>>>");

        // 合并
        stream1.union(stream2)
                .process(new ProcessFunction<Event, String>() {
                    @Override
                    public void processElement(Event value, ProcessFunction<Event, String>.Context ctx, Collector<String> out) throws Exception {
                        out.collect("watermark:" + ctx.timerService().currentWatermark());
                    }
                }).print();

        env.execute();
    }
}

2.1.2 Connect

流的Union操作虽然简单粗暴，但是严重受限于数据类型不能改变，所以在实际的应用中比较少。除了Union之外，还有一种合流的操作Connect。为了处理更灵活，Connect允许流的数据类型不同，但是合并后的流只能是一种数据类型，所以有一种新的数据类型ConnectedStream。Connect可以被看作是形式上的统一，两个流被放在了一个流中，事实上两个流内部的数据都是独立的，要想得到新的DataStream，就需要进一步定义一个co-process转换操作，对两个不同的流的数据，分别进行怎样的转换和处理，最终得到统一的输出类型。

ConnectedStream

首先将两条流经过connect的到一个ConnectedStream，然后调用同处理方法得到DataStream，这里可以使用的同处理方法有map、flatMap以及process方法。

public class ConnectExample {
    private static final Logger log = LoggerFactory.getLogger(ConnectExample.class);

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<Integer> left = env.fromElements(1, 2, 3);
        DataStreamSource<Long> right = env.fromElements(1L, 2L, 3L);

        ConnectedStreams<Integer, Long> connectedStreams = left.connect(right);
        SingleOutputStreamOperator<String> result = connectedStreams.map(new CoMapFunction<Integer, Long, String>() {
            @Override
            public String map1(Integer value) throws Exception {
                return "Integer: " + value;
            }

            @Override
            public String map2(Long value) throws Exception {
                return "Long: " + value;
            }
        });

        result.print();

        env.execute();
    }
}

调用map方法传入的是一个CoMapFunction，分别对两条流中的数据进行处理，这个接口的三个参数分别是第一条流、第二条流以及合并后的数据类型。需要实现的方法也非常见明知意，map1对应第一个流的处理，map2对应第二个流的处理。ConnectedStream也可以直接调用keyBy进行分区操作，得到的也还是一个ConnectedStream。这种操作和对两条流先进行keyBy，然后再connect效果是一样的，需要注意的是，两条流定义的分区键的类型必须相同，不然会抛出异常。

CoProcessFunction

和使用CoMapFunction和CoFlatMapFunction函数一样，CoProcessFunction需要实现两个方法processElement1和processElement2分别去处理两个流中的数据，相比于CoMapFunction和CoFlatMapFuntion不同的是，CoProcessFunction中包含生命周期函数以及状态和定时器的操作。

public class CoProcessFunctionExample {
    private static final Logger log = LoggerFactory.getLogger(CoProcessFunctionExample.class);

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        SingleOutputStreamOperator<Tuple3<String, String, Long>> appStream = env.fromElements(
                Tuple3.of("order-1", "app", 1000L),
                Tuple3.of("order-2", "app", 2000L)
        ).assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple3<String, String, Long>>forMonotonousTimestamps()
                .withTimestampAssigner((SerializableTimestampAssigner<Tuple3<String, String, Long>>) (element, recordTimestamp) -> element.f2));

        SingleOutputStreamOperator<Tuple4<String, String, String, Long>> thirdPartyStream = env.fromElements(
                Tuple4.of("order-1", "third-party", "success", 3000L),
                Tuple4.of("order-3", "third-party", "success", 4000L)
        ).assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple4<String, String, String, Long>>forMonotonousTimestamps()
                .withTimestampAssigner((SerializableTimestampAssigner<Tuple4<String, String, String, Long>>) (element, recordTimestamp) -> element.f3));

        appStream.connect(thirdPartyStream)
                .keyBy(data -> data.f0, data -> data.f0)
                .process(new CoProcessFunction<Tuple3<String, String, Long>, Tuple4<String, String, String, Long>, String>() {
                    private ValueState<Tuple3<String, String, Long>> appEventState;
                    private ValueState<Tuple4<String, String, String, Long>> thirdPartyEventState;

                    @Override
                    public void open(Configuration parameters) throws Exception {
                        appEventState = getRuntimeContext().getState(new ValueStateDescriptor<>("app-event", Types.TUPLE(Types.STRING, Types.STRING, Types.LONG)));
                        thirdPartyEventState = getRuntimeContext().getState(new ValueStateDescriptor<>("third-party-event", Types.TUPLE(Types.STRING, Types.STRING, Types.STRING, Types.LONG)));
                    }

                    @Override
                    public void processElement1(Tuple3<String, String, Long> value, CoProcessFunction<Tuple3<String, String, Long>, Tuple4<String, String, String, Long>, String>.Context ctx, Collector<String> out) throws Exception {
                        if (thirdPartyEventState.value() != null) {
                            out.collect("对账成功：" + value + "    " + thirdPartyEventState.value());
                            thirdPartyEventState.clear();
                        } else {
                            appEventState.update(value);
                            ctx.timerService().registerEventTimeTimer(value.f2 + 5000L);
                        }
                    }

                    @Override
                    public void processElement2(Tuple4<String, String, String, Long> value, CoProcessFunction<Tuple3<String, String, Long>, Tuple4<String, String, String, Long>, String>.Context ctx, Collector<String> out) throws Exception {
                        if (appEventState.value() != null) {
                            out.collect("对账成功：" + appEventState.value() + "    " + value);
                            appEventState.clear();
                        } else {
                            thirdPartyEventState.update(value);
                            ctx.timerService().registerEventTimeTimer(value.f3 + 5000L);
                        }
                    }

                    @Override
                    public void onTimer(long timestamp, CoProcessFunction<Tuple3<String, String, Long>, Tuple4<String, String, String, Long>, String>.OnTimerContext ctx, Collector<String> out) throws Exception {
                        // 定时器触发
                        if (appEventState.value() != null) {
                            out.collect("对账失败：" + appEventState.value() + "    第三方平台支付信息未到");
                        }
                        if (thirdPartyEventState.value() != null) {
                            out.collect("对账失败：" + thirdPartyEventState.value() + "    app信息未到");
                        }
                        appEventState.clear();
                        thirdPartyEventState.clear();
                    }
                }).print();

        env.execute();
    }
}

BroadcastConnectedStream

两条流中的连接中，当DataStream调用connect时，可能传入的第二流是一个广播流（BroadcastStream），此时两条流进行合并得到的就是一个BroadcastConnectedStream。

这种方式一般用来需要动态定义某些规则或者配置的场景。因为规则是实时变动的，我们可以用一个流来实时获取规则数据，而这些规则对整个应用是全局有效的，所以必须把这个流广播给所有的子任务。而下游收到广播出来的规则，会把它保存成一个状态，这就是所谓的“广播状态“。

从MySQL中动态读取配置，并与kafka中的数据进行关联，将配置数据广播给所有子任务。

public class BroadcastConnectedStream {
    private static final Logger log = LoggerFactory.getLogger(BroadcastConnectedStream.class);

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        Properties properties = new Properties();
        properties.put("bootstrap.servers", "localhost:9092");
        properties.put("group.id", "event");

        // kafka结构：{"userID": "user_1", "eventTime": "2019-08-17 12:19:47", "eventType": "browse", "productID": 1}
        FlinkKafkaConsumer<String> kafkaConsumer = new FlinkKafkaConsumer<>("user", new SimpleStringSchema(), properties);
        kafkaConsumer.setStartFromLatest();
        SingleOutputStreamOperator<String> kafkaSource = env.addSource(kafkaConsumer).name("kafkaSource").uid("source-id-kafka-source");
        SingleOutputStreamOperator<Tuple4<String, String, String, Integer>> eventStream = kafkaSource.flatMap(new FlatMapFunction<String, Tuple4<String, String, String, Integer>>() {
            @Override
            public void flatMap(String value, Collector<Tuple4<String, String, String, Integer>> out) throws Exception {
                try {
                    JSONObject jsonObject = JSON.parseObject(value);
                    String userID = jsonObject.getString("userID");
                    String eventTime = jsonObject.getString("eventTime");
                    String eventType = jsonObject.getString("eventType");
                    Integer productID = jsonObject.getInteger("productID");
                    out.collect(Tuple4.of(userID, eventTime, eventType, productID));
                } catch (Exception e) {
                    log.warn("异常数据:{}", value, e);
                }
            }
        });

        // 从MySQL获取配置流，MySQL结构：userID, userName, userAge
        DataStreamSource<HashMap<String, Tuple2<String, Integer>>> configStream = env.addSource(new MySQLSource("localhost", 3306, "demo", "root", "xiaoer", 5000L));

        // MapStateDescriptor
        MapStateDescriptor<Void, Map<String, Tuple2<String, Integer>>> configDescriptor = new MapStateDescriptor<>("config", Types.VOID, Types.MAP(Types.STRING, Types.TUPLE(Types.STRING, Types.INT)));

        // 将配置流广播
        BroadcastStream<HashMap<String, Tuple2<String, Integer>>> broadcastConfigStream = configStream.broadcast(configDescriptor);

        SingleOutputStreamOperator<Tuple6<String, String, String, Integer, String, Integer>> resultStream = eventStream.connect(broadcastConfigStream)
                .process(new BroadcastProcessFunction<Tuple4<String, String, String, Integer>, HashMap<String, Tuple2<String, Integer>>, Tuple6<String, String, String, Integer, String, Integer>>() {
                    MapStateDescriptor<Void, Map<String, Tuple2<String, Integer>>> configDescriptor = new MapStateDescriptor<>("config", Types.VOID, Types.MAP(Types.STRING, Types.TUPLE(Types.STRING, Types.INT)));

                    @Override
                    public void processElement(Tuple4<String, String, String, Integer> value, BroadcastProcessFunction<Tuple4<String, String, String, Integer>, HashMap<String, Tuple2<String, Integer>>, Tuple6<String, String, String, Integer, String, Integer>>.ReadOnlyContext ctx, Collector<Tuple6<String, String, String, Integer, String, Integer>> out) throws Exception {
                        // 获取事件流中的userID
                        String userID = value.f0;

                        // 获取状态
                        ReadOnlyBroadcastState<Void, Map<String, Tuple2<String, Integer>>> broadcastState = ctx.getBroadcastState(configDescriptor);
                        Map<String, Tuple2<String, Integer>> broadcastStateUserInfo = broadcastState.get(null);

                        Tuple2<String, Integer> userInfo = broadcastStateUserInfo.get(userID);
                        if (userInfo != null) {
                            out.collect(Tuple6.of(value.f0, value.f1, value.f2, value.f3, userInfo.f0, userInfo.f1));
                        }
                    }

                    @Override
                    public void processBroadcastElement(HashMap<String, Tuple2<String, Integer>> value, BroadcastProcessFunction<Tuple4<String, String, String, Integer>, HashMap<String, Tuple2<String, Integer>>, Tuple6<String, String, String, Integer, String, Integer>>.Context ctx, Collector<Tuple6<String, String, String, Integer, String, Integer>> out) throws Exception {
                        BroadcastState<Void, Map<String, Tuple2<String, Integer>>> broadcastState = ctx.getBroadcastState(configDescriptor);
                        // 清空状态
                        broadcastState.clear();
                        // 更新状态
                        broadcastState.put(null, value);
                    }
                });

        resultStream.print();

        env.execute();
    }
}

class MySQLSource extends RichSourceFunction<HashMap<String, Tuple2<String, Integer>>> {
    private static final Logger log = LoggerFactory.getLogger(MySQLSource.class);

    private String host;
    private Integer port;
    private String db;
    private String user;
    private String password;
    private Long interval;

    private volatile boolean isRunning = true;

    private Connection connection;
    private PreparedStatement preparedStatement;

    public MySQLSource(String host, Integer port, String db, String user, String password, Long interval) {
        this.host = host;
        this.port = port;
        this.db = db;
        this.user = user;
        this.password = password;

        /**
         * 间隔多少毫秒查询
         */
        this.interval = interval;
    }

    @Override
    public void open(Configuration parameters) throws Exception {
        super.open(parameters);
        Class.forName("com.mysql.cj.jdbc.Driver");
        connection = DriverManager.getConnection("jdbc:mysql://" + host + ":" + port + "/" + db + "?useUnicode=true&characterEncoding=UTF-8", user, password);
        String sql = "select userID, userName, userAge from user_info";
        preparedStatement = connection.prepareStatement(sql);
    }

    @Override
    public void close() throws Exception {
        super.close();
        if (connection != null) {
            connection.close();
        }
        if (preparedStatement != null) {
            preparedStatement.close();
        }
    }

    @Override
    public void run(SourceContext<HashMap<String, Tuple2<String, Integer>>> ctx) throws Exception {
        try {
            while (isRunning) {
                HashMap<String, Tuple2<String, Integer>> output = new HashMap<>();
                ResultSet resultSet = preparedStatement.executeQuery();
                while (resultSet.next()) {
                    String userID = resultSet.getString("userID");
                    String userName = resultSet.getString("userName");
                    int userAge = resultSet.getInt("userAge");
                    output.put(userID, Tuple2.of(userName, userAge));
                }
                ctx.collect(output);
                Thread.sleep(interval);
            }
        } catch (Exception e) {
            log.error("从MySQL获取配置流数据异常...", e);
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
    }
}

2.2 基于时间的合流操作

对于两条流的合并，有时候我们不是将两条流的数据简单的合并在一起，而是根据某个字段将其匹配起来，这点有点像关系型数据库中的join操作，事实上，Flink中的connect操作，就可以通过keyBy指定分区键然后合并，实现了类似于SQL中的join操作。使用connect以及处理函数，可以实现双流合并的大多数场景。

不过处理函数处理底层接口，来处理一些具体的场景还是比较抽象的，比如要统计固定的时间内两条流的匹配情况，就需要设置定时器，自定义触发器的逻辑才可以实现，所以Flink提供了两种内置的join算子，以及coGroup算子。

2.2.1 Window Join

基于时间的操作，最基本的就是时间窗口。Flink提供了一个窗口连接算子（Window Join），可以定义时间窗口，并将两条流中共享一个公共分区键的数据放在窗口中进行配对处理。

Window Join的通用调用形式如下：

stream.join(otherStream)
	.where()
	.equalTo()
	.window()
	.apply()

上面中的where的参数是stream的分区键选择器，equalTo是otherStream的分区键选择器，两者相同的元素如果在同一个窗口中，就可以匹配起来，然后调用apply通过JoinFunction进行处理。window传入的是一个窗口分配器，可以使用滚动窗口，滑动窗口以及会话窗口。需要注意的是，这里最后进行处理时只能调用apply方法，没有其他的方法可供选择。需要注意的是JoinFunction并不是真正的窗口函数，而是定义了窗口函数在调用时对匹配数据的处理逻辑。

JoinFunction接口有三个类型，分别是两条流中的数据类型以及最终输出的结果的数据类型，JoinFunction中只有一个join方法需要实现。两条流的数据到来之后，首先会按照key分组进入对应的窗口中存储，当窗口到达结束的时间时，算子会统计出窗口内两条流的所有组合，即笛卡尔积，然后进行遍历，把每一对匹配的数据，作为参数传入JoinFunction的join方法中间进行处理。

apply中除了JoinFunction之外，还可以传入FlatJoinFunction，用法非常类似，只是需要实现的join方法没有返回值，而是通过收集器（Collector）来实现，所以对于一对匹配的数据可以输出任意条结果。

Flink中的window join类似于inner join，最后输出的，只有两条流中按key匹配成功的那些数据。

public class WindowJoinExample {
    public static void main(String[] args) throws Exception {
        // 获取流执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 设置并行度
        env.setParallelism(1);

        // 添加数据源
        SingleOutputStreamOperator<Tuple2<String, Long>> stream1 = env.fromElements(
                        Tuple2.of("a", 1000L),
                        Tuple2.of("b", 1000L),
                        Tuple2.of("a", 2000L),
                        Tuple2.of("b", 2000L))
                .assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Long>>forMonotonousTimestamps()
                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
                            @Override
                            public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
                                return element.f1;
                            }
                        }));

        SingleOutputStreamOperator<Tuple2<String, Long>> stream2 = env.fromElements(
                        Tuple2.of("a", 3000L),
                        Tuple2.of("b", 3000L),
                        Tuple2.of("a", 4000L),
                        Tuple2.of("b", 4000L))
                .assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Long>>forMonotonousTimestamps()
                        .withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
                            @Override
                            public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
                                return element.f1;
                            }
                        }));

        // join
        stream1.join(stream2)
                .where(data -> data.f0)
                .equalTo(data -> data.f0)
                .window(TumblingEventTimeWindows.of(Time.seconds(2)))
                .apply(new JoinFunction<Tuple2<String, Long>, Tuple2<String, Long>, String>() {
                    @Override
                    public String join(Tuple2<String, Long> first, Tuple2<String, Long> second) throws Exception {
                        return first + " ==> " + second;
                    }
                })
                .print();

        env.execute();
    }
}

Window Join在底层也是调用了CoGroup去做了实现，并通过JoinCoGroupFunction的构造方法将JoinFunction转换成了JoinCoGroupFunction进行处理。

2.2.2 Interval Join

在某些场景下，我们要处理的时间间隔可能不是固定的，Window Join很明显不能满足。Flink提供了一个Interval Join的合流操作，该算子是针对一条流中的每一个数据，开辟出其时间戳前后的一段时间间隔，看这个期间内是否有来自另一个流的数据匹配。

Interval Join中给定了两个时间点，一个是上界（upperBound），一个是下界（lowerBound）。对于一个流left中的元素a来说，就可以开辟一段时间间隔为[a.timestamp + lowerBound, a.timestamp + upperBound]的范围，此时如果right流中的数据的元素b的时间戳在这个范围内，那么a和b就可以成功匹配。

需要注意的是，进行Interval Join的两个流也必须是基于相同的分区键key，需要注意的是a.timestame + lowerBound必须小于等于a.timestamp + upperBound，其中lowerBound和upperBound都可正可负，目前也仅支持事件时间语义。

Interval Join的通用调用形式如下：

orangeStream
    .keyBy()
    .intervalJoin(greenStream.keyBy())
    .between(Time.milliseconds(-2), Time.milliseconds(1))
    .process (new ProcessJoinFunction out) {
            out.collect(left + "," + right);
        }
    });

Interval Join同样也是一种inner join，与Window Join不同的是，Interval Join做匹配是基于流中的数据的，所以不确定。而且另一个流中的数据可能不只是在一个时间段内被匹配。

public class IntervalJoinExample {
    public static void main(String[] args) throws Exception {
        // 获取流执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 设置并行度
        env.setParallelism(1);

        // 获取数据源
        SingleOutputStreamOperator<Tuple3<String, String, Long>> stream1 = env.fromElements(
                Tuple3.of("Mary", "order-1", 5000L),
                Tuple3.of("Alice", "order-2", 5000L),
                Tuple3.of("Bob", "order-3", 20000L),
                Tuple3.of("Alice", "order-4", 20000L),
                Tuple3.of("Cary", "order-5", 51000L)
        ).assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple3<String, String, Long>>forMonotonousTimestamps()
                .withTimestampAssigner(new SerializableTimestampAssigner<Tuple3<String, String, Long>>() {
                    @Override
                    public long extractTimestamp(Tuple3<String, String, Long> element, long recordTimestamp) {
                        return element.f2;
                    }
                }));

        SingleOutputStreamOperator<Event> stream2 = env.fromElements(
                new Event("Bob", "./cart", 2000L),
                new Event("Alice", "./prod?id=100", 3000L),
                new Event("Alice", "./prod?id=200", 3500L),
                new Event("Bob", "./prod?id=2", 2500L),
                new Event("Alice", "./prod?id=300", 36000L),
                new Event("Bob", "./home", 30000L),
                new Event("Bob", "./prod?id=1", 23000L),
                new Event("Bob", "./prod?id=3", 33000L)
        ).assignTimestampsAndWatermarks(WatermarkStrategy.<Event>forMonotonousTimestamps()
                .withTimestampAssigner(new SerializableTimestampAssigner<Event>() {
                    @Override
                    public long extractTimestamp(Event element, long recordTimestamp) {
                        return element.getTimestamp();
                    }
                }));

        // interval join
        stream1.keyBy(data -> data.f0)
                .intervalJoin(stream2.keyBy(Event::getUser))
                .between(Time.seconds(-2), Time.seconds(2))
                .process(new IntervalJoinProcessJoinFunction())
                .print();

        env.execute();
    }
}

Interval Join中只能调用process，然后传入处理函数ProcessJoinFunction，Interval Join的底层是调用了connect进行处理。

2.2.3 Window CoGroup

除了Window Join和Interval Join之外，还提供了Window CoGroup操作。因为Window Join的底层就是Window CoGroup实现的，所以和Window Join的用法非常类似，也是将两条流合并后开窗处理匹配的元素，调用时只需要将join换成coGroup就好了。

Window CoGroup的通用调用形式如下：

dataStream.coGroup(otherStream)
    .where()
    .equalTo()
    .window(TumblingEventTimeWindows.of(Time.seconds(3)))
    .apply()

CoGroupFuncton中的coGroup方法有点类似于FlatJoinFunction中的join方法，同样都是三个参数，分别是两条流中的数据以及用于输出数据的收集器（Collector）。不同的是，join中的前两个参数是一组匹配的数据，而coGroup中的前两个参数则是可遍历的集合。也就是说，此时不会再去计算窗口中两个流的数据的笛卡尔积，而是将所有的数据一次性传入，至于要怎么样处理，完全自定义。所以CoGroup相比于Join更加的灵活，可以使用CoGroup实现left join、right join以及full join。

public class CoGroupExample {
    public static void main(String[] args) throws Exception {
        // 获取流执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 设置并行度
        env.setParallelism(1);

        // 添加数据源
        SingleOutputStreamOperator<Tuple2<String, Long>> stream1 = env.fromElements(
                Tuple2.of("a", 1000L),
                Tuple2.of("b", 1000L),
                Tuple2.of("c", 1000L),
                Tuple2.of("a", 3000L),
                Tuple2.of("b", 3000L)
        ).assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Long>>forMonotonousTimestamps()
                .withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
                    @Override
                    public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
                        return element.f1;
                    }
                }));

        SingleOutputStreamOperator<Tuple2<String, Long>> stream2 = env.fromElements(
                Tuple2.of("a", 2000L),
                Tuple2.of("b", 2000L),
                Tuple2.of("a", 5000L),
                Tuple2.of("b", 5000L)
        ).assignTimestampsAndWatermarks(WatermarkStrategy.<Tuple2<String, Long>>forMonotonousTimestamps()
                .withTimestampAssigner(new SerializableTimestampAssigner<Tuple2<String, Long>>() {
                    @Override
                    public long extractTimestamp(Tuple2<String, Long> element, long recordTimestamp) {
                        return element.f1;
                    }
                }));

        // coGroup
        stream1.coGroup(stream2)
                .where(data -> data.f0)
                .equalTo(data -> data.f0)
                .window(TumblingEventTimeWindows.of(Time.seconds(2)))
                .apply(new CoGroupFunction<Tuple2<String, Long>, Tuple2<String, Long>, String>() {
                    @Override
                    public void coGroup(Iterable<Tuple2<String, Long>> first, Iterable<Tuple2<String, Long>> second, Collector<String> out) throws Exception {
                        for (Tuple2<String, Long> left : first) {
                            boolean isMatched = false;
                            for (Tuple2<String, Long> right : second) {
                                // 如果匹配上
                                out.collect(left + " ==> " + right);
                                isMatched = true;
                            }
                            if (!isMatched) {
                                out.collect(left + " ==> " + "null");
                            }
                        }
                    }
                })
                .print();

        env.execute();
    }
}

关注微信公众号《零基础学大数据》回复【Flink】领取全部PDF

你可能感兴趣的:(从零学习Flink,flink,join)

hive 创建访问用户_Hive权限控制和超级管理员的实现 weixin_39826089 hive 创建访问用户
Hive权限控制Hive权限机制：Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。先决条件：为了使用Hive的授权机制，有两个参数必须在hive-site.xml中设置：hive.security.authorization.enabledtrueenableordisablethehiveclientauth
盘点ECMAScript 2024的新提案前端
前面我们了解了ECMAScript2024(ES15)的5个新特性，现在我们继续学习一下其他令人耳目一新的提案吧。1.模式匹配（初期阶段）JavaScript变得更智能了，有了模式匹配！想象它就像一个超强大的switch语句，可以处理复杂的数据结构。ES15允许你简单地匹配模式，而不是编写一堆嵌套的条件语句来检查对象的形状。️旧方式functioncheckAnimal(animal){if(an
Git 的引用规格（refspec）语法张紫娃 GIT git elasticsearch 大数据
目录引用规格语法格式常见用法强制-f和+的区别gitfetchoriginremote-branch:local-branch和gitpushoriginlocal-branch:remote-branch区别引用规格语法格式格式如下：[+]:常见用法#fetchgitfetchorigin:从远程仓库origin的分支拉取最新的提交，并将其创建或更新为本地的分支gitfetchorigin:re
HIVE的权限控制和超级管理员的实现 weixin_34364071 大数据数据库 java
Hive用户权限管理从remote部署hive和mysql元数据表字典看，已经明确hive是通过存储在元数据中的信息来管理用户权限。现在重点是Hive怎么管理用户权限。首先要回答的是用户是怎么来的，发现hive有创建角色的命令，但没有创建用户的命令，显然Hive的用户不是在mysql中创建的。在回答这个问题之前，先初步了解下Hive的权限管理机制。Hive用户组和用户即Linux用户组和用户，和h
mac运行第一个java_Mac下第一个java－servelet程序老纪聊数码 mac运行第一个java
可学习到：设置环境变量方便运行命令和编译程序。servlet-api.jar中包括了servlet相关的api和类tomcat是servlet的容器，没有容器程序跑不起来。tomcat下载地址：http://tomcat.apache.org/我下载的是：apache-tomcat-7.0.67.tar.gz解压开之后放到usr/local目录中tomcat目录启动/usr/local/apach
Azure Synapse Dedicated SQL Pool通过配置选项和参数优化性能 weixin_30777913 云计算 azure
配置选项与参数分布键（DistributionKey）：•选择：在大数据量表中，选择经常用于JOIN、WHERE条件中的列作为分布键，如Date、ID等。•策略：对于范围查询，使用HASH分布避免数据倾斜；对于维度表，通常选择ROUND-ROBIN分布。索引：•类型：聚集列存储索引（CCI）针对大型数据扫描和聚合进行了优化。•策略：始终对大型事实表使用CCI，避免在大型表上使用传统的行存储索引。分
Python学习day14 BBS功能和聊天室 weixin_30725467 json 数据库前端 ViewUI
Createdon2017年5月15日@author:louts第1课作业讲解及装饰器使用28minutesdefcheck(func):defrec(request,*args,**kargs):returnfunc(request,*args,**kargs)returnrec@checkdefindex(request,):printrequest第2课自定义装饰器扩展使用18minutes
如何在Node.js里实现依赖注入前端
什么是依赖注入依赖注入是一种用于在开发过程中实现控制反转（IoC）的技术。在IoC中，对程序流的控制是颠倒的：依赖项不是控制其依赖项的创建和管理的组件，而是从外部源提供给组件。在传统的编程模式中，一个组件可能会直接创建并管理它所依赖的其他组件，这会导致组件之间的耦合度较高，难以维护和测试。控制反转是一种设计原则，它改变了组件之间的控制关系。在IoC中，组件不再自己创建和管理它所依赖的组件，而是将这
记录搭建一个私人搜索引擎
本人很喜欢搜索引擎技术，最近想搭建一个属于自己的私人搜索引擎，自动完成所有的出来流程，记录一下。把某个行业、某个领域，对应的网址放在一个txt文件内，接下来动动鼠标，点几下，从爬取到最后即时搜索，自动全部搞定，效果跟在百度搜索没什么两样。以下是具体的操作流程逻辑：第一步：创建一个索引任务，一键生成这个操作会自动创建对应的表，用来存放爬取的网页内容，不需要人工创建，省去一些过于细化的配置。第二步，开
2025年，游戏行业何去何从？65位业内大佬给出答案花生糖@ 技术创业之路：从创意到企业游戏人工智能
2024年，游戏行业呈现出冰火两重天的景象：独立游戏领域如沐春风，爆款频出，开发者和粉丝们沉浸在创意的狂欢中；而AAA游戏业务却遭遇寒冬，裁员潮一波接一波，众多工作室黯然离场。站在2020年代下半叶的门槛上，我们不禁要问：游戏行业的未来将何去何从？为此，我们采访了65位游戏行业的领军人物，从创意领袖到初创公司创始人，从社区领袖到营销专家，他们给出了各自独到的见解和新年决心，为这个疯狂且不断发展的行
无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案汀、人工智能 AI Agent LLM工业级落地实践人工智能 AI Agent LLM Dify 智能体智能问答聊天助手
无缝融入，即刻智能[二]：Dify-LLM平台(聊天智能助手、AI工作流)快速使用指南，42K+星标见证专属智能方案1.快速创建应用你可以通过3种方式在Dify的工作室内创建应用：基于应用模板创建（新手推荐）创建一个空白应用通过DSL文件（本地/在线）创建应用从模板创建应用初次使用Dify时，你可能对于应用创建比较陌生。为了帮助新手用户快速了解在Dify上能够构建哪些类型的应用，Dify团队内的提
关于 PHP 性能优化很青的青蛙 php php php 性能优化
本文写的也是关于PHP性能优化、减少耗时方面的话题，虽然老生常谈，但还是以我的角度来一个总结或分享。网上关于50条PHP优化的方法，除此之外从架构或环境方面的优化建议等，是非常有益的。本文讲讲我所关注的一些方法或建议。一般来说，性能优化可先从大的方向开始考虑，从对影响性能比较大的因素来考虑，比如现在使用PHP5.7，性能据说可以成倍提高，最后考虑的应该是PHP语法细节上。1.PHP部署环境单台服务
【论文翻译】GOT-OCR论文翻译——General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model 机器白学论文翻译 ocr 论文阅读论文翻译
论文原文链接：https://arxiv.org/abs/2409.01704特别声明，本文不做任何商业用途，仅作为个人学习相关论文的翻译记录。本文对原文内容直译，一切以论文原文内容为准，对原文作者表示最大的敬意。如有任何侵权请联系我下架相关文章。目录通用OCR理论：通过统一的端到端模型迈向OCR-2.00摘要1引言2相关工作2.1传统OCR2.2基于LVLM的OCR3通用OCR理论3.1框架3.
深度学习(1) 浅忆へ梦微凉深度学习人工智能深度学习学习方法 python
一、torch的安装基于直接设备情况，选择合适的torch版本，有显卡的建议安装GPU版本，可以通过nvidia-smi命令来查看显卡驱动的版本，在官网中根据cuda版本，选择合适的版本号，下面是安装示例代码GPU：pipinstalltorch==2.5.0torchvision==0.20.0torchaudio==2.5.0--index-urlhttps://download.pytorc
提升数据科学工作流效率的10个Jupyter Notebook高级特性
JupyterNotebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥JupyterNotebooks的潜力。1、Magic命令：高效的命令行接口Jupyt
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
HiveMetaException: Unknown version specified for initialization: 3.1.0（或者其他版本号）一品_人生 mysql hive 大数据
遇到这个问题，也是很难发现的，查阅很多文章，乱七八糟，也可能是遇到的问题不相同吧，我们从以下两个方面去排查吧1.检查你的hive-site.xml和hive-env.sh，配置对就行，这个网上一大片，注意要正确。2.那就是你解压的hive压缩文件，然后发现要安装mysql，这时你会先检查你本地有没有mysql，使用find/-namemysql（罪源），然后你就一通删除，你没有发现你删除了一个hi
文心一言 vs gpt-4 全面横向比较周盛欢文心一言
文心一言是中国百度公司研发的大规模语言模型，它有超多的参数，就像一个超级大脑，特别擅长理解并生成中文内容。在聊天啊、写文章啊、答题这些任务上表现不错，对中国文化和国情有更深的理解和适应能力。GPT-3.5是OpenAI公司的上一代大模型，比GPT-3更智能一些。而GPT-4作为其升级版，大家预计它会有更大的模型参数量，更强的学习和推理能力，可能会在各种语言任务上实现更大突破。所以，如果拿文心一言跟
深度学习常用格式转化脚本xml2yolo/coco2yolo/bdd2yolo/frame2video等 qq1309399183 计算机视觉实战项目集合深度学习人工智能格式转化脚本 voc2yolo格式转化数据集格式转换 xml2yolo coco2yolo
文章目录1.**数据集格式转换脚本**`coco2yolo.py`示例注释：注释说明：`xml2yolo.py`示例注释：注释说明：2.**数据集可视化与统计**`vis_yolo_files.py`示例注释：注释说明：3.**其他工具脚本**`frames2video.py`示例注释：注释说明：该项目提供了一系列用于深度学习的数据处理工具，主要功能包括：数据集格式转换：提供多种脚本，将不同格式的
LLMs，即大型语言模型 maopig AI 语言模型人工智能自然语言处理
LLMs，即大型语言模型，是一类基于深度学习的人工智能模型，它们通过海量的数据和大量的计算资源进行训练，可以理解和生成自然语言。LLMs的核心架构是Transformer，其关键在于自注意力机制，使得模型能够同时对输入的所有位置进行“关注”，从而更好地捕捉长距离的语义依赖关系。LLMs在众多领域都有广泛的应用，如自然语言理解（NLU），语言生成，以及语音识别和合成等。例如，它们能够理解人类的语言
随机森林分类算法原理与实验分析 ningaiiii 机器学习与深度学习随机森林分类算法
随机森林分类算法原理与实验分析1.引言随机森林（RandomForest）是一种集成学习方法，它通过构建多个决策树并结合它们的预测结果来进行分类。你可以把它想象成一个“团队决策”的过程：团队中的每个成员（决策树）都独立发表意见，最后通过投票决定最终结果。这种方法不仅提高了模型的准确性，还增强了模型的稳定性和鲁棒性。随机森林的主要特点是通过随机选择样本和特征来构建多个决策树，从而避免单棵决策树可能产
全星研发管理APQP软件系统：让汽车电子研发管理体系化建设事半功倍 APQP枫枫软件工程
全星研发管理APQP软件系统：让汽车电子研发管理体系化建设事半功倍在汽车电子行业，研发管理的重要性不言而喻。为了确保产品从设计到量产的每个环节都能满足质量要求，越来越多的企业开始采用APQP（AdvancedProductQualityPlanning）方法。全星研发管理APQP软件系统应运而生，为汽车电子研发管理体系化建设提供了有力支持，让企业事半功倍。全星研发管理APQP软件系统是一款针对汽车
动态规划算法----回文串问题阿_北算法动态规划 c++
引言在算法的世界里，回文串问题一直是一个经典且富有挑战性的题目。而动态规划作为一种强大的算法思想，为解决这类问题提供了高效且优雅的解决方案。本文将深入探讨如何运用动态规划算法来解决回文串相关问题，从问题描述、动态规划思路，到代码实现与复杂度分析，全面剖析这一过程。回文串问题描述回文串是指一个字符串从左到右读和从右到左读是完全一样的，例如“level”、“madam”等。常见的回文串问题有：给定一个
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
每日新闻掌握【2024年1月18日星期六】 cdmt 每日新闻掌握科技
2025年1月18日星期六农历腊月十九大公司/大事件SpaceX“星舰”第七次试飞，再现“筷子夹火箭”，二级飞船失联美国太空探索技术公司（SpaceX）新一代重型运载火箭“星舰”实施第七次试飞，第二级飞船失联。马斯克随后发帖并配发视频称，“成功是不确定的，但娱乐是有保证的！”他还写道，改进版星舰和助推器已准备就绪，等待发射。SpaceX“星舰”从美国得克萨斯州发射升空不久后，火箭第二级飞船与地面团
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
BERT详解 comli_cn 大模型笔记 bert 人工智能深度学习
1.背景结构1.1基础知识BERT（BidirectionalEncoderRepresentationsfromTransformers）是谷歌提出，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是前几年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用了双向Transformer作为算法的主要框架，之前的模型是从左向右输入一个文本序列，或者将l
chatgpt赋能python：Python：免费下载音乐的神器 atest166 ChatGpt python chatgpt 开发语言计算机
Python：免费下载音乐的神器Python是一种优秀的编程语言，在各个领域都有广泛的应用。如果你是一个音乐爱好者，那么Python可以帮助你轻松免费下载你喜欢的音乐。介绍在过去，许多网站和应用程序提供免费下载音乐的服务，但现在这些服务已经不复存在。然而，Python可以帮助你免费下载音乐，并且速度非常快。Python有许多库可以帮助你从网上下载免费音乐。其中，最著名的库是"youtube_dl"
《AI语言模型的关键技术探析：系统提示、评估方法与提示工程》 XianxinMao 人工智能语言模型自然语言处理
文章主要内容摘要1.系统提示(SystemPrompt)定义:用于设置模型行为、角色和工作方式的特殊指令重要性:定义模型行为边界影响输出质量和一致性可将通用模型定制为特定领域助手挑战:技术集成复杂兼容性问题效果难以精确预测2.模型评估方法创新方向:自一致性(Self-Consistency)评估PlanSearch方法强化学习(RL)应用核心特点:多次采样和交叉验证策略空间探索动态权重调整实践价值
《多模态语言模型：一个开放探索的技术新领域》 XianxinMao 语言模型人工智能算法
核心主题多模态语言模型的特点仍处于探索和定义阶段没有固定的标准任务和评估方法研究方向高度开放技术路径主要存在两种方法：后期融合(LateFusion)从语言模型backbone开始添加图像编码器效果稳定，成本可控早期融合(EarlyFusion)从多模态数据集预训练效果尚不明显需要更大规模计算资源开放和透明的重要性促进知识累积和技术迭代降低技术准入门槛避免技术垄断便于安全性审计主要挑战技术层面数据
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S