weixin_42927126

Flink窗口理解

Windows（窗口分类）
Keyed Stream和Non-Keyed Stream
代码定义上唯一的区别是Keyed Stream以keyBy()开始，后接window()，而Non-Keyed Stream以windowAll()开始，且windowAll是单slot运行的。
Keyed Window

stream
       .keyBy(...)               <-  keyed versus non-keyed windows
       .window(...)              <-  required: "assigner"
      [.trigger(...)]            <-  optional: "trigger" (else default trigger)
      [.evictor(...)]            <-  optional: "evictor" (else no evictor)
      [.allowedLateness(...)]    <-  optional: "lateness" (else zero)
      [.sideOutputLateData(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/apply()      <-  required: "function"
      [.getSideOutput(...)]      <-  optional: "output tag"

Non-Keyed Windows

stream
       .windowAll(...)           <-  required: "assigner"
      [.trigger(...)]            <-  optional: "trigger" (else default trigger)
      [.evictor(...)]            <-  optional: "evictor" (else no evictor)
      [.allowedLateness(...)]    <-  optional: "lateness" (else zero)
      [.sideOutputLateData(...)] <-  optional: "output tag" (else no side output for late data)
       .reduce/aggregate/apply()      <-  required: "function"
      [.getSideOutput(...)]      <-  optional: "output tag"

Window Lifecycle（窗口生命周期）
窗口在属于这个窗口的第一条数据到达时创建，在“事件时间或者处理时间 + 用户自定义的允许的延迟时间”到达时移除。
Flink只会移除基于时间的窗口，而不会移除诸如global的窗口。
例如，一个基于事件时间的5分钟滚动窗口，允许时间延迟是1分钟。当12:00的第一条数据到达时，flink会创建一个时间在12:00~12:05的新窗口，这个窗口会在12:06分被移除掉。
另外，每个窗口都会被绑定一个Trigger和一个function (ProcessWindowFunction, ReduceFunction, or AggregateFunction)。这个function包含这个窗口中数据的计算逻辑，而这个Trigger指定了这个窗口中函数被执行的条件。一个trigger策略可能像是“当这个窗口中的元素到达多于4个”，或者“当水位线超过了窗口的截止时间”。一个Trigger也可以决定在窗口存活期任意时间内清除里面的数据，这个例子中清除仅仅是指清除这个窗口内的数据，而不是窗口的元数据。这就意味着新数据仍然可以加入到这个窗口中。
除了上面说的这些，你还可以指定一个Evictor用来在触发器触发后，或者在函数执行前后，从这个window中删除数据。
在Keyed Stream中，你的输入事件中的任何属性（字段）都可以被用来当做key。Keyed Stream能让你的窗口计算被多个task并行执行，因为每个逻辑上的keyed stream都可以被单独处理，同一个key的所有数据会被发送到同一个task去处理。
在Non-Keyed Stream中，你的输入数据不会被拆分成多个流，并且所有的窗口逻辑都会被一个任务处理，也就是说并行度为1.

Window Assigner
指定了你的数据流是Keyed或者Non-Keyed后，下一步是定义WindowAssigner。WindowAssigner定义了数据是如何指定到窗口的。WindowAssigner通过window()(Keyed)或者windowAll()(Non-Keyed)来定义。
一个WindowAssigner负责指定每个输入流数据到一个或者多个窗口。Flink有4中最通用的WindowAssigner类型，滚动窗口(tumbling windows)，滑动窗口(sliding windows)，会话窗口(session windows)和全局窗口(global windows)。你也可以通过扩展WindowAssigner类来自定义窗口类型。所有的内置WindowAssigner(全局窗口除外)都是基于事件时间或者处理时间指定数据位于哪个窗口的。
基于时间的窗口都有一个开始时间和一个结束时间来描述窗口的大小。在写代码时，当使用基于时间的窗口时，flink用可以查询开始时间戳，结束时间戳或者最大时间戳的方法(返回窗口内最大允许的时间戳)的TimeWindow。
接下来我们展示一下flink的预定义窗口是如何工作的，并且他们在数据流程序中是如何使用的。接下来的图表将可视化的展现每个WindowAssigner的工作机制。紫色的圆圈代表数据流中的数据，这些数据被某些key(user1, user2, user3)分区了。X轴代表处理时间。

Tumbling Windows（滚动窗口）
滚动窗口指定每个数据到一个特定大小的窗口内。滚动窗口有固定的大小并且不会重合。例如，如果你指定了一个5分钟的滚动窗口，每5分钟前一个窗口会被计算并且开启另一个新的窗口接收新数据。如下图所示

下面的代码展示如何使用滚动窗口

DataStream input = ...;

// tumbling event-time windows
input
    .keyBy()
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    .();

// tumbling processing-time windows
input
    .keyBy()
    .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
    .();

// daily tumbling event-time windows offset by -8 hours.
input
    .keyBy()
    .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8)))
    .();

时间间隔可以用 Time.milliseconds(x), Time.seconds(x), Time.minutes(x) 等等中的一个去指定。
在上面的例子中，滚动窗口也可以使用可选offset参数，用来改变窗口的对齐时间。例如，没有offset，小时滚动窗口按整点对齐，你将会拿到诸如1:00:00.000 - 1:59:59.999, 2:00:00.000 - 2:59:59.999这样的窗口。如果你想修改，你可以给定一个offset。例如你想要一个由15分钟offset的窗口，那你将会拿到诸如1:15:00.000 - 2:14:59.999, 2:15:00.000 - 3:14:59.999这样的时间窗口。一个offset重要的使用案例是调整时区，比如在中国，你要设置offset Time.hours(-8)。

Sliding Windows（滑动窗口）
滑动窗口将数据指定到大小固定的窗口。和滚动窗口相似，窗口的大小通过窗口参数配置。另外一个滑动窗口参数控制窗口触发的频率。因此，如果滑动的尺寸小于整个窗口尺寸，滑动窗口之间可能会重合。在这种情况下，数据会被分配到多个不同的窗口。
例如，你可以设置一个10分钟大小的窗口，每5分钟滑动一次。这样你可以每5分钟拿到一个包含前面10分钟数据的窗口。如下图所示

下面的java代码展示如何使用滑动窗口

DataStream input = ...;

// sliding event-time windows
input
    .keyBy()
    .window(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .();

// sliding processing-time windows
input
    .keyBy()
    .window(SlidingProcessingTimeWindows.of(Time.seconds(10), Time.seconds(5)))
    .();

// sliding processing-time windows offset by -8 hours
input
    .keyBy()
    .window(SlidingProcessingTimeWindows.of(Time.hours(12), Time.hours(1), Time.hours(-8)))
    .();

时间间隔可以用Time.milliseconds(x), Time.seconds(x), Time.minutes(x)等等指定。
在上面的例子中，滚动窗口也可以使用可选offset参数，用来改变窗口的对齐时间。例如，没有offset，小时滚动窗口按整点对齐，你将会拿到诸如1:00:00.000 - 1:59:59.999, 2:00:00.000 - 2:59:59.999这样的窗口。如果你想修改，你可以给定一个offset。例如你想要一个由15分钟offset的窗口，那你将会拿到诸如1:15:00.000 - 2:14:59.999, 2:15:00.000 - 3:14:59.999这样的时间窗口。一个offset重要的使用案例是调整时区，比如在中国，你要设置offset Time.hours(-8)。

Session Windows（会话窗口）
会话窗口通过会话活动将数据分组。相比于滚动窗口和滑动窗口，会话窗口不会重合，并且没有固定的开始和结束时间。然而会话窗口会在窗口一段时间内不接受新数据时关闭，这段时间是指非活跃发生的间隔时间。会话窗口可以被配置成一个固定的会话间隔，或者通过一个会话间隔提取器函数去定义非活动的间隔时长。当这段时间过期，当前会话关闭，并且接下来的新数据会被指定到一个新的会话窗口。

下面的java代码展示如何使用会话窗口

DataStream input = ...;

// event-time session windows with static gap
input
    .keyBy()
    .window(EventTimeSessionWindows.withGap(Time.minutes(10)))
    .();
    
// event-time session windows with dynamic gap
input
    .keyBy()
    .window(EventTimeSessionWindows.withDynamicGap((element) -> {
        // determine and return session gap
    }))
    .();

// processing-time session windows with static gap
input
    .keyBy()
    .window(ProcessingTimeSessionWindows.withGap(Time.minutes(10)))
    .();
    
// processing-time session windows with dynamic gap
input
    .keyBy()
    .window(ProcessingTimeSessionWindows.withDynamicGap((element) -> {
        // determine and return session gap
    }))
    .();

固定的时间间隔可以用 Time.milliseconds(x), Time.seconds(x), Time.minutes(x)等指定。
动态的时间间隔通过实现SessionWindowTimeGapExtractor接口指定。
由于会话窗口没有固定的开始和结束时间，所以他们里面的数据和滚动窗口，滑动窗口的计算方式也不同。会话窗口操作符为每个新数据创建一个新窗口，然后如果他们之间的时间间隔相比于定义好的时间间隔更近的话，就合并这些窗口。为了使这些窗口是可合并的，会话窗口操作符需要一个合并触发器和一个合并窗口函数，比如ReduceFunction, AggregateFunction, or ProcessWindowFunction。

Global Windows（全局窗口）
全局窗口指定所有的有相同key的数据到同一个全局窗口。这个窗口只有在你指定一个自定义的触发器时才有用。否则，什么计算都没有，因为全局窗口没有结束时间，所以我们不能做任何的聚合运算。
下面的java代码展示如何使用全局窗口

DataStream input = ...;

input
    .keyBy()
    .window(GlobalWindows.create())
    .();

Window Functions（窗口函数）
定义完了window assigner后，我们需要在每个窗口指定我们需要的计算。这就是窗口函数的作用，一旦系统知道一个窗口已经准备就绪，它就会开始处理每个窗口里面（可能是keyed）的数据（Flink如何决定一个窗口已经准备就绪可参考triggers）。
window函数可以是ReduceFunction, AggregateFunction, or ProcessWindowFunction中的一个。前面2个执行的效率更高，因为Flink可以增量聚合到达这个窗口的数据。ProcessWindowFunction可以获得一个包含窗口内所有数据的迭代器（Iterable）和额外的关于这个窗口数据的元数据信息。
因为Flink不得不在调用函数前缓存窗口内的所有数据，所以基于ProcessWindowFunction的窗口转化不能像其他的函数一样被高效地执行。通过结合ReduceFunction或者AggregateFunction一起使用，既可以获得窗口内每个数据的增量聚合结果，也可以同时拿到ProcessWindowFunction接收到的数据的元数据信息，这样就可以有效缓解上述的这种情况。接下来，我们可以看到这些变种的例子。

ReduceFunction（Reduce函数）
ReduceFunction定义了两个输入数据如何结合到一起去生成一个同样类型的输出结果。Flink用ReduceFunction去增量聚合窗口内的数据。
ReduceFunction可以像下面这样定义和使用

DataStream> input = ...;

input
    .keyBy()
    .window()
    .reduce(new ReduceFunction>() {
      public Tuple2 reduce(Tuple2 v1, Tuple2 v2) {
        return new Tuple2<>(v1.f0, v1.f1 + v2.f1);
      }
    });

上面的例子是为窗口内所有二元组数据的第二个字段求和。

AggregateFunction（Aggregate函数）
AggregateFunction是ReduceFunction的更通用版本，它有三个类型：输入类型，累加器类型，还有输出类型。输入类型是指输入流中的数据类型，AggregateFunction有一个方法去把输入数据加到累加器上面。除此之外，接口中还有其他的方法，比如创建一个初始的累加器的方法，用来将累加器合二为一的方法，将输出数据从累加器中抽取出来的方法等。我们将在下面的例子中了解它们如何工作。
和ReduceFunction一样，Flink会增量聚合窗口内到达的输入数据。
AggregateFunction可以像下面这样定义和使用。

/**
 * The accumulator is used to keep a running sum and a count. The {@code getResult} method
 * computes the average.
 */
private static class AverageAggregate
    implements AggregateFunction, Tuple2, Double> {
  @Override
  public Tuple2 createAccumulator() {
    return new Tuple2<>(0L, 0L);
  }

  @Override
  public Tuple2 add(Tuple2 value, Tuple2 accumulator) {
    return new Tuple2<>(accumulator.f0 + value.f1, accumulator.f1 + 1L);
  }

  @Override
  public Double getResult(Tuple2 accumulator) {
    return ((double) accumulator.f0) / accumulator.f1;
  }

  @Override
  public Tuple2 merge(Tuple2 a, Tuple2 b) {
    return new Tuple2<>(a.f0 + b.f0, a.f1 + b.f1);
  }
}

DataStream> input = ...;

input
    .keyBy()
    .window()
    .aggregate(new AverageAggregate());

上面的例子计算的是窗口内二元组数据的第二个字段的平均值。

ProcessWindowFunction（ProcessWindow函数）
ProcessWindowFunction可以获得一个包含所有窗口内元素的迭代器和可以访问到时间和状态信息的上下文对象，这使得它能够提供比其他window function更多的灵活性。不过这会导致一些性能和资源上的损耗，因为数据不会被增量聚合，而是需要被缓存起来，一直到这个窗口内的数据被处理的时候。
下面是ProcessWindowFunction的签名（原始定义）

public abstract class ProcessWindowFunction implements Function {

    /**
     * Evaluates the window and outputs none or several elements.
     *
     * @param key The key for which this window is evaluated.
     * @param context The context in which the window is being evaluated.
     * @param elements The elements in the window being evaluated.
     * @param out A collector for emitting elements.
     *
     * @throws Exception The function may throw exceptions to fail the program and trigger recovery.
     */
    public abstract void process(
            KEY key,
            Context context,
            Iterable elements,
            Collector out) throws Exception;

   	/**
   	 * The context holding window metadata.
   	 */
   	public abstract class Context implements java.io.Serializable {
   	    /**
   	     * Returns the window that is being evaluated.
   	     */
   	    public abstract W window();

   	    /** Returns the current processing time. */
   	    public abstract long currentProcessingTime();

   	    /** Returns the current event-time watermark. */
   	    public abstract long currentWatermark();

   	    /**
   	     * State accessor for per-key and per-window state.
   	     *
   	     * NOTE:If you use per-window state you have to ensure that you clean it up
   	     * by implementing {@link ProcessWindowFunction#clear(Context)}.
   	     */
   	    public abstract KeyedStateStore windowState();

   	    /**
   	     * State accessor for per-key global state.
   	     */
   	    public abstract KeyedStateStore globalState();
   	}

}

参数key是指在调用keyBy()时使用KeySelector指定的那个。以防是tuple中的索引或者String类型的引用，这个key的类型都设计成了Tuple，并且你必须手动转换成Tuple的正确长度的类型去取这个key。
ProcessWindowFunction可以像下面这样定义和使用

DataStream> input = ...;

input
  .keyBy(t -> t.f0)
  .window(TumblingEventTimeWindows.of(Time.minutes(5)))
  .process(new MyProcessWindowFunction());

/* ... */

public class MyProcessWindowFunction 
    extends ProcessWindowFunction, String, String, TimeWindow> {

  @Override
  public void process(String key, Context context, Iterable> input, Collector out) {
    long count = 0;
    for (Tuple2 in: input) {
      count++;
    }
    out.collect("Window: " + context.window() + "count: " + count);
  }
}

这个例子展示了ProcessWindowFunction如何将窗口内的数据计数。另外，这个窗口函数还添加了一些关于窗口的输出信息。
注意用ProcessWindowFunction来做简单的聚合如计数是很低效的。下面将介绍如何将ReduceFunction、AggregateFunction与ProcessWindowFunction结合起来使用去既获得增量聚合又获得ProcessWindowFunction的额外的信息。

ProcessWindowFunction with Incremental Aggregation（使用ProcessWindowFunction实现增量聚合）
ProcessWindowFunction可以和ReduceFunction或者AggregateFunction一起使用去增量聚合到达窗口内的数据。当窗口关闭，ProcessWindowFunction会立即给出聚合结果。这允许它在增量计算的同时，还可以获取一些关于ProcessWindowFunction的额外的窗口元数据信息。
你也可以使用已过期的WindowFunction替代ProcessWindowFunction来做增量窗口聚合。

Incremental Window Aggregation with ReduceFunction（使用ReduceFunction实现增量窗口聚合）
下面的例子展示了如何将增量的ReduceFunction和ProcessWindowFunction结合起来使用，计算窗口内数据的最小值，并获得窗口的开始时间。

DataStream input = ...;

input
  .keyBy()
  .window()
  .reduce(new MyReduceFunction(), new MyProcessWindowFunction());

// Function definitions

private static class MyReduceFunction implements ReduceFunction {

  public SensorReading reduce(SensorReading r1, SensorReading r2) {
      return r1.value() > r2.value() ? r2 : r1;
  }
}

private static class MyProcessWindowFunction
    extends ProcessWindowFunction, String, TimeWindow> {

  public void process(String key,
                    Context context,
                    Iterable minReadings,
                    Collector> out) {
      SensorReading min = minReadings.iterator().next();
      out.collect(new Tuple2(context.window().getStart(), min));
  }
}

Incremental Window Aggregation with AggregateFunction（使用AggregateFunction实现增量窗口聚合）
下面的例子展示了如何将增量的AggregateFunction和ProcessWindowFunction结合起来使用，计算平均值，并且输出key和带上平均值的窗口。

Using per-window state in ProcessWindowFunction（在ProcessWindowFunction中使用每个窗口状态）
除了访问keyed state（所有rich function都可以），ProcessWindowFunction也可以在这个函数正在处理的窗口范围内使用。在这种情况下，了解每个窗口状态所指的窗口是什么非常重要。这里涉及到不同的“窗口”：

在指定窗口操作是被定义的窗口：可能是1小时滚动窗口，或者每1个小时滑动一次的2小时窗口。
给定key的已定义窗口的实际实例：对于用户xyz来说，可能是12:00~13:00的时间窗口。这是基于窗口定义，并且根据正在运行的任务key的数量和任务里面的这些事件落在哪个时间段，将会有许多的窗口。
Per-window状态与后面两种情况相关。意味着如果我们处理1000个不同key的数据，并且这些数据都落在了[12:00, 13:00)的时间窗口内，那么就会有1000个窗口实例，其中每个窗口都有他们自己的窗口状态。
process()调用能接收到上下文对象中的可以访问这两类状态的2个方法：
globleState()，允许访问不在这个窗口范围内的keyed state
windowState()，允许访问在这个窗口范围内的keyed state
如果你想要在同一个窗口触发多个操作，这个特性将非常有用，比如当你要为迟到的数据延迟触发或者当你有一个自定义的trigger需要提早触发。在这种情况下，你会保存关于前一次触发的信息或者每个窗口状态的触发次数。
当使用窗口的状态时，在窗口清除时，清理state也很重要。这个应该在clear()函数里面定义。

WindowFunction(窗口函数已过期)
在可以使用ProcessWindowFunction的地方，你也可以使用WindowFunction。这个是ProcessWindowFunction的老的版本，它提供了更少的上下文信息，并且没有一些高级的特性，比如每个窗口的keyed state。这个接口会在某个时间点被过期掉。
WindowFunction接口的定义如下

public interface WindowFunction extends Function, Serializable {

  /**
   * Evaluates the window and outputs none or several elements.
   *
   * @param key The key for which this window is evaluated.
   * @param window The window that is being evaluated.
   * @param input The elements in the window being evaluated.
   * @param out A collector for emitting elements.
   *
   * @throws Exception The function may throw exceptions to fail the program and trigger recovery.
   */
  void apply(KEY key, W window, Iterable input, Collector out) throws Exception;
}

它可以像下面这样使用

DataStream> input = ...;

input
    .keyBy()
    .window()
    .apply(new MyWindowFunction());

Tiggers（触发器）
触发器定义一个被窗口函数指定的窗口（在window assigner中形成）什么时候准备好开始处理数据。每一个WindowAssigner都有一个默认的触发器。如果默认的触发器不能满足你的需求，你可以用trigger(…)指定一个自定义的触发器。
触发器接口有5个允许它对不同事件做出反应的方法。

onElement方法为进入到窗口内的每个数据所调用
onEventTime方法在注册的事件时间定时器触发时调用
onProcessTime方法在注册的处理时间定时器触发时调用
onMerge方法和有状态的触发器相关，并且当响应的两个窗口合并时，合并两个触发器的状态，比如会话窗口
clear方法在移除窗口时处理任何需要的动作
关于上面的方法，有两点需要注意：
前三个通过返回一个TriggerResult决定对于他们的调用事件做出何种反应。反应可以是如下中的一种：
CONTINUE：什么都不做
FIRE：触发计算
PURGE：清除窗口中的数据
FIRE_AND_PURGE：触发计算，然后清除窗口中的数据
这些方法中的任何一个都可以用来为未来的反应注册处理时间或者事件时间定时器。

Fire And Purge（触发和清除）
一旦触发器确定了窗口已经准备好了处理，也就是说触发了，它就会返回Fire或者FIRE_AND_PURGE。这个是窗口操作符发送当前窗口结果的信号。给定一个ProcessWindowFunction的窗口，所有的数据都会被传送到ProcessWindowFunction里面（可能是在把他们传送给了evictor之后）。而ReduceFunction和AggregateFunction的窗口只是简单地把聚合结果发出来。
当一个触发器触发了，它可能是FIRE或者FIRE_AND_PURGE。FIRE会保留这个窗口中的状态内容，而FIRE_AND_PURGE会清除里面的内容。默认情况下，预实现的触发器只是FIRE而不会清除window里面的状态。
Purge会仅仅移除窗口里面的内容，并且会保留有关窗口的任何潜在元信息和保持任何触发器状态完好无损。

Default Triggers of WindowAssigners（默认触发器）
WindowAssigner的默认Trigger在很多情况下是恰当的。例如，所有的事件时间window assigner都有一个EventTimeTrigger作为默认的trigger。这个trigger简单地在水位线到达窗口的时候触发一次。
GlobalWindow的默认Trigger是NeverTrigger，也就是说一直都不会触发。因此，当使用GlobalWindow时，你总是要自定义一个Trigger。
通过用函数trigger()指定一个触发器，你可以覆盖掉WindowAssigner的默认触发器。例如，如果你为TumblingEventTimeWindows指定一个CountTrigger，你将不再会基于处理时间触发窗口，而是基于计数值。现在，如果你想基于时间和计数值触发窗口，你必须写你自己的自定义触发器。

Built-in and Custom Triggers（内置的和自定义的触发器）
Flink有一些内置的触发器

EventTimeTrigger基于通过水位线衡量的事件时间触发
ProcessingTimeTrigger基于处理时间触发
CountTrigger在窗口内的数据超过给定的限定值时触发
PurgingTrigger作为另一个触发器的参数，并将这个触发器转换为一个清除触发器
如果你需要实现一个自定义触发器，你应该查看抽象的Trigger类。请注意这个API还在进化中并且有可能在Flink的未来版本改变。

Evictors（驱除器）
除了WindowAssigner和Trigger，Flink的窗口模型允许再指定一个可选的Evictor。可以使用evictor(…)函数指定。在触发器触发后，window函数执行之前或者之后，Evictor可以将窗口中的数据移除。Evictor接口通过两个方法来实现这个效果

/**
 * Optionally evicts elements. Called before windowing function.
 *
 * @param elements The elements currently in the pane.
 * @param size The current number of elements in the pane.
 * @param window The {@link Window}
 * @param evictorContext The context for the Evictor
 */
void evictBefore(Iterable> elements, int size, W window, EvictorContext evictorContext);

/**
 * Optionally evicts elements. Called after windowing function.
 *  * @param elements The elements currently in the pane.
 * @param size The current number of elements in the pane.
 * @param window The {@link Window}
 * @param evictorContext The context for the Evictor
 */
void evictAfter(Iterable> elements, int size, W window, EvictorContext evictorContext);

evictorBefore()函数包含在窗口函数之前使用的清除逻辑，evictorAfter()函数包含在窗口函数之后使用的逻辑。在使用窗口函数之前被清除的数据不会被处理。
Flink有如下三个预实现的Evictor：

CountEvictor保留窗口中用户指定数量的数据，丢弃从窗口头部开始的其他的数据
DeltaEvictor使用DeltaFunction和一个阈值（threshold），计算窗口中最后一个数据和其他的每一个数据之间的差值，移除差值大于或者等于这个阈值的数据
TimeEvictor使用毫秒值interval作为参数，对于一个给定的窗口，在这个窗口中所有的数据中，找到最大的时间戳max_ts，移除掉所有时间戳小于max_ts - interval的数据

默认情况下，所有预实现evictor的逻辑都是在窗口函数之前执行的。
通过指定evictor可以防止预聚合，因为窗口里面所有的数据都必须在执行计算之前传给evictor。这就意味着带evictor的窗口会创建非常多的State。
Flink不保证窗口内的数据的顺序。这意味着，虽然evictor可以从窗口的开头删除元素，但这些元素不一定是先到达或最后到达的元素。

Allowed Lateness（允许延迟）
当使用事件时间窗口时，可能会发生数据延迟到达，也就是说Flink用来跟踪事件时间的进度的水位线已经超过了数据所在窗口的结束时间。在event time和late elements章节，可以找到关于Flink如何处理事件时间的更详细的说明。
默认情况下，当水位线超过了窗口的结束时间，迟到的数据会被丢弃。可是，对于窗口操作，Flink允许指定最大的数据延迟。允许延迟是指在数据被丢弃前最多可以迟到多长时间，默认值是0。在水位线超过窗口结束时间之后，但是在窗口结束时间加上允许的延迟之前到达，这些导到的数据仍然能够被加入到这个窗口。根据使用的触发器，一个迟到但是不被丢弃的数据可能会导致窗口的再次触发。事件时间触发器的情况就是这样。
为了使这个工作，Flink保留窗口的状态知道允许的延迟过期。一旦这种情况发生，Flink移除这个窗口并且删除里面的状态，就像Window Lifecycle部分所说的。
默认情况下，允许延迟参数设置为0。也就是说，在水位线之后到达的数据会被删除。
你可以像下面这样指定允许延迟：

DataStream input = ...;

input
    .keyBy()
    .window()
    .allowedLateness()
    .();

当使用GlobalWindow时，没有数据会迟到，因为global window的结束时间是Long.MAX_VALUE。

Getting late data as a side output（将迟到数据作为侧输出流）
根据Flink侧输出的特性，可以将迟到的数据输出到侧数据流。
你首先需要说明你想要在windowed stream中通过sideOutputLateData(OutputTag) 获得迟到的数据。然后，你可以在窗口操作的结果上获取侧输出流。

final OutputTag lateOutputTag = new OutputTag("late-data"){};

DataStream input = ...;

SingleOutputStreamOperator result = input
    .keyBy()
    .window()
    .allowedLateness()
    .sideOutputLateData(lateOutputTag)
    .();

DataStream lateStream = result.getSideOutput(lateOutputTag);

Late elements considerations（考虑迟到数据）
当将允许延迟参数指定为大于0，水位线超过了窗口结束时间之后，窗口和里面的内容会保留下来。在这种情况下，当一个迟到但是没有丢弃的数据到达时，这个窗口会再一次触发。这些触发都叫做迟到触发，因为它们都是被迟到的事件触发，并且是和这个窗口的第一次主要触发相比的。在session window的情况下，迟到触发可进一步导致窗户的合并，因为它们可能会"弥合"两个预先存在的未合并窗户之间的间隙。
迟到触发的结果可以被视为前一次计算结果的更新值，也就是说，你的数据流会包含同一个计算的多个结果。根据你的应用程序不同，你需要考虑这些重复的结果并且给他们去重。

Working with window results（处理窗口结果）
窗口函数的结果又是另外一个数据流，在结果数据中不会保留有关窗口操作的任何信息，因此如果你想要保留关于这个窗口的元数据信息，你必须在你的ProcessWindowFunction的结果数据中手动编码这些信息。在结果数据中设置的仅有的相关信息是数据时间戳。这个时间戳被设置为被处理窗口的最大允许的时间戳，也就是结束时间戳减去 1，因为窗口结束时间不包含在内。注意事件时间窗口和处理时间窗口都是这样的，也就是说，窗口操作之后，数据都会有一个时间戳，但这个时间戳既可能是事件时间戳或者处理时间戳。对于处理时间戳这个没有什么特殊的含义，但是对于事件时间戳，这关系到水位线如何与窗口交互能使连续窗口操作具有相同的窗口大小。我们会在水位线如何与窗口交互后讲到这个。

Interaction of watermarks and windows（水位线和窗口的交互）
在继续这部分之前，你可能想要先看一下event time and watermarks部分。
当窗口操作符的水位线到达时，会触发两件事：

水位线会在最大时间戳（结束时间 - 1）小于新的水位线时，触发所有窗口的计算
水位线会被转发到下游操作
直观上，水位线"冲洗"所有窗口，一旦它们收到该水位线，就会在下游作业中考虑迟到。

Consecutive windowed operations（连续窗口操作）
就如前面提到的，窗口结果的时间戳的计算方式，和水位线如何与窗口交互方式，都允许串联连续窗口操作。当你想要执行连续两个窗口操作时，如果要使用不同的key，但仍希望来自同一上游窗口的元素最终位于同一下游窗口，这会很有用。如下所示：

DataStream input = ...;

DataStream resultsPerKey = input
    .keyBy()
    .window(TumblingEventTimeWindows.of(Time.seconds(5)))
    .reduce(new Summer());

DataStream globalResults = resultsPerKey
    .windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))
    .process(new TopKWindowFunction());

在这种情况下，第一次操作中的时间窗口[0, 5)的结果也将在随后的窗口操作中以时间窗口 [0, 5)结束。这允许在同一个窗口内先用第一个操作计算每个key的和再用第二个操作计算top-k的数据。

Useful state size considerations（有用的状态大小考虑）
窗口可以定义成很长时间(比如1天，1周，或者1个月)，因此而需要累积非常大的状态。当评估你的窗口计算的存储需求时，有以下一些原则需要记住：

Flink为每个窗口创建每个数据所属窗口的一份拷贝。有了这个，滚动窗口保留每个数据的一份拷贝(除非迟到被丢弃，一个数据精确属于一个窗口)。相反，滑动窗口创建几份拷贝，就像WindowAssigner章节所说的。因此，每1秒执行一次的1天大小的滑动窗口可能不是一个好的方式
ReduceFunction和AggregeateFunction可能会很大程度上减少存储消耗，因为他们迅速聚合数据，并且仅仅为每个窗口保留一个值。相反，只使用ProcessWindowFunction需要累积所有数据
用evictor可以防止预聚合，因为窗口内的所有数据都必须在计算之前经过evictor

你可能感兴趣的:(flink,flink,大数据)

Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi