忄凝^

Flink Window机制与watermark水位线

这里目录标题

- 1.简介
- 2、Flink 搭建
- 3、Flink 运行架构
- 4、程序与数据流（DataFlow）
- 5、Flink 流处理API
- 6、Window 窗口机制
- - 6.1、策略
  - 6.2、类型
  - 6.3、Windows API
  - - 6.3.1. 滚动窗口(Tumbling Window)
    - 6.3.2. 滑动窗口(Sliding Window)
    - 6.3.3. 会话窗口（session windown）
    - 6.3.4. 全局窗口(Global Windows)
  - 6.4、 window窗口聚合函数
  - - 6.4.1. 增量聚合函数
    - 6.4.2. 全量窗口函数
  - 6.5、其他 API
- 7、时间语义与watermark
- - 7.1、时间语义
  - 7.2、watermark 水位线
  - - 7.2.2. Watermark原理
    - 7.2.3. Watermark三种使用情况
    - 7.2.4. Watermark的产生方式
    - 7.2.5. watermark 迟到数据
- 8、状态管理State
- 9、ProcessFunction API(底层API)
- 10、容错机制CheckPoint
- 13、Flink 反压机制

1.简介

Flink 简介 + 运行架构 + 程序与 DataFlow数据流
链接: https://blog.csdn.net/weixin_43660536/article/details/120126980.

2、Flink 搭建

Flink 1.9.3 搭建:
https://blog.csdn.net/weixin_43660536/article/details/120089661..

3、Flink 运行架构

4、程序与数据流（DataFlow）

Flink 简介 + 运行架构 + 程序与 DataFlow数据流
链接: https://blog.csdn.net/weixin_43660536/article/details/120126980.

5、Flink 流处理API

Flink 流处理 API 详解
https://blog.csdn.net/weixin_43660536/article/details/120142486.

6、Window 窗口机制

转换和滚动聚合一次处理一个事件产生输出事件并可能更新状态。但是，有些操作必须收集并缓冲数据以计算其结果。
例如，考虑不同流之间的连接或整体聚合这样的操作，例如中值函数。为了在无界流上高效运行这些操作符，我们需要限制这些操作维护的数据量。
窗口还可以在语义上实现关于流的比较复杂的查询。
我们已经看到了滚动聚合的方式，以聚合值编码整个流的历史数据来为每个事件提供低延迟的结果。

6.1、策略

窗口操作不断从无限事件流中创建有限的事件集，好让我们执行有限集的计算。
通常会基于数据属性或基于时间的窗口来分配事件。
窗口的行为由一组策略定义。
- 窗口策略决定何时创建新的窗口以及要分配的事件属于哪个窗口，以及何时对窗口中的元素进行求值。
- 一旦触发条件得到满足，窗口的内容将会被发送到求值函数，求值函数会将计算逻辑应用于窗口中的元素。
- 求值函数可以是sum或minimal或自定义的聚合函数。求值策略可以根据时间或者数据属性计算

6.2、类型

Window 可以分成两类：
- 基于数据驱动：（Count Window，例如：每一百个元素）按照指定的数据条数生成一个 Window，与时间无关。
- 基于时间驱动：（Time Window，例如：每30秒钟）按照时间生成 Window。
基于不同事件驱动的窗口又可以分成以下几类：
- 翻滚窗口（Tumbling Window，无重叠）
- 滑动窗口（Sliding Window，有重叠）
- 会话窗口（Session Window，活动间隙）
- 全局窗口（Global Window 全局窗口）

6.3、Windows API

窗口分配器 —— window() 方法
- 用 .window() 来定义一个窗口，去做一些聚合或者其它处理操作。
- 注意 window () 方法必须在 keyBy 之后才能用。
提供了更加简单的 .timeWindow 和 .countWindow 方法，用于定义时间窗口和计数窗口。

在实际案例中Keyed Window 使用最多,所以我们需要掌握Keyed Window的算子，

在每个窗口算子中包含了
- Windows Assigner、
- Windows Trigger(窗口触发器)、
- Evictor(数据剔除器)、
- Lateness(时延设定)、
- Output (输出标签)
- Windows Function，
- 其中Windows Assigner和Windows Functions是所有窗口算子 必须指定的属性，其余的属性都是根据实际情况选择指定.

code:
	stream.keyBy(...)是Keyed类型数据集
	.window(...)//指定窗口分配器类型
	[.trigger(...)]//指定触发器类型(可选)
	[.evictor(...)] // 指定evictor或者不指定(可选)
	[.allowedLateness(...)] //指定是否延迟处理数据(可选)
	[.sideOutputLateData(...)] // 指定Output lag(可选)
	.reduce/aggregate/fold/apply() //指定窗口计算函数
    [.getSideOutput(...)] //根据Tag输出数据(可选)
intro:
	Windows Assigner : 指定窗口的类型,定义如何将数据流分配到一个或多个窗口
	Windows Trigger : 指定窗口触发的时机,定义窗口满足什么样的条件触发计算
	Evictor : 用于数据剔除
	allowedLateness : 标记是否处理迟到数据,当迟到数据达到窗口是否触发计算
	Output Tag: 标记输出标签,然后在通过getSideOutput将窗口中的数据根据标签输出
	Windows Function: 定义窗口上数据处理的逻辑,例如对数据进行Sum操作

Flink要操作窗口，先得将StreamSource 转成WindowedStream.

方法名：	描述
window KeyedStream → WindowedStream	可以在已经分区的KeyedStream上定义 Windows，即K,V格式的数据。
WindowAll DataStream → AllWindowedStream	对常规的DataStream上定义Window,即非 K,V格式的数据
Window Apply WindowedStream → DataStream AllWindowedStream → DataStream	将函数应用于整个窗口中的数据。
Window Reduce WindowedStream → DataStream	对窗口里的数据进行”reduce”减少聚合统计
Aggregations on windows WindowedStream → DataStream	对窗口里的数据进行聚合操作： windowedStream.sum(0); windowedStream.sum(“key”);

6.3.1. 滚动窗口(Tumbling Window)

滚动窗口是将事件分配到固定大小的不重叠的窗口中。
特点：时间对齐，窗口长度固定，没有重叠。
当通过窗口的结尾时，全部事件被发送到求值函数进行处理。
- 基于计数的翻滚窗口，每四个元素一个窗口。
- 基于时间的滚动窗口，将事件收集到窗口中每10分钟触发一次计算。

基于事件驱动

//基于事件驱动，每100个事件，划分一个窗口
dataStream.keyBy(0)
	.countWindow(100)
	.sum(1)
	.printToErr();

基于时间驱动

//基于时间驱动，每隔1分钟划分一个窗口
dataStream.keyBy(0)
	.timeWindow(Time.minutes(1))
	.sum(1)
	.printToErr();

6.3.2. 滑动窗口(Sliding Window)

滑动窗口是固定窗口的更广义的一种形式；
滑动窗口将事件分配到固定大小的可重叠的窗口中去。
特点：时间对齐，窗口长度固定，可以有重叠。
通过提供窗口的长度和滑动距离来定义滑动窗口。滑动距离定义了创建新窗口的间隔。

基于时间驱动

//基于时间驱动，每隔30s计算一下最近一分钟的数据
mapStream
	.keyBy(0)
	.timeWindow(Time.minutes(1),Time.seconds(30))
	.sum(1)
	.printToErr();

基于事件驱动

//基于事件驱动，每10个元素触发一次计算，窗口里的事件数据最多为100个
mapStream
	.keyBy(0)
	.countWindow(100,10)
	.sum(1)
	.printToErr();

6.3.3. 会话窗口（session windown）

会话窗口在常见的真实场景中很有用，一些场景既不能使用滚动窗口也不能使用滑动窗口。
由一系列事件组合一个指定时间长度的 timeout 间隙组成，类似于 web 应用的 session，
也就是一段时间没有接收到新数据就会生成新的窗口。
会话窗口会定义一个间隙值来区分不同的会话。间隙值的意思是：用户一段时间内不活动，就认为用户的会话结束了。
特点：时间无对齐。

基于会话驱动

//基于会话驱动，通过会话Session Gap来区分
source
    .keyBy(0)
	.window(ProcessingTimeSessionWindows.withGap(Time.seconds(30)))
	.sum(1)
    .print(System.currentTimeMillis() + ":");

6.3.4. 全局窗口(Global Windows)

将所有数据分配到单个窗口中计算结果，窗口没有起始和结束时间。
窗口需要借助于Triger来触发计算，如果不对Global Windows指定Triger，窗口是不会触发计算的。
使用Global Windows需要非常慎重，用户需要指定对应的触发器，同时还需要有指定相应的数据清理机制，否则数据将一直留在内存中。

//.windowAll()
//.timeWindowAll()
//.countWindowAll（）
//简单的字符串--每5个操作男生女生各有多少人
        streamSource.countWindowAll(5).apply(new AllWindowFunction<String, String, GlobalWindow>() {
            @Override
            public void apply(GlobalWindow globalWindow, Iterable<String> iterable, Collector<String> collector) throws Exception {
                int man = 0;
                int woman = 0;
                Iterator<String> iterator = iterable.iterator();
                while (iterator.hasNext()) {
                    if (iterator.next().equals("w")) {
                        woman++;
                    } else {
                        man++;
                    }
                }
                collector.collect("man:" + man);
                collector.collect("woman:" + woman);
            }
        }).print();

6.4、 window窗口聚合函数

Flink提供了两大类窗口函数，分别为增量聚合函数和全量窗口函数。
- 增量聚合窗口是基于中间结果状态计算最终结果的，即窗口中只维护一个中间结果状态，，不要缓存所有的窗口数据。
- 全量窗口函数，需要对所有进入该窗口的数据进行缓存，等到窗口触发时才会遍历窗口内所有数据，进行结果计算。

6.4.1. 增量聚合函数

包括：ReduceFunction、AggregateFunction和FoldFunction

streamSource.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Integer> map(String s) throws Exception {
                return Tuple2.of(s, 1);
            }
        }).keyBy(0).countWindow(5).reduce(new ReduceFunction<Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Integer> reduce(Tuple2<String, Integer> all, Tuple2<String, Integer> each) throws Exception {
                System.out.println("Hello06ReduceFunction.reduce[" + all + "][" + each + "]");
                all.setField(all.f1 + each.f1, 1);
                return all;
            }
        }).print();

6.4.2. 全量窗口函数

包括：ProcessWindowFunction

streamSource.map(new MapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public Tuple2<String, Integer> map(String s) throws Exception {
                return Tuple2.of(s, 1);
            }
        }).keyBy(0).countWindow(5).process(new ProcessWindowFunction<Tuple2<String, Integer>, Object, Tuple, GlobalWindow>() {
            @Override
            public void process(Tuple key, Context context, Iterable<Tuple2<String, Integer>> iterable, Collector<Object> collector) throws Exception {
                System.out.println("Hello07ProcessFunction.process[" + key + "]");
                //计算平均结果
                int sum = 0;
                int count = 0;
                Iterator<Tuple2<String, Integer>> iterator = iterable.iterator();
                while (iterator.hasNext()) {
                    Tuple2<String, Integer> tuple2 = iterator.next();
                    sum += tuple2.f1;
                    count++;
                }
                //计算平均值并进行收集
                collector.collect(key + "--" + (sum * 1.0 / count));
            }
        }).print();

6.5、其他 API

.trigger() ——触发器

定义window 什么时候关闭，触发计算并输出结果
.evitor() ——移除器

定义移除某些数据的逻辑
.allowedLateness() ——允许处理迟到的数据
.sideOutputLateData() ——将迟到的数据放入侧输出流
.getSideOutput() ——获取侧输出流

7、时间语义与watermark

在流处理中，窗口操作与两个主要概念密切相关：时间语义和状态管理。
时间也许是流处理最重要的方面。即使低延迟是流处理的一个有吸引力的特性，它的真正价值不仅仅是快速分析。
真实世界的系统，网络和通信渠道远非完美，流数据经常被推迟或无序(乱序)到达。
理解如何在这种条件下提供准确和确定的结果是至关重要的。

7.1、时间语义

Event Time：事件时间 ；
- 事件时间是流中的事件实际产生（发生）的时间。事件时间基于流中的事件所包含的时间戳。
- 事件时间使得计算结果的过程不需要依赖处理数据的速度。
Ingestion Time：数据进入Flink的时间
Processing Time：处理时间；
- 执行操作算子的本地系统时间，与机器相关。
- 处理时间的窗口包含了一个时间段内来到机器的所有事件。
乱序数据的影响
- 当 Flink 以 Event Time 模式处理数据流时，它会根据数据里的时间戳来处理基于时间的算子。
- 由于网络、分布式等原因，会导致乱序数据的产生。
- 乱序数据会让窗口计算不准确。

7.2、watermark 水位线

Watermark 是一种衡量 Event Time 进展的机制，可以设定延迟触发。
Watermark 是用于处理乱序事件的，而正确的处理乱序事件，通常用 Watermark 机制结合 window 来实现；本质上也是一种时间戳。
watermark 用来让程序自己平衡延迟和结果正确性 。
水位线是全局进度的度量标准。线提供了一种结果可信度和延时之间的妥协。
- 激进的水位线设置可以保证低延迟，但结果的准确性不够。
- 水位线设置的过于宽松，计算的结果准确性会很高，

7.2.2. Watermark原理

watermark 是一条特殊的数据记录 。
watermark 必须单调递增，以确保任务的事件时间时钟在向前推进，而不是在后退。
watermark 与数据的时间戳相关。
在 Flink 的窗口处理过程中，如果数据没有全部到达，则继续等待该窗口中的数据全部到达才开始处理。
这种情况下就需要用到水位线（WaterMarks）机制，它能够衡量数据处理进度（表达数据到达的完整性），保证事件数据（全部）到达 Flink 系统，或者在乱序及延迟到达时，也能够像预期一样计算出正确并且连续的结果。
当任何 Event 进入到 Flink系统时，会根据当前最大事件时间产生 Watermarks 时间戳。
如果有 窗口的结束时间 <= WaterMark（maxEventTime – t（设置的延迟时间）），那么这个窗口被触发执行。

7.2.3. Watermark三种使用情况

Flink内部传播水位线的策略可以归纳为3点：

首先，水位线是以广播的形式在算子之间进行传播
Long.MAX_VALUE表示事件时间的结束，即未来不会有数据到来了

/**
* 当一个source关闭时，会输出一个Long.MAX_VALUE的水位线，当一个算子接收到该水
位线时，
* 相当于接收到一个信号：未来不会再有数据输入了
*/
@PublicEvolving
public final class Watermark extends StreamElement {
	//表示事件时间的结束
	public static final Watermark MAX_WATERMARK = new  Watermark(9223372036854775807L);
}

单个分区的输入取最大值，多个分区的输入取最小值

本来有序的Stream中的Watermark
乱序事件中的Watermark
- 频繁出现乱序或迟到的情况，这种情况就需要使用Watermarks来应对。
并行数据流中的Watermark
- 在多并行度的情况下，Watermark会有一个对齐机制，这个对齐机制会取所有Channel中最小的Watermark。

7.2.4. Watermark的产生方式

一种方式为在数据源完成的，即利用SourceFunction在应用读入数据流的时候分配时间戳与水位线。

通过实现接口的自定义函数，该方式又包括两种实现方式：

//给源数据添加水位线
andWatermarks = dataStream.assignTimestampsAndWatermarks(new PunctuatedWaterMark()).setParallelism(1);

周期性生成水位线，即实现AssignerWithPeriodicWatermarks接口，
1. 周期性的生成 watermark：每隔2秒产生一个watermark。
2. 默认周期是200毫秒，可以使用 ExecutionConfig.setAutoWatermarkInterval() 方法进行设置
3. 升序和前面乱序的处理 BoundedOutOfOrderness ，都是基于周期性 watermark 的。

val env = StreamExecutionEnvironment.getExecutionEnvironment env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime) 
// 每隔 5 秒产生一个 
env.getConfig.setAutoWatermarkInterval(5000)

//给源数据添加水位线
    SingleOutputStreamOperator<String> andWatermarks = dataStream.assignTimestampsAndWatermarks(new PeriodicWaterMark()).setParallelism(1);

class PeriodicWaterMark implements AssignerWithPeriodicWatermarks<String> {

    //数据允许的延迟情况
    long maxLateTime = 5000;
    //当前系统最大的时间
    long currentMaxTimestamp = Long.MIN_VALUE;


    //水印产生，周期性产生，默认200ms，基于自己业务的时间容忍度去产生水印，因为要通过水印来解决数据的延迟/乱序问题
    @Override
    public Watermark getCurrentWatermark() {
        long watermarkTimeStamp = System.currentTimeMillis() - maxLateTime;
        System.out.println("PeriodicWaterMark.getCurrentWatermark[" + long2date(watermarkTimeStamp) + "]");
        //本次水位线的位置
        Watermark waterMark = new Watermark(watermarkTimeStamp);
        return waterMark;
    }

    /**
     * 从事件中抽取时间，假设数据格式为 hello,1630034287000
     *
     * @param element
     * @param previousElementTimestamp
     * @return
     */
    @Override
    public long extractTimestamp(String element, long previousElementTimestamp) {
        long eventTimestamp = Long.valueOf(element.split(",")[1]);
        System.out.println("PeriodicWaterMark.extractTimestamp事件时间[" + long2date(eventTimestamp) + "]");
        return eventTimestamp;
    }

    private String long2date(long time) {
        return new SimpleDateFormat("yyyy-MM-dd HH:mm:ss - SSS").format(new Date(time));
    }

}

定点生成水位线，即实AssignerWithPunctuatedWatermarks接口。
1. 没有时间周期规律，间断式地生成 watermark。
2. 基于某些事件(指示系统进度的特殊元祖或标记)触发水位线的生成与发送，

//给源数据添加水位线
        SingleOutputStreamOperator<String> andWatermarks = dataStream.assignTimestampsAndWatermarks(new PunctuatedWaterMark()).setParallelism(1);

class PunctuatedWaterMark implements AssignerWithPunctuatedWatermarks<String> {
	@Override
	public Watermark checkAndGetNextWatermark(String line, long l) {
		if (line != null && "hello".equals(line)) {
			return new Watermark(System.currentTimeMillis());
		} else {
			return null;
		}
	}
	@Override
	public long extractTimestamp(String line, long previousElementTimestamp) {
		long timestamp = System.currentTimeMillis();
		System.out.println("[" + line + "][" + timestamp + "]");
		return timestamp;
	}
}

7.2.5. watermark 迟到数据

水位线可能会大于后来数据的时间戳，这就意味着数据有延迟，关于延迟数据的处理，Flink提供了一些机制，具体如下：

直接将迟到的数据丢弃
根据迟到的事件更新并发出结果
- allowedLateness( Time.seconds(1)) 迟到的数据依然可以计算进行计算

//给源数据添加水位线
    SingleOutputStreamOperator<String> andWatermarks = dataStream.assignTimestampsAndWatermarks(new HelloPeriodicWaterMark()).setParallelism(1);

    //开始处理数据
    andWatermarks.map(word -> Tuple2.of(word.split(",")[0], (int) (Long.parseLong(word.split(",")[1]) % 1000)))
            .returns(Types.TUPLE(Types.STRING, Types.INT))
            .keyBy(0)
            .timeWindow(Time.seconds(3))
        //设置allowedLateness（）方法 迟到的数据也可以计算
            .allowedLateness(Time.seconds(1))
            .sum(1)
            .print();

将迟到的数据输出到单独的数据流中(侧输出)，即使用sideOutputLateData(new OutputTag<>()）方法实现侧输出

//需要提前声明侧输出的容器
	OutputTag<Tuple2<String, Integer>> lateOutputTag = new OutputTag<Tuple2<String, Integer>>("late") {};

//给源数据添加水位线
	SingleOutputStreamOperator<String> andWatermarks = dataStream.assignTimestampsAndWatermarks(new HelloPeriodicWaterMark()).setParallelism(1);

//开始处理数据
	SingleOutputStreamOperator<Tuple2<String, Integer>> sum = andWatermarks.map(word -> Tuple2.of(word.split(",")[0], (int) (Long.parseLong(word.split(",")[1]) % 1000)))
         .returns(Types.TUPLE(Types.STRING, Types.INT))
         .keyBy(0)
         .timeWindow(Time.seconds(3))
         .allowedLateness(Time.seconds(1))
         //使用sideOutputLateData()方法
        .sideOutputLateData(lateOutputTag)
        .sum(1);
	sum.print("sum:");
	sum.getSideOutput(lateOutputTag).print("side:");

8、状态管理State

9、ProcessFunction API(底层API)

Flink state状态与 ProcessFunction API 详解
https://blog.csdn.net/weixin_43660536/article/details/120142911.

10、容错机制CheckPoint

13、Flink 反压机制

Flink 容错机制与反压机制详解
https://blog.csdn.net/weixin_43660536/article/details/120143143.

ResNet改进(11)：添加 Squeeze-and-Excitation模块和替换Mish激活函数点我头像干啥 ResNet 改进【有效涨点！】深度学习 pytorch python
本专栏代码均经过测试，可以直接替换项目中的模型，一键运行！采用最新的即插即用模块，有效涨点！！1.SE模块和Mish激活函数SE模块是一种通道注意力机制，旨在增强网络对重要特征通道的关注，从而提升模型的表达能力。它通过显式地建模通道之间的依赖关系，动态调整每个通道的特征响应。SE模块的核心思想：Squeeze：通过全局平均池化（GlobalAveragePooling,GAP）将每个通道的空间维度
Java面试黄金宝典12 ylfhpy Java面试黄金宝典 java 面试开发语言
1.什么是Java类加载机制定义Java类加载机制是Java程序运行时的关键环节，其作用是把类的字节码文件（.class文件）加载到Java虚拟机（JVM）中，并且将字节码文件转化为JVM能够识别的类对象。整个类加载过程主要包含加载、连接（验证、准备、解析）和初始化三个阶段。原理加载阶段：此阶段会通过类的全限定名来获取定义该类的二进制字节流。获取途径较为多样，既可以从本地文件系统读取，也能从网络下
数据权限访问控制（Apache Sentry） deepdata_cn 权限管理 apache sentry
ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。2013年Sentry成为Apache的孵化项目，为Hadoop集群元数据和数据存储提供集中、细粒度的访问控制。其架构包括DataEngine、Plugin、Policymetadata等部分，Plugin负
英伟达开源超强模型Nemotron-70B；OpenAI推出Windows版ChatGPT桌面客户端 go2coding AI日报 chatgpt
AI新闻英伟达开源超强模型Nemotron-70B摘要：英伟达近日开源了新型AI模型Nemotron-70B，迅速超越GPT-4o和Claude3.5Sonnet，成为AI社区的新宠。该模型在多项基准测试中表现优异，采用混合训练方法和人类反馈强化学习，模型权重已在HuggingFace发布。Niemotron-70B的开发基于Llama-3.1，且开源数据集加强其训练效果。分析指出，英伟达的策略是
C++开发内存监控工具推荐点云SLAM 开发工具开发环境 c++开发语言 AddProperty gperftools Address 内存监控访问越界
在C++开发中，内存管理是至关重要的，尤其是当程序处理大数据或长时间运行时，内存泄漏或不当使用可能导致性能下降或崩溃。以下是几种常见且有效的内存监控工具，它们可以帮助开发者实时分析、诊断和优化程序的内存使用。1.ValgrindValgrind是一个广泛使用的内存调试和性能分析工具，它的Memcheck工具可以帮助你检查程序中的内存泄漏、内存越界、未初始化内存使用等问题。特点：检测内存泄漏。检查内
JVM 类加载器之间的层次关系，以及类加载的委托机制冰糖心书房 JVM 2025 Java面试系列 java jvm
JVM类加载器之间存在一种层次关系，通常被称为双亲委派模型(ParentDelegationModel)。这种层次关系和委托机制是Java类加载机制的核心，对于保证Java程序的安全性和避免类冲突至关重要。1.类加载器的层次关系:JVM中的类加载器（ClassLoader）主要分为以下几种，它们之间存在自顶向下的层次关系（父子关系，但不是继承关系，而是组合关系）：启动类加载器(BootstrapC
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
Windows 使用管理命令动态的修改保留端口范围 hamish-wu windows
window会占用一些常用端口问题背景这个问题的背景分为两部分：Windows中有一个「TCP动态端口范围」，处在这个范围内的端口，有时候会被一些服务占用。在WindowsVista（或WindowsServer2008）之前，动态端口范围是1025到5000；在WindowsVista（或WindowsServer2008）之后，新的默认起始端口为49152，新的默认结束端口为65535。如果安
Mongodb配置分片服务器 czw0723 mongodb 数据库服务器
mongodb的sharding集群由以下3个服务组成：ShardsServer:每个shard由一个或多个mongod进程组成，用于存储数据ConfigServer:用于存储集群的Metadata信息，包括每个Shard的信息和chunks信息RouteServer:用于提供路由服务，由Client连接，使整个Cluster看起来像单个DB服务器另外，Chunks是指MongoDB中一段连续的数
Java 大视界 -- Java 大数据在智慧农业精准灌溉与施肥决策中的应用（144）青云交大数据新视界 Java 大视界 java 大数据智慧农业精准灌溉施肥决策数据分析机器学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
01.什么是MQTT？墨先森 NodeMCU与MQTT 物联网
目录00_前言01_简述02_特性03_MQTT运行机制00_前言本系列博客是基于NodeMCU平台来完成的一个物联网小项目，目的在于了解并学习MQTT协议，掌握MQTT协议的作用机制。以上。01_简述以下摘自百度百科MQTT(消息队列遥测传输)是ISO标准(ISO/IECPRF20922)下基于发布/订阅范式的消息协议。它工作在TCP/IP协议族上，是为硬件性能低下的远程设备以及网络状况糟糕的情
Centos Redis安装与配置指南程序~阿呆 linux 开发工具 redis 中间件
1.环境说明centos7.9redis6.2.6安装方式：外网服务器可以使用wget来下载安装，内网服务器只能windows下载后上传到linux服务器上2.新建下载目录将下载的Redis放在本文件夹中mkdir/tools3.Redis下载服务器执行wget命令：wgethttp://download.redis.io/releases/redis-6.2.6.tar.gz4.解压和编译依次执
python 利用pandas实现从CSV导出并格式化后写入.jsonl文件风_流沙 python工具备忘录 python pandas 开发语言
你可以使用pandas库来读取CSV文件，然后通过一些格式化操作将数据转换为JSONL格式并写入文件。JSONL（JSONLines）格式是一种每行一个JSON对象的文件格式。下面是一个示例，演示了如何使用pandas读取CSV文件，处理数据并将其导出到JSONL文件中：示例代码：importpandasaspdimportjson#读取CSV文件df=pd.read_csv('data.csv'
spring +kotlin 配置redis 和redis的常用方法 LCY133 spring后端 spring java 后端
在SpringBoot+Kotlin项目中，可以同时使用RedissonClient（提供分布式对象和高级功能）和RedisTemplate（SpringDataRedis的标准操作）。以下是完整配置和用法示例：1.添加依赖在build.gradle.kts中引入依赖：dependencies{//SpringDataRedisimplementation("org.springframework
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
FreeRTOS进阶使用之流缓冲区：高效处理字节流的秘密武器逸云客嵌入式 FreeRTOS操作系统单片机 stm32 mcu
在嵌入式开发中，流缓冲区（StreamBuffer）是FreeRTOS中用于高效处理字节流数据传输的核心机制，尤其适合任务间或中断与任务间的连续数据传输场景（如串口通信、网络数据流等）。本文将深入解析其原理、特点、使用方法及注意事项，助你进阶掌握这一关键技术。一、流缓冲区是什么？为什么需要它？流缓冲区是FreeRTOS中基于环形缓冲区实现的字节流传输机制，其核心作用是动态管理数据的读写，支持任意长
《Java开发者必备：jstat、jmap、jstack实战指南》 ——从零掌握JVM监控三剑客 admin_Single java jvm 开发语言
《Java开发者必备：jstat、jmap、jstack实战指南》——从零掌握JVM监控三剑客文章目录**《Java开发者必备：jstat、jmap、jstack实战指南》**@[toc]**摘要****核心工具与场景****关键实践****诊断流程****工具选型决策表****调优原则****未来趋势****第一章：GC基础：垃圾回收机制与监控的关系****1.1内存世界的"垃圾分类"——GC分
【BUAA S4 OS】Lab2 内存管理 Roisy++ OS BUAA 笔记 linux
文章目录指导书梳理内核程序启动物理内存管理链表宏虚拟内存管理两级页表结构访问内存与TLB重填EntryHi、EntryLo0、EntryLo1TLB相关指令TLB的维护时纪exam前准备提醒参数、宏、函数缩写对照地址相互转换相关从地址中获取信息函数作用Exam翻车分析题目理解出现偏差——理解错题意&以为实现了自映射机制【疑问】页表在虚拟内存中不应该是连续的吗，这样怎么保证其连续性？【延伸】页表到底
【操作系统】Operating System Conceptions第二章知识整理总结 guozhirourou Operating System Conceptions阅读 Operating System Conceptions
小结：这几天我看了《OperatingSystemConceptions》的第二章。第二章先从用户、开发者以及计算机系统的角度开始，展示操作系统所提供的服务，继而讲解了操作系统是如何通过系统调用来为系统提供服务的，阐述一段程序是如何在系统中装入链接以及执行的。同时通过比较和对比整体、分层、微核、模块化和混合策略操作系统的不同设计，向我们展示了macOS、Android、Windows三种不同的操作
《Operating System Concepts》阅读笔记：p408-p448 codists 读书笔记操作系统
《OperatingSystemConcepts》学习第34天，p408-p448总结，总计41页。一、技术总结2.page-replacementalgorithmInmemorymanagement,thealgorithmthatchooseswhichvictimframeofphysicalmemorywillbereplacedbyaneedednewframeofdata.(1)FI
【操作系统概念】【恐龙书】笔记六——第六章进程同步我岂是非人哉计算机操作系统
Chapter6:ProcessSynchronization问题的提出：彼此合作的进程之间可以用共享逻辑地址空间的方式来实现，共享逻辑地址空间，也就是共享代码区和数据区，会导致数据不一致，所以介绍一些避免数据不一致的机制。6.1BackgroundConcurrentaccesstoshareddatamayresultindatainconsistencyMaintainingdatacons
cifs挂载 mount ubuntu_在Linux上使用CIFS，如何挂载Windows共享王小约 cifs挂载 mount ubuntu
在Linux和UNIX操作系统上，可以使用mount命令的cifs选项将Windows共享安装在本地目录。常见的Internet文件系统(CIFS)是网络文件共享协议，CIFS是SMB的一种形式。在本教程中，解释如何在Windows共享上手动和自动挂载Linux系统。安装CIFS程序包要在Windows系统上挂载Linux共享，首先需要安装CIFS程序包。在Ubuntu和Debian上安装CIFS
Linux中挂载Windows Samba共享的指南执剑走天涯xp linux windows 运维
主要步骤：安装cifs-utils确保你的Linux系统已安装cifs-utils包。如果未安装，使用以下命令：sudoapt-getinstallcifs-utils#Debian/Ubuntu系统sudoyuminstallcifs-utils#CentOS/RHEL系统创建挂载点创建一个本地目录来挂载Windows共享：sudomkdir/mnt/share编辑/etc/fstab文件使用文
MySQL 中，分库分表机制和分表分库策略小赖同学啊 java mysql oracle 数据库
在MySQL中，分库分表是一种常见的数据库水平扩展方案，用于解决单库单表数据量过大导致的性能瓶颈问题。通过将数据分散到多个数据库或表中，可以提高系统的并发处理能力、降低单点故障风险，并提升查询性能。一、分库分表的作用提升性能：分散数据存储和查询压力，避免单库单表的性能瓶颈。提高并发能力：多个数据库或表可以并行处理请求，提高系统吞吐量。降低单点故障风险：数据分散存储，单个数据库或表故障不会影响整个系
springCloud集成tdengine(原生和mapper方式) 其一张小娟 spring cloud tdengine mybatis
第一种mapper方式，原生方式在主页看第二章一、添加pom文件com.zaxxerHikariCPcom.taosdata.jdbctaos-jdbcdriver3.5.3二、在nacos中配置好数据库连接spring:datasource:url:jdbc:TAOS://localhost:6030/testusername:rootpassword:yourPassWorddriver-cl
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
springCloud集成tdengine(原生和mapper方式) 其二原生篇张小娟 spring cloud tdengine spring
mapper篇请看另一篇文章一、引入pom文件com.taosdata.jdbctaos-jdbcdriver3.5.3二、在nacos中填写数据库各种value值tdengine:datasource:location:yourLocationusername:rootpassword:yourPassword三、编写TDengineUtil文件下方util文件里面，包含创建database的方
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo