数据文

处理函数

文章目录

处理函数
- 一、基本处理函数（ProcessFunction）
- - 1.RichFunction的功能与作用
  - 2. ProcessFunction的功能与作用
  - 3. 处理函数的分类
- 二、按键分区处理函数（KeyedProcessFunction）
- - 1. 定时器（TimerService）
  - 2. KeyedProcessFunction的功能与示例
- 三、窗口处理函数（ProcessWindowFunction、ProcessAllWindowFunction）
- - 1. ProcessWindowFunction的功能
  - 2. ProcessAllWindowFunction的功能
- 四、其他处理函数
- - 1. CoProcessFunction：
  - 2. KeyedCoProcessFunction：
  - 3. ProcessJoinFunction：
  - 4. BroadcastProcessFunction：
  - 5. KeyedBroadcastProcessFunction:
- 五、侧输出流（Side Output）
- 六、Top N
- - 1. 使用 ProcessAllWindowFunction 实现 Top N
  - 2. 使用 KeyedProcessFunction 实现 Top N

下一章： Flink 1.13 多流转换

一、基本处理函数（ProcessFunction）

DataStream API 是 Flink 编程的核心。为了让代码有更强大的表现力和易用性，Flink 本身提供了多层 API，DataStream API 只是中间的一环。

最新 Flink 1.13 处理函数（ProcessFunction、TimerService、侧输出流、Top N）快速入门、详细教程_第1张图片

在更底层，我们可以不定义任何具体的算子（比如 map，filter，或者 window），而只是提炼出一个统一的“处理”（process）操作，它是所有转换算子的一个概括性的表达，可以自定义处理逻辑，叫作“处理函数”（process function）。

在处理函数中，我们直面的就是数据流中最基本的元素：数据事件（event）、状态（state）以及时间（time）。这就相当于对流有了完全的控制权。

我们通常把处理函数和富函数RichFunction做对比，常见的转换算子，如MapFunction、FlatMapFunction都有对应的富函数。

1.RichFunction的功能与作用

AbstractRichFunction，提供了获取运行时上下文的方法getRuntimeContext()和生命周期方法，可以拿到状态，还有并行度、任务名称之类的运行时信息。

public abstract class AbstractRichFunction implements RichFunction, Serializable {
    // 运行时上下文
    private transient RuntimeContext runtimeContext;
    public void setRuntimeContext(RuntimeContext t) { this.runtimeContext = t;}
    public RuntimeContext getRuntimeContext() {}
    public IterationRuntimeContext getIterationRuntimeContext() {}
    
    // 生命周期方法
    public void open(Configuration parameters) throws Exception {}
    public void close() throws Exception {}
}

//运行时上下文
public interface RuntimeContext {

    //并行度、任务名称等基本的运行时信息
    
    /** returned ID should NOT be used for any job management tasks. */
    JobID getJobId();
    
    /** The name of the task in which the UDF runs. */
    String getTaskName();
    
    /** The metric group for this parallel subtask. */
    MetricGroup getMetricGroup();

    /** The parallelism with which the parallel task runs. */
    int getNumberOfParallelSubtasks();

    /** The max-parallelism with which the parallel task runs. */
    int getMaxNumberOfParallelSubtasks();

    /** The index of the parallel subtask. */
    int getIndexOfThisSubtask();

    /** Attempt number of the subtask.尝试次数 */
    int getAttemptNumber();

    /** The name of the task, with subtask indicator. */
    String getTaskNameWithSubtasks();

    ExecutionConfig getExecutionConfig();

    /** The ClassLoader for user code classes. */
    ClassLoader getUserCodeClassLoader();

    /** Registers a custom hook for the user code class loader release. */
    void registerUserCodeClassLoaderReleaseHookIfAbsent( String releaseHookName, Runnable releaseHook);

    
    ...

        
    // 状态
        
    <T> ValueState<T> getState(ValueStateDescriptor<T> stateProperties);

    <T> ListState<T> getListState(ListStateDescriptor<T> stateProperties);

    <T> ReducingState<T> getReducingState(ReducingStateDescriptor<T> stateProperties);

    <IN, ACC, OUT> AggregatingState<IN, OUT> getAggregatingState(
            AggregatingStateDescriptor<IN, ACC, OUT> stateProperties);

    <UK, UV> MapState<UK, UV> getMapState(MapStateDescriptor<UK, UV> stateProperties);
}

2. ProcessFunction的功能与作用

处理函数（ProcessFunction）继承了AbstractRichFunction抽象类，拥有富函数类的所有特性。

除此之外，其当前运行的上下文可以直接将数据输出到侧输出流（side output）中；另外提供了一个“定时服务”，访问流中的时间戳、水位线，甚至可以注册“定时事件”。

public abstract class ProcessFunction<I, O> extends AbstractRichFunction {

		public abstract void processElement(I value, Context ctx, Collector<O> out) throws Exception;

		//只有KeyedStream才支持设置定时器的操作
		public void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out) throws Exception {}

    	//上下文可以直接将数据输出到侧输出流（side output）中；提供了一个“定时服务”
		public abstract class Context {
			/** TimeCharacteristic#ProcessingTime 是个null */
			public abstract Long timestamp();
			public abstract TimerService timerService();
			public abstract <X> void output(OutputTag<X> outputTag, X value);
		}

		public abstract class OnTimerContext extends Context {
			/** The {@link TimeDomain} of the firing timer. */
			public abstract TimeDomain timeDomain();
		}
}


//定时服务中可以时间戳、水位线，注册和删除“闹钟”
public interface TimerService {

		long currentProcessingTime(); //processing time

		long currentWatermark(); //event-time watermark

		void registerProcessingTimeTimer(long time);

		void registerEventTimeTimer(long time);

		void deleteProcessingTimeTimer(long time);

		void deleteEventTimeTimer(long time);
}

3. 处理函数的分类

ProcessFunction
最基本的处理函数，基于 DataStream 直接调用.process()时作为参数传入。
KeyedProcessFunction
对流按键分区后的处理函数，基于 KeyedStream 调用.process()时作为参数传入。要想使用定时器，比如基于 KeyedStream。
ProcessWindowFunction
开窗之后的处理函数，也是全窗口函数的代表。基于 WindowedStream 调用.process()时作为参数传入。
ProcessAllWindowFunction
同样是开窗之后的处理函数，基于 AllWindowedStream 调用.process()时作为参数传入。
CoProcessFunction
合并（connect）两条流之后的处理函数，基于 ConnectedStreams 调用.process()时作为参数传入。关于流的连接合并操作，在多流转换里面介绍。
ProcessJoinFunction
间隔连接（interval join）两条流之后的处理函数，基于 IntervalJoined 调用.process()时作为参数传入。
BroadcastProcessFunction
广播连接流处理函数，基于 BroadcastConnectedStream 调用.process()时作为参数传入。这里的“广播连接流”BroadcastConnectedStream，是一个未 keyBy 的普通 DataStream 与一个广播流（BroadcastStream）做连接（conncet）之后的产物。关于广播流的相关操作，也在多流转换里面详细介绍。
KeyedBroadcastProcessFunction
按键分区的广播连接流处理函数，同样是基于 BroadcastConnectedStream 调用.process()时作为参数传入。与 BroadcastProcessFunction 不同的是，这时的广播连接流，是一个 KeyedStream 与广播流（BroadcastStream）做连接之后的产物。

二、按键分区处理函数（KeyedProcessFunction）

1. 定时器（TimerService）

只有在 KeyedStream 中才支持使用 TimerService 设置定时器的操作。

定时器（timers）是处理函数中进行时间相关操作的主要机制。在.onTimer()方法中可以实现定时处理的逻辑，而它能触发的前提，就是之前曾经注册过定时器、并且现在已经到了触发时间。注册定时器的功能，是通过上下文中提供的“定时服务”（TimerService）来实现的。

对于处理时间和事件时间这两种类型的定时器，TimerService 内部会用一个优先队列将它们的时间戳保存起来，排队等待执行。可以认为，定时器其实是 KeyedStream 上处理算子的一个状态，它以时间戳作为区分。所以 TimerService 会以键（key）和时间戳为标准，对定时器进行去重；也就是说对于每个 key 和时间戳，最多只有一个定时器，如果注册了多次，onTimer()方法也将只被调用一次。

Flink 对.onTimer()和.processElement()方法是同步调用的（synchronous），所以也不会出现状态的并发修改。
Flink 的定时器同样具有容错性，它和状态一起都会被保存到一致性检查点中。当发生故障时，Flink 会重启并读取检查点中的状态，恢复定时器。如果是处理时间的定时器，有可能会出现已经“过期”的情况，这时它们会在重启时被立刻触发。

2. KeyedProcessFunction的功能与示例

KeyedProcessFunction用于KeyedStream中，功能和基本处理函数ProcessFunction类似，但相比于ProcessFunction，它可以设置定时器的操作。

stream.keyBy(data -> true) // 基于KeyedStream定义事件时间定时器 
   .process(new KeyedProcessFunction<Boolean, Event, String>() { 
      @Override 
      public void processElement(Event value, Context ctx, 
								Collector<String> out) throws Exception {
         out.collect("数据到达，时间戳为：" + ctx.timestamp()); 
         out.collect("数据到达，水位线为:" + ctx.timerService().currentWatermark()); 
         // 注册一个10秒后的定时器 
         ctx.timerService().registerEventTimeTimer(ctx.timestamp()+10*1000L); 
      } 
 
      @Override 
      public void onTimer(long timestamp, OnTimerContext ctx, 
								Collector<String> out) throws Exception {
        out.collect("定时器触发，触发时间：" + timestamp);
	  } 
   })

三、窗口处理函数（ProcessWindowFunction、ProcessAllWindowFunction）

1. ProcessWindowFunction的功能

与基本处理函数ProcessFunction相比，ProcessWindowFunction在功能和使用上有以下变化：

因为全窗口函数不是逐个处理元素的，所以处理数据的方法在这里并不是.processElement()，而是改成了.process()。不再是一个输入数据，而是窗口中所有数据的集合。
除了.process()方法外，没有了.onTimer()方法，而是多出了一个.clear()方法。如果我们自定义了窗口状态，那么必须在.clear()方法中进行显式地清除，避免内存溢出。
Context变化：
- 由于当前不是只处理一个数据，所以Context也不再提供.timestamp()方法。
- Context也不再持有TimerService对象，失去了设置定时器的功能，只能通过currentProcessingTime和currentWatermark来获取当前时间；没有了定时器，可以使用窗口触发器（Trigger）获取当前时间、注册和删除定时器，还可以获取当前的状态。具体操作见时间和窗口章节中。
- Context增加了一些获取其他信息的方法：
  - 可以通过.window()直接获取当前的窗口对象，有getStart()，getEnd()，maxTimestamp()；
  - 可以通过.windowState()和.globalState()获取到当前自定义的窗口状态和全局状态。

这样设计无疑会让处理流程更加清晰——定时操作也是一种“触发”，所以我们就让所有的触发操作归触发器管，而所有处理数据的操作则归窗口函数管。

stream.keyBy( t -> t.f0 ) 
      .window( TumblingEventTimeWindows.of(Time.seconds(10)) ) 
      .process(new ProcessWindowFunction(){...}) 
 
public abstract class ProcessWindowFunction<IN, OUT, KEY, W extends Window>
        extends AbstractRichFunction {
    
    public abstract void process(KEY key, Context context, Iterable<IN> elements,
                                 Collector<OUT> out) throws Exception;
    
    public void clear(Context context) throws Exception {}

    /** The context holding window metadata. */
    public abstract class Context implements java.io.Serializable {

        public abstract W window();
        
        public abstract long currentProcessingTime();
        
        public abstract long currentWatermark();
        
        public abstract KeyedStateStore windowState();
        
        public abstract KeyedStateStore globalState();
        
        public abstract <X> void output(OutputTag<X> outputTag, X value);
    }
}

2. ProcessAllWindowFunction的功能

相比于ProcessWindowFunction,它的Context没有了currentProcessingTime()和currentWatermark()。

sounce.windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))
      .process(new ProcessAllWindowFunction(){...})

public abstract class ProcessAllWindowFunction<IN, OUT, W extends Window>
        extends AbstractRichFunction {

    public abstract void process(Context context, Iterable<IN> elements,
								 Collector<OUT> out) throws Exception;

    public void clear(Context context) throws Exception {}

    public abstract class Context {

        public abstract W window();

        public abstract KeyedStateStore windowState();

        public abstract KeyedStateStore globalState();

        public abstract <X> void output(OutputTag<X> outputTag, X value);
    }
}

四、其他处理函数

1. CoProcessFunction：

相比于基本处理函数ProcessFunction,processElement有变化，变为了两个方法，processElement1和processElement2。

2. KeyedCoProcessFunction：

相比于基础CoProcessFunction,Context和OnTimerContext有变化，都增加了getCurrentKey()方法。

3. ProcessJoinFunction：

其更像RichJoinFunction，多了侧输出流和当前时间戳。

public abstract class ProcessJoinFunction<IN1, IN2, OUT> extends AbstractRichFunction {
    
    public abstract void processElement(IN1 left, IN2 right, Context ctx, Collector<OUT> out) throws Exception;
    
    public abstract class Context {

        public abstract long getLeftTimestamp();

        public abstract long getRightTimestamp();

        /** @return The timestamp of the joined pair. */
        public abstract long getTimestamp();

        public abstract <X> void output(OutputTag<X> outputTag, X value);
    }
}

4. BroadcastProcessFunction：

相比于处理函数ProcessFunction，不同如下：

多了processBroadcastElement方法，没有.onTimer()方法，
context里面多了 getBroadcastState() 方法。不再持有TimerService对象, 只能通过currentProcessingTime和currentWatermark来获取当前时间

ReadOnlyContext与context方法一样，但其调用时不能改。

public abstract class BroadcastProcessFunction<IN1, IN2, OUT> extends 
BaseBroadcastProcessFunction { 
	... 
	public abstract void processElement(IN1 value, ReadOnlyContext ctx,
							Collector<OUT> out) throws Exception; 
 	public abstract void processBroadcastElement(IN2 value, Context ctx, 
							Collector<OUT> out) throws Exception; 
	... 
}

5. KeyedBroadcastProcessFunction:

相比于函数BroadcastProcessFunction，不同如下：

多了onTimer方法
context里面多了applyToKeyedState()
ReadOnlyContext持有timerService()对象，多了getCurrentKey()
OnTimerContext继承于ReadOnlyContext，拥有timeDomain()方法。

五、侧输出流（Side Output）

其功能时分流，从主流里面分出来测流，可以与主流的数据类型不同。

OutputTag<String> outputTag = new OutputTag<String>("side-output") {};

SingleOutputStreamOperator<Long> longStream =	stream.process(
		new ProcessFunction<Integer, Long>() { 
      @Override 
      public void processElement(Integer value, Context ctx, 
									Collector<Integer> out) throws Exception { 
        	out.collect(Long.valueOf(value)); // 转换成Long，输出到主流中
        	// 转换成String，输出到侧输出流中 
        	ctx.output(outputTag, "side-output: " + String.valueOf(value));   
			} 
		}); 

DataStream<String> stringStream = longStream.getSideOutput(outputTag);

六、Top N

1. 使用 ProcessAllWindowFunction 实现 Top N

不推荐，一方面会将并行度强制改为1，另一方面没有了预聚合，攒一个窗口的数据处理一次，类似批处理。具体示例如下：

stream.windowAll(SlidingEventTimeWindows.of(Time.seconds(10), Time.seconds(5)))
  .process(new ProcessAllWindowFunction<String, String, TimeWindow>(){ 
     @Override 
     public void process(Context context, Iterable<String> elements, 
									Collector<String> out) throws Exception { 
       HashMap<String, Long> urlCountMap = new HashMap<>(); 
       // 遍历窗口中数据，将浏览量保存到一个 HashMap 中 
       for (String url : elements){
         if(urlCountMap.containsKey(url)) {
            urlCountMap.put(url, urlCountMap.get(url) + 1L); 
         } else { 
            urlCountMap.put(url, 1L); 
         } 
       } 
	   ArrayList<Tuple2<String,Long>> mapList=new ArrayList<>();
       // 将浏览量数据放入ArrayList，进行排序                         
	   for (String key : urlCountMap.keySet()) { 
          mapList.add(Tuple2.of(key, urlCountMap.get(key))); 
       } 
       mapList.sort(new Comparator<Tuple2<String, Long>>() { 
           @Override 
           public int compare(Tuple2<String,Long> o1,Tuple2<String,Long> o2) { 
                return o2.f1.intValue() - o1.f1.intValue();
           } 
       	}); 
       // 取排序后的前两名，构建输出结果 
       StringBuilder result = new StringBuilder(); 
       result.append("========================================\n");
       for (int i = 0; i < 2; i++) { 
           Tuple2<String, Long> temp = mapList.get(i); 
           String info = "浏览量No." + (i + 1) + "url：" + temp.f0 + "浏览量：" + temp.f1 + "窗口结束时间：" + new Timestamp(context.window().getEnd())+"\n"; 
		   result.append(info);
	   }
	   result.append("========================================\n"); 
	   out.collect(result.toString()); 
     } 
  });

2. 使用 KeyedProcessFunction 实现 Top N

// 第一步：按key分组，在给定时间窗口内求每个key的个数
SingleOutputStreamOperator<Tuple3<String, Long, Long>> aggregate = sounce.keyBy(data -> data.f0)
      .window(TumblingEventTimeWindows.of(Time.seconds(10)))
      .aggregate(new AggregateFunction<Tuple2<String, Long>, Long, Long>() {
          @Override
          public Long createAccumulator() { return 0L; }
          @Override
          public Long add(Tuple2<String, Long> value, Long accumulator) {
              return accumulator + 1;
          }
				@Override
          public Long getResult(Long accumulator) { return accumulator; }
				@Override
          public Long merge(Long a, Long b) { return a + b;}
        }, 
			 new ProcessWindowFunction<Long, Tuple3<String, Long, Long>, 
											String, TimeWindow>() {
          @Override
          public void process(String s, Context context, Iterable<Long> elements,
						   Collector<Tuple3<String, Long, Long>> out) throws Exception {
               Long num = elements.iterator().next();
               long end = context.window().getEnd();
               out.collect(Tuple3.of(s, end, num));
          }
    });

// 第一步：按窗口结束时间分组，在给定时间窗口内求 Top N
aggregate.keyBy(data -> data.f1)
  .process(new KeyedProcessFunction<Long, Tuple3<String, Long, Long>, String>{
		 private final int value = 2;
		 private ListState<Tuple3<String,Long,Long>> listState;
		 @Override
		 public void open(Configuration parameters) throws Exception {
      		listState = getRuntimeContext().getListState(new ListStateDescriptor<>
					("count", Types.TUPLE(Types.STRING, Types.LONG, Types.LONG)));
		 }
		 @Override
    	 public void processElement(Tuple3<String, Long,Long> value, Context ctx,
									Collector<String> out) throws Exception {
      		listState.add(value);
      		ctx.timerService().registerEventTimeTimer(ctx.getCurrentKey() + 1);
    	}
    	@Override
    	public void onTimer(long timestamp, OnTimerContext ctx, 
								Collector<String> out) throws Exception {
       		ArrayList<Tuple3<String, Long, Long>> tuple3s = new ArrayList<>();
       		for (Tuple3<String, Long, Long> element : listState.get()) {
           		tuple3s.add(element);
       		}
       		tuple3s.sort(new Comparator<Tuple3<String, Long, Long>>() {
          		@Override
          		public int compare(Tuple3<String, Long, Long> o1, 
									  Tuple3<String, Long, Long> o2) {
              		return (int)(o2.f2 - o1.f2);
          		}
        	});
        	StringBuilder stringBuilder = new StringBuilder();
        	stringBuilder.append("----------------------------\n窗口结束时间：");
        	stringBuilder.append(new TimeStamp(ctx.getCurrentKey()) + "\n");
        	for(int i = 0; i < value; i++) {
           	Tuple3<String, Long, Long> stringLongLongTuple3 = tuple3s.get(i);
           	String info = "No."+(i+1)+"FirstName:"+stringLongLongTuple3.f0 + 
							"访问量：" + stringLongLongTuple3.f2 + "\n";
           	stringBuilder.append(info);
        }
        stringBuilder.append("----------------------------\n");
        out.collect(stringBuilder.toString());
      }
	});

下一章：Flink 1.13 多流转换

兼职群聊怎么加入？(加入兼职群聊后赚钱的方法) 幸运副业
兼职群聊怎么加入？(加入兼职群聊后赚钱的方法)一直以来，人们都在寻找额外的赚钱机会，而如今，兼职群聊已经成为一种越来越受欢迎的方式。随着互联网的发展，加入兼职群聊已经成为许多人实现财务自由的途径之一。那么，兼职群聊怎么加入呢？一旦加入了这些群聊，又有哪些方法可以赚钱呢？本文将为您提供详细的答案和指导。推荐一篇找兼职必看的免费教程：《手机兼职，300-500/天，一单一结，大量要人》在这里可以找到各
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
Mysql基本语法到表设计吴鹰飞侠 mysql 数据库
由于笔者之前了解过sql所以此篇仅作复习使用。1.MySQL基本语法1.1创建数据库createdatabaselogin_demo;1.2使用数据库uselogin_demo;1.3创建表CREATETABLEusers(idintprimarykeyauto_increment,usernamevarchar(50)notnull,passwordvarchar(255)notnull,ema
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
Flink双流实时对账
在电商、金融、银行、支付等涉及到金钱相关的领域，为了安全起见，一般都有对账的需求。比如，对于订单支付事件，用户通过某宝付款，虽然用户支付成功，但是用户支付完成后并不算成功，我们得确认平台账户上是否到账了。针对上述的场景，我们可以采用批处理，或离线计算等技术手段，通过定时任务，每天结束后，扫描数据库中的数据，核对当天的支付数据和交易数据，进行对账。想要达到实时对账的效果，比如有的用户支付成功但是并没
3步！用代码生成工具秒建SqlSugar Winform项目？手把手教学，小白也能轻松上手！墨瑾轩数据库学习 oracle 数据库
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣（对比传统开发效率：人工写代码vs魔法生成器，谁才是真正的“代码魔法师”？）代码生成工具——程序员的“魔法棒”你有没有试过用Excel表格生成代码？或者像搭积木一样拼出一个完整的Winform项目？SqlSugar+代码生成工具（比如Database2Shar
3步搞定Java漏洞修复？别再让黑客当“家”！
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣Java城堡的“裂缝”与程序员的救赎想象一下：你的Java应用是一座巍峨的城堡，而安全漏洞就是那些悄悄蔓延的裂缝。SQL注入：像是小偷从窗户溜进来，偷偷改写数据库的账本。XSS攻击：像在城堡里偷偷放了一张带毒的地毯，路过的人会被“刺”伤。SSRF漏洞：像让城堡
MySQL 索引详解：从原理到实战的全方位指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言索引是MySQL高性能查询的核心驱动力，合理设计索引能将查询性能提升几个数量级，而不当使用则可能导致严重的性能瓶颈。本文从索引的基础概念出发，深入解析数据结构、分类特性、设计原则及实战优化，帮助开发者掌握索引的核心原理与最佳实践。一、索引基础概念1.索引定义与本质索引是存储引擎用于快速查找数据的一种数据结构，本质是「数据项→数据地址」的映射表类比：相当于书籍的目录，通过目录（索引）快速定位章节
MySQL 锁详解：从原理到实战的并发控制指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言在高并发场景下，锁是MySQL保证数据一致性的核心机制。正确理解锁的类型、行为及适用场景，能有效避免数据竞争、死锁等问题，是构建可靠数据库应用的关键。本文从锁的分类、存储引擎差异到实战优化，结合代码示例，系统解析MySQL锁机制的核心原理与最佳实践。一、锁分类：按粒度与功能划分1.按锁粒度划分（1）全局锁（GlobalLock）作用范围：锁定整个数据库实例典型场景：全库逻辑备份（FLUSHTA
浅谈MySQL SQL优化的底层原理干净的坏蛋 mysql sql 数据库
深入理解MySQL的SQL优化底层原理，需要从查询的执行流程出发，结合优化器原理、执行计划生成机制、索引原理和存储引擎行为全面剖析。以下是完整的底层视角分析：✅一、MySQLSQL查询的底层执行流程客户端->SQL解析器->查询优化器->执行器->存储引擎（如InnoDB）1.SQL解析（Parser）词法分析+语法分析→生成抽象语法树（AST）比如：识别出SELECT、FROM、WHERE、字段
MySQL MVCC解密：多版本并发控制的魔法世界码农技术栈 MySQL mysql 数据库开发语言 java jvm 后端性能优化
当多个用户同时读写数据库时，MySQL如何避免数据混乱？本文将揭开MVCC的神秘面纱，带你探索这个让数据库高并发运行的魔法引擎！一、为什么需要MVCC？并发控制的困境想象图书馆借阅场景：传统方式：一本书只能一个人看（锁机制）MVCC方式：复印多份，每人看不同版本（多版本控制）传统锁机制的痛点：事务A读数据加锁事务B写数据等待锁释放长时间等待系统卡顿二、MVCC是什么？时间旅行的艺术MVCC核心概念
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
PostgreSQL 中的 pg_trgm 扩展详解 Yashar Qian 数据库(SQL)随笔 postgresql 数据库
PostgreSQL中的pg_trgm扩展详解pg_trgm是PostgreSQL提供的一个核心扩展，用于实现基于三元组(trigram)的文本相似度计算和高效搜索。它特别适合优化模糊匹配、部分匹配和相似度查询。核心功能三元组(trigram)概念：将字符串拆解为连续的3个字符组例如：“hello”→["h","he",“hel”,“ell”,“llo”,"lo"]主要用途：优化LIKE'%pat
Apache Olingo OData4 教程凌崧铖
ApacheOlingoOData4教程1.项目介绍ApacheOlingo是一个由Apache软件基金会支持的开源库，用于实现OData（OpenDataProtocol）协议的客户端和服务器端。OData4版本是针对OData规范第4版的实现，提供了一组Java库，帮助开发者轻松创建ODataV4兼容的服务和应用程序。2.项目快速启动Maven配置在你的pom.xml文件中添加ApacheOl
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
【MySQL基础】MySQL事务详解：原理、特性与实战应用 GG Bond.ฺ MySQL学习 mysql 数据库
MySQL学习：https://blog.csdn.net/2301_80220607/category_12971838.html?spm=1001.2014.3001.5482前言：事务是数据库管理系统的核心概念之一，它确保了数据库操作的可靠性和一致性。本文将深入探讨MySQL事务的各个方面，包括基本概念、ACID特性、隔离级别、锁机制以及实战应用。目录一、事务的基本概念1.1什么是事务？1.
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
Maya自定义右键菜单样例教程 holy-pills
本文还有配套的精品资源，点击获取简介：本文详细指导如何在Maya中通过脚本节点自定义右键菜单，增强工作效率和个性化工作环境。自定义右键菜单允许用户根据个人习惯调整菜单项，使之更加便捷。文章介绍了创建脚本节点、编写菜单脚本、关联菜单到视图以及保存和加载自定义菜单的具体步骤。同时提供了实际操作样例，帮助用户更好地理解和应用这一技巧。1.Maya自定义右键菜单的重要性Maya，作为三维动画制作的行业标准
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

最新 Flink 1.13 处理函数（ProcessFunction、TimerService、侧输出流、Top N）快速入门、详细教程