王知无(import_bigdata)

Flink必知必会系列之回撤流(RetractStream)源码解读

全网最全大数据面试提升手册！2023年持续更新！

1. 定义

Flink中，Kafka Source是非回撤流，Group By是回撤流。所谓回撤流，就是可以更新历史数据的流，更新历史数据并不是将发往下游的历史数据进行更改，要知道，已经发往下游的消息是追不回来的。更新历史数据的含义是，在得知某个Key（接在Key BY / Group By后的字段）对应数据已经存在的情况下，如果该Key对应的数据再次到来，会生成一条delete消息和一条新的insert消息发往下游。

2. 示例

public class RetractDemo {
    public static void main(String[] args) throws Exception {
        // set up execution environment
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);
        // use blink planner in streaming mode
        EnvironmentSettings settings = EnvironmentSettings.newInstance()
                .inStreamingMode()
                .build();
        StreamTableEnvironment tEnv = StreamTableEnvironment.create(env, settings);
        // 用fromElements模拟非回撤消息
        DataStream> dataStream = env.fromElements(new Tuple2<>("hello", 1), new Tuple2<>("hello", 1), new Tuple2<>("hello", 1));
        tEnv.registerDataStream("tmpTable", dataStream, "word, num");
        Table table = tEnv.sqlQuery("select cnt, count(word) as freq from (select word, count(num) as cnt from tmpTable group by word) group by cnt");
        // 启用回撤流机制
        tEnv.toRetractStream(table, TypeInformation.of(new TypeHint>() {
        })).print();
        env.execute();
    }
}

结果：

(true,(1,1))
(false,(1,1))
(true,(2,1))
(false,(2,1))
(true,(3,1))

Flink必知必会系列之回撤流(RetractStream)源码解读_第1张图片

2.1 源码分析

2.1.1 聚合算子回撤

有如下sql: 第一层count，接收kafka source的非回撤流:

SELECT region, count(id) AS order_cnt FROM order_tab GROUP BY region

Flink必知必会系列之回撤流(RetractStream)源码解读_第2张图片

第二层count，接收第一层count的回撤流：

SELECT order_cnt, count(region) as region_cnt FROM order_count_view GROUP BY order_cnt

Flink必知必会系列之回撤流(RetractStream)源码解读_第3张图片

下面来分析一下其源码：

代码生成

Flink在为SQL语句生成物理执行计划是，会在AggregateUtil.createGroupAggregateFunction方法中生成聚合方法GeneratedAggregations#retract(),并最终利用Janino动态编译框架编译运行。生成GeneratedAggregations

object AggregateUtil {
 private[flink] def createDataStreamGroupAggregateFunction[K](...generateRetraction: Boolean...){
    ...
    // 动态生成聚合方法
    new GroupTableAggProcessFunction[K](
    genAggregations.asInstanceOf[GeneratedTableAggregationsFunction],
    aggregationStateType,
    // 生成聚合函数是否支持retraction，该方法通过判断上游流是否支持回撤来进行返回，true表示支持，false表示不支持
    // 例如kafka source算子不支持回撤流，count聚合算子支持回撤流
    generateRetraction,
    groupings.length,
    queryConfig)
    ...
  }
}

class GroupAggProcessFunction[K](...private val generateRetraction: Boolean...){
  // 代理模式，真正生成的function被GroupTableAggProcessFunction所代理
  private var function: GeneratedTableAggregations = _
  
 override def open(config: Configuration) {
   LOG.debug(s"Compiling TableAggregateHelper: ${genTableAggregations.name} \n\n " +
      s"Code:\n${genTableAggregations.code}")
    
    // 利用janino动态编译框架，动态编译并动态加载聚合函数
    val clazz = compile(
      // 获取类加载器
      getRuntimeContext.getUserCodeClassLoader,
      genAggregations.name,
      genAggregations.code)
    LOG.debug("Instantiating TableAggregateHelper.")
    function = clazz.newInstance()
    function.open(getRuntimeContext)
    ...
  }
}

// janino的使用
...
import org.codehaus.janino.SimpleCompiler
trait Compiler[T] {
  @throws(classOf[CompileException])
  def compile(cl: ClassLoader, name: String, code: String): Class[T] = {
    require(cl != null, "Classloader must not be null.")
    val compiler = new SimpleCompiler()
    compiler.setParentClassLoader(cl)
    try {
      compiler.cook(code)
    } catch {
      case t: Throwable =>
        throw new InvalidProgramException("Table program cannot be compiled. " +
          "This is a bug. Please file an issue.", t)
    }
    compiler.getClassLoader.loadClass(name).asInstanceOf[Class[T]
 }  
}

回撤

聚合算子中包含两种状态，state 存储中间结果状态（如count(id)值）、cntState存储key对应的消息数量（聚合消息+1，回撤消息-1）。state用于不断更新中间聚合状态，cntState用于判断向下游发送当前新的聚合消息，还是上一次聚合消息对应的回撤消息.

state class GroupAggProcessFunction[K](...)
    extends ProcessFunctionWithCleanupState[K, CRow, CRow](queryConfig){
      // 每一条消息都会经过该方法处理
      override def processElement(
      // 消息的格式是CRow，包含一个change字段，标识是否是聚合消息；true标识聚合消息，false标识回撤消息
      inputC: CRow,
      ctx: KeyedProcessFunction[K, CRow, CRow]#Context,
      out: Collector[CRow]): Unit = {
      ...
        
          // 中间状态，即上一次的聚合结果
       var accumulators = state.value()
          // key对应的消息数量，对于不支持回撤流的消息，取值可以>1；对于支持回撤流的消息，取值为0或1
       var inputCnt = cntState.value()
          // 如果是聚合消息
          if (inputC.change) {
         inputCnt += 1
         // accumulate()是聚合方法，例如count()
         function.accumulate(accumulators, input)
         function.setAggregationResults(accumulators, newRow.row)
       } else {
            // 对于支持回撤流的消息，inputCnt取值为0或1，因为某条消息如果要发生变更，只有先撤回，再新增新消息，如图片中的（+ SH 1）,（- SH 1），（+ SH 2）
         inputCnt -= 1
            // function对象的retract（）方法，只有在判断上游算子支持回撤流时才会生成；在当前场景下为与count()相反的逻辑，即对input中key的count聚合进行减一操作
         function.retract(accumulators, input)
         function.setAggregationResults(accumulators, newRow.row)
       }
         ...
        
          // 如果该key对应的中间状态还存在，即如果该key还存在，发送最新的聚合消息
          if (inputCnt != 0) {
            // update the state
         state.update(accumulators)
         cntState.update(inputCnt)
            ...
            // newRow/prevRow分别代表新消息和对上一次消息的回撤消息，具体请参考源码
           out.collect(newRow)
          }else{
            // 如果该key的聚合消息和回撤消息数量相等，则认为该key即将消失，发送回撤消息
            out.collect(prevRow)
         // 清除状态
         state.clear()
         cntState.clear()
          }
     ...
      }
}

2.1.2 Sink算子回撤

上一小节是对于聚合算子回撤流的分析，这一节讲讲sink算子的回撤。官方对于sink的插入模式有以下三种描述：

Append 模式 - 该模式用户在定义Sink的DDL时候不定义PK，在Apache Flink内部生成的所有只有INSERT语句;

Upsert 模式 - 该模式用户在定义Sink的DDL时候可以定义PK，在Apache Flink内部会根据事件打标(retract机制)生成INSERT/UPDATE和DELETE 语句,其中如果定义了PK， UPDATE语句按PK进行更新，如果没有定义PK UPDATE会按整行更新;

Retract 模式 - 该模式下会产生INSERT和DELETE两种信息，Sink Connector 根据这两种信息构造对应的数据操作指令;

但其实sink算子是否支持回撤流，要根据sink数据源的特性而定。例如kafka sink只支持append模式，jdbc sink在Flink1.11中只支持upsert（不配置primary key会报错）。这都跟sink数据源的特性密切相关.

kafka sink

如kafka是利用log中顺序追加消息的方式存储消息，因此只支持append模式，网上有修改kafka sink connector以支持upsert的方法：将聚合算子中的回撤消息（false）过滤掉，只留下聚合消息（true），并写入kafka，带来的现象就是一个聚合结果会多次出现在kafka中，算是一种阉割版的upsert模式，代码如下：

public abstract class KafkaTableSinkBase implements AppendStreamTableSink {
  // 将 kafka 改成 upsert
 @Override
 public DataStreamSink consumeDataStream(DataStream> dataStream) {
    final SinkFunction kafkaProducer = createKafkaProducer(
            topic,
            properties,
            serializationSchema,
            partitioner);
    // 过滤掉回撤消息
    return dataStream.filter(t -> t.f0).map(t -> t.f1)
            .addSink(kafkaProducer)
            .setParallelism(dataStream.getParallelism())
            .name(TableConnectorUtils.generateRuntimeName(this.getClass(), getFieldNames()));
 }
}

JDBC Sink

jdbc sink我们以mysql为例，理论上mysql支持append、upsert、retract中的所有模式，但是Flink1.11中只提供了upsert模式。这很好理解，CDC作为Flink1.11的重大特性，append和retract对于CDC都没有意义，只有upsert符合CDC的初衷。

注意：Flink 1.11中ddl中不配置primary key会报错，尽管Flink并不会校验primary key的正确性，而只是upsert模式的一种表征.

其原理是利用了mysql的upsert原子语句（必须有主键）来实现，如下：

INSERT INTO `TABLE_SINK_SYNC`(`eno`, `ename`, `esex`, `ebirthday`, `eteam`, `eincome`)
VALUES (1, 2, 3, 4, 5, 6)
ON DUPLICATE KEY UPDATE `eno`=VALUES(`eno`),
                        `ename`=VALUES(`ename`),
                        `esex`=VALUES(`esex`),
                        `ebirthday`=VALUES(`ebirthday`),
                        `eteam`=VALUES(`eteam`),
                        `eincome`=VALUES(`eincome`)

如果upsert操作不是原子的，很可能会发生并发问题，带来预料不到的后果。

2.1.3 聚合算子回撤 VS Sink算子回撤

原理不同

聚合算子通过在state和cntState这两个状态分别维护中间聚合状态和某key所对应的消息数量（聚合消息+1，回撤消息-1），如果cntState.value() = 1，则下发最新的聚合消息；如果cntState.value() = 0，则将state中维护的上一次的聚合状态作为回撤消息进行下发。

Sink算子则是解析canal或debezium中的op字段，如果op=create，则取after字段中的有效数据进行下发；如果op=update，则分别取before和after中的有效数据进行下发；如果op=delete，则取before中的有效数据进行下发。

public final class DebeziumJsonDeserializationSchema implements DeserializationSchema {
 @Override
 public void deserialize(byte[] message, Collector out) throws IOException {
     GenericRowData row = (GenericRowData) jsonDeserializer.deserialize(message);
   GenericRowData payload;
   if (schemaInclude) {
    payload = (GenericRowData) row.getField(0);
   } else {
    payload = row;
   }

   GenericRowData before = (GenericRowData) payload.getField(0);
   GenericRowData after = (GenericRowData) payload.getField(1);
   String op = payload.getField(2).toString();
      // 关键逻辑
   if (OP_CREATE.equals(op) || OP_READ.equals(op)) {
    after.setRowKind(RowKind.INSERT);
    out.collect(after);
   } else if (OP_UPDATE.equals(op)) {
    before.setRowKind(RowKind.UPDATE_BEFORE);
    after.setRowKind(RowKind.UPDATE_AFTER);
    out.collect(before);
    out.collect(after);
   } else if (OP_DELETE.equals(op)) {
    before.setRowKind(RowKind.DELETE);
    out.collect(before);
   } else {
    if (!ignoreParseErrors) {
     throw new IOException(format(
      "Unknown \"op\" value \"%s\". The Debezium JSON message is '%s'", op, new String(message)));
    }
   }
  }
}

最后，利用JDBC原子语句ON DUPLICATE KEY UPDATE实现upsert语义。

数据结构不同

class CRow(var row: Row, var change: Boolean) {}

聚合算子中的数据格式为CRow.

public final class GenericRowData implements RowData {
 private final Object[] fields;
  // Flink1.11新增的属性
 private RowKind kind;
}

public enum RowKind {
 INSERT("+I", (byte) 0),
 UPDATE_BEFORE("-U", (byte) 1),
 UPDATE_AFTER("+U", (byte) 2),
 DELETE("-D", (byte) 3);
}

结论：

聚合算子和Sink算子关于回撤的概念相似，但原理不同且使用场景也不同，聚合算子的回撤用于聚合状态的更新，Sink算子的回撤则更多的是应用于CDC场景。
聚合算子的撤回机制，保证了FlinkSQL持续查询/增量查询的正确语义；而Sink算子的回撤机制，保证了CDC场景下的正确语义。

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

Java数组（基础） NaclarbCSDN 算法排序算法 java
数组声明和创建 packagecom.arbedu.array; publicclassArrayDemo01{ //变量类型变量名字=变量的值 //数组类型数组是相同数据类型的有序集合 publicstaticvoidmain(String[]args){ int[]arr; //1.声明一个数组 arr=newint[10]; //2.创建一个数组这里面可以存放
深入理解 Java 反射与 PropertyDescriptor 的应用 HoroMin web基础 easybbs项目疑难记录 java 开发语言反射
在Java编程中，反射是一项强大的功能，它允许我们在运行时动态地访问和操作类的信息，包括字段、方法和构造函数等。在处理JavaBean时，反射的灵活性尤为重要。而PropertyDescriptor类正是用于简化JavaBean属性的动态访问和操作。本文将探讨反射的基本概念，并通过具体示例展现如何使用PropertyDescriptor。什么是反射？反射是Java的一个特性，允许程序在运行时检查类
Redis客户端jedis与lettuce的区别风雨无阻1203 Redis Java 研发文档 redis 缓存 Lettuce Jedis
什么是Lettuce与JedisLettuce是一个高级Redis客户端，用于线程安全的同步、异步和反应式访问。它支持高级的Redis特性，如Sentinel、集群、流水线、自动重新连接和redis数据模型等。Lettuce是完全非阻塞的，基于Netty事件驱动的通信层，其方法将返回具有可观察的类型，可在流或异步编程环境中使用。Jedis是基于Java语言的Redis的客户端，Jedis=Java
redis中jedis和lettuce pool的区别，那个更好，使用范围更广青春不流名 redis bootstrap 前端
在Redis的Java客户端中，Jedis和Lettuce是两种最常用的客户端库，它们都支持连接池（JedisPool和LettuceConnectionPool），但在设计和特性上有显著差异。下面我将详细对比它们的特点，帮助你更好地选择适合的库。1.同步vs异步Jedis：是一个同步的Redis客户端库。每次操作都会阻塞当前线程，直到Redis响应完成。这使得它易于理解和使用，但如果Redis响
关于你需要知道的JVM基础 DRUN_K jvm
Java对象的内存布局对象头class对象指针markword（64个bit位）结构：哈希码：对象的哈希码，用于支持基于哈希的集合操作GC分代年龄：对象的分代年龄，用于垃圾回收器的分代收集策略锁状态的标识：用于标识对象的锁状态，如未锁定、轻量级锁定、重量级锁定等。偏向线程ID（在偏向锁的状态下）：记录持有偏向锁的线程ID锁记录指针（在轻量级锁的状态下）：指向当前线程栈中LockRecent的指针作
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
JavaScript基础-事件基础難釋懷 javascript 开发语言
在现代Web开发中，交互性是网站用户体验的重要组成部分。通过使用JavaScript，我们可以捕获用户的操作并作出响应，实现动态网页效果。这一切都离不开事件（Events）的概念。本文将介绍JavaScript中事件的基础知识，包括事件类型、如何绑定事件处理器以及一些常见的实践技巧。一、什么是事件？在浏览器环境中，事件是由浏览器生成的通知，表明某种情况已经发生。这些情况可能是用户交互（如点击按钮）
Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
【面试问题】Java 接口与抽象类的区别刘小炮吖i Java Java后端开发面试题 java 开发语言面试
引言在Java面向对象编程中，接口（Interface）和抽象类（AbstractClass）是两个重要的抽象工具。它们都能定义未实现的方法，但设计目标和使用场景截然不同。本文将通过语法、特性和实际案例，深入解析两者的核心区别。一、基础概念回顾抽象类（AbstractClass）定义：使用abstract关键字声明的类，包含抽象方法（无实现）和具体方法（有实现）。特点：不能被实例化，必须通过子类继
3.5 Spring Boot邮件服务：从基础发送到模板邮件进阶 Sendingab Spring boot 从入门到精通零基础7天精通Spring Boot spring boot python 后端
SpringBoot邮件服务：从基础发送到模板邮件进阶引言在现代企业级应用中，邮件服务是不可或缺的基础能力。从用户注册验证、密码重置，到订单通知、系统告警，再到营销推广等场景，邮件始终扮演着关键角色。SpringBoot通过spring-boot-starter-mail模块，将JavaMail的复杂配置简化为几行代码即可实现的便捷操作。本文将手把手带您实现从基础文本邮件发送到高级模板邮件的完整开
matsim开发教程若木胡大数据信息可视化
以下是基于MATSim的二次开发教程指南，结合交通仿真框架的核心功能和开发实践，提供从环境搭建到高级开发的完整路径：一、MATSim简介MATSim（Multi-AgentTransportSimulation）是一个基于Java的开源交通仿真框架，专注于大规模多智能体（Agent）交通行为模拟，支持动态需求建模、路径规划优化、政策评估等应用场景。二、开发环境搭建1.基础依赖JavaJDK11+：
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
Lombok常用注解 AWen_X Java常用框架注解 java 开发语言
Lombok常用注解Lombok是一个Java库，通过注解的方式帮助开发者减少样板代码的编写，提高开发效率。本文将Lombok常用注解分类整理，并提供详细说明和使用示例。目录构造器相关注解字段相关注解方法相关注解代码简化注解异常处理注解日志相关注解实用工具注解高级用法注解配置与扩展构造器相关注解@NoArgsConstructor作用：生成一个无参构造器。示例：@NoArgsConstructor
2025年毕设ssm校园二手交易平台论文+源码锦程学长--毕设程序课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的研究，现有成果多集中于社会综合型平台（如闲鱼、转转）的商业模式分析，或理论层面的共享经济模型探讨，而针对高校场景特殊性（如用户密度高、交易标的额小、社交属性强）的垂直型平台研究存在明显缺口。当前高校内二手交易多依赖社群、论坛等分散渠道，存在信息不对称、交易
初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力伶俜Monster Threejs webgl 前端 3d threejs cannon.js
简介Cannon.js是一个基于JavaScript的物理引擎，它可以在浏览器中模拟物理效果。它支持碰撞检测、刚体动力学、约束等物理效果，可以用于创建逼真的物理场景和交互。参考文档官方示例原理Cannon.js使用了欧拉角来表示物体的旋转，而不是四元数。这使得它在处理旋转时更加直观和易于理解。Cannon.js还支持多种碰撞检测算法，包括离散碰撞检测和连续碰撞检测。Cannon.js还支持多种约束
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
清晰易懂的Java8安装教程 Tee xm windows java
小白也能看懂的Java8安装教程（JDK和JRE分目录安装）本教程将手把手教你如何在Windows系统上安装Java8（JDK1.8），并将JDK和JRE安装到不同的目录中，同时提供国内Java8下载源和方法。即使你是编程小白，也能轻松学会！一、准备工作操作系统：Windows10或更高版本。下载工具：一个浏览器（如Chrome、Edge）。存储空间：确保你的电脑有至少500MB的可用空间。二、下
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Java 处理 json 格式数据解析为 csv 格式李昊哲小课数据分析 Java 大数据 java json 开发语言大数据数据分析
Java处理json格式数据解析为csv格式如果不使用JSON工具库，你可以手动解析JSON格式字符串并将其转换为CSV格式字符串。以下是一个简单示例，展示如何实现这一功能。示例代码下面的示例代码手动处理JSON字符串，将其转换为CSV格式字符串：/***接收JSON字符串，去掉开头和结尾的方括号，按对象划分。*通过extractKeys方法提取字段名，添加到CSV的第一行。*逐项解析JSON对象
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Java数据类型 Arrays VS ArraysList VS LikedList 解析 fantasy_4 Java java
在学习Java过程中，在刷题时总是搞不清楚这三种数据结构的区别，打算写篇文章记录一下ArraysVSArrayListArrayListVSLinkedList总结ArraysVSArrayListArraysArrayList类型Java的基本数据类型Java集合框架中的一个类，实现了List接口存储内容基本数据类型+对象引用对象引用可变性数组长度创建后不可变长度可变适用场景查询元素会比较快，直
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
HashMap 的底层实现宋发元哈希算法算法
HashMap的底层实现HashMap简介HashMap主要用来存放键值对，它基于哈希表的Map接口实现，是常用的Java集合之一，是非线程安全的。HashMap可以存储null的key和value，但null作为键只能有一个，null作为值可以有多个JDK1.8之前HashMap由数组+链表组成的，数组是HashMap的主体，链表则是主要为了解决哈希冲突而存在的（“拉链法”解决冲突）。JDK1.
vue3+springboot电影院售票选座管理系统 qq_3166678367 spring boot 后端 java
目录本系统(已开发完成)->成品实现截图开发技术本系统支持的技术栈源码获取详细视频演示：文章底部获取博主联系方式！！！！本课题重点核心代码部分展示论文提纲来自指导老师帅的肯定视频演示/源码获取本系统(已开发完成)->成品实现截图开发技术关键技术实现：在Java的开发过程中，可以使用HTML、CSS、JavaScript等前端技术来实现系统的用户界面设计和交互功能。后端可以使用Java语言编写业务逻
NL2SQL 优化之 Schema 编写标准 kakaZhui oracle 数据库 AIGC python llama chatgpt
写在前面在自然语言转SQL（NL2SQL，或Text-to-SQL）任务中，数据库Schema的质量和表示方式对模型的性能有着至关重要的影响。一个清晰、规范、易于理解的Schema能够帮助模型更好地理解数据库结构，从而生成更准确的SQL查询。相反，一个混乱、不规范的Schema会增加模型的理解难度，导致生成的SQL查询错误百出。本文将深入探讨NL2SQL任务中Schema的编写标准，详细介绍如何为
weixin049校园外卖平台设计与实现+ssm(文档+源码)_kaic 开心毕设kaic_kaic 模拟退火算法散列表随机森林支持向量机启发式算法逻辑回归
校园外卖平台设计与实现摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了校园外卖平台的开发全过程。通过分析校园外卖平台管理的不足，创建了一个计算机管理校园外卖平台的方案。文章介绍了校园外卖平台的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本校园外卖平台有管理员，用户，商家。管理员功能有个人中心，用户管理，商家管理，菜
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
java实现二叉树的深度优先遍历开往1982 深度优先算法 java
深度优先三种遍历方法1.先序遍历2.中序遍历3.后序遍历1.定义树节点（这里我重构了tostring方法）packagecom.data.tree;publicclassNode{intvalue;Nodeleft;Noderight;publicNode(intval){value=val;}@OverridepublicStringtoString(){return"Node[value="+
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep