大数据兵工厂

面试高频|万字详解Flink双流JOIN

1 引子

1.1 数据库SQL中的JOIN

1.2 离线场景下的JOIN

2 实时场景下的JOIN

2.1 方案思路

3 Flink的双流JOIN

3.1 内部运行机制

3.2 JOIN实现机制

4 基于Window Join的双流JOIN实现机制

4.1 join算子

4.2 coGroup算子

5 基于Interval Join的双流JOIN实现机制

6 基于Connect的双流JOIN实现机制

6.1 Connect算子原理

6.2 技术实现

7 双流JOIN的优化与总结

今天和大家聊聊Flink双流Join问题。这是一个高频面试点，也是工作中常遇到的一种真实场景。

如何保证Flink双流Join准确性和及时性、除了窗口join还存在哪些实现方式、究竟如何回答才能完全打动面试官呢。。你将在本文中找到答案。

1 引子

1.1 数据库SQL中的JOIN

我们先来看看数据库SQL中的JOIN操作。如下所示的订单查询SQL，通过将订单表的id和订单详情表order_id关联，获取所有订单下的商品信息。

select 
   a.id as '订单id',
   a.order_date as '下单时间',
   a.order_amount as '订单金额',
   b.order_detail_id as '订单详情id',
   b.goods_name as '商品名称',
   b.goods_price as '商品价格',
   b.order_id as '订单id'
from 
   dwd_order_info_pfd a
right join 
   dwd_order_detail_pfd b
on a.id = b.order_id

这是一段很简单的SQL代码，就不详细展开叙述了。此处主要引出SQL中的JOIN类型，这里用到的是 right join , 即右连接。

left join: 保留左表全部数据和右表关联数据，右表非关联数据置NULL
right join: 保留右表全部数据和左表关联数据，左表非关联数据置NULL
inner join: 保留左表关联数据和右边关联数据
cross join: 保留左表和右表数据笛卡尔积

基于关联键值逐行关联匹配，过滤表数据并生成最终结果，提供给下游数据分析使用

就此打住，关于数据库SQL中的JOIN原理不再多赘述，感兴趣的话大家可自行研究，下面我们将目光转移到大数据领域看看吧。

1.2 离线场景下的JOIN

假设存在这样一个场景:

已知Mysql数据库中订单表和订单明细表，且满足一对多的关系，统计T-1天所有订单的商品分布详情。

聪明的大家肯定已经给出了答案，没错~就是上面的SQL:

select a.*, b.*
from 
   dwd_order_info_pfd a
right join 
   dwd_order_detail_pfd b
on a.id = b.order_id

现在修改下条件：已知订单表和订单明细表均为亿级别数据，求相同场景下的分析结果。

咋办？此时关系型数据库貌似不大合适了~开始放大招：使用大数据计算引擎来解决。

考虑到T-1统计场景对时效性要求很低，可以使用Hive SQL来处理，底层跑Mapreduce任务。如果想提高运行速度，换成Flink或Spark计算引擎，使用内存计算。

至于查询SQL和上面一样，并将其封装成一个定时调度任务, 等系统调度运行。如果结果不正确的话，由于数据源和数据静态不变，大不了重跑，看起来感觉皆大欢喜~

可是好景不长，产品冤家此时又给了你一个无法拒绝的需求：我要实时统计！！

2 实时场景下的JOIN

还是上面的场景，此时数据源换成了实时订单流和实时订单明细流，比如Kafka的两个topic，要求实时统计每分钟内所有订单下的商品分布详情。

现在情况貌似变得复杂了起来,简单分析下:

数据源。实时数据流，和静态流不同，数据是实时流入的且动态变化，需要计算程序支持实时处理机制。

关联性。前面提到静态数据执行多次join操作，左表和右表能关联的数据是很恒定的；而实时数据流(左右表)如果进入时机不一致，原本可以关联的数据会关联不上或者发生错误。

延迟性。实时统计，提供分钟甚至秒级别响应结果。

由于流数据join的特殊性，在满足实时处理机制、低延迟、强关联性的前提下，看来需要制定完善的数据方案，才能实现真正的流数据JOIN。

2.1 方案思路

我们知道订单数据和订单明细数据是一对多的关系，即一条订单数据对应着多条商品明细数据，毕竟买一件商品也是那么多邮费，不如打包团购。。而一条明细数据仅对应一条订单数据。

这样，双流join策略可以考虑如下思路:

当数据流为订单数据时。无条件保留，无论当前是否关联到明细数据，均留作后续join使用。
当数据流为明细数据时。在关联到其订单数据后，就可以say goodbye了，否则暂时保留等待下一次与订单数据的邂逅。
完成所有处于同一时段内的订单数据和订单明细数据join, 清空存储状态。

实际生产场景中，需要考虑更多的复杂情况，包括JOIN过程的数据丢失等异常情况的处理，此处仅示意。

好了，看起来我们已经有了一个马马虎虎的实时流JOIN方案雏形。

貌似可以准备动手大干一场了~ 别着急，有人已经帮我们偷偷的实现了：Apache Flink

3 Flink的双流JOIN

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行，以内存执行速度和任意规模来执行计算。
——来自Flink官网定义

这里我们只需要知道Flink是一个实时计算引擎就行了，主要关注其如何实现双流JOIN。

3.1 内部运行机制

内存计算：Flink任务优先在内存中计算，内存不够时保存到访问高效的磁盘上，提供秒级延迟响应。
状态强一致性：Flink使用一致性快照保存状态，并定期检查本地状态到持久存储来保证状态一致性。
分布式执行：Flink应用程序可以划分为无数个并行任务在集群中执行，几乎无限量使用CPU、主内存、磁盘和网络IO。
内置高级编程模型：Flink编程模型抽象为SQL、Table、DataStream|DataSet API、Process四层，并封装成丰富功能的算子，其中就包含JOIN类型的算子。

仔细看看，我们前面章节讨论的实时流JOIN方案的前提是否都满足了呢？

实时处理机制: Flink天生即实时计算引擎
低延迟: Flink内存计算秒级延迟
强关联性: Flink状态一致性和join类算子

不由感叹, 这个Flink果然强啊~

保持好奇心，我们去瞅瞅Flink双流join的真正奥义！！

3.2 JOIN实现机制

Flink双流JOIN主要分为两大类。一类是基于原生State的Connect算子操作，另一类是基于窗口的JOIN操作。其中基于窗口的JOIN可细分为window join和interval join两种。

实现原理：底层原理依赖Flink的State状态存储，通过将数据存储到State中进行关联join, 最终输出结果。

恍然大悟, Flink原来是通过State状态来缓存等待join的实时流。

这里给大家抛出一个问题：

用redis存储可不可以，state存储相比redis存储的区别？

更多细节欢迎大家一起探讨，添加个人微信: youlong525拉您进群，还有免费Flink PDF领取~

回到正题，这几种方式到底是如何实现双流JOIN的？我们接着往下看。

注意: 后面内容将多以文字 + 代码的形式呈现，避免枯燥，我放了一堆原创示意图~

4 基于Window Join的双流JOIN实现机制

顾名思义，此类方式利用Flink的窗口机制实现双流join。通俗理解，将两条实时流中元素分配到同一个时间窗口内完成Join。

底层原理: 两条实时流数据缓存在Window State中，当窗口触发计算时，执行join操作。

4.1 join算子

先看看Window join实现方式之一的join算子。这里涉及到Flink中的窗口(window)概念，因此Window Join按照窗口类型区分的话某种程度来说可以细分出3种：

Tumbling Window Join (滚动窗口)
Sliding Window Join (滑动窗口)
Session Widnow Join(会话窗口)

两条流数据按照关联主键在（滚动、滑动、会话）窗口内进行inner join, 底层基于State存储，并支持处理时间和事件时间两种时间特征，看下源码:

源码核心总结：windows窗口 + state存储 + 双层for循环执行join()

现在让我们把时间轴往回拉一点点，在实时场景JOIN那里我们收到了这样的需求：统计每分钟内所有订单下的商品明细分布。

OK, 使用join算子小试牛刀一下。我们定义60秒的滚动窗口，将订单流和订单明细流通过order_id关联，得到如下的程序：

val env = ...
// kafka 订单流
val orderStream = ... 
// kafka 订单明细流
val orderDetailStream = ...
    
orderStream.join(orderDetailStream)
    .where(r => r._1)  //订单id
    .equalTo(r => r._2) //订单id
    .window(TumblingProcessTimeWindows.of(
          Time.seconds(60)))
    .apply {(r1, r2) => r1 + " : " + r2}
    .print()

整个代码其实很简单，概要总结下:

定义两条输入实时流A、B
A流调用join(b流)算子
关联关系定义: where为A流关联键，equalTo为B流关联键，都是订单id
定义window窗口(60s间隔)
apply方法定义逻辑输出

这样只要程序稳定运行，就能够持续不断的计算每分钟内订单分布详情，貌似解决问题了奥~

还是别高兴太早，别忘了此时的join类型是inner join。复习一下知识：inner join指的是仅保留两条流关联上的数据。

这样双流中没关联上的数据岂不是都丢掉了？别担心，Flink还提供了另一个window join操作: coGroup算子。

4.2 coGroup算子

coGroup算子也是基于window窗口机制，不过coGroup算子比Join算子更加灵活，可以按照用户指定的逻辑匹配左流或右流数据并输出。

换句话说，我们通过自己指定双流的输出来达到left join和right join的目的。

现在来看看在相同场景下coGroup算子是如何实现left join:

// 这里看看java的写法
orderDetailStream
  .coGroup(orderStream)
  .where(r -> r.getOrderId())
  .equalTo(r -> r.getOrderId())
  .window(TumblingProcessingTimeWindows.of(Time.seconds(60)))
  .apply(new CoGroupFunction>() {
    @Override
    public void coGroup(Iterable orderDetailRecords, Iterable orderRecords, Collector> collector)  {
      for (OrderDetail orderDetaill : orderDetailRecords) {
        boolean flag = false;
        for (Order orderRecord : orderRecords) {
          // 右流中有对应的记录
          collector.collect(new Tuple2<>(orderDetailRecords.getGoods_name(), orderDetailRecords.getGoods_price()));
          flag = true;
        }
        if (!flag) {
          // 右流中没有对应的记录
          collector.collect(new Tuple2<>(orderDetailRecords.getGoods_name(), null));
        }
      }
    }
  })
  .print();

这里需要说明几点:

join算子替换为coGroup算子
两条流依然需要在一个window中且定义好关联条件
apply方法中自定义判断，此处对右值进行判断：如果有值则进行连接输出,否则右边置为NULL。

可以这么说，现在我们已经彻底搞定了窗口双流JOIN。

只要你给我提供具体的窗口大小，我就能通过join或coGroup算子鼓捣出各种花样join，而且使用起来特别简单。

但是假如此时我们亲爱的产品又提出了一个小小条件：

大促高峰期，商品数据某时段会写入不及时，时间可能比订单早也可能比订单晚，同样计算每分钟内的订单商品分布详情，没问题吧~

当然有问题：两条流如果步调不一致，还用窗口来控制能join的上才怪了~ 很容易等不到join流窗口就自动关闭了。

还好，我知道Flink提供了Interval join机制。

5 基于Interval Join的双流JOIN实现机制

Interval Join根据右流相对左流偏移的时间区间(interval)作为关联窗口，在偏移区间窗口中完成join操作。

有点不好理解，我画个图看下:

stream2.time ∈ (stream1.time +low, stream1.time +high)

满足数据流stream2在数据流stream1的 interval(low, high)偏移区间内关联join。interval越大，关联上的数据就越多，超出interval的数据不再关联。

实现原理：interval join也是利用Flink的state存储数据，不过此时存在state失效机制ttl，触发数据清理操作。

这里再引出一个问题:

state的ttl机制需要怎么设置？不合理的ttl设置会不会撑爆内存？

我会在后面的文章中深入讲解下State的ttl机制，欢迎大家一起探讨~

下面简单看下interval join的代码实现过程:

val env = ...
// kafka 订单流
val orderStream = ... 
// kafka 订单明细流
val orderDetailStream = ...
    
orderStream.keyBy(_.1)
    // 调用intervalJoin关联
    .intervalJoin(orderDetailStream._2)
    // 设定时间上限和下限
    .between(Time.milliseconds(-30), Time.milliseconds(30))  
    .process(new ProcessWindowFunction())
    
class ProcessWindowFunction extends ProcessJoinFunction...{
   override def processElement(...) {
      collector.collect((r1, r2) => r1 + " : " + r2)
   }
}

订单流在流入程序后，等候(low,high)时间间隔内的订单明细流数据进行join, 否则继续处理下一个流。

从代码中我们发现，interval join需要在两个KeyedStream之上操作，即keyBy()，并在between()方法中指定偏移区间的上下界。

需要注意的是interval join实现的也是inner join，且目前只支持事件时间。

6 基于Connect的双流JOIN实现机制

前面在使用Window join或者Interval Join来实现双流join的时候，我发现了其中的共性：

无论哪种实现方式，Flink内部都将join过程透明化，在算子中封装了所有的实现细节。

这是什么？是编程语言中的抽象概念~ 隐藏底层细节,对外暴露统一API, 大幅简化程序编码。

可是这样会引来一个问题：如果程序报错或者数据异常，如何快速进行调优排查，直接看源码吗？不大现实。。

这里介绍基于Connect算子实现的双流JOIN方法，我们可自己控制双流JOIN处理逻辑，同时保持过程时效性和准确性。

6.1 Connect算子原理

对两个DataStream执行connect操作，将其转化为ConnectedStreams, 生成的Streams可以调用不同方法在两个实时流上执行，且双流之间可以共享状态。

图上我们可以看到，两个数据流被connect之后，只是被放在了同一个流中，内部依然保持各自的数据和形式，两个流相互独立。

[DataStream1, DataStream2] -> ConnectedStreams[1,2]

这样，我们可以在Connect算子底层的ConnectedStreams基础上编写代码，自行实现双流JOIN的逻辑处理。

6.2 技术实现

1.调用connect算子,根据orderid进行分组，并使用process算子分别对两条流进行处理。

orderStream.connect(orderDetailStream)
  .keyBy("orderId", "orderId")
  .process(new orderProcessFunc());

2.process方法内部进行状态编程, 初始化订单、订单明细和定时器的ValueState状态。

private ValueState orderState;
private ValueState orderDetailState;
private ValueState timeState;

// 初始化状态Value
orderState = getRuntimeContext().getState(
 new ValueStateDescriptor
 ("order-state",Order.class));
····

3.为每个进入的数据流保存state状态并创建定时器。在时间窗口内另一个流到达时进行join并输出，完成后删除定时器。

@Override
public void processElement1(Order value, Context ctx, Collector> out){
  if (orderDetailState.value() == null){
    //明细数据未到，先把订单数据放入状态
     orderState.update(value);
    //建立定时器，60秒后触发
     Long ts = (value.getEventTime()+60)*1000L;
     ctx.timerService().registerEventTimeTimer(
       ts);
     timeState.update(ts);
  }else{
    //明细数据已到，直接输出到主流
     out.collect(new Tuple2<>(value,orderDetailS
       tate.value()));
    //删除定时器
     ctx.timerService().deleteEventTimeTimer
      (timeState.value());
     //清空状态，注意清空的是订单明细状态
      orderDetailState.clear();
      timeState.clear();
  }
}
...
@Override
public void processElement2(){
  ...
}

4.未及时到达的数据流触发定时器输出到侧输出流，左流先到而右流未到，则输出左流，反之输出右连流。

public void onTimer(long timestamp, OnTimerContext ctx, Collector> out) {
  // 实现左连接
   if (orderState.value() != null){
       ctx.output(new OutputTag("left-jo 
       in") {}, 
       orderState.value().getOrderId());
   // 实现右连接
   }else{
      ctx.output(new OutputTag("right-jo 
       in") {}, 
       orderDetailState.value().getOrderId());
   }
   orderState.clear();
   orderDetailState.clear();
   timeState.clear();
}

总体思想：基于数据时间实现订单数据及订单明细数据的关联，超时或者缺失则由侧输出流输出。

在connect中针对订单流和订单明细流，先创建定时器并保存state状态，处于窗口内就进行join, 否则进入侧输出流。

7 双流JOIN的优化与总结

1. 为什么我的双流join时间到了却不触发，一直没有输出

检查一下watermark的设置是否合理，数据时间是否远远大于watermark和窗口时间，导致窗口数据经常为空

2. state数据保存多久，会内存爆炸吗

state自带有ttl机制，可以设置ttl过期策略，触发Flink清理过期state数据。建议程序中的state数据结构用完后手动clear掉。

3. 我的双流join倾斜怎么办

join倾斜三板斧: 过滤异常key、拆分表减少数据、打散key分布。当然可以的话我建议加内存！加内存！加内存！！

4. 想实现多流join怎么办

目前无法一次实现，可以考虑先union然后再二次处理；或者先进行connnect操作再进行join操作，仅建议~

5. join过程延迟、没关联上的数据会丢失吗

这个一般来说不会，join过程可以使用侧输出流存储延迟流；如果出现节点网络等异常，Flink checkpoint也可以保证数据不丢失。

更多Flink及大数据&人工智能文章，请关注gzh：大数据兵工厂。欢迎加入技术交流群，免费获取学习资料PDF~更有BAT技术大佬坐镇~

你可能感兴趣的:(大数据,面试,flink,大数据,实时大数据)

教师资格考试通过率提高技巧，你知道吗？（纯干货） Taypa
临近2019年前半年教师资格考试笔试成绩公布，很多参试者向我咨询，以下进行系统的分享。教师资格考试主要的环节是笔试和面试。教师资格考试每年有两次机会，分别是上半年的3月上旬，下半年的11月上旬。笔试成绩公布时间是次月的中下旬。面试环节在笔试成绩公布的一个月之后进行。教师资格证书等级分类有幼儿园教师资格证书、小学教师资格证书、初级中学教师资格证书、高级中学教师资格证书以及中专类教师资格证书等。分别针
Doris实战——拈花云科的数据中台实践吵吵叭火大数据 #Doris 数据仓库大数据
目录前言一、业务背景二、数据中台1.0—Lambda三、新架构的设计目标四、数据中台2.0—ApacheDoris4.1新架构数据流转4.2新架构收益五、新架构的落地实践5.1模型选择5.1.1Unique模型5.1.2Aggregate模型5.2资源管理5.3批量建表5.4计算实现5.4.1实时计算5.4.2准实时计算通过JavaUDF生成增量/全量数据基于Doris的大表优化DorisBork
2025F公考热点30分，相面试技巧班，【公考】各省面试1000道，面试应急应变130题+人际沟通100题，夸克网盘 xiaopengbc 考公面试职场和发展
因为很网盘内容太多了文件太大了，需要开通网盘会员才能存储，所以我这里分享了非会员的领取方式，可以扩大网盘空间。【必需使用手机转存】，才可以领取1024MB大容量。后面基本天天都可以领取，请及时转存，文件容易失效！！！下载地址获取所有资料都放在这里了：夸克网盘分享这个是总目录，如果也可以直接看这个总目录选择【公务员考试资料总目录】：夸克网盘分享目录持续更新中...2025F公考热点30分2025公考
操作系统系统面试常问(进程、线程、协程相关知识) 程序猿莫悔面试 linux 职场和发展
进程、线程和协程的区别和联系进程定义资源分配和调度的基本单位线程定义程序执行的基本单位协程定义用户态的轻量级线程，线程内部调度的基本单位进程切换情况进程切换时，操作系统会保存当前进程的CPU状态（如寄存器、页表等），并加载新进程的保存状态到CPU线程切换情况保存和设置程序计数器、少量寄存器和栈的内容协程切换情况先将寄存器上下文和栈保存，等切换回来的时候再进行恢复线程拥有资源CPU资源、内存资源、文
Vue3 + WebSocket 穆罕周 websocket 网络协议网络
Vue3与WebSocket结合能够很好地满足实时通讯的需求。通过合理设计和管理WebSocket连接的生命周期，以及实现必要的重连逻辑和心跳检测机制，可以构建出响应迅速且稳定的实时应用。WebSocketWebSocket允许服务端主动向客户端发送数据，无需客户端发起请求，从而实现了低延迟、高效率的数据交换。它通过HTTP升级协议握手来建立持久性的连接，并使用帧（frame）的形式传输数据。Vu
新一轮黑产打击：上亿简历大数据公司被警方一锅端大数据的时代
近日，中国的简历大数据公司、曾获李开复旗下创新工场投资的“巧达科技”被警方一锅端，所有员工都被带走。随后，有部分员工被陆续放出。据悉，该公司被查可能缘起在没有获得授权下抓取用户简历。该公司此前曾获得天使轮、A轮和B轮融资，资方包括李开复的创新工场、中信产业基金等。有迹象显示，监管部门正在掀起对大数据灰产和黑产的新一轮打击。传公司被警方一锅端，网站已无法打开。3月23日，有网友在工商信息查询网站“天
金指云智能仓储管理：材料企业降本增效新引擎金烽科技大数据运维团队开发制造 sass
在材料生产行业，仓储管理是影响企业成本与运营效率的关键环节。金指云凭借贴合行业需求的智能仓储管理功能，通过物联网技术与数字化手段，实现仓储全流程精细化管控，助力企业解决原料损耗、库存积压等难题。物联网监控，筑牢原料防护网金指云利用RFID电子标签与温湿度传感器，构建起仓储环境实时监测体系。每批次铜材、钛合金等原料入库时，都会被赋予唯一的RFID电子标签，详细记录材料规格、入库时间等信息。遍布仓库的
基于单片机智能干手器/热吹风小新单片机单片机设计库单片机嵌入式硬件 51单片机干手器
传送门其他作品题目速选一览表其他作品题目功能速览概述本设计实现了一种基于单片机的节能高效智能干手器。系统核心由微控制器、红外人体感应模块、风扇驱动电路、热模块、电源管理单元构成。红外感应模块实时探测用户手部位置。当检测到手部进入有效区域时，单片机立即启动电机驱动高速气流，同时根据设定温度智能调节PWM占空比控制加热元件工作，输出舒适暖风。感应信号消失后，系统自动延时关闭电机与加热器，避免空耗。一、
每日面试题08:wait()和sleep()的区别
Java多线程核心：wait()与sleep()的区别与应用场景详解在Java多线程编程中，wait()和sleep()是两个控制线程执行流程的重要方法，但它们的设计定位和使用场景截然不同。本文将从底层机制、调用条件、锁行为、异常处理等维度深入解析两者的差异，并结合实际场景说明如何选择使用。一、前置知识：线程的状态与同步机制在理解wait()和sleep()前，需要明确两个基础概念：线程状态：Ja
【考公资料】最新2026公考资料大汇总，公考背诵材料，岗位面试题合集，持续更新。 xiaopengbc 考公面试职场和发展
我觉得主要是因为复习对应着考试吧。一般预习是在正式学知识前，大致了解一下，有利于正式学的时候心中有数。复习就是为了这个考试而看书学习，目的是为了参加考试，而不是大致了解。不过放心吧，大多数人都是提前几个月看书，不会把战线拉的特别久，你现在开始准备复习就好啦。因为很网盘内容太多了文件太大了，需要开通网盘会员才能存储，所以我这里分享了非会员的领取方式，可以扩大网盘空间。【必需使用手机转存】，才可以领取
实时数据可视化的“心跳”设计：毫秒级延迟下的动态图表抗闪烁优化方案大美工控设计师信息可视化数据分析数据挖掘
内容摘要在实时数据可视化中，动态图表的抗闪烁优化是一个关键问题。毫秒级的数据更新频率虽然能提供极高的实时性，但也容易导致图表闪烁，严重影响用户体验。这种闪烁不仅让人眼花缭乱，还可能掩盖重要的数据变化。那么，如何在保持毫秒级更新的同时，有效减少图表闪烁呢？本文将深入探讨动态图表抗闪烁的优化方案，从技术原理到实际应用，为你揭示如何打造平滑、流畅的实时数据可视化效果。第一章：实时数据可视化的“心跳”现象
贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
前端面试题 xkxnq 前端开发问题前端
CSS常见问题解答1.CSS盒模型CSS盒模型由内容区域（content）、内边距（padding）、边框（border）和外边距（margin）组成，分为两种类型：标准盒模型：元素宽度=content宽度替代盒模型（通过box-sizing:border-box设置）：元素宽度=content+padding+border2.CSS选择器的优先级优先级从高到低：!important（覆盖所有规则
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
华为OD面试手撕真题 - 最大数无限码力华为OD面试手撕代码真题合集华为od 面试手撕真题华为OD面试手撕真题
题目描述给定一组非负整数nums，重新排列每个数的顺序（每个数不可拆分）使之组成一个最大的整数。**注意：**输出结果可能非常大，所以你需要返回一个字符串而不是整数。示例1输入：nums=[10,2]输出："210"示例2输入：nums=[3,30,34,5,9]输出："9534330"提示1<=nums.length<=1000<=nums[i]<=109题解力扣原题链接思路：贪心n个数字按字符
websocket和https的区别一路向北he websocket https 网络协议
1.WebSocket是双向通信特点：全双工（Full-Duplex）：客户端和服务器可以同时主动发送消息，无需等待请求-响应周期。长连接：建立连接后保持开放，适合实时交互（如聊天、游戏）。类比：类似电话通话，双方随时可以说话。2.HTTPS是“半双工”通信（基于请求-响应）特点：客户端发起请求，服务器返回响应：每次通信需要明确的请求触发（如浏览器加载网页）。短连接（默认）：HTTP/1.1后支持
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
综合智能监测系统设计：有害气体实时检测与管理黑泡尖子
本文还有配套的精品资源，点击获取简介：在工业化进程中，有害气体的排放对人类健康和环境构成威胁。设计一种智能监测系统，利用传感器技术、物联网和数据分析等，实时监控环境中有害气体的浓度，确保生产安全和环保。该系统涵盖硬件构建、软件开发和数据处理等环节，并提供高效准确的监测能力。系统集成了无线通信模块进行数据传输，具备数据预处理和分析能力，能够进行阈值设定与预警响应。用户界面友好，系统具有良好的集成性、
从“一人干多活”到“团队协作”：RTOS多任务调度，居然藏着这么多小聪明！
从“一人干多活”到“团队协作”：RTOS多任务调度，居然藏着这么多小聪明！你有没有过这种经历：一边炖着汤，一边炒着菜，还得时不时跑去看一眼烤箱里的面包，结果手忙脚乱打翻了盐罐？嵌入式系统处理任务时，也曾面临同样的“窘境”——裸机系统就像一个人包揽所有活，只能按顺序挨个做；而RTOS（实时操作系统）则像雇了个“智能调度员”，能让多个任务“轮流上岗”，甚至“紧急任务插队”，效率直接翻倍！今天咱们就从裸
docker命令 cherishSpring #docker容器 docker java eureka
目录1、常用命令2、容器生命周期管理创建一个新容器并运行一个命令杀掉一个运行中的容器删除一个或多个容器3、容器操作列出容器获取容器/镜像的元数据从服务器获取实时事件将文件系统作为一个tar归档文件导出到STDOUT4、容器rootfs命令从容器创建一个新的镜像检查容器里文件结构的更改容器与主机之间的数据拷贝5、镜像仓库登陆到Docker镜像仓库登出Docker镜像仓库从镜像仓库中拉取或者更新指定镜
智能体学习记录一罗同学213 学习
智能体是什么智能体（IntelligentAgent）是一种能够感知周围环境、自主决策并执行行动以实现特定目标的智能化系统或程序。它可以是软件（如聊天机器人）、硬件（如机器人），或两者结合的实体，核心特征包括：自主性：无需人工实时干预，独立运行（如自动驾驶车辆避障）。反应性：实时感知环境变化并快速响应（如智能家居调节温度）。目标导向：基于预设目标优化行动（如推荐系统最大化用户点击率）。学习能力：通
Spring Boot自动装配深度解析：从源码到面试的完整指南 weixin_54726354 springboot spring boot 面试后端
序章：一场关于自动装配的面试对话面试官：小王，你能跟我聊聊SpringBoot的自动装配吗？这可是SpringBoot的核心特性啊！候选人：当然可以！SpringBoot的自动装配就像是一个贴心的管家，它会根据你项目里的依赖自动帮你配置好各种Bean，比如你加了spring-boot-starter-web，它就自动给你配置好Tomcat、DispatcherServlet这些…面试官：不错不错，
Unity面试——lua(三)
简述Lua有哪8个类型?简述用途?nil空——可以表示无效值，全局变量（默认赋值为nil），赋值nil，使其被删除number整数table表——string字符userdata自定义function函数bool布尔thread线程If语句if(布尔表达式1)then–[在布尔表达式1为true时执行该语句块--]elseif(布尔表达式2)then–[在布尔表达式2为true时执行该语句块--]
从面试到晋升：美团技术专家的职业发展全记录 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶面试职场和发展 ai
从面试到晋升：美团技术专家的职业发展全记录关键词：美团技术专家、技术职级体系、面试准备、晋升路径、能力模型、技术管理、职业发展摘要：本文深度解析美团技术专家的职业发展路径，从面试准备阶段的简历优化、技术笔试、多轮面试策略，到晋升过程中的能力模型构建、项目实战经验、跨团队协作技巧，结合具体案例和实战经验，完整呈现从初级工程师到资深技术专家的成长轨迹。通过剖析美团独特的T序列职级体系、能力评估标准和考
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
Python.03 唯怡委员 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程是Linux中资源分配的基本单位，代表程序在内存中的执行实例，拥有独立的地址空间和系统资源。通过ps、top命令查看，kill命令终止，或使用systemctl管理服务进程。线程是进程内的轻量级执行单元，共享进程资源（如内存），切换开销小。Linux通过POSIX线程（pthread）库实现，可用htop查
Python.01 唯怡委员 python
Python.011.技术面试题（1）TCP与UDP的区别是什么？（2）DHCP和DNS的作用是什么？（3）简述Linux文件系统的目录结构，其中/boot、/var、/usr目录的作用分别是什么？（4）Linux系统突然无法访问外网，但内网通信正常。请列出至少5个可能的故障点及排查步骤。2.HR面试题（1）假如你成功入职，却发现直属领导能力远不如你，你会如何与他共事？（2）你简历上的经历并不突出
大数据领域数据架构的实时数据可视化架构 AGI大模型与大数据研究院 AI大模型应用开发实战信息可视化大数据架构 ai
大数据领域数据架构的实时数据可视化架构关键词：大数据架构、实时数据处理、数据可视化、流式计算、数据管道、可视化工具、性能优化摘要：本文深入探讨了大数据领域中实时数据可视化架构的设计与实现。我们将从基础概念出发，逐步分析实时数据处理流程，介绍关键技术和工具，并通过实际案例展示如何构建高性能的实时可视化系统。文章将涵盖数据采集、处理、存储和可视化展示的全链路架构，同时讨论性能优化策略和未来发展趋势。1
【中国电信运营商MBOSS】 flyair_China 数据分析
一、中国电信运营商MBOSS1.1中国四大电信运营商MBOSS1.1.1背景传统运营商系统存在"业务-运维-管理"功能混杂的痛点，导致：-业务响应速度慢（新套餐上线需跨多部门）-运维效率低下（故障定位平均耗时超2小时）-管理决策滞后（经营数据统计延迟达24小时）通过域划分可实现：✅功能解耦：各域专注核心职责✅数据贯通：跨域信息实时交互✅敏捷迭代：单个系统升级不影响全局域"角色定位"域分类服务对象核
大语言模型应用指南：网页实时浏览 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型应用指南：网页实时浏览作者：禅与计算机程序设计艺术1.背景介绍1.1大语言模型的崛起1.1.1自然语言处理的发展历程1.1.2Transformer模型的突破1.1.3预训练语言模型的优势1.2网页浏览的痛点1.2.1信息过载与检索困难1.2.2内容理解与知识提取1.2.3个性化与智能化需求1.3大语言模型与网页浏览的结合1.3.1智能问答与对话系统1.3.2知识图谱与语义搜索1.3.3
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe