Ververica

应用案例 | Blink 有何特别之处？菜鸟供应链场景最佳实践

本文授权转自阿里技术官方公众号（ali_tech）：菜鸟供应链业务链路长、节点多、实体多，使得技术团队在建设供应链实时数仓的过程中，面临着诸多挑战，如：如何实现实时变Key统计？如何实现实时超时统计？如何进行有效地资源优化？如何提升多实时流关联效率？如何提升实时作业的开发效率？而 Blink 能否解决这些问题？下面一起来深入了解。

背景

菜鸟从2017年4月开始探索 Blink（即 Apache Flink 的阿里内部版本），2017年7月开始在线上环境使用 Blink，作为我们的主流实时计算引擎。

为什么短短几个月的探索之后，我们就选择Blink作为我们主要的实时计算引擎呢？

在效率上，Blink 提供 DataStream、TableAPI、SQL 三种开发模式，强大的 SQL 模式已经满足大部分业务场景，配合半智能资源优化、智能倾斜优化、智能作业压测等功能，可以极大地提升实时作业的开发效率；在性能上，诸如 MiniBatch&MicroBatch、维表 Async&Cache、利用 Niagara 进行本地状态管理等内部优化方案，可以极大地提升实时作业的性能；在保障上，Blink 自带的 Failover 恢复机制，能够实现线程级的恢复，可以做到分钟级恢复，配合 Kmonitor 监控平台、烽火台预警平台，可以有效地实现实时作业的数据保障。

接下来，我将结合供应链业务的一些业务场景，简要说明，Blink 如何解决我们遇到的一些实际问题。

回撤机制

订单履行是供应链业务中最常见的物流场景。什么是订单履行呢？当商家 ERP 推单给菜鸟之后，菜鸟履行系统会实时计算出每笔订单的出库、揽收、签收等节点的预计时间，配送公司需要按照各节点的预计时间进行订单的配送。为了保证订单的准点履约，我们经常需要统计每家配送公司每天各个节点的预计单量，便于配送公司提前准备产能。

看似很简单的实时统计加工，我们在开发过程中遇到了什么问题呢？履行重算！当物流订单的上游某个节点延迟时，履行系统会自动重算该笔订单下游所有节点的预计时间。比如某个物流订单出库晚点后，其后的预计揽收时间、预计签收时间都会重算。而对于大部分的实时计算引擎来说，并不能很友好的支持这种变 Key 统计的问题。以前，数据量没那么大的时候，还可以通过 OLAP 数据库来解决这类场景，当量上来后， OLAP 方案的成本、性能都是很大的问题。

除了 OLAP 方案，我们提倡采用 Blink 已经内置的 Retraction 机制，来解决这类变 Key 统计的问题，这也是我们在2017年初就开始尝试 Blink 的重要原因。Blink 的 Retraction 机制，使用 State 在内存或者外部存储设备中对数据进行统计处理，当上游数据源对某些汇总 Key 的数据做更新时，Blink 会主动给下游下发一个删除消息从而“撤回”之前的那条消息，并用最新下发的消息对表做更新操作。

下面是一个简化后的案例，供了解 Blink Retraction 的内部计算过程：

对于上述案例，可以通过 Blink 提供的强大的、灵活的、简易的 SQL 开发模式来实现，只需要几行 SQL 即可完成。

select   plan_tms_sign_time
       ,sum(1) as plan_tms_sign_lgtord_cnt
from
       (select   lg_order_code
                ,last_value(plan_tms_sign_time) as plan_tms_sign_time
        from     dwd_csn_whc_lgt_fl_ord_ri
        group by lg_order_code
        ) ss
group by plan_tms_sign_time
;

维表关联

供应链业务的实体角色非常多（仓、配、分拨、站点、小件员、货主、行业、地区等），实体繁多，这意味着我们在建设实时明细中间层的时候，会使用大量的维表关联，这对 Blink 在维表关联的性能上提出了更高的要求——如何提升大量的大小维表的关联性能？Blink 从来没让用户失望，Blink SQL 模式在维表关联的性能上，也做了大量的优化：

优化1：Async IO，有一些实时计算引擎，维表关联是采用同步访问的方式，即来一条数据，去数据库查询一次，等待返回后输出关联结果。这种方式，可以发现网络等待时间极大地阻碍了吞吐和延迟。而 Blink 采用了异步访问的模式，可以并发地处理多个请求和回复，从而连续地请求之间不需要阻塞等待，吞吐量大大提升。

优化2：缓存，维表关联涉及到大量的维表查询请求，其中可能存在大量相同 Key 的重复请求。Blink SQL 模式提供了缓存的机制，并提供 LRU 和 ALLCache 两种缓存方案。

用户可以通过配置 Cache=‘LRU’ 参数，开启 LRU 缓存优化。开启后，Blink 会为每个 JoinTable 节点创建一个 LRU 本地缓存。当每个查询进来的时候，先去缓存中查询，如果存在则直接关联输出，减少了一次 IO 请求。如果不存在，再发起数据库查询请求，请求返回的结果会先存入缓存中以备下次查询。

如果维表数据不大，用户可以通过配置 Cache=‘ALL’ 参数，对维表进行全量缓存。这样，所有对该维表的查询操作，都会直接走本地缓存模式，几乎没有 IO，关联的性能非常好。

优化3：缓存无效 Key，如果维表很大，无法采用 ALLCache 的方案，而在使用 LRU 缓存时，会存在不少维表中不存在的 Key 。由于命中不了缓存，导致缓存的收益较低，仍然会有大量请求发送到数据库，并且 LRU 模式下缓存里的 key 不会永久保留，可以通过调整参数，设置保留时间。

优化4：Distribute By 提高缓存命中率，默认情况下，维表关联的节点与上游节点之间是 Chain 在一起，不经过网络。这在缓存大小有限、Key 总量大、热点不明显的情况下, 缓存的收益可能较低。这种情况下可以将上游节点与维表关联节点的数据传输改成按 Key 分区。这样通常可以缩小单个节点的 Key 个数，提高缓存的命中率。

除了上述几点优化，Blink SQL 模式还在尝试引入 SideInput、Partitioned ALL Cache 等优化方案，相信在随后开源的 Blink 版本中，维表关联的性能会越来越好。

下面是一张来自 Flink Committer 云邪异步查询的流程图，供理解与同步请求的差异。

数据倾斜

无数据不倾斜，我们在实时数仓建设过程中，也当然会遇到数据倾斜问题。在统计卖家的单量时，有些卖家单量大，有些卖家单量小，单量超大的卖家，就会产生数据倾斜；在统计行业的单量时，有些行业单量大，有些行业单量小，单量超大的行业，就会产生数据倾斜；在统计货品的库存流水情况时，有些货品库存流水频繁，一些货品库存流水较少，库存流水超频繁的货品就会产生数据倾斜……

我们应该如何处理数据倾斜问题呢？以统计卖家的单量为例，以前我们会先把订单这个 Key 作 Hash，先针对 Hash 之后的值做一次去重的聚合操作，再在此基础上，再做一次针对原 Key 去重的聚合操作。两次类似的聚合操作，导致代码写起来比较复杂，体力劳动比较多。

2017年，我们的实时数据开始全面切换到 Blink 上，Blink 在数据倾斜这块，又给我们提供了什么的方案呢？Blink 给出的答案是：MiniBatch/MicroBatch+LocalGlobal+PartialFinal。

MiniBatch/MicroBatch，可以实现微批处理，进而减少对 State 的访问，提升吞吐。因为微批处理会导致一定的延迟，最好结合 Blink 提供的允许延迟的相关参数来使用。

LocalGlobal，分为 Local 和 Global 两个阶段，有点类似 MapReduce 中的 Combine 和 Reduce 两个阶段。LocalGlobal 可以很好地处理非去重类的聚合操作，但对 Count Distinct 的优化效果一般，因为在 Local 阶段，可能 Distinct Key 的去重率并不会很高，进而导致后续的 Global 阶段，仍然会有热点。

PartialFinal，可以很好地解决 Count Distinct 带来的数据倾斜问题。PartialFinal 可以将 Distinct Key 自动打散，先聚合一次，在此基础上，再聚合一次，从而实现打散热点的作用。PartialFinal 跟手动 Hash 再聚合两次的效果一致，通过 Blink 提供的 PartialFinal 参数，可以自动实现，不再需要人为手工编写 Hash 再聚合两次的代码。

由上可以看出，Blink 在数据倾斜的处理上，已经实现了自动化，以前人为编写的打散热点方案，现在几个参数就能全部搞定，大大提升了代码的编写效率。

下面是相关参数，用户可以直接在 Blink 的作业参数中进行配置。

# miniBatch/microBatch攒批的间隔时间
blink.miniBatch.allowLatencyMs=5000
blink.microBatch.allowLatencyMs=5000
# 防止OOM，每个批次最多缓存多少条数据
blink.miniBatch.size=20000

# 开启LocalGlobal
blink.localAgg.enabled=true
# 开启PartialFinal
blink.partialAgg.enabled=true

超时统计

上架是仓储业务的重要组成部分。上架，顾名思义，就是要把到仓的货品，上到仓库的存储货架上。上架一般分为采购上架、销退上架、调拨上架等。及时上架是对仓库的重要考核项之一，无论哪一种类型的上架，我们经常需要针对到货后超过 x 小时未上架的订单进行预警。

但是，Blink 的计算是消息机制，需要上游发送消息才能触发下游计算，而上述的场景中，未上架就说明不会有上架的消息流入 Blink，进而无法完成下游的计算。

对于这种实时超时统计的问题，应该如何来解呢？我们尝试了几种方案，供参考：

方案1：针对部分 Source Connector，Blink 提供了"延时下发"的功能，用户可以通过指定 DataDeliveryDelayMs 参数，实现消息延迟下发。正常的消息正常流入，正常消息也可以通过配置该参数，使其按照自己的需求延时流入。这样，通过正常流入的消息关联延时流入的消息，可以触发 Blink 在消息正常流入时计算一次，在延时消息流入时再触发计算一次。这种方案，可以实现我们的业务需求，但是这种方案会把所有消息重新发送一遍，而不仅仅是到货后超过x小时未上架的消息，这样会造成计算资源的浪费，我们不建议在数据量很大的场景下使用该方案。

方案2：如果有第三方的消息中间件，而这个消息中间件又能支持配置超时下发的规则，这将是一个比较好的方案。据了解，Kafka 的最新版本已经能够根据业务需求，配置消息超时下发的规则。我们只需要在 Blink 中，通过正常流入的消息流关联关键Kafka 超时下发的消息流，就可以触发 Blink 进行超时消息的统计。这样，除了Blink，我们需要同时保障 Kafka 的稳定性。Kafka 的超时消息订阅，可以参见：[1]。

方案3：我们能够很自然的想到 CEP，而 Blink 也已经提供了 CEP 的功能，且已经 SQL 化。用户可以通过 Blink CEP 完成上述业务需求的统计。在实操过程中，我们发现，通过 Blink CEP 统计的结果，往往与真实结果(明细汇总统计)有一定的出入。什么原因呢？原来到货时间，被回传了多次，有可能开始回传的是9点，但是后面发现回传错了，改成了8点，而 CEP 的 Watermark 是全局地向前走的，对于这种场景，无法很好的适配。

方案4：Flink 的 ProcessFunction，是一个 Low-Level 的流处理操作。通过改写其中的 ProcessElement 方法，可以告诉 Blink 的 State 里面存什么，以及如何更新 State；通过改写 OnTimer 方法，可以告诉 State 何时下发超时消息。通过对上述几种方案的原理对比及性能压测，我们最终选择的也是这套方案。由于超时场景，在供应链业务中非常常见，我们已经将该方案沉淀下来，同样的场景，通过 1min 配置下相关参数，即可完成类似场景超时消息的下发。

下面是方案4简化后的实现框架图，供了解相关实现及优势。

零点起跳

每次大促，大屏上零点时刻双十一的零点时刻一直是大家关注的焦点，为了在零点一过就让各项指标尽快在大屏上展现出来，我们进行了一些端到端的优化，供参考。

优化1：合理调整 Blink 读取上游消息源的 FlushInterval 。我们知道 Blink 是以 Block 的形式传输数据，如果 Block 一直积攒不满，Block 可能一直等待无法下发。这种情况，我们可以通过调整 FlushInterval 参数，直接控制多长时间往下游 sink 一次。这样，Block 积满或间隔达到满足其中一个条件，Block 就会往下流。

优化2：合理调整 MiniBatch/MicroBatch的size 和 AllowLatency 参数。前文提到，MiniBatch/MicroBatch 是微批处理模式，都会带来一定的延迟，可以通过合理控制 Size 和 AllowLatency 参数，来控制该模式带来的延迟。与优化1一样，两者满足其一，就会往下继续执行。

优化3：合理控制写 Checkpoint 的方式以及 Checkpoint 的大小。利用 Checkpoint 实现 Exactly Once 的容错方式一直是 Flink 作为流引擎的一个亮点。但是过于复杂的运算和网络环境有可能导致 Checkpoint 的对齐时间过长，从而导致整个 Job 的延迟变长。同时，Exactly Once 模式下做 Checkpoint 的时间间隔与整个任务中数据流的延迟也是一个 Trade Off。因此我们在处理特别复杂的 Job 时也将这个因素考虑了进去，并没有使用默认的 Exactly Once 方式，而是依旧实际需求采用了 At Least Once 。同时，将 Checkpoint 的周期设置为了60s，尽可能的保证了任务在延迟较小的情况下，在 Failover 的情形下仍然能做到快速恢复。

优化4：除了 Blink 端，在数据服务端，大屏上的实时数据，我们建议采用查询性能优异的 Hbase 作为存储引擎，可以保证零点一过，三秒内便能实现大屏数据的跳动。

……

未来展望

Blink 在不断快速地发展，不仅仅是流处理，当前也开始支持批处理，用户只需要写一套代码就可以同时实现批和流的数据开发，当前在日志型的数据场景上，我们也正在探索利用 Blink 直接实现批流混合模式；不仅仅是半智能资源调优，当前开始内测智能资源调优，Blink 可以根据吞吐量、算子复杂度等因素，对线上作业的资源配置进行全智能自适应调优，再也不用在大促前手动更改资源配置；不仅仅是 Java，更期望有 Python 等多语言生态，来描述计算逻辑，相信开发效率又会上一个新的台阶；不仅仅是 ETL，更期望有更广阔的大数据算法集成，可以实现复杂的大数据AI场景……未来已来，我们相信，Blink 已经做好了迎接未来的准备。

参考资料：
[1]https://ketao1989.github.io/2016/01/02/delayed-message-consume-service-use-kafka/

深入理解DAG任务调度系统：核心原理与实现 AI天才研究院计算 Python实战编程实践 python 算法 dag
1.背景介绍随着大数据、人工智能等领域的发展，任务调度系统的重要性日益凸显。DirectedAcyclicGraph(DAG)任务调度系统是一种常见的任务调度系统，它可以有效地解决多个依赖关系复杂的任务调度问题。本文将深入探讨DAG任务调度系统的核心原理和实现，为读者提供一个深入的理解。1.1背景介绍1.1.1任务调度系统简介任务调度系统是计算机科学中一个重要的研究领域，它主要关注于在并行计算系统
Salesforce联手阿里云，销售易联手腾讯，还在靠”卖血求生“的CRM独立玩家何去何从？ saas
销售易官宣与腾讯战略合作升级，腾讯集团副总裁、腾讯政企业务总裁李强担任销售易董事长，销售易创始人史彦泽继续担任CEO。这场"资本+技术+生态"的强强联合，将行业竞争推向新维度，融资竞赛不再是SaaS企业生存的唯一筹码，中国企服市场正在发生深层变革。消息一出，便受到很多人的关注，这首当其中，最高兴的算要数销售易的客户，源自其将获得的三大核心价值升级，腾讯将进一步开放云计算、大数据、AI等核心技术能力
mysql实时同步到es 数据库
测试了多个方案同步，最终选择oceanu产品，底层基于Flinkcdc1、实时性能够保证，binlog量很大时也不产生延迟2、配置SQL即可完成，操作上简单下面示例mysql的100张分表实时同步到es，优化备注等文本字段的like查询创建SQL作业CREATETABLEfrom_mysql(idint,cidintNOTNULL,gidbigintNOTNULL,contentvarchar,c
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
YashanDB访问约束数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...访问约束是YashanDB特有的一种关系数据结构，基于有界计算理论的访问约束模型（AC，AccessConstraint）实现：通过在数据源上建立AC，实现大数据变小的模型变换。在查询时，通过访问AC数据，缩小查询代价和提升查
探索天气预警API：精准预测，守护安全 api
引言在当今这个快速变化的世界中，天气的波动直接影响着人们的日常生活、农业生产、交通出行乃至公共安全。为了有效应对各种极端天气事件，天气预警API应运而生，成为连接气象数据与公众服务的重要桥梁。本文将深入探讨天气预警API的工作原理、应用场景以及其对社会的积极影响。天气预警API的工作原理天气预警API基于先进的气象监测技术和大数据分析，通过收集全球范围内的气象卫星、雷达、地面观测站等数据源，进行实
Flink CDC报错ArrayIndexOutOfBoundsException解决思路学亮编程手记大数据 flink doris
FlinkCDC用两个并行度会报错。一个并行度就不会报错。不知道是什么原因？同步java.lang.ArrayIndexOutOfBoundsException？解决思路看日志，应该是mysql文本字段中有换行符之类的，应该会有一个url的报错提示，然后curl那个url看具体报错。这个问题可能是由于FlinkCDC的并行度设置不正确导致的。当您尝试使用两个并行度时，可能会遇到数组越界异常（jav
深入解析：Tableau在数据可视化中的高级应用 Echo_Wish 实战高阶大数据信息可视化数据分析数据挖掘
深入解析：Tableau在数据可视化中的高级应用引言在大数据时代，数据可视化已成为数据分析中不可或缺的一部分。作为一款广受欢迎的数据可视化工具，Tableau以其强大的功能和灵活性，赢得了众多数据分析师的青睐。然而，许多人在使用Tableau时，仅停留在基本操作层面，未能充分发挥其潜力。本文将深入探讨Tableau的高级应用，展示其在复杂数据分析中的强大能力，并以具体实例说明其实际应用效果。数据预
Sharding-JDBC 实现分库分表一叶飘零_sweeeet java 分布式 mysql Sharding-JDBC 分库分表 java mysql
一、引言随着互联网业务的快速发展，数据量不断增长，传统的单一数据库架构已经难以满足高并发、大数据量的存储和查询需求。分库分表技术成为了解决这些问题的重要手段。Sharding-JDBC作为一款优秀的数据库中间件，能够方便地实现分库分表，提高系统的性能和可扩展性。本文将详细介绍Sharding-JDBC实现分库分表的实战过程。二、Sharding-JDBC概述（一）Sharding-JDBC的定义和
阿里云 MaxCompute MaxQA 开启公测，解锁近实时高效查询体验阿里云大数据AI技术阿里云云原生 MaxCompute 大数据实时数仓
随着实时、近实时数据分析需求的持续增长，查询响应时间在现代数据分析和业务应用中变得越来越重要。为减少查询响应时间，提升数据效率，阿里云云原生大数据计算服务MaxCompute推出MaxQA（原MCQA2.0）查询加速功能，在独享的查询加速资源池的基础上，对管控链路、查询优化器、执行引擎、存储引擎以及缓存机制等多个环节进行全面优化，显著减少了查询响应时间，适用于BI场景、交互式分析以及近实时数仓等对
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
EBS 性能不足？从吞吐量到 IOPS，阿里云全方位优化 Anna_Tong 阿里云云计算存储加速吞吐量优化 RAID配置云计算运维 IOPS 提升
在云计算环境中，存储性能对于业务稳定运行至关重要，尤其是数据库、大数据分析、AI计算等高IO需求的应用。然而，许多用户在使用EBS（弹性块存储）时，可能会遇到磁盘吞吐量或IOPS（每秒输入/输出操作数）不足的问题，导致应用响应变慢、数据处理延迟，甚至影响业务连续性。那么，是什么原因导致EBS性能瓶颈？如何优化吞吐量和IOPS以提升存储性能？阿里云又能提供哪些优化方案？本文将从存储架构、性能监控、优
DeepSeek接入大数据能做什么 PersistDZ 大数据与AI 大数据
DeepSeek作为一家专注于AGI和AI大模型技术的公司，在大数据领域可以通过以下方式切入，结合其核心能力提供创新解决方案：一、DeepSeek接入大数据领域的技术路径多模态数据处理能力支持文本/图像/视频/传感器数据的统一处理自主研发的MoE（MixtureofExperts）架构可并行处理异构数据超大规模特征工程基于千亿参数模型的自动特征提取支持非结构化数据的深度语义解析实时计算优化自研分布
Hadoop01-入门&集群环境搭建--非原创（test） xl.liu 大数据 Test
Hadoop01-入门&集群环境搭建今日内容Hadoop的介绍集群环境搭建准备工作Linux命令和Shell脚本增强集群环境搭建来来来大数据概述大数据:就是对海量数据进行分析处理，得到一些有价值的信息，然后帮助企业做出判断和决策.处理流程:1:获取数据2:处理数据3:展示结果1：Hadoop介绍Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.它主
AI技术在音乐产品中有哪些应用场景？大数据人工智能音乐大数据
自动标注、平滑过渡、音乐鉴权、AI创作，当AI技术应用于音乐行业为人类的精神文化与娱乐生活带来便利和更多选择时，也是一件让人激动不已的事情。随着深度学习算法的出现、大数据和5G技术的成熟，AI人工智能已逐渐融入我们的生产生活中，在教育、医疗、政务办公、城市管理等多个方面发挥作用。随着AI技术在音乐行业研究及应用的深入，音乐人工智能已经不新鲜，很多新的应用和产品已经惊艳亮相。基于对于音乐技术及产品的
iot架构 mqtt netty_一个关于小程序Iot的具体实现（MQTT版） Alfred Cheng iot架构 mqtt netty
前言Iot，这个名词应该很多人都听过了吧，即大数据、Ai等兴起后也紧跟着研发大潮流的到来，即物联网。传统简单的说就是智能化、程序化的控制硬件设施，大家最容易想到的应该是智能家居，通过一个App或者遥控进行对家具设置的远程控制。而今天要说的是人与物之间的通信控制，且通过互联网产品来执行人的命令，而机器进行应答。竞品说到小程序控制硬件，大家应该立马想到什么产品呢？某拜、某FO、售货机等等，他们的架构上
智慧园区安全调度的重要性 Guheyunyi 安全网络 python 大数据人工智能信息可视化数据分析
随着科技的飞速发展，智慧园区作为现代城市的重要组成部分，正逐渐成为企业、政府和居民生活的重要载体。智慧园区通过物联网、大数据、人工智能等先进技术，实现了资源的高效配置和管理的智能化。然而，随着园区规模的扩大和复杂性的增加，安全问题也日益凸显。因此，智慧园区的安全调度显得尤为重要。智慧园区安全调度的定义智慧园区安全调度是指通过先进的技术手段和管理方法，对园区内的各类安全风险进行实时监控、预警和应急处
（一）大数据---Hadoop整体介绍（架构层）----（组件(3) 2401_84166965 程序员大数据 hadoop 架构
复杂性:体现在数据的管理和操作上。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性二、大数据技术有哪些（重点）===================================================================================基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计
聚焦银行业数智化转型，火山引擎数据飞轮系列白皮书重磅发布大数据
随着金融科技的快速发展，银行业也在不断提升数字化水平。通过大数据、人工智能等技术的应用，银行可以更加精准地了解客户需求，提供个性化的金融产品和服务，还能降低运营成本，提升风险管理能力，创造更多业务价值。《金融科技发展规划（2022~2025年）》也明确指出，以加强金融数据要素应用为基础，以深化金融供给侧结构性改革为目标，以加快金融机构数字化转型、强化金融科技审慎监管为主线，将数字元素注入金融服务全
携手鲲鹏昇腾 HashData展现云原生数仓创新力量数据库
5月9日-11日，鲲鹏昇腾开发者大会2024在北京中关村国际创新中心举行，众多行业领袖、专家学者及优秀开发们齐聚一堂，分享产业趋势、技术创新和应用实践。酷克数据作为华为鲲鹏生态重要合作伙伴，受邀出席本次大会，展示其与鲲鹏昇腾生态联合开发的云数仓解决方案及应用案例，与全球开发者共同探讨云原生数仓前沿技术。今年两会政府工作报告明确提出：“深化大数据、人工智能等研发应用，开展人工智能+行动，打造具有国际
遥感影像目标检测：从CNN（Faster-RCNN）到Transformer（DETR）岁月如歌，青春不败生态遥感目标检测 cnn transformer 遥感遥感影像
我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。未来10年全球每天获取的观测数据将超过10PB，遥感大数据时代已然来临。一：深度卷积网络知识1.深度学习在遥感图像识别中的范式和问题2.深度学习的历史发展历程3.机器学习，深度学习等任务的基本处理流程4.卷积神经网络的基本原理5
创新市场调查方法，精准把握消费者脉搏（消费者调查） zhonglidc01 消费者调查市场调查咨询大数据人工智能
在当今竞争激烈的市场环境中，（第三方市场调查）企业要想精准把握消费者需求，制定有效的市场策略，（市场咨询公司）创新的市场调查方法至关重要。成都中立调查公司凭借17年的深厚调研经验，（问卷调查）结合线上线下调查、运用大数据分析等创新举措，致力于为客户提供更具前瞻性的市场洞察，助力企业精准把握消费者脉搏，提升市场竞争力。一、结合线上线下调查，全面覆盖消费者群体线上调研：便捷高效，触达广泛受众在互联网时
揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界寒水馨 Linux问题解决方案服务器 linux 智能家居
揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界文章目录揭秘Linux：从服务器到智能家居，一个操作系统如何改变世界引言：Linux，不仅仅是一个操作系统Linux在企业级应用中的霸主地位云计算与虚拟化：Linux的天下大数据与人工智能：Linux的助推器Web服务器：Apache和Nginx的最佳搭档Linux在移动和嵌入式设备中的崛起Android：Linux的最成功衍生品物联网（
Flink 源码笔记03—StreamGraph到JobGraph 董嘻嘻 Flink源码笔记 flink java big data
文章目录简介入口函数traverseStreamGraphAndGenerateHashesgenerateDeterministicHashgenerateUserSpecifiedHashsetChainingisChainable简介JobGraph可以认为是StreamGraph的优化图，它将一些符合特定条件的operators合并成一个operatorchain，以减少数据在节点之间序列
探索大数据处理：利用 Apache Spark 解锁数据价值 Echo_Wish 实战高阶大数据 apache spark 大数据
探索大数据处理：利用ApacheSpark解锁数据价值大家好，我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天，我们来聊聊如何利用ApacheSpark进行大规模数据处理。ApacheSpark作为一个快速、通用的集群计算框架，以其出色的性能和丰富的API，成为大数据处理的利器。那么，ApacheSpark究竟如何帮助我们高效处理海量数据？接下来，让我们一起深入探讨。一、ApacheS
flink核心特性 24k小善 flink 大数据 java 架构
ApacheFlink核心特性详解一、流处理与批处理的统一Flink的核心设计理念之一是将流处理和批处理统一在一个框架中。这种统一性使得Flink在处理实时数据和批量数据时具有高度的灵活性和一致性。1.流处理与批处理的统一计算引擎流处理作为批处理的特例：Flink将批处理视为有限流（FiniteStream），从而实现了流处理和批处理的统一。统一API：Flink提供了DataStream和Dat
flink反压详解 24k小善 flink 架构大数据 AI编程
Flink背压/反压（Backpressure）详解在ApacheFlink中，背压（Backpressure）是一个常见的性能问题，通常表现为数据流在某些节点处积压，导致整体处理速度下降甚至停滞。背压的发生可能源于硬件资源限制、任务逻辑复杂性、数据分布不均或外部系统瓶颈等因素。本文将从多个角度详细讲解Flink的背压问题，包括其成因、影响以及解决方案。一、什么是Flink背压？背压是指在数据流处
十四、Flink源码阅读--JobGraph生成过程灰二和杉菜 Apache Flink Flink JobGraph生成源码分析
上篇分析了client整个提交任务过程，最终提交的是一个JobGraph对象，那么是如何从jar或sql任务转为JobGraph的呢，这篇我们仔细研究一下,版本为1.6.3源码分析上篇我们介绍client端提交任务最终会到到ClusterClient.run()方法，就在这个方法中封装了JobGraph的步骤。publicJobSubmissionResultrun(FlinkPlancompil
最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理 Toroidals 大数据组件安装部署教程 hudi1.0.1 源码编译教程最新
1.最新ApacheHudi1.0.1源码编译2.Flink、Spark、Hive集成Hudi1.0.13.flinkstreaming写入hudi目录1.版本介绍2.安装maven2.1.下载maven2.2.设置环境变量2.3.添加Maven镜像3.编译hudi3.1.下载hudi源码3.2.修改hudi源码3.3.修改hudi-1.0.1/pom.xml，注释或去掉410行内容3.4.安装c
浅聊读写分离不全数据库 JAVA C#相关数据库读写分离 C#JAVA
一、前言最近工作很繁忙，同事的离职给我带来了很多的事情，投身于博客的时间比较少，另外在宿舍住可能部分的时间要随大流，鹤立鸡群有一些不好，当然这也是给自己找借口和理由，趁着周末整理下最近的感悟；另外公司用的ElasticSearch，最近我也在探索，微服务方面暂时搁浅，待到搬出宿舍的时候在开始一波666的操作；另外随着数据量增加自己还需要去接触波大数据东西，不得说真是有些挑战和机遇，看自己如何把握了
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa