Ververica

Apache Flink 在快手的过去、现在和未来

摘要：本文由快手大数据架构团队负责人赵健博分享，主要介绍 Apache Flink 在快手的过去、现在和未来。内容包括：

为什么选 Flink
Flink 在快手的发展
业务数据流
技术创新
未来计划

Tips：点击文末「阅读原文」即可回顾作者原版分享视频～

一、为什么选 Flink

大家好，我是赵健博，来自快手，目前负责快手大数据架构团队。今天很高兴可以和大家分享我们在 Flink 项目上的应用、改进与发展历程。

先来看一下我们选择 Flink 引擎的主要原因：

首先，Flink 能做到亚秒级处理延迟。目前大部分的业务需求对实时处理延迟要求越来越高，这是个最基本需求。
其次，Flink 有丰富的窗口计算模式，且自带状态存储引擎以及精准一次的语义，这个能力极大简化了数据的处理复杂度，显著提升了研发的速度。
最后，批流一体能力以及研发模式的变革，也将进一步提效研发，为业务赋能。

本次会议也看到了很多公司都在分享批流一体落地实践，相信流批一体全场景落地的大进程也将指日可待。

二、Flink 在快手的发展

Flink 在快手的发展历程，总的来说可以分为四个阶段：

我们是从 17 年开始使用 Flink 的，17 年我们主要是初步试用，当时接入的业务是直播与短视频的质量监控业务。
进入到 2018 年之后，在能力上，我们开始对 Flink 进行成周边体系的建设，例如，构建引擎内部 metric 的采集，监控与报警流程、作业托管平台上线等。与此同时，我们也在不断的加深对 Flink 的理解，修炼内功；在业务上，开始接入直播 CDN 流量调度，日志实时拆分、投放分析、客户端 Crash 分析等场景。
进入到 2019 年后，随着对 Flink 引擎掌控力的加强，我们开始进行一些稳定性与性能相关的改进，主要包括防雪崩，流控、分级保障、参数热更新、自研状态存储引擎 Slimbase、实时多维建模等。在业务上，开始支撑春节活动大屏、实时多维分析、曝光/点击流实时 Join 等场景。
到 2020 年后，我们除了持续关注稳定性性能之外，也在推进效率改进，例如调研并开始试用 Flink SQL，以及流批一体能力。在业务上，采用 Flink SQL 支撑活动大屏、开始通过 Flink 以及流批一体能力建设 AI 数据流、实时报表、直播精彩时刻等业务场景。

截止到目前，快手 Flink 从业务规模上看有若干集群，集群有数千机器，目前还是部署在 YARN 上，后续也会考虑迁移到 K8s 上。总的作业 2000 左右，这些作业每天处理 20 多万亿条的记录，其中峰值达到每秒 6 亿条的规模。

三、业务数据流

1. 数据流的总体架构图

接下来，让我们看下快手 Flink 目前应用的一些业务场景与业务数据流的案例。

下面这张图是一个数据流的总体架构图，从这张图中，大家能看到数据的源头有三类数据，一个是数据库中的数据，一个是服务端的日志，最后是客户端的日志，这些日志上报给 Kafka 的服务。

在快手，所有日志或者消息都是通过 Kafka 服务流转的。数据进入到 Kafka 之后分别流转到实时数据链路，以及离线数据链路上（实时同步到 Hive）。在实时链路上，目前 Flink 支撑了很多业务场景，如：实时 ETL、数据集成、实时报表计算、实时监控、实时实时特征等等。这些数据通过 Flink 实时计算处理之后，将流入到各种类型的数据库中，例如多维数据库（Druid/Clickhouse），MySQL、Redis、HBase 等等。之后各类的数据产品、数据应用、业务应用从这些数据库中获取最新的聚合或者结果数据，进行业务的处理。

2. 实时 ETL 场景

接下来，我们展开介绍下上述各个场景下的业务数据流图。在实时 ETL 场景下，目前我们主要在推广使用 Flink SQL 进行数据的实时 ETL。下图左侧展示了实时 ETL的流程，其中 Kafka 中的 topic 的 schema 都被元数据服务管理起来了。Flink 引擎首先访问元数据中心获取 Topic 的 schema，然后将 Topic 转成实时表，并通过 SQL 完成 ETL 的处理落地。右侧的 SQL 是我们进行数据拆分的案例。

3. 数据集成场景

在数据集成场景下，如左图所示，通过 Flink 引擎可以很方便地完成 Kafka/HBase/ES/Hive/Redis 等服务的数据交换。相比于其他引擎，Flink 的 source/sink 支持的服务种类更丰富，且更加方便扩展。除此之外，除了离线数据交换，Flink 是天然支撑实时场景的。

4. 实时报表的场景

在实时报表的场景下，介绍下 Flink 支持快手春节活动的实时数据链路。

如图所示，整个数据流从左到右共分为 4 层，分别是 ODS 层、采样层、指标逻辑计算层、数据服务层。

最开始是原始的 ODS 层数据，通过客户端，服务端，或者是 DB 直接打到 Kafka 的 topic 中形成一个 ODS 层，这一层的数据经过 Flink 的处理，再写回 Kafka，形成一个采样层。
采样层提出来的原因主要是，面向春节活动的流量高峰，没法精准预知它的峰值有多高，所以我们需要具备对整个流量进行采样的能力，以便能够在有限的资源下应对洪峰。一旦洪峰来了，可以进行数据采样处理，有效降低计算资源的消耗，同时再通过采样的规则在后续逻辑计算层还原采样之前数据指标的结果。
数据被采样之后再通过 Flink 进行逻辑层的计算，例如留存、新增、PV、UV 等指标，然后将这些指标最终保存到 Redis 或者多维引擎中。在这个计算过程中，当时采用的是外部存储与服务进行了 UV，以及新增的计算。在未来的活动支撑中，我们会逐渐替换为 Flink 自己的 state 引擎。
最后，各类数据产品与服务，如大屏，看板等，从 Redis 或者多维引擎中获取数据进行展示以及策略的调整。

5. 实时监控场景

在实时监控这个场景下，介绍下快手直播质量监控和 CDN 流量调度链路。

首先数据通过埋点采集，打到 Kafka 之后，在实时链路的处理上，通过 Flink 进行数据的清洗、转换、聚合，形成 DWD 和 DWS 层的数据，这些数据也会最终写回 Kafka。之后，会把 DWS 层的数据导到后面的 OLAP 这种数据库中。然后上层的 BI 服务通过访问数据库中的数据进行报表的展示，从而完成监控，以及数据决策。同时，质量计算的调度结果数据存储 Redis，供在线 CDN 调度服务提供决策依据。

在离线链路上，可以考虑从实时链路中的每一层进行数据的导出，导到 Hive 表中。这部分数据的保存主要是为了解决 Ad hoc 分析，以及当实时流数据出现问题，进行的离线的数据修正。

6. 特征处理场景

最后一个业务场景，介绍一个 AI 数据流案例，特征处理与索引生成流程。在快手，有大量的特征需要处理，特征的处理与管理效率对模型迭代效率有很大影响。采用 Flink 进行特征与索引的处理，在管理上与研发效率上都有比较大的优势。

目前我们借助 Flink 完成了一部分的特征与索引生产流程，如图所示，行为数据通过 Kafka 流入 Flink 之后，利用 Flink 的窗口计算能力完成各种类型的特征实时计算，之后将特征存储到特征库中，同时也会同步一份数据到 Hive 中，用作做特征离线数据流处理；除此之外，当有索引需要生成的时候，会通过 Kafka 触发生成策略，下游的索引生成的 Flink 作业从各种特征库中获取特征并进行处理后，形成索引，存储到索引库中。最终的索引数据，为在线的推荐服务提供召回源。

四、技术创新

1. 状态引擎

接下来重点介绍一下 Flink 在快手做的一些技术改进和创新。首先介绍下我们自研的状态引擎 Slimbase。它在设计上分了三层：

接口层，在接口层主要兼容目前状态存储的几类接口，value、list、map 状态等。
中间层，我们构建了一个 KV 的 cache 层，主要是做数据的读和写的加速。在这层内部，又分为高速 KV 层和 Chunk 层，高速 KV 层（HashMap）有非常快的存取速度，但是空间利用率比较低。为了节省空间，我们又在整个高速 KV 层下面建了一个 Chunk 层，一个 Chunk 是多个 KV 序列化组成的。通过这种序列化的组织之后，在某些场景下相比于 KV 层能够节省约 60% 的空间。但是在存取速度上会有一定程度的降低。实际使用的时候，可以根据实际情况灵活控制高速 KV 层与 Chunk 层的容量配比。
分布式文件系统层，缓存层被淘汰的数据将会写入到文件系统层，最终形成一个个文件。为了提高文件系统层面的读取性能，多个文件会通过 compaction 进行合并。此外，文件系统层有文件块级别的缓存，具备缓存热点数据能力

以上就是 Slimbase 整体架构。下面我们看看 Flink Benchmark 跑出来结果（和RocksDB 对比）。本次测试采用了相同大小的缓存，数据集采用了50w、1500w、5000w 三种规模。

目标是测试三种场景下的结果：

仅覆盖高速 KV 缓存；
覆盖高速 KV 缓存 +Chunk 缓存；
覆盖 KV 高速缓存 +Chunk 缓存+文件系统；

这是 50 万的数据集，这些数据集全部是在高速的 KV 层中的。从测试结果上看，相比 RocksDB，Slimbase 读写有 3~9 倍的性能提升。

在 1500w 数据规模下，数据会分布在高速的 KV 层加 Chunk 层，相比 RocksDB，读写有 2~6 倍的性能提升。

在 5000w 数据规模下，数据命中的层次变得更多，把文件系统也覆盖到了。相比前两个场景，我们发现性能有比较大的下降。相比 RocksDB，读性能 0.5~0.7；写性能 0.90~4 倍。所以我们接下来会在整个文件系统层的存取性能上，会做专项的优化，提升整个文件系统的性能，最终可以超过 RocksDB 性能。

2. 稳定性

在介绍稳定性的改进前，我们先来看一下影响 Flink 稳定性的因素有哪些。我这里总结了三点：

硬件故障，例如机器故障，机柜故障，Tor 故障，机房故障等。
Flink 依赖的服务异常，例如 Kafka 集群异常，HDFS 服务异常等。
Flink 流量过载，例如硬件满载，以及由于数据源消费速度差异导致的满载。

在硬件故障场景下，这里面取了一个单点的场景。看下这个 Flink 作业，由两个 source，一个 window 组成。右侧是 Flink 作业的物理部署的情况。最大的框代表一台机器，大框里面的多个小框代表多个 TaskManager。

如果出现了一个节点故障，比如 node3 发生故障了。Flink 引擎会重新从 YARN 申请资源，完成 TaskManager 初始化，并重新部署作业。

我们对一个业务作业做了一个分析，发现宕机故障后到作业恢复，共需要 90s 的时间。宕机检测 (60秒)，重新申请资源容器 (5秒)，容器初始化 (20秒)，作业重新部署执行 (5秒）。这对于某些在线业务场景来说是不能接受的。从具体的过程拆解来看，发现宕机检测和初始化的消耗是大头。要如何改进呢？

从解决思路上来说，包含两个方面。首先 60 秒的宕机检测，时间太长了。对此，要做到快速发现宕机。此外，还要预留资源，当宕机出现时，可以省去申请资源，以及初始化的时间。

在宕机快速发现方面，我们研发了 Hawk Service，它是一个多数派的连通性检测服务，具体的检测流程是 Hawk 集群中多个工作节点会周期性地检测集群中每台机器的连通性，由于它是多数派的，所以可信度是有保障的。最终，Hawk 服务可以做到在 10 秒钟之内发现一个宕机事件。

此外，在预留资源方面，我们扩展了 Flink 作业的资源申请模型，在 Flink 提交时可以设定一个资源冗余参数，当冗余参数被激活后，会自动保障冗余资源量会高于单点故障导致的资源缺失量，且在资源排布上避免冗余资源的聚集性。如图所示：

有了这两点能力之后，如果同样是第三台机器挂掉了，我们能在 10 秒内发现。并且由于资源已经分配好了，直接部署一遍作业就可以了。所以整体的恢复时间从 4 个步骤直接缩短为 2 个步骤，时间上从 90s 可以缩短到 15s 左右。

接下来，我们看看如果 Flink 引擎依赖的服务异常了要怎么办呢？这里举了一个 Kafka 服务异常的例子。还是同样的 Flink 的作业，依赖两个 topic，Flink 作业在 B 机房，读取的 Kafka 也在 B 机房，写入的 Kafka 在 A 机房。如果出现读取或者写入的 Kafka 集群异常了，Flink 作业需要具备 Failover Kafka 集群的能力，当然如果是切读，Kafka 的上游也需要联动切流。

在过载场景下，我举了两个例子：

不同数据源快慢消费导致满载

在这个 case 中，消费 topicA 的 source 速度慢，消费 topicB 的数据源快，由于后边存在 window 操作，会导致 window 的状态持续变大，最终引导作业不稳定。这个问题要如何解决呢？

我们采用的办法是同步所有相关数据源消费的进度，引入一个 source 的协调者（SourceCoordinator），周期性收集 source 源 waterwark 的进展，并根据全局的现状，预测出来各个 source 源接下来允许读到的最大位置 target Watermark，之后下发给所有的 source，source 根据得到的 target Watermark 以及当前自己 watermark，确定读取速度。最终全局 source 达到同步读的结果，最小 source 和最大 source 的差距在一个可控制的范围内。

硬件资源满载

如果硬件出现了满载要怎么处理呢？例如，其中一个 TM 所在的机器出现 CPU 满载了，或者大范围出现机器满载。

解决方案跟上面的是类似的，控制数据源的消费速度。如图所示，引入 HealthyCoordinator，周期性检查 TM 上的资源消耗情况，并根据负载限制 source 的消费速度。动态调节所有数据源的消费速度，从而保证Flink作业的稳定。

3.均衡性

第三个方面，我想跟大家分享一下我们在均衡性上遇到的一个问题。在我们线上集群的多个机器之间，我们发现最小和最大的机器的 CPU 负载相差至少在 20% 以上。集群层面的负载不均衡，从稳定上看，可能会触发作业稳定性下降，从成本上，也会造成资源的浪费。

在解决均衡性问题前，先来看下引发不均衡的因素都有哪些？梳理了下，可能的原因包括：

Yarn 层面资源调度不均衡
作业资源申请不合理，申请过大
作业的并发设置不合理或者 Task 调度不均衡，导致 TaskManager 之间算子 Task 不均
数据本身存在不均衡
集群扩容，缩容导致不均衡

要解决这些问题，我们提了一些改进的方案。

改进 Task 调度策略，保障 TaskManager 之间算子的 task 尽可能均衡
Flink 作业采集实际消耗，重新按照实际消耗向 Yarn 申请资源
Yarn 保障资源分配在机器间均衡
在有机器扩容或者缩容时，生产资源消耗均衡的作业调整计划，进行异步的作业调整

通过以上的策略最终保障 Flink 集群整体上的均衡性。

五、未来计划

最后看一下快手在 Flink 上的未来计划。未来，我们将主要着手于四个方面建设。

第一，批流一体模式在更大范围的推广应用。例如离线数仓 ETL 的实时化、以及运营活动实时与离线数据的生成。
第二，我们会着力推进 Flink 在 AI 数据流上的应用，希望通过 Flink 支撑特征、索引、样本的实时、离线处理，提效模型迭代的速度。
第三，目前有一些在线数据处理链路已经使用 Flink 做支撑了，对于 Flink 的稳定的要求也随之上升，我们还需要在稳定性上做持续改进，例如做单点故障的快速 failover 等。
最后，由于 Flink 也在支撑在线场景，Flink 需要具备作业内自动且平滑地扩容资源，缩容资源能力。所以弹性伸缩也是我们关注的方向。

另外，快手数据平台部招贤纳士！数据平台部主要为快手业务的飞速发展提供数据新能源，每日面向万亿级用户数据，打造行业领先的EB级数据处理与应用平台，驱动业务创新，保持快手在用户理解，内容分发，生态安全等领域的领先地位。各职位正在热招中，欢迎加入：https://sourl.cn/PewLBe。

Spring Boot与Hazelcast整合教程嘵奇提升自己 spring boot 后端 java
精心整理了最新的面试资料和简历模板，有需要的可以自行获取点击前往百度网盘获取点击前往夸克网盘获取SpringBoot与Hazelcast整合教程简介Hazelcast是一个开源的内存数据网格（IMDG），提供分布式缓存、计算和数据结构功能。与SpringBoot整合后，可以快速实现分布式缓存、会话共享等功能。本教程将演示如何将Hazelcast嵌入SpringBoot应用。环境准备JDK17+Sp
ZooKeeper集群高可用性测试与实践：从规划到故障模拟磐基Stack专业服务团队 Zookeeper zookeeper 可用性测试
#作者：任少近文章目录ZooKeeper集群环境规划1.集群数据一致性测试2.集群节点故障测试ZooKeeper集群高可用性测试的主要目的是确保在分布式环境中，ZooKeeper服务能够持续提供一致性和高可用性的协调服务。ZooKeeper集群环境规划节点ipZooKeeper版本java版本对外端口集群通信端口集群选举端口192.168.x.xZooKeeper-3.6.11.8.0_33221
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
每日一题--内存池秋凉づᐇ java 开发语言
内存池（MemoryPool）是一种高效的内存管理技术，通过预先分配并自主管理内存块，减少频繁申请/释放内存的系统开销，提升程序性能。它是高性能编程（如游戏引擎、数据库、网络服务器）中的核心优化手段。内存池的核心原理预先分配：初始化时一次性申请一大块内存（称为“池”），避免程序运行时频繁调用malloc/new。自主管理：将大块内存划分为多个固定或可变大小的内存单元，由程序自行分配和回收。复用机制
【PTA-数据库】《数据库原理与应用B》第二章选择题 .Phoenix. 《数据库原理与应用B》第二章数据库
1.关系模型的数据结构非常简单，只包含单一的数据结构——____C____。A.元组B.属性C.关系D.分量2____A____是一组具有相同数据类型的值的集合。A.域B.属性C.分量D.元组3.一个域允许的不同取值个数称为这个域的___D_____。A.分量B.目C.度D.基数4.若D1域的基数为2，D2域的基数为3，D3域的基数为4，则D1、D2、D3的笛卡尔积的基数为___C_____。A.
深入理解 Kafka 的 ConsumerRebalanceListener t0_54coder 编程问题解决手册 kafka linq 分布式
深入理解Kafka的ConsumerRebalanceListener在分布式系统中，数据的一致性和可靠性是至关重要的。ApacheKafka作为一个流行的分布式流处理平台，提供了强大的数据传输和处理能力。在Kafka中，消费者组（ConsumerGroup）的概念允许多个消费者实例共同处理一个主题的数据。然而，当消费者实例的个数发生变化时，如何确保数据的平衡和一致性呢？这就引出了我们今天要讨论的
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
基于Qt的连连看游戏开发 CodeJolt qt 数据库 java QT
连连看是一种经典的益智游戏，它的目标是通过消除相同的配对图标来清空游戏界面。在本文中，我将向您展示如何使用Qt框架开发一个基于Qt的连连看小游戏。我们将使用C++编程语言和Qt库来实现游戏的逻辑和界面。首先，让我们创建一个新的Qt项目。在QtCreator中，选择"新建项目"，然后选择"QtWidgets应用程序"模板。为项目指定一个名称，然后点击"下一步"。在下一个对话框中，您可以选择项目的位置
Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
css预编译风不在乎前端 css css 前端 scss less stylus
前言定义我们使用css来编写样式，但是随着样式效果的多样化以及复杂化，css变量常量的缺失、语法的呆板等一成不变的写法就会十分臃肿难以维护。所以基于css扩展了一套属于自己的语法，通过专门的编程语言，扩展css的编程能力，在编译成css。常见的库有less、scss/sass、stylus等。特点完美兼容css代码，结构清晰便于扩展支持css定义变量常量、代码嵌套提供函数，支持循环语句支持模块化，
使用SQL-PGVector进行PostgreSQL与语义搜索/RAG的结合 fgayif sql postgresql 数据库 python
在现代数据密集型应用中，语义搜索和检索增强生成（RAG）技术越来越受欢迎。通过结合PostgreSQL和pgvector扩展，我们可以实现高效的语义搜索。本文将深入探讨如何配置和使用SQL-PGVector，实现强大的数据查询能力。技术背景介绍PostgreSQL是一个功能强大的开源关系数据库，在处理结构化数据方面具备优势。为了增强其在非结构化数据处理中的能力，我们可以使用pgvector扩展，该
在.Net Core（.Net5）中使用开源组件SqlTableDependency来监听ms sqlserver的数据库数据变化 Lingbug 数据库 .netcore .net
文章目录1、本文主要说明在.NetCore（Demo为.Net5）中使用开源组件SqlTableDependency来监听mssqlserver的数据库数据变化2、github地址：https://github.com/IsNemoEqualTrue/monitor-table-change-with-sqltabledependency3、安装nuget包：install-packageSqlT
如何通过 SQLyog 连接远程 MySQL 数据库？（附工具下载）心灵宝贝 oracle 数据库
MySQL数据库管理工具，提供了图形化界面（GUI），方便用户进行数据库的管理、查询和优化。下载安装SQLyog：https://pan.quark.cn/s/28f872a50972SQLyog的主要功能：用户友好界面：简洁直观的界面，适合数据库管理员和开发人员使用。查询浏览器：支持编写和执行SQL查询，提供语法高亮和自动补全功能。数据导入/导出：支持多种格式（如CSV、XML、SQL等）的数据
河南大学数据库实验4 凡巾数据库 oracle
创建一个名为TEST数据库，要求如下：（下面三个表中属性的数据类型需要自己设计合适的数据类型）1、建立专业表speciality，它由专业号specno、专业名specname组成，其中专业号为主键，采用列级定义主键，专业名不能为空。2、建立院系表department，它由院名dname、院长dean、院职工人数dnum组成。其中院名为主属性，采用表级定义主键。3、建立一个“学生”表Student
oceanbase与mysql性能对比_金融业分布式数据库:TDSQL、HotDB、OceanBase等原理、POC性能对比及选择是...... 高中物理宋老师
本帖最后由Amygo于2020-3-1501:33编辑1、分布式的实现，是通过中间件实现分布式，还是源码级别引入分布式算法实现的？解答：(1)分布式数据库是至少由计算节点、存储节点、管理平台、备份还原程序四个部分组成，从数据库系统理论知识上说分成：全局自治和场地自治，也粗略认为：全局可理解为计算节点、场地可理解为存储节点(2)这个问题的标题“中间件实现分布式还是源码级别引入分布式算法”这个说法存在
本地锁 vs 分布式锁详解重生之我在成电转码 java 系统锁分布式锁
一、什么是本地锁？本地锁（LocalLock）指的是单机环境下使用Java/JVM自带的锁机制，实现线程之间的互斥和同步。✅本地锁的常见实现：锁类型说明synchronizedJVM内置，修饰方法或代码块，重量级锁，自动释放ReentrantLockJUC提供，支持可重入、可中断、公平锁、Condition等StampedLock支持读写锁和乐观读，适合读多写少场景ReadWriteLock读写分
oceanbase 是不是架构比较复杂和mysql对比分析 hxsln11 金融数据库 oceanbase 架构 mysql
我先来分析用户的需求。用户的问题是关于OceanBase和MySQL的架构复杂度对比，并希望了解两者在架构上的具体差异。这是一个技术性较强的问题，用户可能是数据库开发者、架构师或者对分布式数据库感兴趣的学习者。结合上下文，用户之前已经提到过OceanBase的学习曲线较陡峭，可能是因为其分布式架构的复杂性，所以这次的问题很可能是想进一步明确OceanBase和MySQL在架构上的具体差异，以及为什
Mariadb5.5.68升级10.5 熊博主 Linux云计算架构工程师 mysql mariadb 运维 linux 服务器
Mariadb5.5.68升级10.5#提前备份好数据库[root@master~]#mysqldump-uroot-p--all-databases>alldb.sqlEnterpassword:[root@master~]#llalldb.sql-rw-r--r--.1rootroot51523011月1818:59alldb.sql#移除原来的mariadb数据库[root@master~]
CentOS7 平滑升级 MariaDB 5.5 到 10.x 新版本实践 weixin_34318272 运维数据库
前言自从CentOS7开始，自带的数据库就变成MariaDB了，yum安装之后的默认版本是5.5，但是这个数据版本已经比较老了，无论是安装全新的Percona还是升级MariaDB第一步始终是不要忘记备份。CentOS7平滑升级MariaDB5.5到10.x新版本实践更新历史2018年11月14日-初稿阅读原文-https://wsgzao.github.io/post...扩展阅读MariaDB
数据库4（数据库指令） songx_99 数据库数据库 sql
聚合函数SELECTCOUNT(*)FROMtitles--统计表titles的总行数SELECTSUM(ytd_sales)FROMtitles--求titles表的ytd_sales这一列数值总和SELECTAVG(ytd_sales)FROMtitles--求titles表ytd_sales这一列数值的平均值SELECTMAX(ytd_sales)FROMtitles--求titles表yt
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
mysql总结 tianyunlinger 大数据 mysql 数据库
MySQL基础1.数据库基本介绍数据库定义：用于存储数据的仓库，通过SQL语句操作。数据库作用：存储应用程序中的数据，便于管理和查询。数据库分类：关系型数据库（如MySQL、Oracle、DB2）和非关系型数据库（如Redis、HBase）。关系型数据库：通过E-R图描述数据之间的关系，支持复杂查询。2.MySQL在Linux中的安装安装前准备：配置防火墙、创建统一的管理目录（如/export/s
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

Apache Flink 在快手的过去、现在和未来

你可能感兴趣的:(Flink,大数据,分布式,编程语言,hadoop,数据库)