阿里云大数据AI技术

阿里云 Flink+Hologres：构建企业级一站式实时数仓

作者｜徐榜江余文兵赵红梅

随着大数据的迅猛发展，企业越来越重视数据的价值，这就意味着需要数据尽快到达企业分析决策人员，以最大化发挥数据价值。企业最常见的做法就是通过构建实时数仓来满足对数据的快速探索。在业务建设过程中，实时数仓需要支持数据实时写入与更新、业务敏捷快速响应、数据自助分析、运维操作便捷、云原生弹性扩缩容等一系列需求，而这就依赖一个强大的实时数仓解决方案。阿里云实时计算 Flink 版（以下简称“阿里云 Flink”）提供全增量一体化数据同步技术、强大的流式 ETL 等能力，支持海量数据实时入仓入湖。阿里云 Hologres 作为新一代实时数仓引擎能同时解决 OLAP 多维分析、在线服务、离线数据加速等多个业务查询场景，通过阿里云 Flink 与 Hologres 的强强结合，实现全链路的数据探索实时化、数据分析敏捷化，快速助力业务构建企业级一站式实时数仓，实现更具时效更智能的业务决策。

在本文中，我们将会介绍阿里云 Flink、阿里云 Hologres 在构建实时数仓上所具备的核心能力以及二者结合的最佳解决方案，用户通过阿里云 Flink+Hologres 实时数仓解决方案，可以显著降低数仓建设门槛，让数据发挥更大的价值，助力各行各业实现数字化升级。

Flink CDC 核心能力

Apache Flink 是开源的大数据流式计算引擎，支持处理数据库、Binlog、在线日志等多种实时数据，提供端到端亚秒级实时数据分析能力，并通过标准 SQL 降低实时业务开发门槛。伴随着实时化浪潮的发展和深化，Flink 已逐步演进为流处理的领军角色和事实标准，并蝉联 Apache 社区最活跃项目。

Flink CDC 是阿里云计算平台事业部 2020 年 7 月开源的一款数据集成框架，与 Flink 生态深度融合，具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势，既可以替代传统的 DataX 和 Canal 工具做数据同步，也支持数据库数据实时入湖入仓，同时还具备强大的数据加工能力。

在构建实时数仓的过程中，数据采集是必需的组件。在传统的 ETL 架构里，采集层国外用户通常选择 Debezium，国内用户则习惯用 DataX 和 Canal，采集工具负责采集数据库的全量数据和增量数据。采集到的数据会输出到消息中间件如 Kafka，然后通过 Flink 计算引擎实时消费消息中间件数据做计算层的数据清洗和数据加工，加工完成后再写入目的端（装载层），通常是各种数据库、数据湖和数据仓库。在传统 ETL 链路中，数据采集工具与消息队列是比较重的组件，可能维护在不同的团队，在上游的数据源有业务变更或者这些组件需要升级维护时，整个链路的维护成本会非常大。

通过使用 Flink CDC 去替换上图中的数据采集组件与消息队列，将采集层（Extraction）和计算层（Transformation）合并，简化了整个 ETL 分析链路，用户可以使用更少的组件完成数据链路的搭建，整体架构带来更低的运维开销和更少的硬件成本、更好的数据链路稳定性、以及降低端到端的数据延迟。除了稳定性的提升，Flink CDC 的另一个优势就是用户只需要写 SQL 脚本就能完成 CDC 数据的清洗，加工和同步，极大地降低了用户使用门槛。

除全增量一体化同步能力外，阿里云 Flink CDC 还提供了表结构变更自动同步、整库同步、分库分表合并同步等诸多企业级特性，方便用户快速打通数据孤岛，实现业务价值。

1.1 全增量一体化同步

Flink CDC 通过增量快照读取算法在开源数据集成领域率先支持了无锁读取、并行读取、断点续传、不丢不重四个重要特性。其中无锁读取彻底解决了数据同步对上游业务数据库的死锁风险，并行读取很好地满足了海量数据同步的需求，断点续传和不丢不重特性则是提升了同步链路的稳定性和可靠性。

增量快照读取算法的核心思路就是在全量读取阶段把表分成一个个 chunk 进行并发读取，在进入增量阶段后只需要一个 task 进行单并发读取 Binlog 日志，在全量和增量自动切换时，通过无锁算法保障一致性。这种设计在提高读取效率的同时，进一步节约了资源，实现了全增量一体化的数据同步。配合阿里云实时计算产品提供的资源自动调优特性，Flink CDC 作业的资源可以做到自动扩缩容，无需手动介入。

1.2 表结构变更自动同步

随着业务的迭代和发展，数据源的表结构变更是经常会发生的操作。用户需要及时地去修改数据同步作业以适配最新的表结构，这一方面带来了较大的运维成本，也影响了同步管道的稳定性和数据的时效性。阿里云 Flink 支持通过 Catalog 来实现元数据的自动发现和管理，配合 CTAS （Create Table AS）语法，用户可以通过一行 SQL 实现数据的同步和表结构变更自动同步。

Flink SQL> USE CATALOG holo;
Flink SQL> CREATE TABLE user AS TABLE mysql.`order_db`.`user`;

CTAS 语句会解析成一个 Flink 作业执行，这个 Flink 作业源头支持读取数据变更和表结构变更并同步到下游，数据和表结构变更都可以保证顺序，上述 CTAS 语句运行时结构变更同步的效果如下图所示。

示例如果在上游 MySQL 的 user 表中新增一列 age，并插入一条 id 为 27，年龄为 30 的记录。

MySQL> ALTER TABLE `user` ADD COLUMN `age` INT;
MySQL> INSERT INTO `user` (id, name, age) VALUES (27, 'Tony', 30);

user 表上的数据和结构变更都能实时地自动同步到下游 Hologres 的 user 表中，id 为 12,16 和 19 的历史数据，新增的列会自动补 NULL 值。

1.3 整库同步

在实时数仓构建中，用户经常需要将整个数据库同步到数仓中做进一步的分析，一张表一个同步作业的方式不但浪费资源，也会给上游数据库产生较大的压力。针对这类用户痛点，阿里云 Flink CDC 提供了整库同步特性。整库同步功能通过 CDAS (Create Database AS) 语法配合 Catalog 实现。

Flink SQL> USE CATALOG holo;
Flink SQL> CREATE DATABASE holo_order AS DATABASE
      mysql.`order_db` INCLUDING ALL TABLES;

例如 MySQL Catalog 和 Hologres Catalog 配合 CDAS 语法，可以完成 MySQL 到 Hologres 的全增量数据同步。CDAS 语句会解析成一个 Flink 作业执行，这个 Flink 作业自动解析源表的表结构及相应的参数，并将指定的一个或多个数据库同步到下游 Hologres 数仓中，整个过程用户无需手写 DDL 语句，无需用户在 Hologres 提前创建表，就能快速实现数据的整库同步。

CDAS 作业默认提供表结构变更同步能力，所有表的结构变更都会按照发生顺序同步至下游 Hologres 实时数仓，CDAS 语法也支持过滤不需要同步的表。

1.4 分库分表合并同步

分库分表是高并发业务系统采用的经典数据库设计，通常我们需要将分库分表的业务数据汇聚到一张数仓中的大表，方便后续的数据分析，即分库分表合并同步的场景。针对这种场景，阿里云 Flink CDC 提供了分库分表合并同步特性，通过在 CTAS 语法支持源库和源表的正则表达式，源数据库的分表可以高效地合并同步到下游 Hologres 数仓中。

Flink SQL> USE CATALOG holo;
Flink SQL> CREATE TABLE order AS TABLE mysql.`order_db.*`.`order_.*`;

述 CTAS 语句中的源库名 order_db. 是个正则表达式，可以匹配当前 MySQL 实例下的 order_db01，order_db02 和 order_db03 三个库，源表名 order 也是个正则表达式，可以匹配三个库下所有以 order 打头的表。

针对分库分表同步场景，用户只需要提供分库分表的正则表达式就可以将这多张分库分表合并同步到下游 Hologres 数仓的 ordder 表中。与其他 CDAS 语句一样，分库分表同步场景默认提供表结构变更自动同步特性，下游 Hologres 表的 schema 为所有分表合并后的最宽 schema。分库分表同步时每行记录所属的库名和表名会作为额外的两个字段自动写入到 user 表中，库名(上图中 db 列)、表名(上图中 tbl 列)和原主键(上图中 id 列) 会一起作为下游 Hologres user 表的联合主键，保证 Hologres user 表上主键的唯一性。

Hologres 核心能力

阿里云 Hologres 是自研的一站式实时数据仓库引擎，支持海量数据实时写入、实时更新、实时分析，支持标准 SQL（兼容 PostgreSQL 协议），提供 PB 级数据多维分析（OLAP）与即席分析以及高并发低延迟的在线数据服务（Serving），与阿里云 Flink、MaxCompute、DataWorks 等深度融合，为企业提供离在线一体化全栈数仓解决方案。

2.1 高性能实时写入与更新

数据写入的时效性是实时数仓的重要能力之一。对于 BI 类等延迟不敏感的业务查询，如果写入时延几秒甚至几分钟可能是可以接受的。而对于很多生产系统，如实时风控、实时大屏等场景，要求数据写入即可见。如果写入出现延迟，就会查询不到最新的数据，严重影响线上业务决策。在实时数仓整个数据处理链路中，Hologres 作为一站式实时数据仓库引擎，提供海量数据高性能的实时写入，数据写入即可查询，无延迟。

同时在数仓场景上，数据来源复杂，会涉及到非常多的数据更新、修正的场景，Hologres 可以通过主键（Primary Key, PK）提供高性能的 Upsert 能力，整个写入和更新过程确保 Exactly Once，满足对对数据的合并、更新等需求。

下图为 Hologres 128C 实例下，10 个并发实时写入 20 列的列存表的测试结果。其中竖轴表示每秒写入记录数，横轴为 4 个写入场景：

Append Only：写入表无主键，写入能力 230 万+的 RPS。
INSERT：写入表有主键，如果主键冲突就丢弃新行，写入能力 200 万 RPS。
UPDATE-1：写入表有主键，表中原始数据量为 2 亿，按照主键 Upsert，写入能力 80 万的 RPS。
UPDATE-2：写入表有主键，表中数据量为 20 亿，按照主键做 Upsert，写入能力 70 万的 RPS。

2.2 实时 OLAP 分析

Hologres 采用可扩展的 MPP 全并行计算，支持行存、列存、行列共存等多种存储模式，同时支持多种索引类型。通过分布式处理 SQL 以及向量化的算子，能够将 CPU 资源发挥到极致，从而支持海量数据亚秒级分析，无需预计算，就能支持实时多维分析、即席分析等多种实时 OLAP 分析的场景，再直接无缝对接上层应用/服务，满足所见即所得的分析体验。

下图为 Hologres 128C 实例下，TPCH 100G 标准数据集下的测试结果，横轴表示 query，纵轴是响应时间：

2.3 高性能在线服务

随着实时数仓的广泛应用，越来越多的企业把实时数仓作为在线服务系统提供在线查询。Hologres 作为 HSAP（Hybrid Serving and Analytics Processing, 服务与分析一体化）的最佳落地实践，除了具备处理分析型 Query 的能力外，还具备十分强大的在线服务 Serving 能力(高 QPS 点查)，例如 KV 点查与向量检索。在 KV 点查场景中，Holgres 通过 SQL 接口可以支持百万级的 QPS 吞吐与极低的延时。通过 Hologres 能够做到一套系统、一份数据支持同时 OLAP 分析和在线服务两种场景，简化数据架构。

下图为 Hologres 128C 实例下，CPU 消耗 25%的点查测试性能：

2.4 读写分离高可用

实时数据仓库 Hologres 提供高 QPS 低延迟的写入能力，支持在线服务的查询场景，还支持复杂的多维分析 OLAP 查询。当不同类型，不同复杂的任务请求到 Hologres 实例上时，Hologres 不仅需要确保任务的正常运行，还要确保系统的稳定性。当前 Hologres 支持通过共享存储的一主多从子实例的高可用架构，实现了完整的读写分离功能，保障不同业务场景的 SLA。

读写分离：实现了完整的读写分离功能，保障不同业务场景的 SLA，在高吞吐的数据写入和复杂的 ETL 作业、OLAP 查询、AdHoc 查询、在线服务等场景中，系统负载物理上完全隔离，不会因写入任务产生了查询任务的抖动。
多类型负载资源隔离：一个主实例可以配置四个只读实例，实例之间可以根据业务情况配置不同规格，系统负载物理上完全隔离，避免相互影响而带来抖动。
实例间数据毫秒级异步同步延迟：P99 5ms 内。

2.5 Binlog 订阅

类似于传统数据库 MySQL 中的 Binlog 概念，Binlog 用来记录数据库中表数据的修改记录，比如 Insert/Delete/Update 的操作。在 Hologres 中，表的 Binlog 是一种强 Schema 格式的数据，Binlog 记录的序列号（BigInt），在单 shard 内单调递增，类似于 Kafka 中的 Offset 概念。通过阿里云 Flink 消费 Hologres Binlog，可以实现数仓分层间的全链路实时开发，在分层治理的前提下，缩短数据加工端到端延迟，同时提升实时数仓分层的开发效率。

阿里云 Flink x Hologres 一站式企业级实时数仓解决方案

3.1 实时数仓 ETL

ETL( Extract-Transform-Load)是比较传统的数据仓库建设方法，业务库的数据 Binlog 经过阿里云 Flink 的 ETL 处理之后，数据写入到实时数仓 Hologres 中，然后进行各类数据查询分析。ETL 的方法核心是需要在数仓中具备完善的数仓模型分层，通常按照 ODS（Operational Data Source）> DWD（Data Warehouse Detail）> DWS（Data Warehouse Summary）> ADS（Application Data Service）分层，整个数仓链路比较完善。

在这个链路中，需要将数据源比如 MySQL 的 Binlog 数据通过阿里云 Flink CDC 同步到消息队列 Kafka，再通过阿里云 Flink 将 ODS 的数据进行过滤，清洗，逻辑转化等操作，形成对不同的业务主题模型的 DWD 数据明细层，同时将数据发送到 Kafka 集群，之后再通过阿里云 Flink 将 DWD 的数据进行轻度的汇总操作，形成业务上更加方便查询的 DWS 轻度汇总层数据，再将数据写入 Kafka 集群。最后再面向业务具体的应用层的需求，在 DWS 层基础上通过阿里云 Flink 实时处理形成 ADS 数据应用层，写入实时数仓 Hologres 进行存储和分析，支持业务各种不同类型的报表，画像等业务场景。

实时数仓 ETL 的处理优点是数仓各种层次比较完备，职责清晰，但是缺点是 Flink 结合 Kafka 集群维护复杂，处理链路比较长，历史数据修正复杂，ADS 应用层的数据实时性会弱，其次数据在各个 Kafka 中不便于查询，不便于检查数据质量，也不便于实现 schema 的动态变化。

3.2 实时数仓 ELT

随着业务对数据的时效性要求越来越高时，相较于 ETL 复杂繁杂的处理链路，业务需要更快速的将数据实时入仓，因此 ELT 变成了比较流行的处理方法。ELT 是英文 Extract-Load-Transform 的缩写，我们可将 ELT 理解为一个数据迁移集成的过程。在这个过程中，我们可以对数据源关系型数据库比如 MySQL、PostgresSQL 和非关系型数据库比如 HBase、Cassandra 等业务库的 Binlog，消息队列比如 Datahub、Kafka 中的埋点采集日志等数据，经过阿里云 Flink 实时抽取，然后加载到 Hologres 中进行相关的 OLAP 分析和在线服务。

在这个链路中，阿里云 Flink 负责数据的实时入仓以及数据的清洗关联，清洗后的数据实时入 Hologres，由 Hologres 直接存储明细数据。在 Hologres 中可以简化分层，以明细层为主，按需搭配其他汇总层，通过 Hologres 强大的数据处理能力直接对接报表、应用等上层查询服务。上层的分析 SQL 无法固化，通常在 ADS 层以逻辑视图（View）封装 SQL 逻辑，上层应用直接查询封装好的 View，实现即席查询。

实时数仓中采取 ELT 的方式进行建设，会给数据和业务带来比较大的收益，详细如下：

灵活性：将原始的业务数据直接入仓，形成 ODS 层的数据，在数仓中通过 View 可以灵活地对数据进行转换(Transformation)的处理，View 可以随时根据业务进行调整。
成本低：数据仓库的架构比较清晰，链路比较短，运维成本比较低。
指标修正简单：上层都是 View 逻辑封装，只需要更新底表的数据即可，无需逐层修正数据。

但是该方案也存在一些缺点，当 View 的逻辑较为复杂，数据量较多时，查询性能较低。因此比较适合于数据来源于数据库和埋点系统，对 QPS 要求不高，对灵活性要求比较高，且计算资源较为充足的场景。

3.3 实时数仓分层（Streaming Warehouse 方案）

按照传统数仓的开发方法论，采用 ODS>DWD>DWS>ADS 开发的方法，通过阿里云 Flink 和 Hologres Binlog 的组合关系，支持层与层之间有状态的全链路事件实时驱动。在该方案中，数据通过阿里云 Flink CDC 实时入仓至 Hologres，再通过阿里云 Flink 订阅 Hologres Binlog，实现数据在不同层次之间的连续加工，最后写入 Hologres 对接应用查询。

通过这个方案，Hologres 可以达到像 Kafka、Datahub 等消息队列同等的能力，增加数据复用的能力，一个 Table 的数据既可以提供给下游阿里云 Flink 任务消费，还可以对接上游 OLAP/在线服务查询，不仅节省了成本，还简化数仓架构，同时也让数仓中的每一个层次都可以实时构建、实时查询，提升数据的流转效率。

3.4 流批一体数仓

在实时数仓中，流计算任务和批处理任务都是分两条工作流进行开发的，也即是 Kappa 架构模式。在这套数仓架构中，会存在人力成本过高，数据链路冗余，数据口径不一致，开发效率低下的一些问题。为了解决这些问题，阿里云 Flink+Hologres 提供了流批一体的能力。在该场景中，将输入层统一变成 Hologres，通过一套业务逻辑代码达到流和批处理的能力，其中 Flink SQL 的 Stream 任务消费 Hologres Binlog 提供流式处理，Flink SQL 的 Batch 任务读取 Hologres 表的原始数据达到批处理能力，经过 Flink 统一的计算处理之后，统一写入存储至 Hologres。

阿里云 Flink 结合 Hologres 的流批一体技术，统一了数据输入层、实时离线计算层和数据分析存储层，极大的提升了数据开发的效率，保证了数据的质量。

典型应用场景

阿里云 Flink 与 Hologres 深度集成，助力企业快速构建一站式实时数仓：

可通过阿里云 Flink 实时写入 Hologres，高性能写入与更新，数据写入即可见，无延迟，满足实时数仓高性能低延迟写入需求；
可通过阿里云 Flink 的全量读取、Binlog 读取、CDC 读取、全增量一体化等多种方式，读取 Hologres 源表数据，无需额外组件，统一计算和存储，加速数据流转效率；
可通过阿里云 Flink 读取 Hologres 维表，助力高性能维表关联、数据打宽等多种应用场景；
阿里云 Flink 与 Hologres 元数据打通，通过 Hologres Catalog，实现元数据自动发现，极大提升作业开发效率和正确性。

通过阿里云 Flink 与 Hologres 的实时数仓标准解决方案，能够支撑多种实时数仓应用场景，如实时推荐、实时风控等，满足企业的实时分析需求。下面我们将会介绍阿里云 Flink + Hologres 的典型应用场景，助力业务更加高效的搭建实时数仓。

4.1 海量数据实时入仓

实时数仓搭建的第一步便是海量数据的实时入仓，基于阿里云 Flink CDC 可以简单高效地将海量数据同步到实时数仓中，并能将增量数据以及表结构变更实时同步到数仓中。而整个流程只需在阿里云 Flink 上定义一条 CREATE DATABASE AS DATABASE 的 SQL 即可（详细步骤可参考实时入仓快速入门[4]）。经测试，对于 MySQL 中的 TPC-DS 1T 数据集，使用阿里云 Flink 64 并发，只需 5 小时便能完全同步到 Hologres，TPS 约 30 万条/秒。在增量 Binlog 同步阶段，使用阿里云 Flink 单并发，同步性能达到 10 万条/秒。

4.2 双流 Join

数据实时入仓形成了 ODS 层的数据后，通常需要将事实数据与维度数据利用 Flink 多流 Join 的能力实时地打平成宽表，结合 Hologres 宽表极佳的多维分析性能，助力上层业务查询提速。阿里云 Flink 支持以全增量一体化的模式读取 Hologres 表，即先读取全量数据再平滑切换到读取 CDC 数据，整个过程保证数据的不重不丢。因此基于阿里云 Flink 可以非常方便地实时加工和打宽 Hologres 的 ODS 层数据，完成 DWD 层的宽表模型构建。

4.3 宽表 Merge

数据仓库中我们通常需要关心的就是建模，数据模型通常分为四种：宽表模型、星型模型、雪花模型、星座模型（Hologres 均支持），在这里我们重点要提到的是宽表模型的建设。宽表模型通常是指将业务主体相关的指标、维表、属性关联在一起的模型表，也可以泛指将多个事实表和多个维度表相关联到一起形成的宽表。

宽表建设通常的做法就是通过阿里云 Flink 的双流 Join 来实现，包括 Regular Join，Interval Join，Temporal Join。对于主键关联的场景（即 Join 条件分别是两条流的主键），我们可以将 Join 的工作下沉到 Hologres 去做，通过 Hologres 的局部更新功能来实现宽表 Merge，从而省去了 Flink Join 的状态维护成本。比如广告场景中，一个 Flink 任务处理广告曝光数据流，统计每个产品的曝光量，以产品 ID 作为主键，更新到产品指标宽表中。同时，另一个 Flink 任务处理广告点击数据流，统计每个产品的点击量，也以产品 ID 作为主键，更新到产品指标宽表中。整个过程不需要进行双流 Join，最终 Hologres 会自己完成整行数据的组装。基于得到的产品指标宽表，用户可以方便地在 Hologres 进行广告营销的分析，例如计算产品的 CTR=点击数/曝光数。下图和代码示例展示了如何从双流 Join 改为宽表 Merge。

CREATE TABLE ods_ad_click (
  product_id INT,
  click_id BIGINT,
  click_time TIMESTAMP
) WITH ('connector'='datahub', 'topic'='..');

CREATE TABLE ods_ad_impressions (
  product_id INT,
  imp_id BIGINT,
  imp_time TIMESTAMP
) WITH ('connector'='datahub', 'topic'='..');

CREATE TABLE dws_ad_product (
  product_id INT,
  click_cnt BIGINT,
  imp_cnt BIGINT,
  PRIMARY KEY (product_id) NOT ENFORCED
) WITH ('connector'='hologres','insertOrUpdate'='true');

INSERT INTO dws_ad_product (product_id, click_cnt)
SELECT product_id, COUNT(click_id) as click_cnt
FROM ods_ad_click 
GROUP BY product_id;

INSERT INTO dws_ad_product (product_id, imp_cnt)
SELECT product_id, COUNT(imp_id) AS imp_cnt 
FROM ods_ad_impressions
GROUP BY product_id;

使用 Hologres 宽表的 Merge 能力，不仅可以提升流作业的开发效率，还能减少流作业所需要的资源消耗，也能够更容易的维护各个流作业，让作业之间不会相互影响。但需要注意的是，宽表 Merge 仅限于使用在主键关联的场景，并不适用于数仓中常见的星型模型和雪花模型，所以在大部分场景仍需使用 Flink 的双流 Join 来完成宽表建模。

4.4 实时维表 Lookup

在实时数仓中，在构建 DWD 层的数据过程中，一般都是通过阿里云 Flink 来读取消息队列比如 Datahub 上的 ODS 数据，同时需要关联维表来形成 DWD 层。在阿里云 Flink 的计算过程中，需要高效的读取维表的能力，Hologres 可以通过高 QPS 低延迟的点查能力来满足实现这类场景需求。比如我们需要通过 ODS 的数据去 Join 维表形成 DWD 层的时候，就可以利用 Hologres 提供的点查能力，在该模式中，通常使用行存表的主键点查模式提高维表的 Lookup 效率。具体的实现类似如下：

典型用户案例

依托阿里云 Flink+Hologres 解决方案，企业可以快速构建一站式实时数仓，助力实时推荐、实时风控、实时大屏等多种业务场景，实现对数据的快速处理，极速探索查询。目前该方案已在阿里巴巴内部、众多云上企业生产落地，成为实时数仓的最佳解决方案之一。

以某知名全球 TOP20 游戏公司业务为例，其通过阿里云 Flink+Hologres 实时数仓方案，替换开源 Flink+Presto+HBase+ClickHouse 架构，简化数据处理链路、统一数仓架构、统一存储、查询性能提升 100%甚至更多，完美支撑数据分析、广告投放、实时决策等多个场景，助力业务快速增长。

5.1 业务困难：ETL 链路复杂、OLAP 查询慢

客户原数仓架构使用全套开源组件，架构图如下。其中开源 Flink 做 ETL 处理，处理后写入 ClickHouse、Starocks 等 OLAP 引擎。

这套架构遇见的主要痛点有：

1、ETL 链路复杂

为了解决数据实时 ETL，客户通过 Flink CDC + Hudi 做流批一体。但由于上游业务数据经常变更表结构，而开源 Flink CDC 缺乏 Schema Evolution 的能力，每次表结构变更都需要任务重新启动，操作非常麻烦，浪费大量开发时间。
Hudi 的查询性能不满足业务需求，还需要再加一个 Presto 做加速查询，造成链路冗余。

2、OLAP 架构冗余，查询慢

客户主要是靠买量发行作为游戏推广的重要手段，为了解决广告归因的实时决策场景对查询加速的需要，于是部署了开源 Presto、ClickHouse、HBase 等多套集群搭建混合 OLAP 平台。带来的问题有：

平台需要维护多套集群，导致运维变得非常复杂。
开发需要在各种 SQL 中切换，为开发团队带来了许多困扰。
由于 ClickHouse 缺乏主键，在归因分析时需要使用 Last Click 模型，带来了大量的额外工作。
同时 OLAP 引擎的查询性能没有办法很好的满足业务需求，没办法根据数据实时决策。
数据需要在多个 OLAP 系统中存储，造成存储冗余，导致成本压力剧增。

基于上面的痛点，客户开始重新做技术选型，并使用阿里云 Flink+Hologres 来替换现有的开源数仓架构。

5.2 架构升级：阿里云 Flink+Hologres 统一数据存储与服务

通过阿里云 Flink+Hologres 替换后的数据链路如下：

数据源数据通过 Flink CDC 能力写入 Kafka 做前置清洗，清洗后通过阿里云 Flink 进行 ETL 处理。
阿里云 Flink 经过 ETL 后的数据实时写入 Hologres，通过 Hologres 替换了 Kafka 作为实时数仓的中间数据层，统一了流批存储。
在 Hologres 中根据 ODS > DWD > DWS 层汇总加工。在 ODS 层，阿里云 Flink 订阅 Hologres Binlog，计算后写入 Hologres DWD 层，DWD 层在 Hologres 中汇总成 DWS 层，最后 DWS 对接上层报表和数据服务等业务。
为了存储的统一，也将原离线 Hive 数据替换成阿里云 MaxCompute，以 MaxCompute 为离线主要链路。因 Hologres 与 MaxCompute 的高效互通能力，Hologres 通过外表离线加速查询 MaxCompute，并将历史数据定期归档至 MaxCompute。

5.3 业务收益：架构统一，性能提升 100%

通过架构升级后，客户的显著业务收益如下：

依托阿里云 Flink+Hologres，数据可以实时写入 Hologres，写入即可见，并且 Hologres 有主键，能够支撑高性能的写入更新能力，百万级更新毫秒级延迟。
阿里云 Flink 提供 Schema Evolution 的能力，自动感知上游表结构变更并同步 Hologres，改造后的实时 ETL 链路通过订阅 Hologres Binlog 日志来完成，降低链路维护成本。
通过 Hologres 统一了数据查询出口，经过客户实测，Hologres 可以达到毫秒级延迟，相比开源 ClickHouse 性能提升 100%甚至更多，JOIN 查询性能快 10 倍。
升级后数仓架构变得更加灵活简洁，统一了存储，只需要一套系统就能满足业务需求，降低运维压力和运维成本。

你可能感兴趣的:(阿里云,flink,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
阿里云国际 CDN 和低延迟全球云解决方案九河云阿里云网络服务器安全
延迟与隐藏程度成反比。C数据存在，并且连接已建立，但在接收客户端请求响应和显示用户请求的内容时存在明显延迟。将数据从源移动到目标时，会出现即时丢失。延迟是数据发送器和数据接收器之间的时间差。此外，当通过云响应用户查询时，这种延迟会被放大。有多种因素会导致满足用户请求的潜在延迟。想象一下，您在美国数据中心部署了服务，并且您的用户遍布全球。在此拓扑中，来自美国的用户将能够以正常（如果不是很好）的性能使
AIGC图生视频技术下的巴黎奥运高光时刻阿里云视频云 AIGC与媒体生产 AIGC
共享，奥运夺金时刻。巴黎奥运会的高光片段中国奥运的夺金时刻动漫风格下的别样风态以下AI动漫视频内容BY「阿里云视频云」智能生成从首金到21金镜头倒转尽情回顾······更多巴黎奥运高光时刻更多AIGC精彩内容可在「新华社官方」新媒体账号观看阿里云视频云用视频云+AI，持续助力奥运
阿里云服务器4核8G配置可选实例规格及最新优惠价格表（2023最新）阿里云最新优惠和活动汇总
阿里云4核8G服务器有十几种实例规格可选，其中计算型c7、通用算力型u1和计算优化型c7（国外地域）三种实例规格有优惠，其中计算型c7实例4核8G配置1M带宽优惠价格为3127.61元1年、5M带宽优惠价格为3862.01元1年；通用算力型u1实例4核8G配置1M带宽1367.86元1年、5M带宽优惠价格为1735.06元1年；计算优化型c7（国外地域）实例4核8G配置1M带宽5907.19元1年
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Python国内常用镜像源和使用方法 wfqlt163 Python 基础操作 python 开发语言
常用的镜像源：1、企业镜像：豆瓣https://pypi.doubanio.com/simple/网易https://mirrors.163.com/pypi/simple/阿里云https://mirrors.aliyun.com/pypi/simple/腾讯云https://mirrors.cloud.tencent.com/pypi/simple2、高校镜像：清华大学（推荐）：https:/
为用户都喜欢购买阿里云服务器？阿里云服务器有何优势？阿里云最新优惠和活动汇总
随着企业数字化转型的加速和云计算技术的日益成熟，云服务器已成为企业搭建应用、存储和处理数据的重要基础设施。在众多云服务提供商中，阿里云以其卓越的性能、丰富的产品线、出色的技术支持和强大的生态系统，赢得了众多用户的青睐。那么，阿里云服务器到底有哪些优势？为何如此多的用户选择使用阿里云服务器呢？阿里云服务器优势图.jpg阿里云服务器的优势一、技术领先，性能卓越阿里云作为国内最早涉足云计算领域的企业之一
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>