aliyunhologres

阿里云 Flink+Hologres：构建企业级一站式实时数仓

作者｜徐榜江余文兵赵红梅

随着大数据的迅猛发展，企业越来越重视数据的价值，这就意味着需要数据尽快到达企业分析决策人员，以最大化发挥数据价值。企业最常见的做法就是通过构建实时数仓来满足对数据的快速探索。在业务建设过程中，实时数仓需要支持数据实时写入与更新、业务敏捷快速响应、数据自助分析、运维操作便捷、云原生弹性扩缩容等一系列需求，而这就依赖一个强大的实时数仓解决方案。阿里云实时计算 Flink 版（以下简称“阿里云 Flink”）提供全增量一体化数据同步技术、强大的流式 ETL 等能力，支持海量数据实时入仓入湖。阿里云 Hologres 作为新一代实时数仓引擎能同时解决 OLAP 多维分析、在线服务、离线数据加速等多个业务查询场景，通过阿里云 Flink 与 Hologres 的强强结合，实现全链路的数据探索实时化、数据分析敏捷化，快速助力业务构建企业级一站式实时数仓，实现更具时效更智能的业务决策。

在本文中，我们将会介绍阿里云 Flink、阿里云 Hologres 在构建实时数仓上所具备的核心能力以及二者结合的最佳解决方案，用户通过阿里云 Flink+Hologres 实时数仓解决方案，可以显著降低数仓建设门槛，让数据发挥更大的价值，助力各行各业实现数字化升级。

Flink CDC 核心能力

Apache Flink 是开源的大数据流式计算引擎，支持处理数据库、Binlog、在线日志等多种实时数据，提供端到端亚秒级实时数据分析能力，并通过标准 SQL 降低实时业务开发门槛。伴随着实时化浪潮的发展和深化，Flink 已逐步演进为流处理的领军角色和事实标准，并蝉联 Apache 社区最活跃项目。

Flink CDC 是阿里云计算平台事业部 2020 年 7 月开源的一款数据集成框架，与 Flink 生态深度融合，具有全增量一体化、无锁读取、并发读取、分布式架构等技术优势，既可以替代传统的 DataX 和 Canal 工具做数据同步，也支持数据库数据实时入湖入仓，同时还具备强大的数据加工能力。

在构建实时数仓的过程中，数据采集是必需的组件。在传统的 ETL 架构里，采集层国外用户通常选择 Debezium，国内用户则习惯用 DataX 和 Canal，采集工具负责采集数据库的全量数据和增量数据。采集到的数据会输出到消息中间件如 Kafka，然后通过 Flink 计算引擎实时消费消息中间件数据做计算层的数据清洗和数据加工，加工完成后再写入目的端（装载层），通常是各种数据库、数据湖和数据仓库。在传统 ETL 链路中，数据采集工具与消息队列是比较重的组件，可能维护在不同的团队，在上游的数据源有业务变更或者这些组件需要升级维护时，整个链路的维护成本会非常大。

通过使用 Flink CDC 去替换上图中的数据采集组件与消息队列，将采集层（Extraction）和计算层（Transformation）合并，简化了整个 ETL 分析链路，用户可以使用更少的组件完成数据链路的搭建，整体架构带来更低的运维开销和更少的硬件成本、更好的数据链路稳定性、以及降低端到端的数据延迟。除了稳定性的提升，Flink CDC 的另一个优势就是用户只需要写 SQL 脚本就能完成 CDC 数据的清洗，加工和同步，极大地降低了用户使用门槛。

除全增量一体化同步能力外，阿里云 Flink CDC 还提供了表结构变更自动同步、整库同步、分库分表合并同步等诸多企业级特性，方便用户快速打通数据孤岛，实现业务价值。

1.1 全增量一体化同步

Flink CDC 通过增量快照读取算法在开源数据集成领域率先支持了无锁读取、并行读取、断点续传、不丢不重四个重要特性。其中无锁读取彻底解决了数据同步对上游业务数据库的死锁风险，并行读取很好地满足了海量数据同步的需求，断点续传和不丢不重特性则是提升了同步链路的稳定性和可靠性。

增量快照读取算法的核心思路就是在全量读取阶段把表分成一个个 chunk 进行并发读取，在进入增量阶段后只需要一个 task 进行单并发读取 Binlog 日志，在全量和增量自动切换时，通过无锁算法保障一致性。这种设计在提高读取效率的同时，进一步节约了资源，实现了全增量一体化的数据同步。配合阿里云实时计算产品提供的资源自动调优特性，Flink CDC 作业的资源可以做到自动扩缩容，无需手动介入。

1.2 表结构变更自动同步

随着业务的迭代和发展，数据源的表结构变更是经常会发生的操作。用户需要及时地去修改数据同步作业以适配最新的表结构，这一方面带来了较大的运维成本，也影响了同步管道的稳定性和数据的时效性。阿里云 Flink 支持通过 Catalog 来实现元数据的自动发现和管理，配合 CTAS （Create Table AS）语法，用户可以通过一行 SQL 实现数据的同步和表结构变更自动同步。

Flink SQL> USE CATALOG holo;
Flink SQL> CREATE TABLE user AS TABLE mysql.`order_db`.`user`;

CTAS 语句会解析成一个 Flink 作业执行，这个 Flink 作业源头支持读取数据变更和表结构变更并同步到下游，数据和表结构变更都可以保证顺序，上述 CTAS 语句运行时结构变更同步的效果如下图所示。

示例如果在上游 MySQL 的 user 表中新增一列 age，并插入一条 id 为 27，年龄为 30 的记录。

MySQL> ALTER TABLE `user` ADD COLUMN `age` INT;
MySQL> INSERT INTO `user` (id, name, age) VALUES (27, 'Tony', 30);

user 表上的数据和结构变更都能实时地自动同步到下游 Hologres 的 user 表中，id 为 12,16 和 19 的历史数据，新增的列会自动补 NULL 值。

1.3 整库同步

在实时数仓构建中，用户经常需要将整个数据库同步到数仓中做进一步的分析，一张表一个同步作业的方式不但浪费资源，也会给上游数据库产生较大的压力。针对这类用户痛点，阿里云 Flink CDC 提供了整库同步特性。整库同步功能通过 CDAS (Create Database AS) 语法配合 Catalog 实现。

Flink SQL> USE CATALOG holo;
Flink SQL> CREATE DATABASE holo_order AS DATABASE
      mysql.`order_db` INCLUDING ALL TABLES;

例如 MySQL Catalog 和 Hologres Catalog 配合 CDAS 语法，可以完成 MySQL 到 Hologres 的全增量数据同步。CDAS 语句会解析成一个 Flink 作业执行，这个 Flink 作业自动解析源表的表结构及相应的参数，并将指定的一个或多个数据库同步到下游 Hologres 数仓中，整个过程用户无需手写 DDL 语句，无需用户在 Hologres 提前创建表，就能快速实现数据的整库同步。

CDAS 作业默认提供表结构变更同步能力，所有表的结构变更都会按照发生顺序同步至下游 Hologres 实时数仓，CDAS 语法也支持过滤不需要同步的表。

1.4 分库分表合并同步

分库分表是高并发业务系统采用的经典数据库设计，通常我们需要将分库分表的业务数据汇聚到一张数仓中的大表，方便后续的数据分析，即分库分表合并同步的场景。针对这种场景，阿里云 Flink CDC 提供了分库分表合并同步特性，通过在 CTAS 语法支持源库和源表的正则表达式，源数据库的分表可以高效地合并同步到下游 Hologres 数仓中。

Flink SQL> USE CATALOG holo;
Flink SQL> CREATE TABLE order AS TABLE mysql.`order_db.*`.`order_.*`;

述 CTAS 语句中的源库名 order_db. 是个正则表达式，可以匹配当前 MySQL 实例下的 order_db01，order_db02 和 order_db03 三个库，源表名 order 也是个正则表达式，可以匹配三个库下所有以 order 打头的表。

针对分库分表同步场景，用户只需要提供分库分表的正则表达式就可以将这多张分库分表合并同步到下游 Hologres 数仓的 ordder 表中。与其他 CDAS 语句一样，分库分表同步场景默认提供表结构变更自动同步特性，下游 Hologres 表的 schema 为所有分表合并后的最宽 schema。分库分表同步时每行记录所属的库名和表名会作为额外的两个字段自动写入到 user 表中，库名(上图中 db 列)、表名(上图中 tbl 列)和原主键(上图中 id 列) 会一起作为下游 Hologres user 表的联合主键，保证 Hologres user 表上主键的唯一性。

Hologres 核心能力

阿里云 Hologres 是自研的一站式实时数据仓库引擎，支持海量数据实时写入、实时更新、实时分析，支持标准 SQL（兼容 PostgreSQL 协议），提供 PB 级数据多维分析（OLAP）与即席分析以及高并发低延迟的在线数据服务（Serving），与阿里云 Flink、MaxCompute、DataWorks 等深度融合，为企业提供离在线一体化全栈数仓解决方案。

2.1 高性能实时写入与更新

数据写入的时效性是实时数仓的重要能力之一。对于 BI 类等延迟不敏感的业务查询，如果写入时延几秒甚至几分钟可能是可以接受的。而对于很多生产系统，如实时风控、实时大屏等场景，要求数据写入即可见。如果写入出现延迟，就会查询不到最新的数据，严重影响线上业务决策。在实时数仓整个数据处理链路中，Hologres 作为一站式实时数据仓库引擎，提供海量数据高性能的实时写入，数据写入即可查询，无延迟。

同时在数仓场景上，数据来源复杂，会涉及到非常多的数据更新、修正的场景，Hologres 可以通过主键（Primary Key, PK）提供高性能的 Upsert 能力，整个写入和更新过程确保 Exactly Once，满足对对数据的合并、更新等需求。

下图为 Hologres 128C 实例下，10 个并发实时写入 20 列的列存表的测试结果。其中竖轴表示每秒写入记录数，横轴为 4 个写入场景：

Append Only：写入表无主键，写入能力 230 万+的 RPS。
INSERT：写入表有主键，如果主键冲突就丢弃新行，写入能力 200 万 RPS。
UPDATE-1：写入表有主键，表中原始数据量为 2 亿，按照主键 Upsert，写入能力 80 万的 RPS。
UPDATE-2：写入表有主键，表中数据量为 20 亿，按照主键做 Upsert，写入能力 70 万的 RPS。

2.2 实时 OLAP 分析

Hologres 采用可扩展的 MPP 全并行计算，支持行存、列存、行列共存等多种存储模式，同时支持多种索引类型。通过分布式处理 SQL 以及向量化的算子，能够将 CPU 资源发挥到极致，从而支持海量数据亚秒级分析，无需预计算，就能支持实时多维分析、即席分析等多种实时 OLAP 分析的场景，再直接无缝对接上层应用/服务，满足所见即所得的分析体验。

下图为 Hologres 128C 实例下，TPCH 100G 标准数据集下的测试结果，横轴表示 query，纵轴是响应时间：

2.3 高性能在线服务

随着实时数仓的广泛应用，越来越多的企业把实时数仓作为在线服务系统提供在线查询。Hologres 作为 HSAP（Hybrid Serving and Analytics Processing, 服务与分析一体化）的最佳落地实践，除了具备处理分析型 Query 的能力外，还具备十分强大的在线服务 Serving 能力(高 QPS 点查)，例如 KV 点查与向量检索。在 KV 点查场景中，Holgres 通过 SQL 接口可以支持百万级的 QPS 吞吐与极低的延时。通过 Hologres 能够做到一套系统、一份数据支持同时 OLAP 分析和在线服务两种场景，简化数据架构。

下图为 Hologres 128C 实例下，CPU 消耗 25%的点查测试性能：

2.4 读写分离高可用

实时数据仓库 Hologres 提供高 QPS 低延迟的写入能力，支持在线服务的查询场景，还支持复杂的多维分析 OLAP 查询。当不同类型，不同复杂的任务请求到 Hologres 实例上时，Hologres 不仅需要确保任务的正常运行，还要确保系统的稳定性。当前 Hologres 支持通过共享存储的一主多从子实例的高可用架构，实现了完整的读写分离功能，保障不同业务场景的 SLA。

读写分离：实现了完整的读写分离功能，保障不同业务场景的 SLA，在高吞吐的数据写入和复杂的 ETL 作业、OLAP 查询、AdHoc 查询、在线服务等场景中，系统负载物理上完全隔离，不会因写入任务产生了查询任务的抖动。
多类型负载资源隔离：一个主实例可以配置四个只读实例，实例之间可以根据业务情况配置不同规格，系统负载物理上完全隔离，避免相互影响而带来抖动。
实例间数据毫秒级异步同步延迟：P99 5ms 内。

2.5 Binlog 订阅

类似于传统数据库 MySQL 中的 Binlog 概念，Binlog 用来记录数据库中表数据的修改记录，比如 Insert/Delete/Update 的操作。在 Hologres 中，表的 Binlog 是一种强 Schema 格式的数据，Binlog 记录的序列号（BigInt），在单 shard 内单调递增，类似于 Kafka 中的 Offset 概念。通过阿里云 Flink 消费 Hologres Binlog，可以实现数仓分层间的全链路实时开发，在分层治理的前提下，缩短数据加工端到端延迟，同时提升实时数仓分层的开发效率。

阿里云 Flink x Hologres 一站式企业级实时数仓解决方案

3.1 实时数仓 ETL

ETL( Extract-Transform-Load)是比较传统的数据仓库建设方法，业务库的数据 Binlog 经过阿里云 Flink 的 ETL 处理之后，数据写入到实时数仓 Hologres 中，然后进行各类数据查询分析。ETL 的方法核心是需要在数仓中具备完善的数仓模型分层，通常按照 ODS（Operational Data Source）> DWD（Data Warehouse Detail）> DWS（Data Warehouse Summary）> ADS（Application Data Service）分层，整个数仓链路比较完善。

在这个链路中，需要将数据源比如 MySQL 的 Binlog 数据通过阿里云 Flink CDC 同步到消息队列 Kafka，再通过阿里云 Flink 将 ODS 的数据进行过滤，清洗，逻辑转化等操作，形成对不同的业务主题模型的 DWD 数据明细层，同时将数据发送到 Kafka 集群，之后再通过阿里云 Flink 将 DWD 的数据进行轻度的汇总操作，形成业务上更加方便查询的 DWS 轻度汇总层数据，再将数据写入 Kafka 集群。最后再面向业务具体的应用层的需求，在 DWS 层基础上通过阿里云 Flink 实时处理形成 ADS 数据应用层，写入实时数仓 Hologres 进行存储和分析，支持业务各种不同类型的报表，画像等业务场景。

实时数仓 ETL 的处理优点是数仓各种层次比较完备，职责清晰，但是缺点是 Flink 结合 Kafka 集群维护复杂，处理链路比较长，历史数据修正复杂，ADS 应用层的数据实时性会弱，其次数据在各个 Kafka 中不便于查询，不便于检查数据质量，也不便于实现 schema 的动态变化。

3.2 实时数仓 ELT

随着业务对数据的时效性要求越来越高时，相较于 ETL 复杂繁杂的处理链路，业务需要更快速的将数据实时入仓，因此 ELT 变成了比较流行的处理方法。ELT 是英文 Extract-Load-Transform 的缩写，我们可将 ELT 理解为一个数据迁移集成的过程。在这个过程中，我们可以对数据源关系型数据库比如 MySQL、PostgresSQL 和非关系型数据库比如 HBase、Cassandra 等业务库的 Binlog，消息队列比如 Datahub、Kafka 中的埋点采集日志等数据，经过阿里云 Flink 实时抽取，然后加载到 Hologres 中进行相关的 OLAP 分析和在线服务。

在这个链路中，阿里云 Flink 负责数据的实时入仓以及数据的清洗关联，清洗后的数据实时入 Hologres，由 Hologres 直接存储明细数据。在 Hologres 中可以简化分层，以明细层为主，按需搭配其他汇总层，通过 Hologres 强大的数据处理能力直接对接报表、应用等上层查询服务。上层的分析 SQL 无法固化，通常在 ADS 层以逻辑视图（View）封装 SQL 逻辑，上层应用直接查询封装好的 View，实现即席查询。

实时数仓中采取 ELT 的方式进行建设，会给数据和业务带来比较大的收益，详细如下：

灵活性：将原始的业务数据直接入仓，形成 ODS 层的数据，在数仓中通过 View 可以灵活地对数据进行转换(Transformation)的处理，View 可以随时根据业务进行调整。
成本低：数据仓库的架构比较清晰，链路比较短，运维成本比较低。
指标修正简单：上层都是 View 逻辑封装，只需要更新底表的数据即可，无需逐层修正数据。

但是该方案也存在一些缺点，当 View 的逻辑较为复杂，数据量较多时，查询性能较低。因此比较适合于数据来源于数据库和埋点系统，对 QPS 要求不高，对灵活性要求比较高，且计算资源较为充足的场景。

3.3 实时数仓分层（Streaming Warehouse 方案）

按照传统数仓的开发方法论，采用 ODS>DWD>DWS>ADS 开发的方法，通过阿里云 Flink 和 Hologres Binlog 的组合关系，支持层与层之间有状态的全链路事件实时驱动。在该方案中，数据通过阿里云 Flink CDC 实时入仓至 Hologres，再通过阿里云 Flink 订阅 Hologres Binlog，实现数据在不同层次之间的连续加工，最后写入 Hologres 对接应用查询。

通过这个方案，Hologres 可以达到像 Kafka、Datahub 等消息队列同等的能力，增加数据复用的能力，一个 Table 的数据既可以提供给下游阿里云 Flink 任务消费，还可以对接上游 OLAP/在线服务查询，不仅节省了成本，还简化数仓架构，同时也让数仓中的每一个层次都可以实时构建、实时查询，提升数据的流转效率。

3.4 流批一体数仓

在实时数仓中，流计算任务和批处理任务都是分两条工作流进行开发的，也即是 Kappa 架构模式。在这套数仓架构中，会存在人力成本过高，数据链路冗余，数据口径不一致，开发效率低下的一些问题。为了解决这些问题，阿里云 Flink+Hologres 提供了流批一体的能力。在该场景中，将输入层统一变成 Hologres，通过一套业务逻辑代码达到流和批处理的能力，其中 Flink SQL 的 Stream 任务消费 Hologres Binlog 提供流式处理，Flink SQL 的 Batch 任务读取 Hologres 表的原始数据达到批处理能力，经过 Flink 统一的计算处理之后，统一写入存储至 Hologres。

阿里云 Flink 结合 Hologres 的流批一体技术，统一了数据输入层、实时离线计算层和数据分析存储层，极大的提升了数据开发的效率，保证了数据的质量。

典型应用场景

阿里云 Flink 与 Hologres 深度集成，助力企业快速构建一站式实时数仓：

可通过阿里云 Flink 实时写入 Hologres，高性能写入与更新，数据写入即可见，无延迟，满足实时数仓高性能低延迟写入需求；
可通过阿里云 Flink 的全量读取、Binlog 读取、CDC 读取、全增量一体化等多种方式，读取 Hologres 源表数据，无需额外组件，统一计算和存储，加速数据流转效率；
可通过阿里云 Flink 读取 Hologres 维表，助力高性能维表关联、数据打宽等多种应用场景；
阿里云 Flink 与 Hologres 元数据打通，通过 Hologres Catalog，实现元数据自动发现，极大提升作业开发效率和正确性。

通过阿里云 Flink 与 Hologres 的实时数仓标准解决方案，能够支撑多种实时数仓应用场景，如实时推荐、实时风控等，满足企业的实时分析需求。下面我们将会介绍阿里云 Flink + Hologres 的典型应用场景，助力业务更加高效的搭建实时数仓。

4.1 海量数据实时入仓

实时数仓搭建的第一步便是海量数据的实时入仓，基于阿里云 Flink CDC 可以简单高效地将海量数据同步到实时数仓中，并能将增量数据以及表结构变更实时同步到数仓中。而整个流程只需在阿里云 Flink 上定义一条 CREATE DATABASE AS DATABASE 的 SQL 即可（详细步骤可参考实时入仓快速入门[4]）。经测试，对于 MySQL 中的 TPC-DS 1T 数据集，使用阿里云 Flink 64 并发，只需 5 小时便能完全同步到 Hologres，TPS 约 30 万条/秒。在增量 Binlog 同步阶段，使用阿里云 Flink 单并发，同步性能达到 10 万条/秒。

4.2 双流 Join

数据实时入仓形成了 ODS 层的数据后，通常需要将事实数据与维度数据利用 Flink 多流 Join 的能力实时地打平成宽表，结合 Hologres 宽表极佳的多维分析性能，助力上层业务查询提速。阿里云 Flink 支持以全增量一体化的模式读取 Hologres 表，即先读取全量数据再平滑切换到读取 CDC 数据，整个过程保证数据的不重不丢。因此基于阿里云 Flink 可以非常方便地实时加工和打宽 Hologres 的 ODS 层数据，完成 DWD 层的宽表模型构建。

4.3 宽表 Merge

数据仓库中我们通常需要关心的就是建模，数据模型通常分为四种：宽表模型、星型模型、雪花模型、星座模型（Hologres 均支持），在这里我们重点要提到的是宽表模型的建设。宽表模型通常是指将业务主体相关的指标、维表、属性关联在一起的模型表，也可以泛指将多个事实表和多个维度表相关联到一起形成的宽表。

宽表建设通常的做法就是通过阿里云 Flink 的双流 Join 来实现，包括 Regular Join，Interval Join，Temporal Join。对于主键关联的场景（即 Join 条件分别是两条流的主键），我们可以将 Join 的工作下沉到 Hologres 去做，通过 Hologres 的局部更新功能来实现宽表 Merge，从而省去了 Flink Join 的状态维护成本。比如广告场景中，一个 Flink 任务处理广告曝光数据流，统计每个产品的曝光量，以产品 ID 作为主键，更新到产品指标宽表中。同时，另一个 Flink 任务处理广告点击数据流，统计每个产品的点击量，也以产品 ID 作为主键，更新到产品指标宽表中。整个过程不需要进行双流 Join，最终 Hologres 会自己完成整行数据的组装。基于得到的产品指标宽表，用户可以方便地在 Hologres 进行广告营销的分析，例如计算产品的 CTR=点击数/曝光数。下图和代码示例展示了如何从双流 Join 改为宽表 Merge。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cg6yzzcl-1663921134800)(https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/37acb4fad3a84fa58a85582aaa64e60a~tplv-k3u1fbpfcp-watermark.image?)]

CREATE TABLE ods_ad_click (
  product_id INT,
  click_id BIGINT,
  click_time TIMESTAMP
) WITH ('connector'='datahub', 'topic'='..');

CREATE TABLE ods_ad_impressions (
  product_id INT,
  imp_id BIGINT,
  imp_time TIMESTAMP
) WITH ('connector'='datahub', 'topic'='..');

CREATE TABLE dws_ad_product (
  product_id INT,
  click_cnt BIGINT,
  imp_cnt BIGINT,
  PRIMARY KEY (product_id) NOT ENFORCED
) WITH ('connector'='hologres','insertOrUpdate'='true');

INSERT INTO dws_ad_product (product_id, click_cnt)
SELECT product_id, COUNT(click_id) as click_cnt
FROM ods_ad_click 
GROUP BY product_id;

INSERT INTO dws_ad_product (product_id, imp_cnt)
SELECT product_id, COUNT(imp_id) AS imp_cnt 
FROM ods_ad_impressions
GROUP BY product_id;

使用 Hologres 宽表的 Merge 能力，不仅可以提升流作业的开发效率，还能减少流作业所需要的资源消耗，也能够更容易的维护各个流作业，让作业之间不会相互影响。但需要注意的是，宽表 Merge 仅限于使用在主键关联的场景，并不适用于数仓中常见的星型模型和雪花模型，所以在大部分场景仍需使用 Flink 的双流 Join 来完成宽表建模。

4.4 实时维表 Lookup

在实时数仓中，在构建 DWD 层的数据过程中，一般都是通过阿里云 Flink 来读取消息队列比如 Datahub 上的 ODS 数据，同时需要关联维表来形成 DWD 层。在阿里云 Flink 的计算过程中，需要高效的读取维表的能力，Hologres 可以通过高 QPS 低延迟的点查能力来满足实现这类场景需求。比如我们需要通过 ODS 的数据去 Join 维表形成 DWD 层的时候，就可以利用 Hologres 提供的点查能力，在该模式中，通常使用行存表的主键点查模式提高维表的 Lookup 效率。具体的实现类似如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6gFOUEaD-1663921134801)(https://p9-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/8d89eac5a5584b83a63a35518c5a87c7~tplv-k3u1fbpfcp-watermark.image?)]

典型用户案例

依托阿里云 Flink+Hologres 解决方案，企业可以快速构建一站式实时数仓，助力实时推荐、实时风控、实时大屏等多种业务场景，实现对数据的快速处理，极速探索查询。目前该方案已在阿里巴巴内部、众多云上企业生产落地，成为实时数仓的最佳解决方案之一。

以某知名全球 TOP20 游戏公司业务为例，其通过阿里云 Flink+Hologres 实时数仓方案，替换开源 Flink+Presto+HBase+ClickHouse 架构，简化数据处理链路、统一数仓架构、统一存储、查询性能提升 100%甚至更多，完美支撑数据分析、广告投放、实时决策等多个场景，助力业务快速增长。

5.1 业务困难：ETL 链路复杂、OLAP 查询慢

客户原数仓架构使用全套开源组件，架构图如下。其中开源 Flink 做 ETL 处理，处理后写入 ClickHouse、Starocks 等 OLAP 引擎。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z5KbjjZD-1663921134801)(https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/a9b1690ea416400b9da3946cdd88aa44~tplv-k3u1fbpfcp-watermark.image?)]

这套架构遇见的主要痛点有：

1、ETL 链路复杂

为了解决数据实时 ETL，客户通过 Flink CDC + Hudi 做流批一体。但由于上游业务数据经常变更表结构，而开源 Flink CDC 缺乏 Schema Evolution 的能力，每次表结构变更都需要任务重新启动，操作非常麻烦，浪费大量开发时间。
Hudi 的查询性能不满足业务需求，还需要再加一个 Presto 做加速查询，造成链路冗余。

2、OLAP 架构冗余，查询慢

客户主要是靠买量发行作为游戏推广的重要手段，为了解决广告归因的实时决策场景对查询加速的需要，于是部署了开源 Presto、ClickHouse、HBase 等多套集群搭建混合 OLAP 平台。带来的问题有：

平台需要维护多套集群，导致运维变得非常复杂。
开发需要在各种 SQL 中切换，为开发团队带来了许多困扰。
由于 ClickHouse 缺乏主键，在归因分析时需要使用 Last Click 模型，带来了大量的额外工作。
同时 OLAP 引擎的查询性能没有办法很好的满足业务需求，没办法根据数据实时决策。
数据需要在多个 OLAP 系统中存储，造成存储冗余，导致成本压力剧增。

基于上面的痛点，客户开始重新做技术选型，并使用阿里云 Flink+Hologres 来替换现有的开源数仓架构。

5.2 架构升级：阿里云 Flink+Hologres 统一数据存储与服务

通过阿里云 Flink+Hologres 替换后的数据链路如下：

数据源数据通过 Flink CDC 能力写入 Kafka 做前置清洗，清洗后通过阿里云 Flink 进行 ETL 处理。
阿里云 Flink 经过 ETL 后的数据实时写入 Hologres，通过 Hologres 替换了 Kafka 作为实时数仓的中间数据层，统一了流批存储。
在 Hologres 中根据 ODS > DWD > DWS 层汇总加工。在 ODS 层，阿里云 Flink 订阅 Hologres Binlog，计算后写入 Hologres DWD 层，DWD 层在 Hologres 中汇总成 DWS 层，最后 DWS 对接上层报表和数据服务等业务。
为了存储的统一，也将原离线 Hive 数据替换成阿里云 MaxCompute，以 MaxCompute 为离线主要链路。因 Hologres 与 MaxCompute 的高效互通能力，Hologres 通过外表离线加速查询 MaxCompute，并将历史数据定期归档至 MaxCompute。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e6rHPyr9-1663921134802)(https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f9bca46bca9f498eb17c335a737a4d81~tplv-k3u1fbpfcp-watermark.image?)]

5.3 业务收益：架构统一，性能提升 100%

通过架构升级后，客户的显著业务收益如下：

依托阿里云 Flink+Hologres，数据可以实时写入 Hologres，写入即可见，并且 Hologres 有主键，能够支撑高性能的写入更新能力，百万级更新毫秒级延迟。
阿里云 Flink 提供 Schema Evolution 的能力，自动感知上游表结构变更并同步 Hologres，改造后的实时 ETL 链路通过订阅 Hologres Binlog 日志来完成，降低链路维护成本。
通过 Hologres 统一了数据查询出口，经过客户实测，Hologres 可以达到毫秒级延迟，相比开源 ClickHouse 性能提升 100%甚至更多，JOIN 查询性能快 10 倍。
升级后数仓架构变得更加灵活简洁，统一了存储，只需要一套系统就能满足业务需求，降低运维压力和运维成本。

你可能感兴趣的:(技术原理解读,阿里云,flink,大数据)

policy_does_not_allow_file_overwrite 前端uniapp云存储
uniapp云开发阿里云上传文件uniapp的出现，让前端人员和后端人员实现了“全栈”的小梦想，当然，真正跨端开发的时候，还是会遇到不少的问题，比如今天我们的主角，uniCloud.uploadFile,一般来说，这个api文件名动态生成，云端返回文件存储的链接即可，但是，假如我们的产品是针对用户存储的，即用户的头像、私有文件、图片等具有唯一性，要单独开个目录存放的时候，同样的文件名上传会存在无法
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
2025实战指南：基于VMware 17与Linux的Dify私有化部署——从零构建企业级AI开发平台 Tec_Bit 人工智能 centos linux 人工智能 chatgpt
一、环境准备与系统配置1.1VMware17虚拟机创建‌新建虚拟机‌：选择“典型”安装模式，指定CentOS7镜像文件（建议使用阿里云镜像源获取最新稳定版）‌1‌硬件资源配置‌：内存：≥4GB（推荐8GB）处理器：2核以上磁盘空间：≥40GB（选择“将虚拟磁盘存储为单个文件”）安装完系统使用远程工具连接centos，我这里使用的是华为的远程工具codearts,纯属个人习惯！！！其他工具也可以使用
S32K144外设实验（二）：ADC单通道单次采样（软件触发）上层精灵的赞美诗 #S32K144的外设基础实验单片机嵌入式硬件 eclipse mcu 笔记
文章目录1.概述1.1理论回顾1.1.1时钟系统1.1.2采样通道1.2实验目的2.配置与代码编写1.概述1.1理论回顾S32K144的ADC应该说是特别灵活，笔者采用循序渐进的方式来学习使用这个很重要的外设。在《入门笔记系列》专栏中对用户手册进行了翻译和解读，这里在回顾一下ADC的基本功能，第一次实验我们不使用过于复杂的触发方式。只使用一个通道来理解S32K144的ADC。1.1.1时钟系统首先
Camera常用算法介绍1 记录美好 android相机学习算法经验分享智能手机
Camera常用数据格式及算法介绍1二、Camera常用算法介绍2.1基础图像处理算法2.1.1HDR算法2.1.1.1HDR算法概述2.1.1.2发展历程2.1.1.2.1传统多帧合成阶段（2010年代初期）2.1.1.2.2.算法优化阶段（2016-2020年）2.1.1.2.3实时处理阶段（2020年至今）2.1.1.3技术原理2.1.1.3.1多帧采集2.1.1.3.2图像合成2.1.1.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
AI编程工具领域：深度理解项目架构篇 xinxiyinhe AI编程 python 人工智能 AI编程人工智能
AI编程工具领域：深度理解项目架构篇在AI编程工具领域，能够读取项目目录并深度理解项目架构的工具主要通过代码索引、上下文感知和智能问答等功能实现。以下是基于最新信息的工具评估与分析：1.通义灵码（阿里云）核心能力：@workspace功能：基于RAG技术，支持本地代码库的索引和深度感知，可分析项目完整结构，生成文件解释、代码逻辑查询和整体修改建议。多语言支持：覆盖200+编程语言，兼容VSCode
大模型相关网站整理 gorgor在码农 AI实战 python java 人工智能
目录一：大模型开发网站1.开源模型平台2.私有化部署大模型3.LangChain中文网4.LangChain4j5.通过标准的OpenAIAPI格式访问所有的大模型二：国内AI大模型应用盘点聊天1、阿里云--通义千问2、科大讯飞--星火大模型园3、百度--文心一言4、字节跳动豆包5、智谱华章--智谱清言6、华为云园--盘古7、百川智能--百小应8、腾讯--腾讯元宝9、商汤--商量10、MiniMa
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
【C#语言】C#中的同步与异步编程：原理、示例与最佳实践 JosieBook #C#语言 c#开发语言同步异步
文章目录⭐前言⭐一、同步编程：简单但低效的线性执行代码示例执行流程示意图同步编程特点⭐二、异步编程：非阻塞的高效执行代码示例执行流程示意图异步编程核心机制适用场景⭐三、并行异步编程：最大化性能代码示例执行流程示意图并行异步优势⭐四、同步vs异步vs并行异步：对比总结⭐五、实际开发中的选择建议何时用同步？何时用异步？何时用并行异步？⭐总结标题详情作者JosieBook头衔CSDN博客专家资格、阿里云
思途CMS高并发、高性能、高可用架构设计 php
一、整体架构概述思途CMS采用分层架构设计，整体架构分为客户层、接入层、站点层、数据存储层和缓存层。各层之间通过松耦合的方式协同工作，确保系统在高并发场景下的高性能和高可用性。通过分布式部署、负载均衡、多级缓存等技术手段，思途CMS能够有效应对大规模用户访问，保障系统的稳定性和响应速度。二、各层技术特点及实现方式客户层1.1CDN加速思途CMS支持与主流CDN服务商（如阿里云CDN、腾讯云CDN等
2025年从DeepSeek到Manus：AI如何重塑企业价值报告600+份汇总解读|附PDF下载
原文链接：https://tecdat.cn/?p=41172当前全球AI技术正从实验室走向产业化深水区，本报告以企业价值重构为核心，通过技术演进路径、行业竞争范式、落地实施策略三大维度，揭示AI如何从成本中心转变为价值引擎。数据显示，2025年生成式AI在中国创造的潜在经济价值达2万亿美元，其中制造业、电子行业生产力增益最为显著。本报告汇总解读基于《发布机构：华中科技大学数智管理与传播研究团队、
项目管理软件的十大核心功能，一文解读！项目管理
一、项目管理软件必备的十大功能任务管理任务管理是项目管理的基石。以一个新产品发布项目为例，你可以为每个阶段创建独立任务，如市场调研、产品设计、开发和测试，并为团队成员分配责任。甘特图甘特图是在视觉上查看项目进度的最佳工具之一。通过条形图的方式来显示项目时间安排，使项目经理可以清晰地看到任务的起始和结束日期。例如，当计划一个产品发布周期时，甘特图可以帮助确定各项任务的进展，并有助于提前识别和解决潜在
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
阿里云ECS服务器挂载数据盘教程（Linux） A5云服务商服务器阿里云 linux 云计算运维运维开发
阿里云ECS服务器挂载数据盘教程（Linux）在阿里云上挂载磁盘的过程可以分为几个步骤。以下是一个详细的教程，帮助你在阿里云的云服务器（ECS）上挂载磁盘。如需要阿里云的代理商可以联系我，主页有信息，阿里云可返20个点。步骤1：创建并挂载云盘登录阿里云控制台访问阿里云控制台并使用你的账号登录。创建云盘在控制台左侧菜单中，选择“云服务器ECS”。找到并选择你要挂载磁盘的实例。在实例详情页面，点击“云
【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破寻道AI小兵 AI大模型前沿技术追踪人工智能语言模型 AIGC
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破目录系列篇章前言一、项目概述二、技术原理（一）异构低秩适应（H-LoRA）（二）分层视觉感知（HVP）（三）三阶段学习策略（TLS）三、
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
HT4054V抗干扰设计：提升EMC兼容性的技巧华芯邦电源管理芯片科技
在便携式电子设备快速迭代的今天，锂离子电池因其高能量密度、长循环寿命等优势成为主流电源方案。然而，电池充电芯片的稳定性直接决定了终端产品的可靠性和用户体验。作为深耕模拟芯片领域30年的工程师，曾参与设计并优化数百款充电管理方案，深知线性锂离子电池充电芯片HT4054V的稳定性是核心因素。本文将结合技术原理与实战经验，揭秘如何通过设计优化与选型策略保障HT4054V的长期稳定运行。一、HT4054V
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul