GitChat的博客

实时数仓 | 你需要的是一款强大的 OLAP 引擎

在开源盛世的今天，实时数仓的建设业界已经有了成熟的方案。技术选型上实时计算、消息队列都有最优解，唯独在 OLAP 领域，百家争鸣，各有所长。

大数据领域开源 OLAP 引擎包括不限于 Hive、Hawq、Presto、Kylin、Impala、SparkSQL、Druid、Clickhouse、Greeplum 等等。我们就各个常用开源 OLAP 引擎的优缺点和使用场景做出详细对比，让开发者进行技术选型时做到心中有数。

本场 Chat 中，会讲到以下内容：

为什么要构建实时数据仓库
菜鸟、知乎、美团、网易实时数仓方案
各个开源 OLAP 数据库的优缺点
我们该如何做技术选型

适合人群：大数据开发，数据仓库从业的技术人员。

声明：本文参考了阿里巴巴菜鸟网络，知乎，网易严选，美团的实时数仓设计的公开技术文章，感谢以上各位技术同学无私付出。参考链接在文中都已经给出。

前言

今年有个现象，实时数仓建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库的文章和方案。

但是对于实时数仓的狂热追求大可不必。

首先，在技术上几乎没有难点，基于强大的开源中间件实现实时数据仓库的需求已经变得没有那么困难。其次，实时数仓的建设一定是伴随着业务的发展而发展，武断的认为Kappa架构一定是最好的实时数仓架构是不对的。实际情况中随着业务的发展数仓的架构变得没有那么非此即彼。

在整个实时数仓的建设中，OLAP数据库的选型直接制约实时数仓的可用性和功能性。本文从业内几个典型的数仓建设和发展情况入手，从架构、技术选型和优缺点分别给大家分析现在市场上的开源OLAP引擎，旨在方便大家技术选型过程中能够根据实际业务进行选择。

管中窥豹-菜鸟/知乎/美团/网易严选实时数仓建设

为什么要构建实时数据仓库

传统的离线数据仓库将业务数据集中进行存储后，以固定的计算逻辑定时进行ETL和其它建模后产出报表等应用。离线数据仓库主要是构建T+1的离线数据，通过定时任务每天拉取增量数据，然后创建各个业务相关的主题维度数据，对外提供T+1的数据查询接口。计算和数据的实时性均较差，业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。数据本身的价值随着时间的流逝会逐步减弱，因此数据发生后必须尽快的达到用户的手中，实时数仓的构建需求也应运而生。

总之就是一句话：时效性的要求。

阿里菜鸟的实时数仓设计

菜鸟的实时数仓整体设计如上图，基于业务系统的数据，数据模型是传统的分层汇总设计（明细/轻度汇总/高度汇总）；计算引擎，选择的是阿里内部的Blink；数据访问用天工接入(天工是一个连接多种数据源的工具，目的是屏蔽大量的对各种数据库的直连)；数据应用对应的是菜鸟的各个业务。

菜鸟的实时数仓的架构设计是一个很典型很经得起考验的设计。实时数据接入部分通过消息中间件(开源大数据领域非Kafka莫属，Pulsar是后起之秀)，Hbase作为高度汇总的K-V查询辅助。

那么大量的对业务的直接支撑在哪里？在这里：ADS。

ADS（后更名为ADB，加入新特性）是阿里巴巴自主研发的海量数据实时高并发在线分析（Realtime OLAP）云计算数据库。(https://help.aliyun.com/document_detail/93838.html)

经典的实时数据清洗场景经典的实时数仓场景

在ADB的官方文档中给出了ADB的能力：

快ADB采用MPP+DAG融合引擎，采用行列混存技术、自动索引等技术，可以快速扩容至数千节点。

灵活随意调整节点数量和动态升降配实例规格。

易用全面兼容MySQL协议和SQL

超大规模全分布式结构，无任何单点设计，方便横向扩展增加SQL处理并发。

高并发写入小规模的10万TPS写入能力，通过横向扩容节点提升至200万+TPS的写入能力。实时写入数据后，约1秒左右即可查询分析。单个表最大支持2PB数据，十万亿记录。

知乎的实时数仓设计

知乎的实时数仓实践以及架构的演进分为三个阶段：

实时数仓 1.0 版本，主题： ETL 逻辑实时化，技术方案：Spark Streaming
实时数仓 2.0 版本，主题：数据分层，指标计算实时化，技术方案：Flink Streaming
实时数仓未来展望：Streaming SQL 平台化，元信息管理系统化，结果验收自动化

实时数仓 1.0 版本实时数仓 2.0 版本

在技术架构上，增加了指标汇总层，指标汇总层是由明细层或者明细汇总层通过聚合计算得到，这一层产出了绝大部分的实时数仓指标，这也是与实时数仓 1.0 最大的区别。

技术选型上，知乎根据不同业务场景选择了HBase 和 Redis 作为实时指标的存储引擎，在OLAP选型上，知乎选择了Druid。

知乎实时多维分析平台架构Druid 整体架构

Druid是一个高效的数据查询系统，主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入，进入到Druid后立即可查，同时数据是几乎是不可变。通常是基于时序的事实事件，事实发生后进入Druid，外部系统就可以对该事实进行查询。Druid采用的架构:

shared-nothing架构与lambda架构

Druid设计的三个原则:

快速查询：部分数据聚合（Partial Aggregate） + 内存化（In-Memory） + 索引（Index）
水平拓展能力：分布式数据（Distributed data）+并行化查询（Parallelizable Query）
实时分析：Immutable Past , Append-Only Future

如果你对Druid不了解，请参考这里：https://zhuanlan.zhihu.com/p/35146892

美团的实时数仓设计

美团实时数仓数据分层架构

美团的技术方案由以下四层构成：

ODS 层：Binlog 和流量日志以及各业务实时队列。
数据明细层：业务领域整合提取事实数据，离线全量和实时变化数据构建实时维度数据。
数据汇总层：使用宽表模型对明细数据补充维度数据，对共性指标进行汇总。
App 层：为了具体需求而构建的应用层，通过 RPC 框架对外提供服务。

根据不同业务场景，实时数仓各个模型层次使用的存储方案和OLAP引擎如下：

数据明细层对于维度数据部分场景下关联的频率可达 10w+ TPS，我们选择 Cellar（美团内部分布式K-V存储系统，类似Redis）作为存储，封装维度服务为实时数仓提供维度数据。
数据汇总层对于通用的汇总指标，需要进行历史数据关联的数据，采用和维度数据一样的方案通过 Cellar 作为存储，用服务的方式进行关联操作。
数据应用层应用层设计相对复杂，再对比了几种不同存储方案后。我们制定了以数据读写频率 1000 QPS 为分界的判断依据。对于读写平均频率高于 1000 QPS 但查询不太复杂的实时应用，比如商户实时的经营数据。采用 Cellar 为存储，提供实时数据服务。对于一些查询复杂的和需要明细列表的应用，使用 Elasticsearch 作为存储则更为合适。而一些查询频率低，比如一些内部运营的数据。 Druid 通过实时处理消息构建索引，并通过预聚合可以快速的提供实时数据 OLAP 分析功能。对于一些历史版本的数据产品进行实时化改造时，也可以使用 MySQL 存储便于产品迭代。

总之，在OLAP选型上同样以Druid为主。

网易严选的实时数仓设计

网易严选的实时数仓整体框架依据数据的流向分为不同的层次，接入层会依据各种数据接入工具收集各个业务系统的数据。消息队列的数据既是离线数仓的原始数据，也是实时计算的原始数据，这样可以保证实时和离线的原始数据是统一的。在计算层经过 Flink+实时计算引擎做一些加工处理，然后落地到存储层中不同存储介质当中。不同的存储介质是依据不同的应用场景来选择。框架中还有Flink和Kafka的交互，在数据上进行一个分层设计，计算引擎从Kafka中捞取数据做一些加工然后放回Kafka。在存储层加工好的数据会通过服务层的两个服务：统一查询、指标管理，统一查询是通过业务方调取数据接口的一个服务，指标管理是对数据指标的定义和管理工作。通过服务层应用到不同的数据应用，数据应用可能是我们的正式产品或者直接的业务系统。

基于以上的设计，技术选型如下：

对于存储层会依据不同的数据层的特点选择不同的存储介质，ODS层和DWD层都是存储的一些实时数据，选择的是Kafka进行存储，在DWD层会关联一些历史明细数据，会将其放到 Redis 里面。在DIM层主要做一些高并发维度的查询关联，一般将其存放在HBase里面，对于DIM层比价复杂，需要综合考虑对于数据落地的要求以及具体的查询引擎来选择不同的存储方式。对于常见的指标汇总模型直接放在 MySQL 里面，维度比较多的、写入更新比较大的模型会放在HBase里面，还有明细数据需要做一些多维分析或者关联会将其存储在Greenplum里面，还有一种是维度比较多、需要做排序、查询要求比较高的，如活动期间用户的销售列表等大列表直接存储在Redis里面。

网易严选选择了GreenPulm、Hbase、Redis和MySQL作为数据的计算和透出层。

GreenPulm的技术特点如下：

支持海量数据存储和处理
支持Just In Time BI：通过准实时、实时的数据加载方式，实现数据仓库的实时更新，进而实现动态数据仓库（ADW），基于动态数据仓库，业务用户能对当前业务数据进行BI实时分析（Just In Time BI）
支持主流的sql语法，使用起来十分方便，学习成本低
扩展性好，支持多语言的自定义函数和自定义类型等
提供了大量的维护工具，使用维护起来很方便
支持线性扩展：采用MPP并行处理架构。在MPP结构中增加节点就可以线性提供系统的存储容量和处理能力
较好的并发支持及高可用性支持除了提供硬件级的Raid技术外，还提供数据库层Mirror机制保护，提供Master/Stand by机制进行主节点容错，当主节点发生错误时，可以切换到Stand by节点继续服务
支持MapReduce：一种大规模数据分析技术
数据库内部压缩

如果你对GreenPulm不熟悉可以参考这里：https://www.cnblogs.com/wujin/p/6781264.html

总结

我们通过以上的分析可以看出，在整个实时数仓的建设中，业界已经有了成熟的方案。整体架构设计通过分层设计为OLAP查询分担压力，让出计算空间，复杂的计算统一在实时计算层做，避免给OLAP查询带来过大的压力。汇总计算教给OLAP数据库进行。我们可以这么说，在整个架构中实时计算一般是Spark+Flink配合，消息队列Kafka一家独大，整个大数据领域消息队列的应用中仍然处理垄断地位，后来者Pulsar想做出超越难度很大，Hbase、Redis和MySQL都在特定场景下有一席之地。唯独在OLAP领域，百家争鸣，各有所长。大数据领域开源OLAP引擎包括但是不限于Hive、Druid、Hawq、Presto、Impala、Sparksql、Clickhouse、Greenplum等等。下一篇我们就各个开源OLAP引擎的优缺点和使用场景做出详细对比，让开发者进行技术选型时做到心中有数。

参考链接：https://yq.aliyun.com/articles/691541https://dwz.cn/qwcuWD4Lhttps://tech.meituan.com/2018/10/18/meishi-data-flink.htmlhttp://lxw1234.com/archives/2017/07/867.htmlhttps://www.codercto.com/a/47662.html

OLAP百家争鸣

OLAP简介

OLAP，也叫联机分析处理（Online Analytical Processing）系统，有的时候也叫DSS决策支持系统，就是我们说的数据仓库。与此相对的是OLTP（on-line transaction processing）联机事务处理系统。

联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的。OLAP的提出引起了很大的反响，OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。

Codd认为联机事务处理（OLTP）已不能满足终端用户对数据库查询分析的要求，SQL对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，而查询的结果并不能满足决策者提出的需求。因此，Codd提出了多维数据库和多维分析的概念，即OLAP。

OLAP委员会对联机分析处理的定义为：从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业多维特性的数据称为信息数据，使分析人员、管理人员或执行人员能够从多种角度对信息数据进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是"维"这个概念，因此OLAP也可以说是多维数据分析工具的集合。

OLAP的准则和特性

E.F.Codd提出了关于OLAP的12条准则：

准则1 OLAP模型必须提供多维概念视图
准则2 透明性准则
准则3 存取能力准则
准则4 稳定的报表能力
准则5 客户/服务器体系结构
准则6 维的等同性准则
准则7 动态的稀疏矩阵处理准则
准则8 多用户支持能力准则
准则9 非受限的跨维操作
准则10 直观的数据操纵
准则11 灵活的报表生成
准则12 不受限的维与聚集层次

一言以蔽之：

OLTP系统强调数据库内存效率，强调内存各种指标的命令率，强调绑定变量，强调并发操作，强调事务性；OLAP系统则强调数据分析，强调SQL执行时长，强调磁盘I/O，强调分区。

OLAP开源引擎

目前市面上主流的开源OLAP引擎包含不限于：Hive、Hawq、Presto、Kylin、Impala、Sparksql、Druid、Clickhouse、Greeplum等，可以说目前没有一个引擎能在数据量，灵活程度和性能上做到完美，用户需要根据自己的需求进行选型。

组件特点和简介

Hive

https://hive.apache.org/

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。对于hive主要针对的是OLAP应用，其底层是hdfs分布式文件系统，hive一般只用于查询分析统计，而不能是常见的CUD操作，Hive需要从已有的数据库或日志进行同步最终入到hdfs文件系统中，当前要做到增量实时同步都相当困难。

Hive的优势是完善的SQL支持，极低的学习成本，自定义数据格式，极高的扩展性可轻松扩展到几千个节点等等。

但是Hive 在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些 Key 建立索引。Hive 要访问数据中满足条件的特定值时，需要暴力扫描整个数据库，因此访问延迟较高。

Hive真的太慢了。大数据量聚合计算或者联表查询，Hive的耗时动辄以小时计算，在某一个瞬间，我甚至想把它开除出OLAP"国籍"，但是不得不承认Hive仍然是基于Hadoop体系应用最广泛的OLAP引擎。

Hawq

http://hawq.apache.orghttps://blog.csdn.net/wzy0623/article/details/55047696https://www.oschina.net/p/hawq

Hawq是一个Hadoop原生大规模并行SQL分析引擎，Hawq采用 MPP 架构，改进了针对 Hadoop 的基于成本的查询优化器。除了能高效处理本身的内部数据，还可通过 PXF 访问 HDFS、Hive、HBase、JSON 等外部数据源。HAWQ全面兼容 SQL 标准，能编写 SQL UDF，还可用 SQL 完成简单的数据挖掘和机器学习。无论是功能特性，还是性能表现，HAWQ 都比较适用于构建 Hadoop 分析型数据仓库应用。

一个典型的Hawq集群组件如下：网络上有人对Hawq与Hive查询性能进行了对比测试，总体来看，使用Hawq内部表比Hive快的多（4-50倍）。原文链接：https://blog.csdn.net/wzy0623/article/details/71479539

Spark SQL

https://spark.apache.org/sql/

SparkSQL的前身是Shark，它将 SQL 查询与 Spark 程序无缝集成,可以将结构化数据作为 Spark 的 RDD 进行查询。SparkSQL作为Spark生态的一员继续发展，而不再受限于Hive，只是兼容Hive。

Spark SQL在整个Spark体系中的位置如下：

SparkSQL的架构图如下：

Spark SQL对熟悉Spark的同学来说，很容易理解并上手使用：相比于Spark RDD API，Spark SQL包含了对结构化数据和在其上运算的更多信息，Spark SQL使用这些信息进行了额外的优化，使对结构化数据的操作更加高效和方便。SQL提供了一个通用的方式来访问各式各样的数据源，包括Hive, Avro, Parquet, ORC, JSON, and JDBC。Hive兼容性极好。

Presto

https://prestodb.github.io/https://www.cnblogs.com/tgzhu/p/6033373.html

Presto is an open source distributed SQL query engine for running interactive analytic queries against data sources of all sizes ranging from gigabytes to petabytes.Presto allows querying data where it lives, including Hive, Cassandra, relational databases or even proprietary data stores. A single Presto query can combine data from multiple sources, allowing for analytics across your entire organization.Presto is targeted at analysts who expect response times ranging from sub-second to minutes. Presto breaks the false choice between having fast analytics using an expensive commercial solution or using a slow "free" solution that requires excessive hardware.

这是Presto官方的简介。Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎，适用于交互式分析查询，可支持众多的数据源，包括 HDFS，RDBMS，KAFKA 等，而且提供了非常友好的接口开发数据源连接器。

Presto支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。作为Hive和Pig（Hive和Pig都是通过MapReduce的管道流来完成HDFS数据的查询）的替代者，Presto 本身并不存储数据，但是可以接入多种数据源，并且支持跨数据源的级联查询。

Presto没有使用MapReduce，它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中，这也是它的性能很高的一个主要原因。Presto和Spark SQL有很大的相似性，这是它区别于Hive的最根本的区别。

但Presto由于是基于内存的，而hive是在磁盘上读写的，因此presto比hive快很多，但是由于是基于内存的计算当多张大表关联操作时易引起内存溢出错误。

Kylin

http://kylin.apache.org/cn/https://www.infoq.cn/article/kylin-apache-in-meituan-olap-scenarios-practice/

提到Kylin就不得不说说ROLAP和MOLAP。

传统OLAP根据数据存储方式的不同分为ROLAP（relational olap）以及MOLAP（multi-dimension olap）
ROLAP 以关系模型的方式存储用作多为分析用的数据，优点在于存储体积小，查询方式灵活，然而缺点也显而易见，每次查询都需要对数据进行聚合计算，为了改善短板，ROLAP使用了列存、并行查询、查询优化、位图索引等技术。
MOLAP 将分析用的数据物理上存储为多维数组的形式，形成CUBE结构。维度的属性值映射成多维数组的下标或者下标范围，事实以多维数组的值存储在数组单元中，优势是查询快速，缺点是数据量不容易控制，可能会出现维度爆炸的问题。

而Kylin自身就是一个MOLAP系统，多维立方体（MOLAP Cube）的设计使得用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体进行数据的预聚合。

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

Kylin的优势有：

提供ANSI-SQL接口
交互式查询能力
MOLAP Cube 的概念
与BI工具可无缝整合

所以适合Kylin的场景包括：

用户数据存在于Hadoop HDFS中，利用Hive将HDFS文件数据以关系数据方式存取，数据量巨大，在500G以上
每天有数G甚至数十G的数据增量导入
有10个以内较为固定的分析维度

简单来说，Kylin中数据立方的思想就是以空间换时间，通过定义一系列的纬度，对每个纬度的组合进行预先计算并存储。有N个纬度，就会有2的N次种组合。所以最好控制好纬度的数量，因为存储量会随着纬度的增加爆炸式的增长，产生灾难性后果。

Impala

https://impala.apache.org/

Impala也是一个SQL on Hadoop的查询工具，底层采用MPP技术，支持快速交互式SQL查询。与Hive共享元数据存储。Impalad是核心进程，负责接收查询请求并向多个数据节点分发任务。statestored进程负责监控所有Impalad进程，并向集群中的节点报告各个Impalad进程的状态。catalogd进程负责广播通知元数据的最新信息。

Impala的架构图如下：

Impala的特性包括：

支持Parquet、Avro、Text、RCFile、SequenceFile等多种文件格式
支持存储在HDFS、HBase、Amazon S3上的数据操作
支持多种压缩编码方式：Snappy、Gzip、Deflate、Bzip2、LZO
支持UDF和UDAF
自动以最有效的顺序进行表连接
允许定义查询的优先级排队策略
支持多用户并发查询
支持数据缓存
提供计算统计信息（COMPUTE STATS）
提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能
支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作
允许在where子句中使用子查询
允许增量统计——只在新数据或改变的数据上执行统计计算
支持maps、structs、arrays上的复杂嵌套查询
可以使用impala插入或更新HBase

同样，Impala经常会和Hive、Presto放在一起做比较，Impala的劣势也同样明显：

Impala不提供任何对序列化和反序列化的支持。
Impala只能读取文本文件，而不能读取自定义二进制文件。
每当新的记录/文件被添加到HDFS中的数据目录时，该表需要被刷新。这个缺点会导致正在执行的查询sql遇到刷新会挂起，查询不动。

Druid

https://druid.apache.org/https://blog.csdn.net/warren288/article/details/80629909

Druid 是一种能对历史和实时数据提供亚秒级别的查询的数据存储。Druid 支持低延时的数据摄取，灵活的数据探索分析，高性能的数据聚合，简便的水平扩展。适用于数据量大，可扩展能力要求高的分析型查询系统。

Druid解决的问题包括：数据的快速摄入和数据的快速查询。所以要理解Druid，需要将其理解为两个系统，即输入系统和查询系统。

Druid的架构如下：

Druid的特点包括：

Druid实时的数据消费，真正做到数据摄入实时、查询结果实时
Druid支持 PB 级数据、千亿级事件快速处理，支持每秒数千查询并发
Druid的核心是时间序列，把数据按照时间序列分批存储，十分适合用于对按时间进行统计分析的场景
Druid把数据列分为三类：时间戳、维度列、指标列
Druid不支持多表连接
Druid中的数据一般是使用其他计算框架(Spark等)预计算好的低层次统计数据
Druid不适合用于处理透视维度复杂多变的查询场景
Druid擅长的查询类型比较单一，一些常用的SQL(groupby 等)语句在druid里运行速度一般
Druid支持低延时的数据插入、更新，但是比hbase、传统数据库要慢很多

与其他的时序数据库类似，Druid在查询条件命中大量数据情况下可能会有性能问题，而且排序、聚合等能力普遍不太好，灵活性和扩展性不够，比如缺乏Join、子查询等。

我个人对Druid的理解在于，Druid保证数据实时写入，但查询上对SQL支持的不够完善(不支持Join)，适合将清洗好的记录实时录入，然后迅速查询包含历史的结果，在我们目前的业务上没有实际应用。

Druid的应用可以参考：《Druid 在有赞的使用场景及应用实践》https://blog.csdn.net/weixin_34273481/article/details/89238947

Greeplum

https://greenplum.org/https://blog.csdn.net/yongshenghuang/article/details/84925941https://www.jianshu.com/p/b5c85cadb362

Greenplum是一个开源的大规模并行数据分析引擎。借助MPP架构，在大型数据集上执行复杂SQL分析的速度比很多解决方案都要快。

GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展；从应用编程接口上讲，它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。支持分布式事务，支持ACID。保证数据的强一致性。做为分布式数据库，拥有良好的线性扩展能力。GPDB有完善的生态系统，可以与很多企业级产品集成，譬如SAS，Cognos，Informatic，Tableau等；也可以很多种开源软件集成，譬如Pentaho,Talend 等。

GreenPulm的架构如下：

GreenPulm的技术特点如下：

支持海量数据存储和处理
支持Just In Time BI：通过准实时、实时的数据加载方式，实现数据仓库的实时更新，进而实现动态数据仓库（ADW），基于动态数据仓库，业务用户能对当前业务数据进行BI实时分析（Just In Time BI）
支持主流的sql语法，使用起来十分方便，学习成本低
扩展性好，支持多语言的自定义函数和自定义类型等
提供了大量的维护工具，使用维护起来很方便
支持线性扩展：采用MPP并行处理架构。在MPP结构中增加节点就可以线性提供系统的存储容量和处理能力
较好的并发支持及高可用性支持除了提供硬件级的Raid技术外，还提供数据库层Mirror机制保护，提供Master/Stand by机制进行主节点容错，当主节点发生错误时，可以切换到Stand by节点继续服务
支持MapReduce
数据库内部压缩

一个重要的信息：Greenplum基于Postgresql，也就是说GreenPulm和TiDB的定位类似，想要在OLTP和OLAP上进行统一。

ClickHouse

https://clickhouse.yandex/https://clickhouse.yandex/docs/zh/development/architecture/http://www.clickhouse.com.cn/https://www.jianshu.com/p/a5bf490247ea

官网对ClickHouse的介绍：

ClickHouse is an open source column-oriented database management system capable of real time generation of analytical data reports using SQL queries.

Clickhouse由俄罗斯yandex公司开发。专为在线数据分析而设计。Yandex是俄罗斯搜索引擎公司。官方提供的文档表名，ClickHouse 日处理记录数"十亿级"。

特性:采用列式存储；数据压缩；支持分片，并且同一个计算任务会在不同分片上并行执行，计算完成后会将结果汇总；支持SQL；支持联表查询；支持实时更新；自动多副本同步；支持索引；分布式存储查询。

大家都Nginx不陌生吧，战斗民族开源的软件普遍的特点包括：轻量级，快。

ClickHouse最大的特点就是快，快，快，重要的话说三遍！与Hadoop、Spark这些巨无霸组件相比，ClickHouse很轻量级，其特点：

列式存储数据库，数据压缩
关系型、支持SQL
分布式并行计算，把单机性能压榨到极限
高可用
数据量级在PB级别
实时数据更新
索引

使用ClickHouse也有其本身的限制，包括：

缺少高频率，低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据。
没有完整的事务支持
不支持二级索引
有限的SQL支持，join实现与众不同
不支持窗口功能
元数据管理需要人工干预维护

总结

上面给出了常用的一些OLAP引擎，它们各自有各自的特点，我们将其分组：

Hive，Hawq，Impala - 基于SQL on Hadoop
Presto和Spark SQL类似 - 基于内存解析SQL生成执行计划
Kylin - 用空间换时间，预计算
Druid - 一个支持数据的实时摄入
ClickHouse - OLAP领域的Hbase，单表查询性能优势巨大
Greenpulm - OLAP领域的Postgresql

如果你的场景是基于HDFS的离线计算任务，那么Hive，Hawq和Imapla就是你的调研目标；如果你的场景解决分布式查询问题，有一定的实时性要求，那么Presto和SparkSQL可能更符合你的期望；如果你的汇总维度比较固定，实时性要求较高，可以通过用户配置的维度+指标进行预计算，那么不妨尝试Kylin和Druid；ClickHouse则在单表查询性能上独领风骚，远超过其他的OLAP数据库；Greenpulm作为关系型数据库产品，性能可以随着集群的扩展线性增长，更加适合进行数据分析。

就像美团在调研Kylin的报告中所说的：

目前还没有一个OLAP系统能够满足各种场景的查询需求。其本质原因是，没有一个系统能同时在数据量、性能、和灵活性三个方面做到完美，每个系统在设计时都需要在这三者间做出取舍。

彩蛋

欢迎关注作者其他 Chat：

大数据开发面试指南Flink 最锋利的武器：Flink SQL 入门和实战

本文首发于 GitChat，未经授权不得转载，转载需与 GitChat 联系。

阅读全文: http://gitbook.cn/gitchat/activity/5d7daa262470f7058d14c48b

您还可以下载 CSDN 旗下精品原创内容社区 GitChat App ，阅读更多 GitChat 专享技术内容哦。

你可能感兴趣的:(实时数仓 | 你需要的是一款强大的 OLAP 引擎)

微电网能源管理系统：零碳园区的“智慧神经中枢” Amy18702111823 能源
在奔向“双碳”目标的征途上，零碳园区已成为城市高质量发展的绿色引擎。然而，风光资源的波动性、多能需求的复杂性、碳流管理的精确性，如同一张精密交织的能源网络。如何让这张网络高效、低碳、经济地运转？微电网能源管理系统正以“智慧神经中枢”的姿态，重塑零碳园区的能源未来。零碳园区的三大挑战，呼唤智慧解决方案能源“不可控”光伏“看天吃饭”、风电“随风摇摆”，间歇性电源直接冲击电网稳定性负荷“难协同”生产设备
有序充电系统点亮零碳园区未来
在零碳园区，大规模电动汽车充电需求与分布式光伏发电曲线天然错位。若放任无序充电，午间光伏大发时充电需求低迷，而傍晚用电高峰时大量车辆集中充电，不仅加剧电网负担、推高用能成本，更造成宝贵绿电的浪费。有序充电系统正是破解这一矛盾的智能钥匙.落地场景：充电桩变身能源路由器光储充智能微网：光伏、储能、充电桩通过系统协同作战：光伏优先供能，储能平抑波动，有序充电作为柔性负荷动态调节，构建高度自洽的清洁供能单
零碳园区建设遭遇现实挑战？让我们一起寻找破局之道！ Amy18702111823 物联网
在“双碳”目标的时代浪潮下，零碳园区正成为各地政府与企业绿色转型的核心战场。江苏、广东、四川等20余省份密集出台专项扶持政策，财政补贴、土地优惠、碳配额激励多管齐下。2025年地方两会中，广东、福建、广西、山西、内蒙古等众多省市更是将其列为年度重点任务。然而，在这场轰轰烈烈的零碳园区建设热潮中，一系列现实难题正浮出水面：痛点直击：零碳园区建设的四大拦路虎“碳家底”不清，路径不明：园区的碳排放统计、
集群聊天服务器----CMake的使用 power 雀儿集群聊天服务器学习 linux 运维服务器
CMake简介使用简单方便，可以跨平台，构建项目编译环境。尤其是比直接写Makefile简单很多，可以通过简单的CMake生成负责的Makefile文件。安装ubuntu上直接执行sudoaptinstallcmake即可安装成功，可以通过cmake-version查看其版本：sudoaptinstallcmakecmake-version配置cmake_minimum_required(VERS
Python中的count()方法溪流.ii python 数据库
文章目录Python中的count()方法基本语法在不同数据类型中的使用1.列表(List)中的count()2.元组(Tuple)中的count()3.字符串(String)中的count()高级用法1.指定搜索范围2.统计复杂元素注意事项Python中的count()方法前言：count()是Python中用于序列类型（如列表、元组、字符串等）的内置方法，用于统计某个元素在序列中出现的次数。基
Python中的标识符与保留字難釋懷 python java 数据库
一、前言在学习Python编程语言的过程中，标识符（Identifier）和保留字（Keywords）是两个非常基础但又极其重要的概念。它们是编写程序时必须遵守的语言规则之一。本文将带你深入了解：什么是标识符；标识符的命名规则与规范；Python中有哪些保留字；常见错误与注意事项；实际开发中的命名建议；掌握好这些内容，不仅能帮助你写出更规范、可读性更强的代码，还能避免因使用关键字作为变量名而导致的
C++ 快速回顾（四）帅_shuai_ C++c++
C++快速回顾（四）前言一、纯虚函数二、final关键字1.作用到函数2.作用到类三、虚函数原理四、Lambda一些知识补充前言用于快速回顾之前遗漏或者补充C++知识一、纯虚函数纯虚函数主要是当接口，没有具体的实现要到派生类去实现。纯虚函数不能直接实例化，类似c#中的抽象函数classMyClassBase{public:virtualvoidInit()=0;virtualvoidDestroy
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明 zhxup606 C++c++开发语言
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明。根据搜索结果，C++人脸考勤系统通常使用OpenCV库进行人脸检测和识别，这需要一定的库配置和基础知识。以下是一个基于OpenCV的简单人脸考勤系统源码示例，适合初学者理解，代码实现基本功能：捕获摄像头画面、检测人脸、记录考勤信息，并保存到文件。C
Qt的概述和安装、信号与槽、元对象系统、动态属性、字符串QString、容器、窗口部件与布局管理器、顺序容器、UI界面设计、数值输入输出、时间和日期、界面UI组件、模型视图、关联与集合容器、对话框 zhxup606 C++qt ui 开发语言
涵盖Qt的概述和安装、信号与槽、元对象系统、动态属性、字符串QString、容器、窗口部件与布局管理器、顺序容器、UI界面设计、数值输入输出、时间和日期、界面UI组件、模型视图、关联与集合容器、对话框、多窗口开发、绘图、QGraphicsView绘图框架、文件处理、文件读写与事件、补充知识、INI配置文件、JSON文件操作、XML文件读写、和网络编程。每章将包含详细讲解、代码示例（demo），并确
扩展前文的 Qt GUI 调试工具，添加 QTreeView 控件以显示设备数据的层次结构，支持更多 Modbus 功能码 zhxup606 C++qt 开发语言
扩展前文的QtGUI调试工具，添加QTreeView控件以显示设备数据的层次结构，支持更多Modbus功能码（新增0x05写单个线圈），并实现详细的CSV日志保存功能。代码将基于Qt网络编程（QtNetwork），集成ReferenceClass、PointerClass、SerialPort、ModbusTCPDebugger和ModbusConverter，使用std::string、std:
【Android】跨进程调用service zhangzeyuaaa Android
Android系统中，各应用程序都运行在自己的进程里，进程之间一般无法直接进行数据交换。为了实现这种跨进程通信（interprocesscommunication,IPC），Android提供了AIDL（AndroidInterfaceDefinitionLanguage，android接口定义语言）Service。要使用AIDL进行通信，需要以下步骤：服务端1.定义AIDL接口。通常在该接口中定
PCIE中TLP的路由 newyork major PCIE PCIE
是指TLP通过Switch或者PCIe桥片时采用哪条路径，最终到达EP或者RC的方法。三种路由方式基于地址(Address)的路由memrd/wr,IOrd/wr使用TLP中的Address字段进行路由选径基于ID的路由cfgrd/wr、“Vendor_DefinedMessages”报文、Cpl和CplD报文根据BDF进行路由隐式路由(Implicit)Message报文包括“INTxInter
Redis ZSet 数据结构深度解析：原理、实现与实战全揭密！程序猿Mr.wu Redis redis 数据结构缓存
一、前言：为什么要学习ZSet？在Redis的五大基础数据类型中，ZSet（SortedSet，有序集合）是一种非常强大而灵活的数据结构，广泛应用于排行榜、延时队列、权重排名等场景。如果说String是Redis的“最小原子”，那么ZSet就是Redis的“重量级选手”——不仅能存数据，还能排序查询，这正是它的魅力所在！二、ZSet是什么？和Set有啥区别？ZSet=Set+Score+排序！特性
MySQL 中的锁机制详解：原理、实现方式与实战解析！程序猿Mr.wu MySQL mysql 数据库
MySQL中的锁机制详解：原理、实现方式与实战解析！锁的世界，比你想象得更精彩！一、为什么要有锁？在并发环境下，多线程操作数据库的同一份数据时，如果没有锁机制，可能会出现以下问题：脏读：读取了另一个事务未提交的数据。不可重复读：同一事务中多次读取结果不一致。幻读：读取时发现记录“凭空”出现或消失。锁的存在，就是为了保证并发情况下的数据一致性与隔离性。二、MySQL中锁的分类1.按作用范围分类分类说
Spring Boot 应用开发实战指南：从入门到实战（内含实用技巧+项目案例）程序猿Mr.wu Spring Boot Java 后端 spring boot java
SpringBoot应用开发实战指南：从入门到实战（内含实用技巧+项目案例）你是否还在为Spring配置复杂、开发效率低下而苦恼？SpringBoot早已成为Java后端开发的“标配”，本篇文章将带你全面掌握SpringBoot应用开发核心技能，从0到部署，构建高效、优雅的企业级应用！一、什么是SpringBoot？SpringBoot是Spring团队推出的快速开发框架，简化了传统Spring应
Android筑基——Service的启动过程之同进程启动（基于api21） willwaywang6 #Android 架构学习 android Service 启动
目录1.前言2.正文2.1ContextWrapper.startService()方法2.2ContextImpl.startService()方法2.3ContextImpl.startServiceCommon()方法2.3.1ActivityManagerNative.getDefault()方法2.4ActivityManagerProxy.startService()方法2.5Acti
Oracle 神级函数 Decode 实战：一条 SQL 替代 3000 行代码的计算逻辑 AI、少年郎 oracle sql 数据库递归组织树
在企业级应用开发中，复杂的业务统计需求往往需要编写大量代码进行数据处理。本文将通过Oracle的DECODE函数与分组函数的巧妙结合，展示如何用一条SQL语句实现原本需要3000行代码的复杂计算逻辑，尤其针对企业组织架构中的部门级请假数据统计场景。一、基础准备：构建业务数据表1.创建单位部门表（模拟组织架构）CREATETABLEt_dept(dept_idNUMBERPRIMARYKEY,--部
后台服务启动前台Service（跨进程）一只努力的菜鸟。 java android android studio
在开发中，很多时候我们会碰到在hmi里面做了页面布局，但是要求开机就显示。我们的Service是开机自启动的，但是hmi不是开机自启动。那么这个时候我们需要在hmi添加一个hmiService，用后台的Service拉起hmiService进而去显示View（这个View一般都为WindowManager，不依附Activity）上代码：前台Service（hmiService）：1.首先创建一个
02 ESP32-S3——WIFI开发
在ESP32开发中，或多或少会看见有的工程添加的是ESP-WIFI库有的添加的是WIFI库。特意去查找了下，两者都是可以开发esp32/esp8266的WIFI功能。两者的区别：Esp-wifi库：硬件平台：这个库是Espressif提供的专门为esp32开发wifi的库，是ESP-IDF（EspressifIoTDevelopmentFramework）的一部分，ESP-IDF是ESP32的官方
学习一：Qt中Connect和多线程嘿·嘘 Qt qt 开发语言
目录1、信号与槽1.1举例：在同一个cpp文件中。1.2举例：在不同cpp文件中。1.3断开连接2、多线程2.1公共函数2.2信号与槽2.3静态函数2.4保护功能2.5静态保护成员3.6举例1、信号与槽在Qt中connect函数主要用来建立信号与槽函数。通过信号与槽函数机制可以实现不同线程之间的数据传输（不止这一种方式，这里就单描述信号与槽）。因为在Qt中，通常是主线程对窗口进行赋值，子线程不能直
AI原生应用领域反馈循环：助力应用持续进化 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native ai
AI原生应用领域反馈循环：助力应用持续进化关键词：AI原生应用、反馈循环、持续进化、数据驱动、用户体验摘要：本文围绕AI原生应用领域的反馈循环展开探讨。首先介绍了反馈循环在AI原生应用中的重要性，接着详细解释了反馈循环的核心概念及其相关要素。通过具体的算法原理和操作步骤展示了反馈循环如何在技术层面实现。以实际项目案例说明反馈循环在实际开发中的应用和效果。还探讨了反馈循环在不同场景下的应用，推荐了相
AI原生应用性能优化：混合推理的7个最佳实践 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 性能优化 ai
AI原生应用性能优化：混合推理的7个最佳实践关键词：AI原生应用、性能优化、混合推理、最佳实践、推理效率摘要：本文主要探讨了AI原生应用性能优化中混合推理的相关内容。首先介绍了文章的背景、目的、预期读者和文档结构等信息，接着对混合推理的核心概念进行了通俗易懂的解释，并阐述了各核心概念之间的关系，给出了核心概念原理和架构的文本示意图以及Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，用数
浅谈HttpClient weixin_34092455 网络
为什么80%的码农都做不了架构师？>>>HttpClient简介HttpClient是ApacheJakartaCommon下的子项目，可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient支持的功能如下：支持Http0.9、Http1.0和Http1.1协议。实现了Http全部的方法（GET,POST,PUT,HEA
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
C++：vector容器（上篇）李白同学 C++c++开发语言
1.vector的介绍及使用1.1vector的介绍vector文档说明链接：vector-C++Reference(cplusplus.com)1.2vector的使用1.2.1vector的定义(constructor)构造函数声明接口说明vector()（重点）无参构造vector（size_typen,constvalue_type&val=value_type()）构造并初始化n个val
C/C++快速回顾 Immok 其他
C/C++的库参考大全：http://www.cplusplus.com/reference/C语言：C语言的入口方法：main(intargc,constchar*argv[])intargc指控制台传入的参数个数，argv是传入的值宏定义：#definePi3.14//在编译阶段替换宏方法：#defineMAX(a,b)\a>b?a:bC中的switch需要写break;,否则会一直往下执行，
【STM32仿真】基于STM32单片机设计的秒表时钟计时器仿真系统阿齐Archie 单片机项目合集 stm32 嵌入式硬件单片机 proteus
基于STM32单片机设计的秒表时钟计时器仿真系统演示视频基于STM32单片机设计的秒表时钟计时器仿真系统摘要本设计基于STM32单片机，设计并实现了一个秒表时钟计时器仿真系统。系统通过显示器实时显示当前时间，并通过定时器实现秒表计时功能。显示小时、分钟、秒、毫秒，通过按键可调整时分秒和毫秒的时间。在键盘上输入要设置的时间，按*进入时间修改，之后在按*回退到上一位数字，按#表示修改完成。系统采用模块
鸿蒙开发之埋点方案：高效追踪用户行为 niu某某移动开发鸿蒙开发 HarmonyOS harmonyos 鸿蒙开发移动开发组件化模块化 ArkUI
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）✒️鸿蒙应用开发与鸿蒙系统开发哪个更有前景？✒️嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~✒️对于大前端开发来说，转鸿蒙开发究竟是福还是祸？✒️鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？✒️记录一场鸿蒙开发岗位面试经历~✒️持续更新中……概述埋点是指将信息采集程序和原本的功能代码结合起来，针对特定用户行为收集、处理和发送一些
C++中对象传参的几种方式递归书房 c++
在C++中传递对象作为函数参数有多种方式，每种方式都有不同的语义、性能特点和适用场景。以下是全面的分析和最佳实践指南：1.按值传递(PassbyValue)voidprocessObject(MyClassobj){//操作obj的副本}MyClassoriginal;processObject(original);//复制构造新对象特点：创建对象的完整副本函数内修改不影响原始对象调用时发生复制构
相机的光圈 enginexpert 数码相机
光圈（Aperture）是镜头中一个控制光线进入相机的开口，它在摄影中起着至关重要的作用。光圈的大小决定了进入相机传感器的光线数量，并影响曝光、景深、以及拍摄效果。光圈参数通常用f/值（光圈值）来表示，常见的参数包括f/1.4,f/2.8,f/5.6,f/22等。以下是光圈的几个主要方面的详细解释：1.光圈值（f/值）光圈值（f/值）是衡量光圈大小的标准。光圈的f值是焦距与光圈直径的比值。较低的f
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo