Kyligence

Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。Kylin 查询节点当前主要的计算是在单机节点完成的，存在单点问题。而且由于 HBase 非真正列存的问题，Cuboids 信息需要压缩编码，读取 HBase 数据的时候再反序列化、分割，额外增加了计算压力。另外，HBase 运维难度比较大，不便于上云。面对以上问题，Kyligence 推出了 Kylin on Parquet 方案。下文中，Kyligence 的大数据研发工程师王汝鹏讲解了 Kylin on Parquet 解决方案的架构、原理以及如何开发调试代码。

本文主要包括以下几方面的内容：首先会给大家介绍架构设计，然后说明一下我们为什么会去做 Kylin on Parquet，接下来会介绍一下全新的构建和查询引擎以及相比较于 Kylin 3.0 的性能表现，最后有一个现场演示 Demo，给大家介绍一下产品的使用和代码调试方法。

架构

Apache Kylin 很早就被设计成了可插拔的架构，基于这种架构我们就可以很方便的去替换某个模块而不会影响其他模块。

Kylin on Parquet 也是在 Kylin 原来架构的基础上实现了新的查询、构建引擎和存储模块。通过 Spark 实现的查询引擎，能够提交计算任务到 Yarn 上，实现分布式的处理。

Cube 构建这边也是完全通过 Spark 进行处理，不再支持 MapReduce 构建。

数据源现在支持 Hive 和本地 CSV 数据源，目前可以摆脱沙箱的限制，通过本地的 CSV 数据源搭建一个调试环境。

存储层去掉了 HBase，最终构建完成的 Cube 数据都是通过 Parquet 的形式直接存储在文件系统中。

为什么是 Kylin on Parquet?

首先，原来 Kylin 依赖 HBase 的架构在查询的时候会存在单点问题，因为一次查询任务在通过 Coprocessor 获取到数据之后的处理是在查询结点单机上完成的。

HBase 不是一个真正的列式存储，它通过 RowKey 来保留每一行的数据，之所以称之为“列式”，是因为它通过列族的结构管理列数据，何为真正列式存储，可以通过下面文章了解更多：https://en.wikipedia.org/wiki/Column-oriented_DBMS。

我们可以看到下面Cube逻辑视图中，Kylin 3.0 及以前对于 Cube 是通过将所有的维度和度量分别压缩成一列进行存储的，这样在查询的时候还需要对这一列进行反序列化、分割等操作，额外增加了计算压力。

最后，HBase 比较难于维护，运维难度比较高。

查询过程主要就是 Calcite 会将 SQL 解析成一棵物理执行计划树，其中的计算逻辑的代码都是通过 Calcite 生成的，这些代码会比较难于调试和定位问题。

Kylin on Parquet 目前能够通过 Spark 进行分布式的查询，我们对 Calcite 生成的执行计划做了一层转换，转换成了 Spark 的执行计划，其中每一层的处理的数据我们都是能够通过添加断点查看的。

现在查询相关的逻辑代码也是比较方便调试的，比如我们怀疑在聚合(Agg)这一层出了问题，我们就可以在 Agg 这一步添加断点，查看一下数据是不是符合我们的期望。

存储这边我们替换成了 Parquet，所有的维度和度量会按照每一列进行存储，后面对于存储的结构也会有更加详细的介绍。

Cube 构建与查询

1. 构建引擎

接下来给大家介绍一下全新的构建引擎以及其中的功能是怎么实现的。

1）关键特性

以下是关键的特性：

构建引擎完全的通过 Spark 进行处理，中间的所有流程都能够在 SparkUI 上监控到。如果构建过程出现了问题，也能够在 SparkUI 上查看任务的执行情况。
构建引擎加入了自动调参的功能，这个主要是针对用户没有手动去配置 Spark 参数的情况下，根据构建任务量的情况去调整 Spark 相关的参数，这样能更高效地去执行任务。
构建引擎实现了全局字典的分布式构建。
加入了自动恢复失败任务的功能，当任务失败之后，构建引擎会分析当前任务失败的原因，然后根据不同失败的情况执行不同处理的策略。

2）接口设计

分享的开头里，我提到了 Kylin 可插拔式的架构设计，所以上层实现的接口从 AbstractExecutable 到 CubingJob 都是 Kylin 原有的接口，通过调用 SparkCubingJob 的 create 方法可以提交一个构建 Segment 的任务，然后接下来我们抽象出来了两个步骤，一是资源探测，二是构建 Cube。这两步后面也会进行更加详细的介绍。最后，这两步会串联起来通过 Spark 任务的方式提交到集群或者本地去执行。

3）步骤

构建步骤包括资源探测和 Cube 构建。资源探测主要做了三件事，首先它会去估算一下当前数据源表的大小，这里也是为了接下来第二步自动调参准备的，第三点是构建全局字典。

Cube 构建这一步其实和原来的构建引擎整体步骤是差不多的，首先会通过 Spark 创建平表，然后逐层地构建 Cube，接下来通过 Parquet 的形式进行存储，最后再更新一下 Metadata。为什么我们会把这么多处理集合成一个步骤，主要是因为数据主要是通过 Spark 在内存中进行处理，如果再拆分成多步，还需要对中间数据进行持久化等操作，这样处理效率就会打折扣。右图是构建任务在前端的执行情况。

4）自动调参

自动调参功能默认是打开的，并且只在集群模式下生效，而且手动配置的优先级要高于自动调整。它会根据数据源的大小等情况，估算一下当前构建任务需要的计算资源，最终调整 Spark 任务中 executor 相关的参数。

5）全局字典

全局字典功能相对于 Kylin 3.0 主要有两点提升：能够分布式地处理；不再局限于整数类型最大值的限制。其实当前 Kylin 3.0 是新加入了分布式构建字典的功能的，不过默认还是单机构建的方式。

具体步骤如下：

通过 Spark 创建平表和获取对应列的 distinct 值
将数据分配到多个桶中
对每一个桶内的数据进行编码
保存字典文件和 metadata 数据(桶数量和桶的 offset 值)

第一次构建字典的时候会对每个桶内的值从 1 开始编码，在编码完成后再根据每个桶的 offset 值进行一次整体字典值的分配。

第二次提交 Segment 构建任务的时候，会对每个桶的值进行一次再分配，相对于桶内已有值进行编码，然后根据新的 offset 去更新每个桶内相对于全局的一个字典值。

磁盘上保存的目录结构如图所示。

6）自动重试

自动重试功能会分析导致构建任务失败的异常或错误，并分别采取不同的处理策略。

当遇到 OutOfMemoryError 的时候，引擎会检查当前 Spark 任务是否开启了 AUTO_BROADCASTJOIN_THRESHOLD 这个参数，这个功能比较容易导致Spark任务出现内存不足的报错，尝试禁用这个功能，然后重新提交构建任务。
如果遇到的是 ClassNotFoundException，构建引擎会直接终止当前任务并抛出异常。
对于其他异常，构建引擎会尝试调整 executor core 的数量和分配内存大小，然后重新提交任务。

此功能的默认重试次数为三次，而且是默认打开的，如果想禁用此功能，可以将 kylin.engine.max-retry-time 设置为 0 或者如任意负数。

7）度量

构建过程对所有的度量都是会做处理的，具体处理逻辑可以在 CuboidAggregator.scala 文件中查看。由于现在查询引擎还存在一些兼容性的问题，TopN, CountDistinct, Percentile 现在还查不了，但是已经有 issue 在做了。

8）存储

假设我们最终生成的 cuboid 内容如上图所示，存在三个维度和两个度量，对应的 parquet 文件的 schema 就是中间这张图的样子。我们会将所维度名称映射成一个唯一的数字，这样也是为了进一步优化存储。我们可以将 parquet 文件下载到本地，通过 spark 看到当前 parquet 文件，也就是我们保存的 cuboid 文件的 schema 内容。

磁盘上存储的目录结构如上图所示，所有文件是通过项目来归类的，包括字典，构建产生的临时文件以及构建完成的所有 cuboids。Segment 目录会有一个独立的签名，防止出现写入冲突等问题。

9）性能对比

我们将新的构建引擎和 Kylin 3.0 的构建引擎（MapReduce）做了一下对比，运行环境是拥有四个计算节点，Yarn 拥有 400G 内存和 128 内核的集群。Spark使用的内部版本，由于我们对 Spark 源码做了一些优化，所以目前并不支持社区版 Spark。测试的数据集是标准的 SSB 数据集。

左边是最终占用存储空间的大小，新构建引擎存储空间占用能够减少一半。右边是构建时间的对比，也能够看到新构建引擎也比 Kylin 3.0 快了许多。

2. 查询引擎

1）步骤

一次查询的请求发出后，Calcite 会分析 SQL 并解析成抽象语法树(AST)，然后对 AST 进行校验、优化等操作后，再转换成执行计划树(RelNodes)。新查询引擎会将所有的 RelNodes 转换成 Spark 执行计划。最后再通过 Spark 去执行所有的查询任务。

查询引擎会把每一个计算逻辑转换成对应的 Spark 逻辑。转换的这一步其实也做了不少工作，因为 Calcite 有自己的类型，Spark 也有自己的类型，我们需要对其进行处理。Calcite 的一些函数操作也需要做一些对应的实现。

开始的时候也说过了，我们可以在每一个 DataFrame 中添加断点去进行调试，查询中间处理的值，这样能够更加方便的排查问题。查询引擎会在第一次收到查询请求的时候在 Yarn 上创建一个常驻进程，专门用来处理查询任务。

针对查询引擎还做了依赖隔离的处理，主要防止外部依赖类冲突的问题。

2）性能对比

查询引擎的性能表现也是和 Kylin 3.0 做了一下对比，测试环境和构建性能测试环境是一样的，这里就不赘述了。我们对 SSB 数据集和 TPCH 数据集都做了对比。

SSB 数据集规模大概有六千万行，不过 SSB 的标准 SQL 大都比较简单，所有我们看到查询基本上都是一秒内完成的。

TPCH 数据集规模大概有一千两百万行，TPCH 的标准 SQL 要求更高一些，我们可以看到 Kylin3.0 耗时非常长的查询任务，新的构建引擎的查询能够快很多，因为我们对复杂的查询做了一些优化。

Demo

请点击播放下方现场回顾视频，拖动进度条至 26:35 的位置，即可开始观看。

规划

如何体验与贡献

最后也欢迎大家加入我们，目前 Kylin on Parquet 也已经开源出来，对应的文档在 Github 仓库的 wiki 页面也都能看到。大家有问题也可以去 JIRA 上提出来，我们后期会进行修复。最后为了方便大家讨论也可以加一下上图的微信群。

了解更多大数据资讯，点击进入Kyligence官网

IntelliJ IDEA 使用技巧与插件推荐：提升开发效率的终极指南海豹工匠 ide jetbrain JAVA 编程工具
在现代软件开发中，IntelliJIDEA作为一款功能强大的集成开发环境（IDE），深受开发者的喜爱。它不仅支持多种编程语言和框架，还提供了丰富的功能和插件，帮助开发者提高工作效率和代码质量。本文将深入探讨IntelliJIDEA的使用技巧和插件推荐，助您充分利用这款优秀的开发工具。目录IntelliJIDEA简介高效使用IntelliJIDEA的技巧快捷键大全代码导航与搜索高级重构实时错误检查与
探索数据的桥梁：Apache Olingo——您的OData之旅的最佳伙伴
探索数据的桥梁：ApacheOlingo——您的OData之旅的最佳伙伴olingo-odata4MirrorofApacheOlingo项目地址:https://gitcode.com/gh_mirrors/ol/olingo-odata4项目介绍ApacheOlingo，一个为数据而生的Java库，它围绕着强大的OData规范构建，旨在简化数据访问与共享的过程。作为一个由Apache软件基金会
Apache Olingo OData4 教程凌崧铖
ApacheOlingoOData4教程1.项目介绍ApacheOlingo是一个由Apache软件基金会支持的开源库，用于实现OData（OpenDataProtocol）协议的客户端和服务器端。OData4版本是针对OData规范第4版的实现，提供了一组Java库，帮助开发者轻松创建ODataV4兼容的服务和应用程序。2.项目快速启动Maven配置在你的pom.xml文件中添加ApacheOl
Kafka深度解析：架构、原理与应用实践 JouJz kafka 架构 linq
Kafka深度解析：架构、原理与应用实践引言在现代分布式系统架构中，消息队列作为系统解耦、异步通信的核心组件发挥着至关重要的作用。而在众多消息队列解决方案中，ApacheKafka凭借其卓越的性能、高吞吐量和可靠性，已成为企业级数据管道的首选技术。本文将深入剖析Kafka的核心架构、工作原理以及实践应用，帮助开发者全面掌握这一强大的分布式消息系统。一、Kafka概述与核心概念1.1Kafka的诞生
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
Rocky Linux 8.5/CentOS 8 安装Wine chen_teacher linux 运维服务器
RockyLinux8.5/CentOS8安装Wine首先配置EPEL镜像配置方法安装Wine首先配置EPEL镜像EPEL(ExtraPackagesforEnterpriseLinux),是由FedoraSpecialInterestGroup维护的EnterpriseLinux（RHEL、CentOS）中经常用到的包。下载地址：https://mirrors.aliyun.com/epel/相
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
Tomcat：Java Web应用的幕后英雄互联网动态分析 tomcat
在当今数字化浪潮中，Java作为一门成熟且广泛应用的编程语言，支撑着无数企业级应用和互联网服务的稳定运行。而在JavaWeb开发领域，Tomcat无疑是一个举足轻重的存在，它宛如一位默默耕耘的幕后英雄，为众多Web应用提供了可靠的运行环境。Tomcat的起源与发展Tomcat的故事始于1999年，当时SunMicrosystems（后被Oracle收购）与Apache软件基金会合作，旨在为Java
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
ARM64+KylinOS环境下MySQL数据库的图文版安装步骤和故障排查 weixin_47690215 数据库 mysql
前言随着信息技术应用创新产业的快速发展，ARM64架构处理器与麒麟操作系统（KylinOS）已成为我国关键信息基础设施建设的核心组合。MySQL作为全球最流行的开源关系型数据库，在金融、政务等关键领域的国产化替代进程中发挥着重要作用。本文档针对ARM64架构与KylinOSV10SP2/SP3的深度适配需求，提供完整的MySQL8.0部署方案及故障排查体系。背景意义技术自主可控：基于华为鲲鹏、飞腾
Apache Dubbo实战：JavaSDK使用秃了也弱了。 Dubbo apache dubbo
文章目录一、写在前面二、基于zookeeper：快速创建dubbo应用1、maven包（客户端+服务端）（注意spring版本）2、application.yml配置文件（客户端+服务端）3、定义公共接口4、启动类添加注解@EnableDubbo5、服务端6、客户端7、启动试试吧8、拓展：使用JavaConfig代替注解三、拓展配置1、注册中心2、版本与分组3、传递调用参数4、泛化调用5、泛化实现
Apache http 强制 https 熊猫小账本App Web Linux Safe http apache https ssl
1.修改一下文件配置sudonano/etc/apache2/sites-enabled/000-default.confServerNamehongweizhu.comServerAliaswww.hongweizhu.comServerAdminwebmaster@localhostDocumentRoot/var/www/html#强制重定向到HTTPSRewriteEngineOnRewr
SpringBoot快速集成RocketMQ大全，SpringBoot使用RocketMQ收发消息
文章目录一、写在前面二、发送消息三、接收消息1、push2、Pull模式四、事务消息五、消息轨迹六、ACL功能七、请求应答语义支持八、常见问题一、写在前面官方文档：https://github.com/apache/rocketmq-spring/wiki/%E7%94%A8%E6%88%B7%E6%89%8B%E5%86%8C引包：org.apache.rocketmqrocketmq-spri
在ARM46+KylinOS下安装配置Docker的详细步骤 Q_Daniooi docker 容器运维
目录一、安装前准备（一）环境检查（二）依赖准备二、Docker安装步骤（一）添加Docker官方源（以Debian分支银河麒麟为例，RPM系类似调整）（二）安装Docker引擎（三）启动与基础配置三、Docker优化配置（可选但推荐）（一）镜像加速（二）存储驱动优化四、注意事项（一）系统兼容性（二）网络与镜像源（三）权限与安全（四）ARM架构特殊点五、经常遇见的问题及解决方法六、学习经验分享一、前
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
rdkafka线程过多_我是如何处理大并发量订单处理的 KafKa部署总结 weixin_39574928 rdkafka线程过多
今天要介绍的是消息中间件KafKa，应该说是一个很牛的中间件吧，背靠Apache与很多有名的中间件搭配起来用效果更好哦，为什么不用RabbitMQ，因为公司需要它。网上已经有很多怎么用和用到哪的内容，但结果很多人都倒在了入门第一步环境都搭不起来，可谓是从了解到放弃，所以在此特记录如何在linux环境搭建，windows中配置一样，只是启动运行bat文件。想要用它就先必须了解它能做什么及能做到什么程
Spring for Apache Pulsar-＞Reactive Support-＞Quick Tour
我们将通过展示一个以响应式方式生成和消费的示例SpringBoot应用程序，快速了解Spring对ApachePulsar的响应式支持。这是一个完整的应用程序，不需要任何额外的配置，只要您在默认位置localhost:6650上运行Pulsar集群即可。1.DependenciesSpringBoot应用程序只需要SpringBoot启动器脉冲响应依赖关系。以下清单分别显示了如何定义Maven和G
聚合全能邮箱：如何统一管理多平台邮件账户 tomcsdn31 域名邮箱电子邮箱邮件营销企业邮箱邮件群发营销邮件外贸开发信
聚合全能邮箱：如何统一管理多平台邮件账户聚合全能邮箱有哪些优势？烽火域名邮箱的优势特点？聚合全能邮箱应运而生，它通过整合多个邮箱账户，实现统一管理，极大提升了邮件处理的效率和便捷性。烽火将详细介绍聚合全能邮箱的优势与使用技巧，帮助用户轻松掌控多平台邮件账户。聚合全能邮箱：核心优势聚合全能邮箱最大的优势在于它能够将不同平台的邮件账户整合到一个界面中，用户无需频繁切换应用即可查看所有邮件。通过聚合全能
Using Spring for Apache Pulsar:Message Consumption 虾条_花吹雪 Spring for Pulsar java spring Pulsar
1.PulsarListener对于Pulsar消费者，我们建议最终用户应用程序使用PulsarListener注释。要使用PulsarListener，您需要使用@EnablePulsar注释。当您使用SpringBoot支持时，它会自动启用此注释并配置PulsarListener所需的所有组件，例如消息侦听器基础设施（负责创建Pulsar消费者）。PulsarMessageListenerCo
Using Spring for Apache Pulsar:Transactions 虾条_花吹雪 Spring for Pulsar ai Spring Pulsar
本节介绍SpringforApachePulsar如何支持事务。OverviewSpringforApachePulsar事务支持是基于SpringFramework提供的事务支持构建的。在高层，事务资源向事务管理器注册，事务管理器反过来处理注册资源的事务状态（提交、回滚等）。ApachePulsar的Spring提供了以下功能：PulsaTransactionManager-用于正常的Sprin
千亿级消息引擎 Apache Pulsar 深度剖析：架构原理、设计哲学与实战实践北漂老男人 Pulsar apache 架构学习方法运维
千亿级消息引擎ApachePulsar深度剖析：架构原理、设计哲学与实战实践Pulsar不止是消息队列，更是下一代云原生流平台。本文将深入剖析其底层架构、核心特性、关键差异、源码细节、调优技巧与企业级实践路径，力求做到“知其然，知其所以然”。一、架构哲学：分层解耦+IO隔离1.1三层架构模型（Broker+BookKeeper+ZooKeeper）Pulsar基于分布式系统经典设计范式：计算与存储
Apache Pulsar 技术全景解析：架构设计、源码剖析与实战优化北漂老男人 Pulsar apache 学习方法运维 linux 开发语言
ApachePulsar技术全景解析：架构设计、源码剖析与实战优化1.1消息队列与流处理基础一、消息队列与流处理的本质消息队列（MQ,MessageQueue）是一种典型的“生产者-中间件-消费者”模式。消息生产者将消息发送到队列，消费者异步拉取处理，解耦系统、削峰填谷、容错降压。流处理（StreamProcessing）强调对数据流的实时处理。数据不断产生并被持续处理，适合日志分析、实时监控、风
【WiFi监控事件代码】咖丨喱网络
/**Copyright2008,TheAndroidOpenSourceProject**LicensedundertheApacheLicense,Version2.0(the"License");*youmaynotusethisfileexceptincompliancewiththeLicense.*YoumayobtainacopyoftheLicenseat**http://www.
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

Kylin on Parquet 介绍和快速上手

你可能感兴趣的:(Apache,Kylin,使用技巧)