Kyligence

Apache Kylin 云原生架构的思考及规划

在 1 月 4 号 ECUG 技术大会的分享中，Kyligence 的 CEO Luke Han 为大家带来了主题为《Apache Kylin 云原生架构的思考及规划》的精彩演讲，分享了 Kylin 如何拥抱云原生这一趋势。欢迎希望参与打造云原生 Kylin 的同学踊跃联系我们 [email protected]，邮箱主题请备注「参与 Kylin 云原生开发」，下一代 Kylin 等着你～

以下为演讲实录。

各位同学，大家下午好！非常高兴今天来到这个场合，给大家介绍一下 Apache Kylin 在接下来云原生方面的变化和思考，以及我们在这方面最近的工作。

01 关于 Apache Kylin

首先介绍一下 Apache Kylin 这个项目，Kylin 是我们五六年前在 eBay 中国研发中心孵化，完全由中国人设计、研发、贡献出来的第一个 Apache 顶级项目，我们在这方面的确踩了一条路出来。今天我们看到 Apache 软件基金会里有十几个来自中国的项目，包括华为、百度、阿里等等，我们看到在全球的开源社区里有越来越多中国人的声音和力量。

Apache Kylin 是做什么的？它是一个分布式引擎，为 Hadoop 等大型分布式数据平台之上的超大规模数据集通过标准 SQL 查询及多维分析（OLAP）功能，提供亚秒级的交互式分析能力。也就是数据集很大的情况下，业务人员需要快速分析的时候，需要这么一个数据集市的解决方案，把数据汇总好，能够让你的业务人员用起来很快很爽，而不是让他再跑一个脚本。

我们看一下 Kylin 的基础架构。Kylin 是基于 Hadoop的，使用 MapReduce/Spark 进行预计算，并且使用 HBase 保存预计算的中间结果。通过 Calcite 来将 SQL 解析为执行计划，并且将最复杂的现场计算工作省去，直接利用预计算准备好的中间结果，达到加速查询的目的。

在当年的时候其实做得还挺好，但是这几年遇到了巨大的挑战。

02 挑战来临

第一个挑战叫云原生， Hadoop 的架构在云原生上是非常大的痛苦，而且是反云原生的，需要去解决的还有很多。我们 Apache Kylin 项目最原始的一些人出来创业，我们的创业公司叫 Kyligence ，在上海。我们成立之后，自己做了一个项目叫“逃离动物园”，因为整个 Hadoop 都是动物，猪、蛇还有蚂蚁、蜜蜂等等。

今天云计算在吞噬所有的世界，所以你如果不去做，你就被人吃掉了，赶紧去做。这张图背后的故事今天就不讲了，这两年发生的故事太多了。

回过头，来分析下我们想干的这件事情好在哪里，不好在哪里。可以看到整个 Hadoop 的曲线，对于整体私有部署还不错，还很便宜。但是你会发现整个学习曲线、计算存储、版本管理之类的相当令人痛苦。和 Hadoop 相关的项目有两三百个，你要去把这个事情玩得溜，要把版本弄清楚，要把牌打清楚，非常复杂。让这个东西上云的时候，你会发现更痛苦。

如果你有 PB 以上的数据量放在 Hadoop 里，我相信你靠一个人是摆不平的。如果你上面老板还想要做复杂点的东西，你发现养 10 个人的团队是必然的，而且还要天天晚上起来，因为跑 batch 的时候往往在晚上。

当时，我们发现 Kylin 的存储 HBase 也有巨大的挑战。它的挑战在于不是一个真正的列存，它可以很好地写优化，但是整个索引等等都有很大的挑战，而且运维相当困难。当然现在已经很好了，我们最早用 v0.98，那时候整个挂掉都是很正常的。另外一个是它缺乏二级索引，HBase 今天的版本里面依然没有很好的二级索引。我如果做查询，只做一个维度上的高查询，是可以做到的，但是业务用户永远不是这么想的。包括无数据类型等等，都有很大的挑战。而且放在云上面的挑战更大，日积月累以后数据占用的资源就很大了。我不是说它不好，它还是相当不错的。

当时我们看到了这些问题，但当时我们严重依赖 Hadoop ，今天我们要做的是想要怎么样逃出去，又不能完全从头写一个，外面那么多用户在用。所以我们想的第一件事情是云上有哪些好的东西，云上的特点在哪里。讲到云上的时候对象存储，云上对象存储很便宜，可以放很多的数据，但它不是一个 native 的存储，也就是说它比 HBase 直接访问磁盘要慢不少，今天我们在云上一定要加速，一定要在这方面做很多工作。好处是放在云上很便宜。

另外一个是在整个资源管理上，一般来说云上现在更多的是用 Kubernetes ，你在 Hadoop 里还得去做选型，很复杂。还有其他一些问题，其中最重要的一点叫存储与计算分离，不能说老是往云上方放数据，如果老板已经让你买了几千台机器，放在机房里不用，是沉没成本，但是放在云上就不一样了。

03 Apache Kylin 如何适应这一趋势?

回过头来，我们希望在整个云上面做几样东西，第一个是希望能够做到从整个持续集成，从容器编排到微服务和敏捷开发，都可以在新一代架构里面做出来，来看看我们是怎么去做的。

我们第一步是做重构，这件事情大概发生在 2014、2015 年的样子，我们创业前后的样子。这是最早的麒麟架构，其实我们最早设计的时候比较好的一点，我们完全是面向接口编程的，所以每个模块做得非常好，从源数据到执行引擎到存储到访问到 Server ，全部都是放开的。但还不够，所以我们做了一件事情叫可插拔的架构，我在某一年的 ECUG 讲过这个概念。也就是说我们把每一块都抽象出来，把 Cube Builder 这块全部变掉，这个好处也就是我们有能力去随时随地换掉某一个引擎。理想是很好的，但是现实确实很骨感。比如你想换个存储引擎，换换挺快的，让它成熟我们至少花了两年，这是一个过程。这是第一步，好几年前就做完了。

我们干完这件事情之后，各个地方都可以变成一个所谓的 Adaptor 的结构，我们最早只能支持 Hive source ，也就是说我们只能从 Hive 读数据，今天我们已经可以从 Kafka 等等，甚至前段时间做了一个阿里的接口，都做出来了，很容易，因为可插拔的架构在这儿了。

第二件事情是非常重的改变。最早的时候我们完全用 MapReduce 去做整个底下的计算，那个时候 MapReduce 做得确实好，坦率讲今天我的大量客户还在用 MapReduce ，原因是稳定，慢是很慢，但是真的稳定。但有的时候 MapReduce 并不 work，尤其我们想要扔到云上去，尤其是我们想要逃出这个动物园的话。所以我们第一个决定是用 Spark。

Spark 有几个好处，我们之前的计算是一层一层算的，简单地说，每一层是一个 Mapreduce Job，我这个 Job 做完才能做下一个，下一个做完才能做下一个。但是这里最大的问题是两个：一个在于数据会落盘，每一层计算完了以后都会 flush 到 HDFS 之上，下一个层才能去读；第二个问题在于，每一层都是一个 MapReduce Job ，所以会带来一个巨大的 job 的 overhead，因为你起一个 job 和关一个 job 是有时间差的，整个构建有很多层，时间就很长很长。所以我们当时就整个换成了 Spark，用 RDD 的方式，好处在于整个过程，一个 Spark Job 就过去了。

坦率讲，在这个场景下我们碰到了若干的坑，尤其是内存相关的，因为数据量太大，所以那时候 Spark 经常会爆，现在比较稳定了，我们有比较好的方式。这是整个 Spark 当时的改变。这个版本大概是在 2015 、2016 年的时候出来的，我们花了很多力气去做稳定性。

这是整个实现，以前每个 MapReduce Job 都是一个 for 循环，计算复杂度是非常大的。你想想看去加载几百 TB 数据计算的时候，是几个小时甚至十几个小时的过程，十几个小时的 for 循环。现在一个 Spark Job 提交上去之后就结束了，所有的东西在一个 Job 处理。这里最重要的是内存配置，不要把数据爆掉，这块 Kylin 社区有相当多的经验和实践可以给大家看。

不仅是 build ，整个过程都用 Spark 去做，这个时候你完全不需要依赖于 Hadoop 的东西了。这是一个对比，在 2017 年的 Spark 会议上介绍了，当时对比了一些相应的 MapReduce 的性能对比，一个非常粗的结论是我们可以节省一半的时间，当然这跟数据有关，有些数据集上反而会慢，这是肯定的，需要调优。

干完这件事情之后，我们另外一个事情是要运维了，因为云原生的东西一定要想办法更好地去运维它，所以 Docker 化是我们的第一步。我们在 2016 年 Docker 很火的时候就做了一个版本出来，这个东西一直在，然后整个查询服务是完全可以无状态化的，完全可以容器化了，当时我们就全部解决掉了，一个 Docker 下载下来就好了。现在查询服务本身无状态，都可以做到，这个很简单。

Docker 有了后还缺一样东西——天下大火的东西 Kubernetes 。你有了 Docker 已经去多中心了，耦合性也没有了，怎么去编排它，这块社区在开发中，快结束了。

怎么用 Kubernetes 去管理所有跟 Kylin 相关的东西，这是非常重要的。尤其在云上的时候，我们自己的云版本已经做到自动伸缩了，也就是说我可以在数据量进来之后，通过规则对资源的使用去做伸缩。这个得益于整个 Docker 化和 Kubernetes 化，可以做自动化的编排。

第二点，Kubernetes 化之后，给我们带来一个最大的变化，就是我们之前要依赖云上的 Hadoop ，你要做一整套东西的时候，要先去弄一堆东西出来，然后再培育出我们的东西出来，前前后后加在一起最乐观的情况下，EMR 的资源足够的情况下都需要 30 分钟，这不是我们的问题，是 Hadoop 集群初始化太慢了。今天我们的云版本已经完全拿掉 Hadoop 的情况下，现在最快大概 2 到 3 分钟就可以把一个集群完全性地跑出来，几行命令出来就可以了，这才应该是云上应该有的方式。

这是怎么使用 Kubernetes，我们现在有很多开源用户，他们在生产，已经把这块东西注册到他们内部上去了，用得还蛮好的，看到很多不错的方式，可以做到无人值守、无人运维。

这还不够，我们现在准备改动最深的一块：存储。之前提到了 Kylin on HBase 方案的诸多局限性，所以我们在商业版里用 Parquet 代替了 HBase。这个方案正在贡献回开源社区，目标是在今年上半年做出来，在下一代Kylin里面就没有 HBase 了，这套东西很复杂，因为存储改变带来的各种调优，确实相当复杂。而且有太多的东西进来以后，你要去做各种妥协，甚至有些场景之间是互斥的，你怎么去做，我们花了蛮多的力气，无所不用其极，压榨最后一分能力。

社区已有 Kylin on Parquet 分支。我们 2018 年底做的简单测试，证明我们把同样的东西放在 Parquet 上和放在 HBase 上，性能上差不多，甚至有些东西 Parquet 好一点，有些东西 Parquet 差一点，但是那时候没有做调优。也就是存储换成 Parquet 能够跑通我所有的测试，可以全部接得住。所以现在我们在紧锣密鼓地做这个事情，这还是蛮有挑战的。

最后一块，前面的五步做完了之后，扔到云上去就可以了，还差一块，也就是查询引擎。其实做到这个地方，作为一个分析的工具，SQL 的查询引擎是最难的，SQL 的查询引擎我们最早用的是 Apache Calcite， Calcite 应该是现在业界用得最多的 SQL 引擎。

当时我们用起来挺好的，但我们发现在大数据场景下就不行了。SQL 进来，plan 出来，优化好，从存储层将数据拿出来就好了，很快的。但是返回结果集的数据量非常大的场景下，尤其在咱们中国人多，在我们这里，返回来几百万条太正常了。所有的场景，我要把数据取回来，你会发现没有任何办法去缩小最终的数据集。Calcite 是一个单线程的设计，所以这个时候麻烦就大了，底下的存储引擎的计算速度很快，可能十几二十个毫秒就把数据取回来了，结果到Calcite这里是单线程，就只能等 Query 节点的 CPU 资源了，所以还是不合适的。

我们现在花了巨大的力气把它改成了 Spark 的方式，完全变成分布式的。变成这个以后，你会发现以前 cube 是因为存在 HBase 上，它是分布式的，所以我能够在各个节点把数据拉回来。收集完各个节点数据进行 Filter 开始就慢了，因为是单线程的。所以我们改变了一个方式，现在完全是用分布式了，所以你可以看打在上面的 sort 都是分布式的，你不需要在一个进程进行大量数据的 sort。这个情况，今天很多客户说在 Kylin 的节点上会去做优化，但是有时候不能解决性能瓶颈，只有这种分布式方式去做才能根本上解决性问题。但是这块的坑更大，因为这里面太复杂了。我们现在花很多力气，现在也在开发和测试，我们在看是不是可以和社区一起去做，我们把大部分的东西已经做完了。

2019 年 12 月发布了Kylin 3.0，3.0 是纯实时的架构。我们今年的目标是去做 Apache Kylin 4.0，希望 4.0 能变成真云原生，真实时的一整套。而且我们希望做到更好的一点，叫批流一体化，也就是说一个数据模型不用管数据到底是历史进来还是流式进来，对于业务用户，不应该切换不同的平台，只要去查就好了，只要去用就好了，不需要维护两套。如果我们可以做到前面讲的计划，完全是在云的整个场景下，会大大地降低整个运维难度和使用门槛。

欢迎希望参与打造云原生 Kylin 的同学踊跃联系我们 [email protected]，邮箱主题请备注「参与 Kylin 云原生开发」，下一代 Kylin 等着你～

我们的整体目标，第一是轻量级的架构，在云上我们基本上只会依赖两三样东西：一个是 Spark，这是肯定要的；第二个是 Kubernetes；还有一个是云存储。第二个目标是在云上自动伸缩起停，根据负载来伸缩，而不是一直放在那里。最终就是 TCO ，整个成本要降低下去。

以上是我们对 Kylin 往云原生这个方向转型的思考以及做法，我们非常谨慎，原因在于数据是用户的核心资产，我们非常敬畏这件事情。在转换的过程中，还是需要巨大的工作要去把它做得更加好、更加完善。谢谢各位！

了解更多大数据资讯，点击进入Kyligence官网

Tomcat从入门到精通：全方位深度解析与实战教程墨瑾轩一起学学Java【一】运维 tomcat java
一、Tomcat入门1.Tomcat简介ApacheTomcat，简称Tomcat，是一个开源的轻量级应用服务器，专为运行JavaServlet和JavaServerPages(JSP)技术设计。它是JavaWeb开发中最常用的Servlet容器之一，遵循JavaServlet和JavaServerPages规范，为开发者提供了一个稳定的、易于使用的部署环境。2.安装与启动安装下载最新版Tomca
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
探索Astra DB与LangChain的集成：从向量存储到对话历史 eahba 数据库 langchain python
技术背景介绍AstraDB是DataStax推出的一款无服务器的向量数据库，基于ApacheCassandra®构建，并通过易于使用的JSONAPI提供服务。AstraDB的独特之处在于其强大的向量存储能力，这在处理自然语言处理任务时尤为突出。LangChain与AstraDB的集成为开发者提供了强大的工具链，从数据存储到语义缓存，再到自查询检索，帮助简化复杂的数据操作。核心原理解析LangCha
Linux常见的敏感目录 306Safe linux php apache
渗透过程中，我们可能会碰到一些任意文件读取，以下是Linux下的常见的敏感目录，可以使用burp进行爆破。/apache/apache/conf/httpd.conf/apache/apache2/conf/httpd.conf/apache/php/php.ini/bin/php.ini/etc/anacrontab/etc/apache/apache.conf/etc/apache/httpd
JDBC:Apache DBUtils的使用恒奇恒毅 JavaSE
•commons-dbutils是Apache组织提供的一个开源JDBC工具类库，它是对JDBC的简单封装，学习成本极低，并且使用dbutils能极大简化jdbc编码的工作量，同时也不会影响程序的性能。•API介绍：–org.apache.commons.dbutils.QueryRunner–org.apache.commons.dbutils.ResultSetHandler以及一些实现类–工
SpringBoot集成Pulsar 生产者与消费者示例代码七维大脑技术&解决方案分享 java 中间件
目录介绍功能特点一、导入pulsar依赖二、pulsar配置（示例为yml文件）三、生产者示例代码四、消费者代码介绍Pulsar是一个多租户、高性能的服务器到服务器消息传递解决方案。Pulsar最初由Yahoo开发，由Apache软件基金会管理。功能特点Pulsar的主要功能如下：原生支持Pulsar实例中的多个集群，并可跨集群无缝地复制消息。非常低的发布和端到端延迟。无缝扩展到超过一百万个主题。
Java：Apache HttpClient中HttpRoute用法的介绍 netyeaxi Java java apache 开发语言
当使用ApacheHttpClient组件时，经常会用到它的连接池组件。典型的代码如下：PoolingHttpClientConnectionManagerconnectionManager=newPoolingHttpClientConnectionManager();connectionManager.setMaxTotal(httpConfig.getMaxPoolTotal());conn
Apache Tomcat漏洞公开发布仅30小时后即遭利用 FreeBuf- 资讯 apache tomcat 网络安全
近日，ApacheTomcat曝出一项安全漏洞，在公开发布概念验证（PoC）仅30小时后，该漏洞即遭到攻击者利用。这一漏洞编号为CVE-2025-24813，主要影响以下版本：1.ApacheTomcat11.0.0-M1至11.0.22.ApacheTomcat10.1.0-M1至10.1.343.ApacheTomcat9.0.0-M1至9.0.98漏洞详情与利用条件该漏洞可能导致远程代码执行
深入理解 Kafka 的 ConsumerRebalanceListener t0_54coder 编程问题解决手册 kafka linq 分布式
深入理解Kafka的ConsumerRebalanceListener在分布式系统中，数据的一致性和可靠性是至关重要的。ApacheKafka作为一个流行的分布式流处理平台，提供了强大的数据传输和处理能力。在Kafka中，消费者组（ConsumerGroup）的概念允许多个消费者实例共同处理一个主题的数据。然而，当消费者实例的个数发生变化时，如何确保数据的平衡和一致性呢？这就引出了我们今天要讨论的
Apache Tomcat默认文件漏洞 m0_67401606 java tomcat apache servlet 后端
ApacheTomcat默认文件漏洞一、概要漏洞描述：默认错误页面，默认索引页面，示例JSP和/或示例servlet安装在远程ApacheTomcat服务器上。应删除这些文件，因为它们可能有助于攻击者发现有关远程Tomcat安装或主机本身的信息。漏洞风险：中修复建议：删除默认索引页并删除示例JSP和servlet。按照Tomcat或OWASP说明更换或修改默认错误页面。二、解决办法1、直接删除do
【Apache Tomcat信息泄露漏洞】猫饭_ACE 业务所需 tomcat apache java
一、漏洞详情ApacheTomcat是一个流行的开源Web服务器和Java代码的Servlet容器。9月28日，Apache发布安全公告，公开披露了Tomcat中的一个信息泄露漏洞（CVE-2021-43980）。由于某些Tomcat版本中的阻塞式读写的简化实现导致存在并发错误（极难触发），可能使客户端连接共享一个Http11Processor实例，导致响应或部分响应被错误的客户端接收，造成信息泄
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
基于kylin-v10安装docker 神奇侠2024 redis kylin 大数据 docker
1、下载地址Indexoflinux/static/stable/x86_64/2、下载docker-24.0.5.tgz.tar版本3、上传服务器解压tarxvfdocker-24.0.5.tgz.tar4、解压的docker拷贝或移动到/usr/bin/目录下cpdocker/*/usr/bin/5、编写docker.service文件加入Linux服务当中并开启守护进程vi/etc/syst
mysql数据库应用与开发姜桂洪课后答案_清华大学出版社-图书详情-《MySQL数据库应用与开发》... 韦盛江课后答案
前言Oracle公司的MySQL是目前最流行的关系数据库管理系统之一。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL数据库以其精巧灵活、运行速度快、经济适用性强、开放源码等优势，作为网站数据库获得许多中小型网站的开发公司的青睐。MySQL性能卓越，搭配PHP和Apache可组成良好的软件开发环境，并且已经大量部署到中小型企业和高校的教学平台。本书从教学实际需求出发，结合
优化Apache Spark性能之JVM参数配置指南 weixin_30777913 jvm spark 大数据开发语言性能优化
ApacheSpark运行在JVM之上，JVM的垃圾回收（GC）、内存管理以及堆外内存使用情况，会直接对Spark任务的执行效率产生影响。因此，合理配置JVM参数是优化Spark性能的关键步骤，以下将详细介绍优化策略和配置建议。通过以下优化方法，可以显著减少GC停顿时间、提升内存利用率，进而提高Spark作业吞吐量和数据处理效率。同时，要根据具体的工作负载和集群配置进行调整，并定期监控Spark应
快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f
IDEA本地启动flink 任务 Direction_Wind intellij-idea flink java
1pom中添加org.apache.flinkflink-clients_${scala.binary.version}${flink.version}org.apache.flinkflink-runtime-web_${scala.binary.version}${flink.version}2下载flink-dist包并3打印日志中搜索localhost可以找到flink的管理页面
[解决] PDF转图片,中文乱码或显示方框的解决方案 DazedMen 开发遇到的问题 pdf java pdf转图片
在Java开发中，将PDF文件转换为图片是一项常见的需求，但过程中可能会遇到中文乱码或显示方框的问题。本文将深入探讨这一问题，并提供详细的解决方案，帮助开发者顺利地完成PDF到图片的转换。一、问题现象在使用Java库（如ApachePDFBox）将PDF转换为图片时，如果PDF文件中包含中文字符，转换后的图片中可能会出现中文乱码或显示为方框的情况。控制台日志可能会显示类似以下信息：noglyphf
Mybatis和Mybatis-plus常用注解 AWen_X Java常用框架注解 mybatis 开发语言 java 后端 spring boot spring
Mybatis和Mybatis-Plus常用注解一、Mybatis常用注解1.@Select注解说明：标记查询语句，用于定义查询操作的SQL语句。代码示例：@Select("SELECT*FROMusersWHEREid=#{id}")UsergetUserById(@Param("id")Longid);注解处理类：由org.apache.ibatis.builder.annotation.Ma
第二十九篇数据仓库与商务智能：技术演进与前沿趋势深度解析随缘而动，随遇而安数据库数据仓库大数据数据库架构数据库开发
声明：文章内容仅供参考，需仔细甄别。文中技术名称属相关方商标，仅作技术描述；代码示例为交流学习用途，部分参考开源文档（Apache2.0/GPLv3）；案例数据已脱敏，技术推荐保持中立；法规解读仅供参考，请以《网络安全法》《数据安全法》官方解释为准。目录一、核心差异：技术定位与实现路径1.1核心能力矩阵二、协同关系：现代数据供应链的双引擎2.1数据价值链协同2.2典型技术栈集成三、前沿技术动态（2
基于BCLinux制作Apache HTTPD 2.4.63 的RPM安装包 IT布道 apache
在这之前，我写过一篇《基于CentOS7制作ApacheHTTPD2.4.58的RPM安装包》的文章。本文大部分内容和之前差不多，但因为操作系统由CentOS7变成了BC-Linux，所以，有些内容就可以删减了。编译环境：操作系统：BC-Linuxhttpd版本：2.4.63制作工具：rpmbuild（这个之前的文章有介绍，看这里）下载httpd源码：官网目前的最新版本是2.4.63(2025.1
【JavaEE】Mybatis 简单启动鸽鸽程序猿 JavaEE java-ee mybatis 数据库
目录一、Mybatis简介二、MyBatis⼊⻔2.1创建项目2.2准备数据2.3配置文件2.4实体类2.5执行结果一、Mybatis简介Mybatis是一个操作数据库驱动的持久层框架，用来简化JDBC操作的，SpringBoot集成了这个框架。MyBatis本是Apache的⼀个开源项⽬iBatis，2010年这个项⽬由apache迁移到了googlecode，并且改名为MyBatis。2013
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
ActiveMQ z小天才b ActiveMQ java-activemq activemq spring boot
一、ActiveMQ概述1.1什么是ActiveMQ？ActiveMQ是Apache软件基金会开发的一个开源消息中间件，它完全支持JMS（Java消息服务）规范，并提供了高可用性、高性能和可扩展性。ActiveMQ允许不同的应用程序通过消息传递进行异步通信，从而实现系统解耦。1.2ActiveMQ核心特性多协议支持：支持OpenWire、STOMP、AMQP、MQTT等多种协议持久化：支持多种持久
使用Jmeter进行接口测试的基本步骤有哪些？海姐软件测试 Jmeter 测试工具职场和发展面试
使用JMeter进行接口测试通常包含以下基本步骤：1.环境准备下载与安装：访问ApacheJMeter的官方网站（ApacheJMeter-ApacheJMeter™）下载适合你操作系统的JMeter版本，解压下载的压缩包到指定目录。启动JMeter：在解压后的目录中，找到bin文件夹，根据操作系统不同，双击jmeter.bat（Windows）或jmeter.sh（Linux/Mac）启动JMe
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
RocketMQ 和 Kafka 重生之我在成电转码 rocketmq Kafka java 消息队列
✅RocketMQ和Kafka是两种非常流行的分布式消息队列系统，它们广泛用于大规模、高并发的消息传递和事件驱动架构中。虽然它们都属于消息队列，但在设计理念、特性和应用场景上有一些差异。接下来，我们来深入分析这两者的区别与优缺点。一、Kafka和RocketMQ的概述✅1️⃣KafkaKafka是一个分布式的流处理平台，由Apache软件基金会开发，最初由LinkedIn开发并开源。Kafka主要
麒麟V10 arm cpu aarch64 下编译 RocketMQ-Client-CPP 2.2.0 eamon100 Linux操作系统 java-rocketmq rocketmq c++
国产自主可控服务器需要访问RocketMQ消息队列，最新的C++SDK是2020年发布的rocketmq-client-cpp-2.2.0这个版本支持TLS模式。用默认的版本安装遇到一些问题，记录一下。下载Releases·apache/rocketmq-client-cpp·GitHubhttps://github.com/apache/rocketmq-client-cpp/releases操
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

Apache Kylin 云原生架构的思考及规划

你可能感兴趣的:(Apache,Kylin,产品技术)