南潇如梦

Kylin知识点总结

Kylin

1、Apache Kylin概览

1.1 什么是Kylin

Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

1.2 Kylin的简介

Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求，它提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据，它能在亚秒内查询巨大的Hive表。其核心是预计算，计算结果存在HBase中。

作为大数据分析神器，它也需要站在巨人的肩膀上，依赖HDFS、MapReduce/Spark、Hive/Kafka、HBase等服务。

1.3 Kylin的优势

Kylin的主要优势为以下几点：

可扩展超快OLAP引擎：Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计
Hadoop ANSI SQL 接口：Kylin为Hadoop提供标准SQL支持大部分查询功能
交互式查询能力：通过Kylin，用户可以与Hadoop数据进行亚秒级交互，在同样的数据集上提供比Hive更好的性能
多维立方体（MOLAP Cube）：用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体
与BI工具无缝整合：Kylin提供与BI工具的整合能力，如Tableau，PowerBI/Excel，MSTR，QlikSense，Hue和SuperSet
其它特性：Job管理与监控；压缩与编码；增量更新；利用HBase Coprocessor；基于HyperLogLog的Dinstinc Count近似算法；友好的web界面以管理，监控和使用立方体；项目及表级别的访问控制安全；支持LDAP、SSO

1.4 基本原理

Kylin的核心思想是预计算。

理论基础是：以空间换时间。即多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到HBase中，供查询时直接访问。

大致流程：将数据源(比如Hive)中的数据按照指定的维度和指标，由计算引擎Mapreduce离线计算出所有可能的查询结果(即Cube)存储到HBase中。HBase中每行记录的Rowkey由各维度的值拼接而成，度量会保存在column family中。为了减少存储代价，这里会对维度和度量进行编码。查询阶段，利用HBase列存储的特性就可以保证Kylin有良好的快速响应和高并发

Apache Kylin的工作原理是对数据模型做Cube预计算，并利用计算的结果加速查询。具体工作过程如下:

指定数据模型，定义维度和度量
预计算Cube，计算所有Cuboid并保存为物化视图（存储到hbase中）
执行查询时，读取Cuboid，运算，产生查询结果

高效OLAP分析：

Kylin的查询过程不会扫描原始记录，而是通过预计算预先完成表的关联、聚合等复杂运算
利用预计算的结果来执行查询，相比非预计算的查询技术，其速度一般要快一到两个数量级，在超大的数据集上优势更明显
数据集达到千亿乃至万亿级别时，Kylin的速度可以超越其他非预计算技术1000倍以上

1.5 维度和度量

维度就是观察数据的角度，例如：

电商的销售数据，可以从时间的维度来观察，也可以细化从时间和地区的维度来观察
统计时，可以把维度值相同的记录聚合在一起，然后应用聚合函数做累加、平均、去重计数等聚合计算

度量就是被聚合的统计值，也是聚合运算的结果

1.6 数据立方体

数据立方体只是多维模型的一个形象的说法

为什么叫立方体？
- 立方体本身只有三维，但多维模型不仅限于三维模型，可以组合更多的维度
- 为了与传统关系型数据库的二维表区别开来，才有了数据立方体的叫法

1.7 技术架构

数据源主要是Hadoop Hive，数据以关系表的形式输入，且必须符合星形模型，保存着待分析的用户数据。根据元数据的定义，构建引擎从数据源抽取数据，并构建Cube
Kylin可以使用MapReduce或者Spark作为构建引擎。构建后的Cube保存在右侧的存储引擎中，一般选用HBase作为存储
完成了离线构建后，用户可以从上方查询系统发送SQL进行查询分析
Kylin提供了各种Rest API、JDBC/ODBC接口。无论从哪个接口进入，SQL最终都会来到Rest服务层，再转交给查询引擎进行处理
SQL语句是基于数据源的关系模型书写的，而不是Cube
1. Kylin在设计时，刻意对查询用户屏蔽了Cube的概念
2. 分析师只需要理解简单的关系模型就可以使用Kylin，没有额外的学习门槛，传统的SQL应用也很容易迁
3. 查询引擎解析SQL，生成基于关系表的逻辑执行计划，然后将其转译为基于Cube的物理执行计划，最后查询预计算生成的Cube并产生结果，整个过程不会访问原始数据源

1.8 Kylin特点

Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI工具集成等。

1）标准SQL接口：Kylin是以标准的SQL作为对外服务的接口。

2）支持超大数据集：Kylin对于大数据的支撑能力可能是目前所有技术中最为领先的。早在2015年eBay的生产环境中就能支持百亿记录的秒级查询，之后在移动的应用场景中又有了千亿记录秒级查询的案例。

3）亚秒级响应：Kylin拥有优异的查询相应速度，这点得益于预计算，很多复杂的计算，比如连接、聚合，在离线的预计算过程中就已经完成，这大大降低了查询时刻所需的计算量，提高了响应速度。

4）可伸缩性和高吞吐率：单节点Kylin可实现每秒70个查询，还可以搭建Kylin的集群。

5）BI工具集成

Kylin可以与现有的BI工具集成，具体包括如下内容。

ODBC：与Tableau、Excel、PowerBI等工具集成

JDBC：与Saiku、BIRT等Java工具集成

RestAPI：与JavaScript、Web网页集成

Kylin开发团队还贡献了Zepplin的插件，也可以使用Zepplin来访问Kylin服务。

1.9 Kylin的总体架构

2、Kylin环境搭建

2.1 安装地址

1）官网地址

http://kylin.apache.org/cn/

2）官方文档

http://kylin.apache.org/cn/docs/

3）下载地址

http://kylin.apache.org/cn/download/

2.2 安装部署

提示说明：启动kylin之前，要启动如下所有命令

hive --service metastore &
hive --service hiveserver2 &
mr-jobhistory-daemon.sh start historyserver

将其上传服务器（目录随意）

#解压文件
[root@node1 ~]# tar -zxvf apache-kylin-2.5.1-bin-hbase1x.tar.gz -C /usr/local/
# 修改名称
[root@node1 local]# mv apache-kylin-2.5.1-bin-hbase1x/ kylin-2.5.1
# 启动 注意：启动之前要将HADOOP_HOME，HIVE_HOME，HBASE_HOME，HIVE_CONF配置好环境变量
[root@node1 kylin-2.5.1]# ./bin/kylin.sh start

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-msS2gQq7-1654304435820)(Kylin.assets/1619593891565.png)]

查看Web UI is at http://:7070/kylin

在http://qianfeng011:7070/kylin查看Web页面

输入用户名密码：用户名为：ADMIN，密码为：KYLIN（系统已填）

关闭：kylin.sh stop

3、基础入门操作

创建hive表

create table if not exists default.class1(
deptno int,
dname string,
loc int
)
row format delimited fields terminated by ',';

create table if not exists default.student(
empno int,
ename string,
job string,
mgr int,
hiredate string, 
sal double, 
comm double,
deptno int)
row format delimited fields terminated by ',';

进入hive添加数据

hive (default)> load data local inpath "/root/class1.txt" into table default.class1;
hive (default)> load data local inpath "/root/student.txt" into table default.student;

3.1 同步Hive表

创建project

同步hive数据

同步之前我们要查看Hive有哪些表

查看数据

3.2 创建Model

首先我们选择创建New Model选项

设置名和注释，然后下一步

添加事实表

添加维度表及join字段

选择维度信息

选择度量

添加分区信息及过滤条件之后“Save”

创建成功

3.3 创建Cube

选择模块创建cube

添加维度

添加需要做预计算的内容

动态合并更新（默认即可，如果有需要可以修改条件）

多功能模块（默认）

默认

创建信息

触发执行

查看

进入hive查看cube表

执行完毕

执行完毕后hive的cube消失

4、Hive和Kylin性能对比

进入hive执行

select * from class1;

打开kylin页面

自带可视化

数据导出

5、Kylin高阶操作

5.1 理解Cube,Cuboid与Segment的关系

Kylin将Cube划分为多个Segment(对应就是HBase中的一个表)

每个Segment用起始时间和结束时间来标志
Segment代表一段时间内源数据的预计算结果。
一个Segment的起始时间等于它之前那个Segment的结束时间,同理,它的结束时间等于它后面那个Segment的起始时间。
同一个Cube下不同的Segment除了背后的源数据不同之外,其他如结构定义,构建过程,优化方法,存储方式等都完全相同

segment示意图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FQhfqENT-1654304436182)(Kylin.assets/1620377995503.png)]

一个Cube,可以包含多个Cuboid,而Segment是指定时间范围的Cube,可以理解为Cube的分区。对应就是HBase中的一张表。该表中包含了所有的Cuboid

例如：以下为针对某个Cube的Segment

Segment名称	分区时间	HBase表名
202110110000000-202110120000000	20211011	KYLIN_41Z8123
202110120000000-202110130000000	20211012	KYLIN_5AB2141
202110130000000-202110140000000	20211013	KYLIN_7C1151
…	…	…

5.2 全量构建与增量构建

全量构建

全量构建:

Cube中只存在唯一的一个Segment
该Segment没有分割时间的概念，也就没有起始时间和结束时间
对于全量构建来说，每当需要更新Cube数据的时候，它不会区分历史数据和新加入的数据，也就是说，在构建的时候会导入并处理所有的原始数据

增量构建

增量构建:

只会导入新Segment指定的时间区间内的原始数据，并只对这部分原始数据进行预计算

5.2.1 全量构建与增量构建的对比

全量构建	增量构建
每次更新时都需要更新整个数据集	每次只对需要更新的时间范围进行更新，因此离线计算量相对较小
查询时不需要合并不同Segment的结果	查询时需要合并不同Segment的结果，因此查询性能会受影响
不需要后续的Segment合并	累计一定量的Segment之后，需要进行合并
适合小数据量或全表更新的Cube	适合大数据量的Cube

5.2.2 全量构建与增量构建的Cube查询方式对比

全量构建Cube
    查询引擎只需向存储引擎访问单个Segment所对应的数据，无需进行Segment之间的聚合
    为了加强性能，单个Segment的数据也有可能被分片存储到引擎的多个分区上，查询引擎可能仍然需要对单个Segment不同分区的数据做进一步的聚合

增量构建Cube
    由于不同时间的数据分布在不同的Segment之中，查询引擎需要向存储引擎请求读取各个Segment的数据
    增量构建的Cube上的查询会比全量构建的做更多的运行时聚合，通常来说增量构建的Cube上的查询会比全量构建的Cube上的查询要慢一些

对于小数据量的Cube，或者经常需要全表更新的Cube，使用全量构建需要更少的运维精力，以少量的重复计算降低生产环境中的维护复杂度。而对于大数据量的Cube，例如，对于一个包含两年历史数据的Cube，如果需要每天更新，那么每天为了新数据而去重复计算过去两年的数据就会变得非常浪费，在这种情况下需要考虑使用增量构建

5.3 增量Cube的创建

增量构建Cube过程

指定分割时间列

增量构建Cube的定义必须包含一个时间维度，用来分割不同的Segment，这样的维度称为分割时间列(Partition Date Column)
增量构建过程
- 在进行增量构建时，将增量部分的起始时间和结束时间作为增量构建请求的一部分提交给Kylin的任务引
- 任务引擎会根据起始时间和结束时间从Hive中抽取相应时间的数据，并对这部分数据做预计算处理
- 将预计算的结果封装成为一个新的Segment，并将相应的信息保存到元数据和存储引擎中。一般来说，增量部分的起始时间等于Cube中最后一个Segment的结束时间

导入文件到hive中，执行sql语句

-- 一、初始化Hive数据库、表结构
-- 1. 创建数据库、创建表
-- 2. 创建用户维度表
-- 3. 创建订单事实表

-- 1. 创建数据库、创建表
create database if not exists `kylin_dw`;

-- 2. 创建用户维度表
create table `kylin_dw`.`dim_user`(
    id string,
    name string
)
row format delimited fields terminated by ',';

-- 3. 创建订单事实表
create table `kylin_dw`.`fact_order`(
    order_id string,
    user_id string,
    price int
)
partitioned by (dt string)
row format delimited fields terminated by ',';


-- 二、装载数据
load data local inpath '/root/data_dim_user.txt' overwrite into table `kylin_dw`.`dim_user`;
load data local inpath '/root/data_order_20211011.txt' overwrite into table `kylin_dw`.`fact_order` partition(dt='20211011');
load data local inpath '/root/data_order_20211012.txt' overwrite into table `kylin_dw`.`fact_order` partition(dt='20211012');
load data local inpath '/root/data_order_20211013.txt' overwrite into table `kylin_dw`.`fact_order` partition(dt='20211013');
load data local inpath '/root/data_order_20211014.txt' overwrite into table `kylin_dw`.`fact_order` partition(dt='20211014');

创建增量Cube的过程和创建普通Cube的过程基本类似，只是增量Cube会有一些额外的配置要求

先将数据同步过来

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D0NWzWIw-1654304435834)(Kylin.assets/1620379871395.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aRD88QEZ-1654304435835)(Kylin.assets/1620380226608.png)]

配置Model
增量构建的Cube需要指定分割时间列。例如：将日期分区字段添加到维度列中

将日期分区字段添加到维度列中

在设置中，配置分区列，并指定日期格式

构建Cube（和之前的类似）

剩余全部下一步直到创建完成

执行测试

进行build弹窗填写开始时间,结束时间:构建20211011-20211012

注意：这里不包含结束时间，起始时间（包含）、结束时间（不保存）

执行成功后，查看log

  SQL日志

  ~~~
  INSERT OVERWRITE TABLE kylin_intermediate_demo1_592a5630_fcce_bb67_efe4_87409e56d1f6 SELECT
  FACT_ORDER.USER_ID as FACT_ORDER_USER_ID
  ,FACT_ORDER.DT as FACT_ORDER_DT
  ,FACT_ORDER.PRICE as FACT_ORDER_PRICE
  FROM KYLIN_DW.FACT_ORDER as FACT_ORDER 
  INNER JOIN KYLIN_DW.DIM_USER as DIM_USER
  ON FACT_ORDER.USER_ID = DIM_USER.ID
  WHERE 1=1 AND (FACT_ORDER.DT >= '20211012' AND FACT_ORDER.DT < '20211013')
  ;
  ~~~

  4. 查看Segment

  5. 构建 20211013、20211014的Cube数据

  6. 查看增量构建Cube对应的Segment

  **问题**

  ~~~
  增量构建有一个问题,我们一起来看看
  通过页面查看cube中的storage看到有多个segment
  一个segment对应Hbase一张表
  每一次增量构建中在Hbase产生一张表,后面比如我要查询最近一个月或者最近多长时间的数据时候
  这个时候你要扫描的为一天一个Hbase表，你要扫描的Hbsae表就比较多了，那这个时候一定会影响查询的性能
  通过Cube碎片管理来弥补增量构建带来的问题,使用碎片管理就是减少segment的数量的
  ~~~

5.4 Cube碎片管理

增量构建的问题:
日积月累，增量构建的Cube中的Segment越来越多，该Cube的查询性能也会越来越慢，因为需要在单点的查询引擎中完成越来越多的运行时聚合。为了保持查询性能：

需要定期地将某些Segment合并在一起
或者让Cube根据Segment保留策略自动地淘汰那些不会再被查询到的陈旧Segment

管理Cube碎片

上述案例，每天都会生成一个Segment，对应就是HBase中的一张表。增量构建的Cube每天都可能会有新的增量。这样的Cube中最终可能包含上百个Segment，这将会导致Kylin性能受到严重的影响。

从执行引擎的角度来说，运行时的查询引擎需要聚合多个Segment的结果才能返回正确的查询结果
从存储引擎的角度来说，大量的Segment会带来大量的文件，给存储空间的多个模块带来巨大的压力，例如Zookeeper、HDFS Namenode等

因此，有必要采取措施控制Cube中Segment的数量。

5.4.1 手动触发合并Segment

Kylin提供了一种简单的机制用于控制Cube中Segment的数量：合并Segments。在Web GUI中选中需要进行Segments合并的Cube
操作步骤：

单击Action→Merge
选中需要合并的Segment，可以同时合并多个Segment，但是这些Segment必须是连续的
单击提交后系统会提交一个类型为“MERGE”的构建任务，它以选中的Segment中的数据作为输入，将这些Segment的数据合并封装成为一个新的Segment。新的Segment的起始时间为选中的最早的Segment的起始时间，它的结束时间为选中的最晚的Segment的结束时间。

注意事项
```
在MERGE类型的构建完成之前，系统将不允许提交这个Cube上任何类型的其他构建任务
在MERGE构建结束之前，所有选中用来合并的Segment仍然处于可用的状态
当MERGE构建结束的时候，系统将选中合并的Segment替换为新的Segment，而被替换下的Segment等待将被垃圾回收和清理，以节省系统资源
```
删除Segment

使用WebUI删除Cube的segment

5.4.2 自动合并

手动维护Segment很繁琐，人工成本很高，Kylin中是可以支持自动合并Segment

在Cube Designer的“Refresh Settings”的页面中有：

Auto Merge Thresholds
Retention Threshold

两个设置项可以用来帮助管理Segment碎片。这两项设置搭配使用这两项设置可以大大减少对Segment进行管理的麻烦。

5.4.3 Auto Merge Thresholds

允许用户设置几个层级的时间阈值，层级越靠后，时间阈值就越大
每当Cube中有新的Segment状态变为 READY的时候，会自动触发一次系统自动合并
合并策略
- 尝试最大一级的时间阈值，例如：针对（7天、28天）层级的日志，先检查能否将连续的若干个Segment合并成为一个超过28天的大Segment
- 如果有个别的Segment的时间长度本身已经超过28天，系统会跳过Segment
- 如果满足条件的连续Segment还不能够累积超过28天，那么系统会使用下一个层级的时间阈值重复寻找

示例1 - 理解Kylin自动合并策略
* 假设自动合并阈值设置为7天、28天
* 如果现在有A-H8个连续的Segment，它们的时间长度为28天（A）、7天（B）、1天（C）、1天（D）、1天（E）、1天（F）、1天（G）、1天（H）
* 此时，第9个Segment I加入，时间长度为1天。

自动合并策略为：
1、Kylin判断时候能将连续的Segment合并到28天这个阈值，由于Segment A已经超过28天，会被排除
2、剩下的连续Segment，所有时间加一起 B + C + D + E + F + G + H + I （7 + 1 + 1 + 1 + 1 + 1 + 1 + 1 = 14） < 28天，无法满足28天阈值，开始尝试7天阈值
3、跳过A（28）、B（7）均超过7天，排除
4、剩下的连续Segment，所有时间加一起 C + D + E + F + G + H + I（1 + 1 + 1 + 1 + 1 + 1 + 1 = 7）达到7天阈值，触发合并，提交Merge任务。并构建一个Segment X（7天）
5、合并后，Segment为：A（28天）、B（7天）、X（7天）
6、继续触发检查，A（28天）跳过，B + X（7 + 7 = 14）< 28天，不满足第一阈值，重新使用第二阈值触发
7、跳过B、X，尝试终止

5.4.4 配置保留Segment

自动合并是将多个Segment合并为一个Segment，以达到清理碎片的目的。保留Segment则是及时清理不再使用的Segment

在很多场景中，只会对过去一段时间内的数据进行查询，例如：

对于某个只显示过去1年数据的报表
支撑它的Cube其实只需要保留过去一年类的Segment即可
由于数据在Hive中已经存在备份，则无需在Kylin中备份超过一年的历史数据

可以将Retention Threshold设置为365。每当有新的Segment状态变为READY的时候，系统会检查每一个Segment。如果它的结束时间距离最晚的一个Segment的结束时间已经大于等于“Retention Threshold”，那么这个Segment将被视为无需保留。系统会自动地从Cube中删除这个Segment

配置方式

6、Cube优化指南

为什么要进行剪枝优化？

在没有采取任何的优化措施的时候，Kylin会对每一个维度组合进行预计算，若有4个维度，则会有将近2^4 = 16个Cuboid需要进行计算。但是我们知道很多维度是：

1.不需要参与计算或者说不常用的
2.与其他的维度有一定的包含关系的
3.一定会跟其他维度一起进行查询的

如果有10个维度那会有2^10=1024个Cuboid需要进行计算，虽然每个Cuboid的大小存在很大的差异，但是单单想到Cuboid的数量就足以让人想象这样大小的Cube对于构建引擎、存储引擎的压力会有多么巨大，所以在构建维度较多的Cube时，剪枝优化是非常重要的。

6.1 使用衍生维度

即使用维度表的主键（也就是事实表的外键）来代替维度表的非主键维度，这种方式牺牲一部分运行时间性能来节省Cube的空间占用目的。

示例：

有两张表用户维度表（dim_user）、订单事实表（fact_order），要根据各个维度建立MOLAP立方体

用户维度表（dim_user）

ID	姓名	出生年份	政治面貌	职业	性别	民族	省份	市	区
1	张三	1999	团员	程序员	男	汉族	北京	北京市	东城区
2	李四	1989	党员	学生	女	回族	北京	北京市	昌平区
3	王五	1990	党员	程序员	男	汉族	北京	北京市	昌平区
4	赵六	1997	党员	快递员	男	傣族	上海	上海市	闵行区

订单事实表（fact_order）

订单id	用户ID	价格
O0001	1	1000
O0002	1	2000
O0003	3	3000

问题：

生成Cube时，如果指定维度表中的：姓名、出生年份、政治面貌、职业、性别、民族、省份、市、区等维度生成Cube，这些维度相互组合，会造成较大的Cube膨胀率

注意：

使用衍生维度用于在有效维度内将维度表上的非主键维度排除掉，并使用维度表的主键（其实是事实表上相应的外键）来替代它们。Kylin会在底层记录维度表主键与维度表其他维度之间的映射关系，以便在查询时能够动态地将维度表的主键“翻译”成这些非主键维度，并进行实时聚合。

衍生维度
姓名
出生年份
政治面貌
职业
性别
民族
省份
市
区

优化：

选择衍生维度

创建Cube的时候，这些维度如果指定为衍生维度，Kylin将会排除这些维度，而是使用维度表的主键来代替它们创建Cuboid。后续查询的时候，再基于主键的聚合结果，再进行一次聚合。

优化效果：维度表的N个维度组合成的cuboid个数会从2的N次方降为2。

不适用的场景：

如果从维度表主键到某个维度表维度所需要的聚合工作量非常大，此时作为一个普通的维度聚合更合适，否则会影响Kylin的查询性能

6.2 使用聚合组

聚合组假设一个Cube的所有维度均可以根据业务需求划分为若干组（或者一个组），由于同一组合内更有可能被同一查询到，因此会表现出更强大的内在关联

每一个组内，会包含三种可选的维度：

1.强制维度（Mandatory）

若为强制维度，则该分组中每一个Cubiod都会包含这个维度，若该维度一定会出现在查询中，则应当将其设置为强制维度

例如：

设置成强制维度。这样该聚合组产生的cuboid都要有这个维度。

打个比方，该聚合组里有a,b,c三个维度，将a设置成强制维度，则该聚合组会产生  a，ab，ac,abc 4种cuboid，
而不会产生b , c , bc 这三个cuboid，减少了3个。

2.层级维度（Hierachy）

每一个层级中应包含2-n个维度，这n个维度会以（）、（N1）、（N1，N2）、…、（N1， N2，…，Nn）这N+1种情况进行组合

设置成层级维度。如果一个聚合组的维度中有层级关系，比如省--市--区--街道，就可以设置层级维度。
层级维度不允许子层级出现的时候父层级不出现，比如，你可以 group by 省，市 但是你不能 group by 市， 也不能 group by 省 ，区

举例，该聚合组有 a b c 三个维度 且设置成层级维度 a>b>c. 则该聚合组会产生 a, ab, abc 三个cuboid
不会产生 b，c，bc，ac 这4个cuboid，减少了4个。

3.联合维度（Joint）

每一个联合维度包括两个或者更多的维度，联合维度内的维度，要么不出现，要么必须一起出现。不同的联合之间不应当有共同的维度

设置成联合维度，这些维度要么一起出现，要么都不出现。 

举例，该聚合组有 a b c 三个维度，且设置 ab为联合维度，则该聚合组会产生 c，ab，abc 三个cuboid
而不会产生 a，b ，ac，bc， 减少了4个。

4.粒度优化

粒度优化对应的是提高Cube的并发度，其设置是在自定义属性中的
一共有三个属性可以提高并发度。
1.kylin.hbase.region.cut（共使用几个分区）
2.kylin.hbase.region.count.min（最少使用几个分区）
3.kylin.hbase.region.count.max（最多使用几个分区）

根据相对应的情况调高最少使用分区，降低最大使用分区，能够有效增加系统的并行度。

5.(其他)RowKey优化

和Hbase 的RowKey优化类似
1.在查询的过程中，被用作过滤条件的维度可能放在其他维度的前面
2.经常出现的维度应该放在前面
3.基数比较大的维度应该放在前面

6.3 优化案例

需求：对膨胀数据进行调优

SQL准备

-- 创建订单数据库、表结构
create database if not exists `kylin_dw2`;

-- 1. 地理维度表
create table `kylin_dw2`.`dim_address`(
    id int,         
    province string,    
    city string,        
    region string       
)
row format delimited fields terminated by ',' stored as TEXTFILE;

-- 2. 时间维度表
create table `kylin_dw2`.`dim_date`(
    year int,      
    quarter string,    
    month int,    
    day int        
)
row format delimited fields terminated by ',' stored as TEXTFILE;

-- 3. 订单数据
create table `kylin_dw2`.`fact_order`(
    orderId int,    
    price int,
    province string,
    city string,
    region string,
    year int,
    month int,
    day int
)
row format delimited fields terminated by ',' stored as TEXTFILE;


-- 加载数据文件
load data local inpath '/root/data_address.csv' overwrite into table `kylin_dw2`.`dim_address`;
load data local inpath '/root/data_date.csv' overwrite into table `kylin_dw2`.`dim_date`;
load data local inpath '/root/data_order.csv' overwrite into table `kylin_dw2`.`fact_order`;

进入KylinWeb界面

首先同步hive表到Kylin

创建Model

指定表关联

指定关联条件

另一个表

指定维度

指定度量

MOlde创建完毕

创建Cube

1 未优化方式

选择维度

添加度量

后续不用修改直接保存

2 优化后方式

选择衍生维度

选择度量

注意：指定聚合组:选择层级维度

创建完成

3 执行测试

测试结果

查看cuboid数量

bin/kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader CUBE_NAME 
# CUBE_NAME 想要查看的Cube的名字

查询优化

./bin/kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader Cube_Test

查询未优化

./bin/kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader Test_Cube

估计Cuboid大小的精度（Hll Precision）
总共的Cuboid数量
Segment的总行数估计
Segment的大小估计，Segment的大小决定mapper、reducer的数量、数据分片数量等

7、工具集成

JDBC集成

要将数据以可视化方式展示出来，需要使用Kylin的JDBC方式连接执行SQL，获取Kylin的执行结果
使用Kylin的JDBC与JDBC操作MySQL一致
用户名密码：ADMIN/KYLIN

需求：
通过JDBC方式，查询按照日期、区域、产品维度统计订单总额/总数量结果

创建工程导入Pom

    
        
            org.apache.kylin
            kylin-jdbc
            2.5.1

代码

package com.qf;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;

public class KylinTest {
    public static void main(String[] args) throws Exception {
        //Kylin_JDBC 驱动
        String KYLIN_DRIVER = "org.apache.kylin.jdbc.Driver";
        //Kylin_URL 连接字符串：jdbc:kylin://ip地址:7070/项目名称（project）
        String KYLIN_URL = "jdbc:kylin://node1:7070/tt";
        //Kylin的用户名
        String KYLIN_USER = "ADMIN";
        //Kylin的密码
        String KYLIN_PASSWD = "KYLIN";
        //添加驱动信息
        Class.forName(KYLIN_DRIVER);
        //获取连接
        Connection connection = DriverManager.getConnection(KYLIN_URL, KYLIN_USER, KYLIN_PASSWD);
        //预编译SQL
        PreparedStatement ps = connection.prepareStatement("select * from kylin_dw.dim_user");
        //执行查询
        ResultSet resultSet = ps.executeQuery();
        //遍历打印
        while (resultSet.next()) {
            System.out.println(resultSet.getString(1)+"   "+resultSet.getString(2));
        }
    }
}

结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oQ6bH7Xd-1654304435850)(Kylin.assets/1620384050310.png)]

import java.sql.ResultSet;

public class KylinTest {
public static void main(String[] args) throws Exception {
//Kylin_JDBC 驱动
String KYLIN_DRIVER = “org.apache.kylin.jdbc.Driver”;
//Kylin_URL 连接字符串：jdbc:kylin://ip地址:7070/项目名称（project）
String KYLIN_URL = “jdbc:kylin://node1:7070/tt”;
//Kylin的用户名
String KYLIN_USER = “ADMIN”;
//Kylin的密码
String KYLIN_PASSWD = “KYLIN”;
//添加驱动信息
Class.forName(KYLIN_DRIVER);
//获取连接
Connection connection = DriverManager.getConnection(KYLIN_URL, KYLIN_USER, KYLIN_PASSWD);
//预编译SQL
PreparedStatement ps = connection.prepareStatement(“select * from kylin_dw.dim_user”);
//执行查询
ResultSet resultSet = ps.executeQuery();
//遍历打印
while (resultSet.next()) {
System.out.println(resultSet.getString(1)+" "+resultSet.getString(2));
}
}
}


结果

[外链图片转存中...(img-oQ6bH7Xd-1654304435850)]

你可能感兴趣的:(大数据那些事,big,data,kylin,hadoop)

springCloud集成tdengine(原生和mapper方式) 其二原生篇张小娟 spring cloud tdengine spring
mapper篇请看另一篇文章一、引入pom文件com.taosdata.jdbctaos-jdbcdriver3.5.3二、在nacos中填写数据库各种value值tdengine:datasource:location:yourLocationusername:rootpassword:yourPassword三、编写TDengineUtil文件下方util文件里面，包含创建database的方
股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？云策量化量化交易量化软件量化炒股量化炒股 QMT 量化交易入门教程 PTrade 股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》标题：股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？正文：在金融投资的世界里，量化投资以其科学、系统和客观的特点，成为了众多投资者追求的“圣杯”。而在量化投资领域，蒋菲以其独特的大数据量化投资模型而闻名。本文将深入探讨蒋菲如何利用大数据优化其量化投资模型，以及她的数据来源有哪些。一、量化投资模型的优化
2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
使用Docker部署RabbitMQ 九思x docker rabbitmq 容器
第一步：安装RabbitMQ#1.拉取镜像dockerpullrabbitmq:3.12.0-management#2.启动容器（开放端口+数据持久化）dockerrun-d\--name=share_rabbitmq\-p5672:5672\#AMQP协议端口-p15672:15672\#管理界面端口-v/opt/rabbitmq/data:/var/lib/rabbitmq\#数据持久化目录r
Appdata\Local Roaming LocalLow文件夹 ynchyong 系统运维 local Roaming LocalLow
自Vista及Win7开始，微软更改了原有的应用程序存储目录结构，（XP是ApplicationData）C\用户\用户名\Appdata,并分为Roaming,Local,及LocalLow三个文件夹.更改原因如下:优化登录速度根据使用安全级别分别访问不同文件夹Windows使用Local及LocalLow文件夹存放非漫游的应用程序数据（类似注册表Local_machine）及一些空间占用大无法
20190626_二次开发BarTender打印机_C#代码_一边读取TID_一边打印_打印机POSTEK weixin_30784141 c/c++数据库
demo代码如下:privatevoidbtnPrint_Click(objectsender,EventArgse){if(this.btnPrint.Text=="停止打印"){SetBtnPrintUIEnable();return;}//禁用界面上的相关按钮SetBtnPrintUIDisable();vardt=newDataTable();newTask(()=>{///开始的打印//
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
CI/CD(三) 安装nfs并指定k8s默认storageClass qq_41369135 kubernetes ci/cd docker nfs storageClass
一、NFS服务端安装（主节点10.60.0.20）1.安装NFS服务端sudoaptupdatesudoaptinstall-ynfs-kernel-server2.创建共享目录并配置权限sudomkdir-p/data/k8ssudochownnobody:nogroup/data/k8s#允许匿名访问sudochmod777/data/k8s3.配置NFS导出规则编辑/etc/exports文
学习Video.js 前端熊猫 Video Player 学习
查阅官方文档，学习video.js相关属性、回调与方法：播放器选项设置①标准的video标签属性②data-setup属性传递JSON③创建播放器实例以第二个参数配置videojs('my-player',{controls:true,autoplay:false,preload:'auto'});//修改选项varplayer=videojs('my-player');player.option
SAP-ABAP：SAP BW模块架构与实战应用详解爱喝水的鱼丶 ABAP开发之必须知道的 VIP详情查看专栏 SAP-ABAP开发基础详解开发语言 SAP ABAP ERP 开发运维
SAPBW模块架构与实战应用详解—##一、核心架构分层设计###1.数据仓库层（DataWarehousingLayer）|组件|功能说明|典型对象||-------------------|--------------------------------------------------------------------------|-----------------------------
SAP-ABAP：ABAP内存和SAP内存详细对比爱喝水的鱼丶 VIP详情查看专栏 SAP-ABAP开发基础详解 ABAP开发之必须知道的 SAP 运维 ABAP ERP
在SAPABAP中，内存数据（MemoryData）是一种临时存储机制，允许在同一会话或程序之间共享数据。内存数据存储在ABAP内存（ABAPMemory）或SAP内存（SAPMemory）中，具体取决于数据的生命周期和共享范围。以下是关于如何在SAP中保存和使用内存数据的详细说明：—##1.ABAP内存vsSAP内存###ABAP内存-作用范围:仅在当前内部会话（InternalSession）
一些工程实践中的tips litvm 经验分享经验分享
1，简单方法实现四舍五入实际项目中，经常会出现需要四舍五入的地方，比如采集温度temp，如果直接把float类型保存为小数点后1位。它会直接舍后面多余的位数，这样可能偏差会比较大。我们可以通过+0.5来实现四舍五入。比如：floattemp=30.6;//假设我们是扩大10倍保存//直接保存uint16_tmodbus_data.temp=temp*10;//结果就是30//+0.5uint16_
微服务即时通讯系统的实现（客户端）----（2） Smile丶凉轩项目微服务架构云原生
目录1.将protobuf引入项目当中2.前后端交互接口定义2.1核心PB类2.2HTTP接口定义2.3websocket接口定义3.核心数据结构和PB之间的转换4.设计数据中心DataCenter类5.网络通信5.1定义NetClient类5.2引入HTTP5.3引入websocket6.小结7.搭建测试服务器7.1创建项目7.2服务器引入http7.3服务器引入websocket7.4服务器引
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
数据结构-----队列磨十三数据结构算法 linux
顺序队列（Queue）一、队列核心概念1.基本特性先进先出（FIFO）：最早入队的元素最先出队操作限制：队尾（Rear）：唯一允许插入的位置队头（Front）：唯一允许删除的位置2.顺序队列结构typedefintDATATYPE;typedefstructqueue{DATATYPE*ptr;//存储空间基地址inttlen;//队列总容量inthead;//队头索引inttail;//队尾索引
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
Cesium实践（1）—— Hello World 迦南giser WebGIS #Cesium webgis cesium
文章目录前言Cesium是什么Cesium核心类ViewerSceneEntityDataSourceCollection创建第一个Cesium应用工程搭建Cesium版helloworld总结前言工作大半年来主要的技术栈是mapbox-gl和threejs，但是作为一名GIS专业毕业生，一直对Cesium充满兴趣。Cesium不仅保持了threejs的三维绘制能力，而且内置大量渲染地理数据的AP
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
uni-app的滚动加载 uni-load-more组件使用 weixin_42885875
手机端的滚动加载其实就是PC端的分页，触底之后页数加一调用接口，将返回的数据连接在原来的数据后面，就大致完成了。使用组件https://ext.dcloud.net.cn/plugin?id=29exportdefault{data(){return{ifBottomRefresh:false,loadmore:'more',contentText:{"contentdown":"加载更多数据",
access读取EXCEL文件,并根据动态生成表，完成报表的导入 MES先生 ACCESS VBA access
OptionCompareDatabasePublicsheetidAsString'报表IDPublictempAsString'获取年月时分秒PublictmpIAsInteger'对应EXCEL行PublictmpJAsInteger'对应EXCEL列PublicXlsAppAsObjectPublicXlsWorkbookAsObjectPublicXlsWorkSheetAsObject
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
Uni-App 双栏联动滚动组件开发详解 (电梯导航) FFF-X uni-app
本文基于提供的代码实现一个左右联动的滚动组件，以下是详细的代码解析与实现原理说明：{{item}}{{section.title}}{{para}}exportdefault{//组件参数定义props:{leftData:{//左侧导航数据type:Array,default:()=>['章节1','章节2','章节3','章节4','章节5','章节6'],},rightData:{//右侧内
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
Golang算法（二）数据结构小烧卖算法 GO语言
数据结构栈队列双向链表二叉搜索树红黑树栈typeStackstruct{head*Node}typeNodestruct{datainterface{}next*Node}funcNewStack()*Stack{s:=&Stack{head:&Node{data:nil,next:&Node{},},}returns}func(s*Stack)Push(datainterface{}){n:=&
《Oracle DBA入门实战：十大高频问题详解与避坑指南》鸿·蒙数据库 Oracle数据库 DBA入门数据库管理 IT技术干货学习笔记
OracleDBA入门作业十问十答本文为OracleDBA入门作业整理，涵盖工具使用、配置管理及权限控制等核心知识点，适合新手快速上手。如有疑问或补充，欢迎评论区交流！1.DBA常用工具有哪些？OracleUniversalInstaller(OUI)用途：安装、升级或删除软件组件。OracleDatabaseConfigurationAssistant(DBCA)用途：通过图形界面创建、删除或修
form的表单序列化码田里的小白菜 ajax 服务器 javascript
百度可知：表单序列化的作用是：将表单内容序列化成一个字符串，方便Ajax传递表单值给服务器。随着Ajax的出现，表单序列化成为一种常见需求序列化应满足以下几点要求：1、对表单字段和值进行url编码，使用&符号分割2、不发送表单的禁用字段3、只发送选则的复选框和单选按钮4、不发送type为“reset”和“button”的按钮functionserialize(data){letlist=[];Ob
微信视频号禁止下载？3招隐藏技巧秒存！安卓/iOS双端亲测有效，最后1招官方都默许微丽宝值得分享视频下载视频号里面的短视频怎样下载
一、视频号不提供下载按钮的原因版权保护为保护创作者原创内容，避免未经授权的传播和侵权行为[1][2]。平台生态维护鼓励用户在微信生态内互动（点赞、评论、分享），减少内容外流[1]。用户体验优化避免用户因下载导致存储空间不足或下载速度问题[1]。二、安卓用户下载方法1分钟提取缓存文件完整播放目标视频（确保缓存生成）。进入手机【文件管理】→【内部存储】→【Android】→【data】→【com.te
178.HarmonyOS NEXT系列教程之列表交换组件错误处理机制 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之列表交换组件错误处理机制效果演示1.错误处理架构1.1错误类型定义//错误类型枚举enumErrorType{DATA_ERROR,//数据错误OPERATION_ERROR,//操作错误NETWORK_ERROR,//网络错
form 表单内容序列化成一个字符串 sayyy jquery jquery
html关键字1：关键字2：关键字3：form表单数据转json对象$('#form1').serialize()ajax调用时提交表单数据$.ajax({url:"http://localhost:8080/xxx",type:"POST",data:$('#form1').serialize(),success:function(data){$('#serverResponse').html(
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。