hungry和她的朋友们

ClickHouse合集(一):分布式集群部署及python调用

0.ClickHouse

参考资料 :
Clickhouse 在腾讯的应用实践 : http://www.yidianzixun.com/article/0NaOwJjF?appid=mibrowser

0.基础概念

0.0.概述

俄罗斯 Yandex 2016 开源列式存储数据库 DBMS

0.1.应用场景

在线分析处理查询OLAP – 使用SQL实时生成分析数据报告

0.2.适用场景

只有几列常用查询非常快

1.安装及启动

1.1.方式一单机模式

安装/卸载

1.确保CentOS支持外网
```
$ ping Baidu.com
```

2.确保CentOS支持SSE

$ grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"

3.CentOS取消打开文件数限制

vi /etc/security/limits.conf
# 在文件末尾追加配置
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072

vi /etc/security/limits.d/20-nproc.conf
# 在文件末尾追加配置
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072

4.CentOS取消SELINUX

vi /etc/selinux/config
# 修改SELINUX的值
SELINUX=disabled

5.创建安装目录/opt/software/clickhouse(不用)

$ mkdir /opt/software/clickhouse
$ cd /opt/software
$ ll

6.上传安装包
7.安装
8.解决依赖
```
$ yum install libicu.x86_64
```
9.重新安装

启动/关闭服务

1.启动服务

# 全局目录下
$ service clickhouse-server start

默认重启服务器服务自启动

2.关闭服务

3.卸载

$ yum list installed | grep clickhouse
$ yum remove -y clickhouse-common-static
$ yum remove -y clickhouse-server-common
$ rm -rf /var/lib/clickhouse
$ rm -rf /etc/clickhouse-*
$ rm -rf /var/log/clickhouse-server

进出客户端/交互模式 – 同集群模式
客户端内使用/交互模式内使用 – 同集群模式

1.2.方式二分布式/集群模式

节点分布 : 10.255.175.240 10.255.175.241 10.255.175.242

安装/卸载 – 每个节点执行

0.分布式部署前提

0.1关闭防火墙

$ firewall-cmd --state
$ systemctl stop firewalld
$ firewall-cmd --state
$ systemctl disable firewalld.service
$ systemctl list-unit-files | grep firewalld

0.2修改主机名

$ vi /etc/hostname
    第1行主机名改成 clickhousex
$ reboot
$ hostname

0.3修改主机名与IP映射

$ vi /etc/hosts
    添加以下3行
    10.255.175.240 clickhouse1
    10.255.175.241 clickhouse2
    10.255.175.242 clickhouse3

0.4配置SSH免密登录

# 1.开启Authentication免登陆 — 每个节点都操作
$ vi /etc/ssh/sshd_config
	以下三行去掉注释
	RSAAuthentication yes
	PubkeyAuthentication yes
	PermitRootLogin yes # 如果非root用户这行不需要
	
 # 2.生成authorized_keys -- 每个节点都操作
$ ssh-keygen -t rsa # 生成key 会在/root/.ssh生成：authorized_keys id_rsa.pub id_rsa 三个文件
    一直回车
    
# 3.合并公钥到authorized_keys文件 — master操作
$ cd /root/.ssh
    # 将三个节点的公钥逐一追加到master的authorized_key文件
    $ cat id_rsa.pub>> authorized_keys
    $ ssh [email protected] cat ~/.ssh/id_rsa.pub>> authorized_keys
    $ ssh [email protected] cat ~/.ssh/id_rsa.pub>> authorized_keys
    # 将合并后信息持有三个公钥的authorized_key文件copy给其他两个slave节点
    $ scp authorized_keys 10.255.65.2:/root/.ssh/
    $ scp authorized_keys 10.255.65.3:/root/.ssh/

# 4.修改authorized_keys文件权限为只当前用户读写 — 每个节点都操作
$ cd /root/.ssh
$ chmod 600 authorized_keys

# 5.重启SSH服务 — 每个节点都操作
$ service sshd restart

# 6.测试免密登录 — 每个节点都操作
$ ssh 10.255.175.x 测试互相访问对方是否不需要输入密码就可连接

5.创建软件文件夹 — 每个节点都操作
```
$ mkdir /opt/software
$ cd /opt/software
$ ll
```
6.CentOS上安装lrzsz工具
```
$ yum install lrzsz
```
7.安装zookeeper集群

1.确保CentOS支持外网$ ping Baidu.com
2.确保CentOS支持SSE
3.CentOS取消打开文件数限制
4.CentOS取消SELINUX
5.创建安装目录/opt/software/clickhouse
6.上传安装包
7.安装
8.解决依赖
9.重新安装

以上1~9步同单机模式

配置分布式部署

每台节点执行以下步骤 :

1.配置config.xml

vi /etc/clickhouse-server/config.xml
# 把这行代码注释去掉 使其他IP可访问本机
::

2.新建metrika.xml

vi /etc/metrika.xml
# 编写如下内容 部分根据不同机器更改

# 服务器集群设置

    # 集群名 可自定义 张三
    
        # 数据分片1/分片信息(分片:我的数据有9条 我设置3个分片的话 就一个分片存储3条 分片就是一块储存区域 3个分片也一定在不同的节点上)
        
            # 开启自动复制/启用自动表备份
            true
            # 副本 -- 指定本分片/节点上的数据的备份 要放在的哪写些节点上做备份 -- 节点2上放一份 节点3上放一份就要再加一个标签
            
                hadoop102
                9000
            
        
        # 数据分片2
        
            true
            
                hadoop103
                9000
            
        
        # 数据分片3
        
            true
            
                hadoop104
                9000
            
        
    


# 配置高可用时需要ZK

    
        hadoop102
        2181
    
    
        hadoop103
        2181
    
    
        hadoop104
        2181
    


# 这里的值 自定义 每台机器不一样就行 其他三份配置一样

    hadoop102



    ::/0




    10000000000
    0.01
    1z4

启动/关闭服务

0.启动3个ZK

# 启动
$ cd /opt/software/zookeeper-3.4.5/bin
$ ./zkServer.sh start

# 查看状态
$ ./zkServer.sh status
$ jps # Jps查看进程 如果三台机器都有QuorumpeerMain 则启动成功

1.分别启动3个clickhouse服务

# 全局目录下
$ service clickhouse-server start

进出客户端/交互模式
- 1.进入客户端/交互模式 – 任一节点
```
$ clickhouse-client
```
- 2.退出客户端/交互模式
```
:) exit
```
  - 客户端常用参数
  - 举例
    - -q : 非交互模式执行查询语句
  - -t -q : 非交互模式显示查询语句执行耗时
  - -d : 指定数据库进入交互模式
  - -m : 设置回车不自动执行语句只有;才是语句结束

客户端内使用/交互模式内使用 (同单机模式)

0.查看集群信息

 :) select * from system.clusters # 查看集群有几个分片(节点)

1.查看所有数据库
```
:) show databases;
```
2.切库
```
:) use system;
```
- 不指定数据库就建表默认存在default库中
3.查看所有表
```
:) show tables;
```

4.内置函数

cast – 转换
```
:) select cast(boo,'Int8') from enum;
```

toTypeName(变量) – 查看数据类型

:) select array(1,2,3) as arr, toTypeName(arr) # 结果 : [1,2,3] Array(UInt8)

currentDatabase() – 获取当前数据库名

:) create table t(id UInt16, name String) ENGINE=Merge(currentDatabase(), '^t');

2.数据类型

与其他框架对比

整型
- 分类
  - 有符号整型 – 一定范围用于表示正负数
    - Int8 – [-128 : 127]
    - Int16 – [-32768 : 32767]
    - Int32 – [-2147483648 : 2147483647]
    - Inte64 – [-9223372036854775808 : 9223372036854775807]
  - 无符号整型 – 一定范围只用于表示正数
    - UInt8 – [0 : 255]
    - UInt16 – [0 : 65535]
    - UInt32 – [0 : 4294967295]
    - UInt64 – [0 : 18446744073709551615]
浮点型 – 官方不建议使用损失精度
- 分类
  - 常规浮点型
    - Float32 – float
    - Float64 – double
  - 独有浮点型
    - -Inf – 负无穷
    - Inf – 正无穷
    - NaN – 非数字
  - 因为独有浮点型 clickhouse计算支持/0
- 损失精度举例
```
  ```
  :) select 1-0.9
  ```
```
- 独有浮点型举例
  - 负无穷-Inf
```
      ```
      :) select -1/0 # 结果 : 负无穷-inf
      ```
```
- 正无穷Inf
```
      ```
      :) select 1/0 # 结果 : 正无穷inf
      ```
```
- 非数字NaN
```
      ```
      :) select 0/0 # 结果 : 非数字nan
      ```
```
字符串
- 分类
  - String – 任意长度可包含任意字节集包含空字节
  - FixedString(N) – N是字符串长度
一般用String就够了要限制长度时才用FixedString(N)
枚举
- 分类
  - Enum8 – ‘String’=Int8
  - Enum16 – ‘String’=Int16
clickhouse的枚举只能用’String’=整型描述不能像Java一样’String’='String’来描述

布尔型 – 用枚举代替

应用场景 : 新建一张表enum 一个字段boo 数据类型达到boolean效果使用户插入只能写入’true’或’false’ 实际存储的是0或1

# 举例
# 新建一张表enum 一个字段boo 数据类型达到boolean效果 使用户插入只能写入'true'或'false' 实际存储的是0或1

# 查看枚举键值的映射 (应用场景 : 别人的表 你select * from enum表时 只知道boo字段的值是'true'或'false' 想知道谁对应0谁对应1)
:) select * from enum
:) select cast(boo,'Int8') from enum
# 将两个结果对应起来即可

数组Array(T)

建议一个数组中元素的数据类型只用一种 – 尽管T可以是任意类型一个数组支持多种数据类型的元素存在但Clickhouse对多位数组的支持有限不能在Merge表中存储多维数组

```
# 创建数组
[1,2,3]
或
array(1,2,3) # array内置函数
```

元祖Tuple(T1,T2,…) – 每个元素都可以有单独的类型
```
# 创建元祖
tuple(1,'a','b',4)
```
Date日期类型 – 0000-00-00
- 用2字节存储表示从1970-01-01(无符号)到当前的日期
DateTime时间戳类型 – 0000-00-00 00:00:00
- 存储Unix时间戳精确到秒（没有闰秒）

3.表引擎

概念
- 表的类型
作用
- 1.决定此表存储位置内存还是硬盘
- 2.决定此表是否支持 Alter Update
- 3.决定此表是否支持并发多线程
- 4.决定此表是否支持索引
- 5.决定此表数据复制参数 – 直接体现在高可用 (分片复制几份复制到哪)

大多数正式的任务使用MergeTree族中的引擎

分类

TinyLog – 最简单的表引擎
- 特点
  - 1.存在磁盘占空间小节省空间
  - 2.不支持index
  - 3.几乎不支持并发 – r+r 支持 ; r+w 直接报错Exception ; w+w 数据直接损坏 # r : read ; w : write
- 适用情景
  - 1.小表很多节省空间
  - 2.只查询比如国家信息省份信息几乎不变
```
# 创建一个TinyLog引擎的表
:) create table stu1(id Int8, name String)engine=TinyLog
# 插入一条数据
insert into stu1 values(1, 'zs');
```
```
# 查看数据实际存储位置
$ cd /var/lib/clickhouse/data/default/stu1/
$ ls # 结果 : id.bin  name.bin  sizes.json  
```
- 数据实际存储位置 /var/lib/ckickhouse/data/数据库名/表名/很多个xx.bin文件
  - 一个列名.bin 是压缩过的文件对应一列数据
  - 一个尺寸文件sizes.json 记录了每个.bin文件的大小
Memory
- 特点
  - 1.存在内存
  - 2.读写不阻塞
  - 3.太快了简单查询10G数据/s – 不支持索引不必要已经这么快了
- 应用情景
  - 1.测试用数据不重要关机可销毁数据量上限1亿行

Merge

特点

1.本身不存储数据
2.用于合并其他表的数据 – 被合并的表不能跨服务器创建时直接用参数指定要合并数据的表

# 创建一个TinyLog引擎的表
:) create table t1 (id UInt16, name String)ENGINE=TinyLog;
:) create table t2 (id UInt16, name String)ENGINE=TinyLog;
:) create table t3 (id UInt16, name String)ENGINE=TinyLog;

# 插入数据
:) insert into t1(id, name) values(1, 'first');
:) insert into t2(id, name) values(2, 'second');
:) insert into t3(id, name) values(3, 'i am in t3');

# 创建一个Merge引擎的表
    
:) create table t(id UInt16, name String) ENGINE=Merge(currentDatabase(), '^t');   # 参数1 -- 指定要合并的表所在的数据库 ; 参数2 -- 正则表达式 匹配表名 指定要合并的表   # ^t匹配所有t开头的表名

# 向Merge引擎表中插入数据
:) insert into t values(1, 'd'); # 结果 : 会报错Exception:Method write is not supported by storage Merge 不可以插入数据 只能合并其他表的数据

MergeTree – 最强大(重点)

作用
- 一开始存入时一条数据存一个文件夹数据多了自动按月分区合并 (实质上先合并数据量少的文件夹再按月分区)

特点

1.按主键排序 – 利用 : 可以创建一个小稀疏索引
2.指定主键后可使用日期分区 – 一般按月分区表中必须有一个Date类型字段
3.支持数据副本 – 利用 : ReplicatedMergeTree系列的表便是用于此
4.支持数据采样 – 利用 : 需要的话可给表设置一个采样方法

# 创建一个MergeTree引擎的表
:) create table a(id UInt16, name String, createtime Date)
    ENGINE=MergeTree()
    [PARTIDION BY expr]
    [ORDER BY expr]
    [PRIMARY KEY expr]
    [SAMPLE BY expr]
    [SETTINGS name=value,...]   
        # PARTITION BY expr : 按月分区 例如toYYYYMMM(date_column) ; 
        # ORDER BY expr : 按expr排序 如果参数没指定主键 默认ORDER BY后都变为主键 例如ORDER BY(id,name) ;
        # PRIMARY KEY : 指定主键 不能和ORDER BY后的字段相同 ; 
        # SAMPLE BY : 用于抽样的表达式 如果要用抽样表达式 主键中必须包含这个表达式 ; 
        # SETTINGS : 影响MergeTree性能的额外参数设置 
            [index_granularity = 8192] 设置索引粒度 即索引中相邻标记间的数据行数 默认值8192
            [use_minimalistic_part_header_in_zookeeper = 1] 数据片段头在Zookeeper中存多少 例如原本存了元数据和地址等 设置为1后 存的更少了 可能只存元数据了
            [min_merge_bytes_to_use_direct_io = 10*1024*1024k] 默认10G 合并时的数据量超过此值 Linux会使用直接I/O来操作 不超过时用默认的缓存I/O操作(直接I/O就是从硬盘读取直接存入硬盘 数据量大时不走缓存避免很快存满了 CPU阻塞等待处理 ; 缓存I/O就是从硬盘读取在缓存中处理再存入硬盘 数据量小的话 走缓存处理会很快)    

# 举例
# 进入客户端
$ clickhouse-client -m
# 创建一个MergeTree引擎的表
:) create table mt_table(date Date, id UInt8, name String)
    engine=MergeTree() 
    partition by date 
    order by (id, name) 
    settings index_granularity=8192;       

# 插入数据
insert into mt_table values('2019-05-01', 1, 'zhangsan');
insert into mt_table values('2019-06-01', 2, 'lisi');
insert into mt_table values('2019-05-03', 3, 'wangwu');

# 重复插入10次 等待 可看到数据真实存储目录的自动合并处理

# 退出客户端
:) exit;

# 查看数据真实存储目录
$ cd /var/lib/clickhouse/data/default/mt_table
$ ll # 结果 : 插入一条数据 就存一个文件夹20190501_1_1_0 20190503_3_3_0 20190601_2_2_0 当文件夹多了时 MergeTree自动按照我们指定的主键和分区 进行合并 减少文件夹数量 合并在未知的时间在后台进行

# 等很久之后再看数据真实存储目录 会少了很多文件 被合并了~~

手动触发合并merge – 不要用会触发大量数据的读和写

:) optimize table 表名

# 可以手动触发合并 但是不咋好使

ReplacingMergeTree – 继承自MergeTree

作用

在MergeTree基础上增加合并时自动删除重复数据功能所有主键相同即重复 # 但不能保证完全没有重复数据出现只能保证主键不重复

# 创建一个ReplacingMergeTree引擎的表
create table rmt_table(id UInt8, name String, date Date)
ENGINE=ReplacingMergeTree([ver])
[PARTIDION BY expr]
[ORDER BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[SETTINGS name=value,...]
    # ver: 版本列 作为筛选版本的列 数据类型只能是UInt*, Date或DateTime 会选择ver值最大的版本留下 其他删掉 ; 如果ver列未指定 默认选择最新一条留下 (因为合并不一定什么时候发生 所以插入重复数据时 可能只自动删除了一部分 等合并时还会再次删除 最终只剩一条)
    
# 举例
# 进入客户端
$ clickhouse-client -m
# 创建一个ReplacingMergeTree引擎的表
:) create table rmt_table(date Date, id UInt8, name String, point UInt8)
    ENGINE=ReplacingMergeTree(point)
    partition by date
    order by (id, name);
    
# 插入数据 -- 主键都重复的
:) insert into rmt_table values('2019-07-10', 1, 'a', 20);
    insert into rmt_table values('2019-07-10', 1, 'a', 30);
    insert into rmt_table values('2019-07-11', 1, 'a', 20);
    insert into rmt_table values('2019-07-11', 1, 'a', 30);
    insert into rmt_table values('2019-07-11', 1, 'a', 10);
    
# 查询表数据
:) select * from rmt_table;

# 手动触发合并
:) optimize table rmt_table;

手动触发合并merge (同上)

SummingMergeTree – 继承自MergeTree

1.在MergeTree基础上增加合并时自动把主键相同的行相加为一行的功能不可加的列会取最早出现的值

# 创建一个SummingMergeTree引擎的表
create table smt_table(id UInt8, name String, date Date)
ENGINE=SummingMergeTree([columns])
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[SETTINGS name=value,...]

# 举例
# 进入客户端
$ clickhouse-client -m
# 创建一个SummingMergeTree引擎的表
:) create table smt_table(date Date, name String, sum UInt16, not_sum UInt16)
    engine=SummingMergeTree(sum)
    partition by date
    order by (date, name);
    
# 插入数据
:) insert into smt_table values('2019-07-10', 'a', 1, 2);
    insert into smt_table values('2019-07-10', 'a', 2, 1);
    insert into smt_table values('2019-07-11', 'b', 3, 9);
    insert into smt_table values('2019-07-11', 'b', 3, 8);
    insert into smt_table values('2019-07-11', 'a', 3, 1);
    insert into smt_table values('2019-07-12', 'c', 1, 3);
    
# 查询表数据
:) select * from smt_table;

# 手动触发合并
:) optimize table smt_table;

手动触发合并merge (同上)

Distributed – 分布式引擎(重点)

作用

分布式引擎本身不存储数据但可在多个服务器上进行分布式查询
读是自动并行的读取时远程服务器表的索引(如果有)会被使用

# 创建一个Distributed引擎的表
:) create table d_table(id UInt8, name String, date Date)
    engine=Distributed(cluster_name, database, table [,sharding_key])
        # cluster_name : 集群名 -- /etc/metrika.xml中这个自定义的标签的名字
        # database : 数据库名
        # table : 表名
        # sharding_key : 分片键(某一列名) 可选 -- 向分布式引擎的表插入数据时 会根据分片名(默认 1 2 3)和你指定的分片键 计算得出实际上数据插入哪一个节点 每次插入的节点可能都不一样 根据默认算法来

# 举例
# 在3个节点上分别创建一个表t
:) create table t(id UInt16, name String)
ENGINE=TinyLog;

# 给3个节点的t表分别插入2条数据
:) insert into t(id, name) values(1, 'zhangsan');
    insert into t(id, name) values(2, 'lisi');

# 在10.255.175.240节点上创建一个Distributed引擎的表
:) create table dis_table(id UInt16, name String)
    ENGINE=Distributed(clickhouse_cluster, default, t, id);
    
# 查看dis_table表的数据
:) select * from dis_table; # 结果: 分别列出了3个节点的t表的数据

# 向Distributed引擎的表插入数据
:) insert into dis_table values(3, 'zs'); 
# 查看dis_table表的数据
:) select * from dis_table; # 结果: 这条数据实际插入到了节点1的t表

# 再向Distributed引擎的表插入数据
:) insert into dis_table values(4,'zs');
# 查看dis_table表的数据
:) select * from dis_table; # 结果: 这条数据实际插入到了节点3的t表

4.SQL

Alter
- 前提
  - 只支持MergeTree系列引擎 Merge引擎 Distributed引擎的表

物化表达式

也是个列但 select * 查不出来 ; 不能insert进去

# 检查表中数据是否损坏
$ check table   # 结果: 0数据已损坏 1数据完整
# 只支持 *log引擎(Log TinyLog StripeLog) -- 因为其他引擎不会涉及到损坏数据

5. 从HDFS导入数据

18.16.0版本支持从HDFS读数据

19.1.6版本支持从HDFS读写数据

19.4版本支持Parquet格式

好像只支持csv文件和Parquet文件的数据导入

1.查询HDFS上的CSV文件
- 需求:不是把HDFS上的文件导入表中而是通过该表去访问HDFS上的数据 – 相当于把HDFS当成外部存储由于需要去HDFS上拉取数据次方式教育clickhouse本地存储速度较慢
- 原理:clickhouse-client去调用clickhouse的查询引擎查询引擎去HDFS上拉取数据给 client返回查询结果
  - 操作
    - 1.假设HDFS上已经上传了student.csv文件
    - 2.在ClickHouse创建一个访问student.csv文件的表
```
# 进入clickhouse客户端
$ clickhouse-client -m

# 创建新表
:) create table hdfs_student_csv
    (
        id Int8,
        name String
    )
    Engine=HDFS('hdfs://hadoop102:9000/student.csv','CSV');
    
# 查询新表
:) select * from hdfs_student_cs; # 如果关闭HDFS服务 就无法查询了 或 $ hadoop fs -rm -r /student.csv 从Hadoop上删掉这个文件 也查不到
```
2.从HDFS导入数据 – 查询HDFS上的数据并存储在本地的存储引擎
- 需求:从HDFS导入数据
- 原理:将HDFS数据插入到本地存储引擎执行查询语句会调用查询引擎查询引擎去clickhouse的查询引擎拿数据
- 操作
  - 1.准备存储数据的表
```
# 进入clickhouse客户端
$ clickhouse-client -m

# 创建新表
:) create table student_local
    (
        id Int8,
        name String
    )
    Engine=TinyLog;
```
  - 2.从HDFS中导入数据
```
:) insert into studnet_local select * from hdfs_student_csv;   # 后便的select语句就是需求1.
```
  - 3.查看导入结果
```
:) select * from student_local;
```

优化配置

1.max_table_size_to_drop
- 位置
  - /etc/clickhouse-server/config.xml中
- 作用
  - 需要删除表或分区时默认50G – 即如果你要删除的分区或表数据量达到了此参数值会删除失败
- 优化配置
  - 改为自己数据库合适的万一大数据量的表都是重要的可以防误删
2.max_memory_usage
- 位置
  - /etc/clickhouse-server/user.xml中
- 作用
  - 表示单次Query占用内存最大值超购本值Query失败
- 优化配置
  - 在资源足够时尽量调大
3.删除多个节点上的同一张表 – on cluster关键字
- 操作
```
:) drop table t on cluster clickhouse_cluster
```

4.自动数据备份 – 以三分片两副本为例即是至少6个节点的集群

前提
- 只有MergeTree系列引擎的表支持
原理
- 通过zookeeper完成数据备份

操作

1.在表引擎名上加上Replicated – 如 ReplicatedMergeTree

2.在配置文件metrika.xml中配置zookeeper

 vi /etc/metrika.xml
 # 更改如下内容 部分根据不同机器更改
 
 # 服务器集群设置
 
     # 集群名 可自定义 张三
     
         # 数据分片1/分片信息
         
             # 开启自动复制/启用自动表备份
             true
             # 副本 -- 指定分片上的数据 的备份 要放在的哪写些节点上做备份 -- 节点2上放一份 节点3上放一份
             
                 hadoop102
                 9000
             
             
                 hadoop103
                 9000
             
         
         # 数据分片2
         
             true
             
                 hadoop104
                 9000
             
             
                 hadoop105
                 9000
             
         
         # 数据分片3
         
             true
             
                 hadoop106
                 9000
             
             
                 hadoop107
                 9000
             
         
     
 
 
 # 配置高可用时需要ZK
  # 这个标签内部不修改
     
         hadoop102
         2181
     
     
         hadoop103
         2181
     
     
         hadoop104
         2181
     
 
 
 # 标签 需要加上  ; 值 自定义 但是有规律:分片3个 例如自定义值 01 02 03  副本2个 自定义值 a b  需要二者排列组合 01-a 01-b 02-a 02-b 03-a 03-b 分别填写在6个服务器的标签内
 
     
     hadoop102
 
 
 ......

3.在6台机器上分别创建表

:) create table table_name_x # x 是1 2 3 4 5 6 6个表名不能一样
    (
        ...
    )
    Engine=ReplicatedMergeTree('/clickhouse/tables/{shard}/table_name','{replica}') # 第一个参数是zookeeper节点地址 六个表都不一样 /clickhouse/tables/可自定义 但官方建议用这个不要改 ; {shard} 不用改 是自动读取本台机器的配置文件metrika.xml中标签的标签的值 ; table_name 要换成表名  # 第二个参数{replica}是副本名 不用改 是自动读取本台机器的配置文件metrika.xml中标签的标签的值
    PARTITION BY expr
    ORDER BY expr
    SAMPLE BY expr

Python调用clickhouse

0.目标
python向clickhouse数据库操作数据
1.确保能远程连接clickhouse

```
# 确保clickhouse主节点防火墙关闭 或 防火墙开启但开放8123端口

# 确保/etc/clickhouse-server/config.xml配置文件中是::配置 使其他IP可访问本机

# python所在节点ping通clickhouse主节点 -- 79ping240
$ ping 10.255.175.240

# 确保clickhouse主节点telnet通自己的ip端口 其他ip能telnet通clickhouse主节点ip端口
    
    # 安装telnet服务
$ yum install telnet-server
$ yum install xinetd   # xinetd是telnet的守护进程
    # 设置开机启动
$ systemctl enable xinetd.service
$ systemctl enable telnet.socket

    # 启动服务
$ systemctl start telnet.socket
$ systemctl start xinetd 或service xinetd start   # telnet服务是由xinetd守护 所以要启动telnet服务也需要启动xinetd

# 参考:https://www.cnblogs.com/ocp-100/p/10729210.html
```

2.Python调用

```
# 0.安装驱动

# clickhouse主节点上
$ pip install clickhouse-driver
```

```
# 1.代码调用

# 79服务器上clickhousetest.py
from clickhouse_driver import Client

client = Client(host='10.255.175.240', database='default', user='default', password='')
result = client.execute('SHOW DATABASES')
print(result)
```

特性 – 优点

0.单个查询的并行处理（利用多个内核）
- 索引非B树结构不需要满足最左原则 ; 只要过滤条件在索引列中包含即可 ; 即使在使用的数据不在索引中由于各种并行处理机制ClickHouse全表扫描的速度也很快
1.多服务器分布式处理
- 常用的列式数据库管理系统几乎没有一个支持分布式的查询处理 ; 而ClickHouse 数据可以保存在不同的shard上每一个shard都由一组用于容错的replica组成查询可以并行的在所有shard上进行处理
2.超快速扫描可用于在线查询
- 在线查询意味着在没有对数据做任何预处理的情况下以极低的延迟处理查询并将结果加载到用户的页面中
3.列存储非常适合使用“宽”/“非规范化”表（许多列）
4.向量引擎
- 为了高效的使用CPU 数据不仅仅按列存储同时还按向量(列的一部分)进行处理
5.良好的压缩
- 数据压缩空间巨大减少IO
6.SQL支持
- 支持的查询包括 GROUP BY 、ORDER
  BY 、IN 、JOIN以及非相关子查询 ;不支持窗口函数和相关子查询
7.支持近似计算
- 提供各种各样在允许牺牲数据精度的情况下对查询进行加速的方法:
  - 0.用于近似计算的各类聚合函数如:distinct values 、 medians 、quantiles
  - 1.基于数据的部分样本进行近似查询这时仅会从磁盘检索少部分比例的数据
  - 2.不使用全部的聚合条件通过随机选择有限个数据聚合条件进行聚合这在数据聚合条件满足某些分布条件下在提供相当准确的聚合结果的同时降低了计算资源的使用
8.不同的存储引擎（磁盘存储格式）
9.非常适合结构日志/事件数据以及时间序列数据（引擎MergeTree需要日期字段）
10.索引支持（仅主键并非所有存储引擎)
- 按照主键对数据进行排序这将帮助ClickHouse以几十毫秒的低延迟对数据进行特定值查找或范围查找
12.实时的数据更新
- 支持在表中定义主键为了快速主键索引范围查找数据总是以增量的方式有序的存储在MergeTree中因此数据可以持续不断高效的写入到表中并且写入的过程中不会存在任何加锁的行为
13.支持节点线性动态扩展
14.支持数据复制和数据完整性
- 使用异步的多主复制技术当数据被写入任何一个可用副本后系统会在后台将数据分发给其他副本以保证系统在不同副本上保持相同的数据在大多数情况下ClickHouse能在故障后自动恢复在一些复杂的情况下需要少量的手动恢复

特性 – 缺点

0.没有真正的删除/更新支持 ; 也没有事务
- 与Spark和大多数大数据系统相同
- 缺少高频率，低延迟的修改或删除已存在数据的能力。仅能用于批量删除或修改数据，但这符合GDPR
1.没有辅助密钥（与Spark和大多数大数据系统相同）
2.自己的协议（不支持MySQL协议）
3.有限的SQL支持，并且join实现不同 – 利用 : 如果要从MySQL或Spark迁移则可能必须重写所有带有联接的查询
4.稀疏索引使得ClickHouse不适合通过其键检索单行的点查询

第三方基准测试

https://clickhouse.yandex/benchmark.html – 分析型DBMS的性能比较
https://www.percona.com/blog/2017/03/17/column-store-database-benchmarks-mariadb-columnstore-vs-clickhouse-vs-apache-spark/ – apache spark 、ClickHouse 、MariaDB ColumnStore列存储数据库基准测试
https://www.percona.com/blog/2017/02/13/clickhouse-new-opensource-columnar-database/ – Clickhouse与Spark性能基准测试
https://www.altinity.com/blog/2017/6/20/clickhouse-vs-redshift – ClickHouse与Amazon RedShift基准测试
https://tech.marksblogg.com/billion-nyc-taxi-rides-clickhouse-cluster.html – 11亿辆出租车：108核ClickHouse集群基准测试
俄罗斯某公司 Clickhouse与Spark对比 :
- 它是服务器的事实极大地有益于我们：免费的输入源分割。使用spark时，您将创建一个包含很多列的表，这不利于可读性，并且insert语句可能会很长，因此容易出错。或解析这些来源几次，有时可能会过于昂贵。Clickhouse没问题。
- 使用Clickhouse，您不仅可以自然分布日志分析。您自然可以在单个来源中获得连续的数据（秒，秒，分钟，分钟）。使用Spark时，您将无法使用http://stackoverflow.com/questions/38793170/appending-to-orc-file。
- Clickhouse可免费使用实时访问收集的数据。这在许多情况下确实很有用。有时可以节省大量时间。
- 如我所说，速度很快。Hadoop的速度很慢，以至于您可能需要多个主机，只是发现与单个主机上的GNU utils（awk，grep，sort，join）上的关系操作速度相匹配。或不是完全达到这个速度。Hadoop太慢了。

性能

0.ClickHouse并非无所不能查询语句需要不断的调优可能与查询条件有关不同的查询条件表是左join还是右join也是很有讲究的

1.与具有相同可用I / O吞吐量的传统的面向行的系统相比，ClickHouse处理典型的分析查询要快两到三个数量级。系统的列式存储格式允许将更多热数据放入RAM中，从而缩短了响应时间。

2.由于ClickHouse的矢量化查询执行涉及相关的处理器指令和运行时代码生成，因此它具有CPU效率。

3.处理单查询高吞吐量每台服务器每秒最多数十亿行

4.写入速度非常快，50-200M/s，对于大量的数据更新非常适用。

5.HBase，BigTable，Cassandra，HyperTable。在这些系统中，你可以得到每秒数十万的吞吐能力，但是无法得到每秒几亿行的吞吐能力,clickhouse可以.

6.单个查询吞吐量：如果数据被放置在page cache中，则一个不太复杂的查询在单个服务器上大约能够以2-10GB／s（未压缩）的速度进行处理（对于简单的查询，速度可以达到30GB／s）。如果数据没有在page cache中的话，那么速度将取决于你的磁盘系统和数据的压缩率。例如，如果一个磁盘允许以400MB／s的速度读取数据，并且数据压缩率是3，则数据的处理速度为1.2GB/s。这意味着，如果你是在提取一个10字节的列，那么它的处理速度大约是1-2亿行每秒。对于分布式处理，处理速度几乎是线性扩展的，但这受限于聚合或排序的结果不是那么大的情况下。

7.处理短查询的延时时间：数据被page cache缓存的情况下，它的延迟应该小于50毫秒(最佳情况下应该小于10毫秒)。否则，延迟取决于数据的查找次数。延迟可以通过以下公式计算得知：查找时间（10 ms） * 查询的列的数量 * 查询的数据块的数量。

8.处理大量短查询的吞吐量：ClickHouse可以在单个服务器上每秒处理数百个查询（在最佳的情况下最多可以处理数千个）。但是由于这不适用于分析型场景。建议每秒最多查询100次。

9.数据写入性能：建议每次写入不少于1000行的批量写入，或每秒不超过一个写入请求。当使用tab-separated格式将一份数据写入到MergeTree表中时，写入速度大约为50到200MB/s。如果您写入的数据每行为1Kb，那么写入的速度为50，000到200，000行每秒。如果您的行更小，那么写入速度将更高。为了提高写入性能，您可以使用多个INSERT进行并行写入，这将带来线性的性能提升。

10.count: 千万级别，500毫秒，1亿 800毫秒 2亿 900毫秒 3亿 1.1秒
group: 百万级别 200毫米，千万 1秒，1亿 10秒，2亿 20秒，3亿 30秒
join：千万-10万 600 毫秒，千万 -百万：10秒，千万-千万 150秒 – 忘了什么配置

优化

0.尽量做1000条以上批量的写入避免逐行insert或小批量的insert 、 update 、delete操作因为ClickHouse底层会不断的做异步的数据合并会影响查询性能这个在做实时数据写入的时候要尽量避开
1.Clickhouse快是因为采用了并行处理机制即使一个查询也会用服务器一半的CPU去执行所以ClickHouse不能支持高并发的使用场景默认单查询使用CPU核数为服务器核数的一半安装时会自动识别服务器核数可以通过配置文件修改该参数(我们不需要高并发也不用改)
2.关闭虚拟内存物理内存和虚拟内存的数据交换会导致查询变慢。
3.为每一个账户添加join_use_nulls配置左表中的一条记录在右表中不存在右表的相应字段会返回该字段相应数据类型的默认值而不是标准SQL中的Null值
4.JOIN操作时一定要把数据量小的表放在右边 ClickHouse中无论是Left Join 、Right Join还是Inner Join永远都是拿着右表中的每一条记录到左表中查找该记录是否存在所以右表必须是小表
5.批量写入数据时必须控制每个批次的数据中涉及到的分区的数量在写入之前最好对需要导入的数据进行排序无序的数据或者涉及的分区太多会导致ClickHouse无法及时对新导入的数据进行合并从而影响查询性能
6.尽量减少JOIN时的左右表的数据量必要时可以提前对某张表进行聚合操作减少数据条数有些时候先GROUP BY再JOIN比先JOIN再GROUP BY查询时间更短
7.ClickHouse的分布式表性能性价比不如物理表高建表分区字段值不宜过多防止数据导入过程磁盘可能会被打满
8.CPU一般在50%左右会出现查询波动达到70%会出现大范围的查询超时 CPU是最关键的指标要非常关注
用完内存是在ClickHouse中处理大型数据集时可能遇到的潜在问题之一
- 默认情况下，ClickHouse限制group by的内存量（它将哈希表用于group by） – 解决 : 如果可用的内存请增加此参数 SET max_memory_usage = 128000000000; #128G ; 如果没有足够的可用内存，ClickHouse可以通过设置以下内容将数据“溢出”到磁盘 set max_bytes_before_external_group_by=20000000000; #20G
  set max_memory_usage=40000000000; #40G
- 根据文档，如果您需要使用max_bytes_before_external_group_by ，建议将max_memory_usage设置为max_bytes_before_external_group_by大小的〜2x。（这样做的原因是聚合分两个阶段进行：（1）读取和构建中间数据，以及（2）合并中间数据。仅在第一阶段才会发生向磁盘的溢出。为了避免溢出，ClickHouse在第1阶段和第2阶段可能需要相同数量的RAM。）

其他补充：

0.IO方面 MySQL等是行存储 ClickHouse是列存储后者在count()这类操作天然有优势 ; 同时在IO方面 MySQL需要大量随机IO ClickHouse基本是顺序IO 有人可能觉得上面的数据导入的时候数据肯定缓存在内存里了这个的确但是ClickHouse基本上是顺序IO 对IO基本没有太高要求当然磁盘越快上层处理越快但是99%的情况是 CPU先跑满了（数据库里太少见了大多数都是IO不够用）

何时不使用ClickHouse

事务性工作负载（OLTP）

高请求率的键值访问

Blob或文档存储

标准化数据

调研参考资料

0.clickhouse系列教程
https://blog.csdn.net/zhangpeterx/article/details/95060788#Python_25
1.clickhouse集群搭建从0到1
https://www.jianshu.com/p/ae45e0aa2b52?utm_campaign=maleskine&utm_content=note&utm_medium=reader_share&utm_source=weibo
2.clickhouse安装及使用
https://blog.csdn.net/m0_37739193/article/details/79611560
3.品友大数据团队分享“百度Palo对决ClickHouse”
https://www.sohu.com/a/193083047_99982360
4.https://blog.csdn.net/lovewebeye/article/details/102739939
5.clickhouse在腾讯的应用实践 : http://www.yidianzixun.com/article/0NaOwJjF?appid=mibrowser

你可能感兴趣的:(Clickhouse)

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
StarRocks x Demandbase ，助力北美 ABM 营销平台降本 90%！营销clickhouse
开源无国界，在“StarRocks全球用户精选案例”专栏中，我们将介绍北美营销平台Demandbase的用户案例。Demandbase于2007年创立于美国加州旧金山，专注于AI驱动的ABM平台，助力B2B营销人员实现业务突破。通过将ClickHouse替换为StarRocks，Demandbase解决了性能与灵活性问题。新架构基于ApacheIceberg和StarRocks，显著提升了数据处理
clickhouse报错Too many partitions for single INSERT block qq_35640866 clickhouse clickhouse sql 数据库
Code:252,e.displayText()=DB::Exception:ToomanypartitionsforsingleINSERTblock(morethan100).Thelimitiscontrolledby'max_partitions_per_insert_block'setting.Largenumberofpartitionsisacommonmisconception.I
六月份阶段性大总结之Doris/Clickhouse/Hudi一网打尽王知无(import_bigdata) 大数据编程语言人工智能 java 数据分析
点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！这是个阶段性小总结，后面会持续更新。ClickHouse「Clickhouse系列」分布式表&本地表详解「ClickHouse系列」ClickHouse之MergeTree原理「ClickHouse系列」Replication机制详解「ClickHouse系列」ClickHouseSQL基本语法和导入导出实战「C
doris：SQL 方言兼容向阳1218 大数据 doris
提示从2.1版本开始，Doris可以支持多种SQL方言，如Presto、Trino、Hive、PostgreSQL、Spark、Clickhouse等等。通过这个功能，用户可以直接使用对应的SQL方言查询Doris中的数据，方便用户将原先的业务平滑的迁移到Doris中。警告该功能目前是实验性功能，您在使用过程中如遇到任何问题，欢迎通过邮件组、GitHubIssue等方式进行反馈。部署服务下载最新版
Python3 使用 clickhouse-connect 操作 clickhouse 她不喜欢喝咖啡 Python clickhouse
'''版本：Python3.7x86clickhouse24.6.1.3573clickhouse-connect0.6.22'''代码一：#pipinstallclickhouse-connectimportclickhouse_connect#准备参数host="192.168.1.112"port=8123username="default"password="123456"database
python连接clickhouse studying_mmr python python clickhouse 数据分析大数据 numpy
Python连接clickhouse成功连接并输出数据避坑需要准备的package连接数据库读取数据需要的包导出文件Reference需要准备的packageclickhouse驱动程序pipinstallclickhouse-driverpipinstallclickhouse-driver[numpy]pipinstallopenpyxlpipinstallPillow这里下载的时候会报错如果
python/R 连接 clickhouse weixin_41283198 python clickhouse r语言 python 大数据 r语言
1、python-clickhouseimportnumpyasnpfromclickhouse_driverimportClientimportpandasaspdsql=open('/opt/check_detect_local.sql','r',encoding='utf8')sqltxt=sql.readlines()print(len(sqltxt))sqls=[]foriinnp.ar
【Python】使用Python连接ClickHouse进行批量数据写入音乐学家方大刚 Clickhouse Python python clickhouse oracle
有许多时候眼泪就要流那扇窗是让我坚强的理由小小的门口还有她的温柔给我温暖陪伴我左右曾经的乡音悄悄地隐藏说不出的诺言一直放心上李健《异乡人》在本教程中，我们将探讨如何使用Python连接到ClickHouse数据库，并执行批量数据写入操作。ClickHouse是一个用于在线分析处理查询（OLAP）的列式数据库管理系统，它能够以极高的速度进行数据查询和更新操作。环境准备首先，确保你的环境中已安装Cli
Python通过TCP端口和HTTP端口连接clickhouse的几种方法与报错解决有好的生发方法记得推荐给我 clickhouse
一、使用request库使用HTTP协议端口，默认为8123这种方法只能获取指定格式的数据importrequestsSSL_VERIFY=Falsehost='http://127.0.0.1:8123'//ip地址及HTTP协议端口query='select*fromdatabase.table_nameslimit5'//SQL语句user=('username','password')//
python连接clickhouse两种方法 dair6 sql相关问题 python 数据库 sql
1.使用Client类importloggingfromapscheduler.schedulers.blockingimportBlockingSchedulerfromclickhouse_driverimportClientlogger=logging.getLogger(__name__)#操作日志对象classCkClient():"""数据库连接的公共类，初始化连接，自定义查询，删除等
ClickHouse 通过 *ARRAY JOIN* 结合 Map 类型的内置函数取数值从未完美过 clickhouse
在ClickHouse中，可以通过ARRAYJOIN结合Map类型的内置函数，将Map字段的键值对展开为多行数据。以下是具体操作方法和示例：一、使用mapKeys和mapValues展开Map1.核心语法SELECTid,key,valueFROMyour_tableARRAYJOINmapKeys(your_map_column)ASkey,mapValues(your_map_column)A
ClickHouse 学习笔记金州饿霸 Big Data 分布式数据库 clickhouse 学习笔记
1.连接到ClickHouse服务器clickhouse-client--host=10.16.226.100--user=default--password2.在ClickHouse中，如果你想要单独删除一行记录，且使用的是Distributed表引擎（或者其他不支持ALTERTABLEDELETE的引擎），你将无法直接通过删除操作来实现这一目标。ClickHouse是为大规模数据分析设计的，它
ClickHouse优化技巧实战指南：从原理到案例解析 AAEllisonPang Clickhouse clickhouse
目录ClickHouse优化核心思想表结构设计优化查询性能优化技巧数据写入优化方案系统配置调优实战高可用与集群优化真实案例解析总结与建议1.ClickHouse优化核心思想ClickHouse作为OLAP领域的明星引擎，其优化需遵循列式存储特性，把握以下原则：批量操作优于单行处理预计算替代实时计算数据有序存储提升检索效率利用硬件资源最大化吞吐量2.表结构设计优化2.1分区键选择选择低基数且高频过滤
doris：ClickHouse 陆鳐LuLu wpf
DeepseekR1提供的3D迷宫设计方案是一个结合虚拟现实（VR）、增强现实（AR）和物理迷宫的创新项目，旨在为用户提供沉浸式体验。以下是该设计方案的详细讲解：1.设计目标沉浸式体验：通过3D技术让用户感受到身临其境的迷宫探索。互动性：用户可以通过物理设备（如手柄、传感器）与虚拟迷宫互动。可扩展性：支持不同难度级别和主题的迷宫设计。教育与娱乐结合：适用于游戏、教育、团队建设等多种场景。2.技术架
《颠覆认知，我用大模型+Redis实现SQL智能补全，开发效率暴涨500%》煜bart mysql AI编程人工智能 redis
一、前言：当SQL补全遇到大模型（插入传统SQL补全工具与ChatGPT对比图）你是否还在为这些场景抓狂？-凌晨3点记不清HiveQL的窗口函数语法-面对新接触的ClickHouse方言不知所措-团队新人总把STR_TO_DATE写成DATE_FORMAT传统IDE的SQL补全就像"人工智障"，直到我把大模型装进Redis…##二、效果展示：智能补全的降维打击（GIF动图展示输入SELECT*FR
ClickHouse 作用，优缺点。 mldsh13 clickhouse
ClickHouseClickHouse是一个开源的分布式列式数据库管理系统(DBMS)，专门设计用于实时分析(OLAP)。它最初由俄罗斯的Yandex开发，后来成为了开源项目，被广泛应用于需要高性能数据分析和查询的场景。作用：实时分析：ClickHouse专注于快速查询和分析大量数据，使其特别适用于数据分析、报告和实时仪表板等应用场景。大规模数据处理：能够处理海量数据，支持分布式架构，可以水平扩
clickhouse去重复数据解决方案追梦者123 clickhouse
原因出现问题因为我们的maxwell对接rabbitmqrabbitmq监听的是mysql的belog日志文件，所以mysql数据的实时操作都会同步数据到maxwell中从而导致新增插入一条，修改插入一条，删除插入一条，导致同一条数据有大量的重复数据。解决方案在仪表板调用统计相关接口之前，先将重复数据处理掉OPTIMIZETABLEtable_nameFINAL这样就可以根据orderby(uui
ClickHouse Keeper 源码解析阿里云云栖号云栖号技术分享 java 开发语言后端
简介：ClickHouse社区在21.8版本中引入了ClickHouseKeeper。ClickHouseKeeper是完全兼容Zookeeper协议的分布式协调服务。本文对开源版本ClickHousev21.8.10.19-lts源码进行了解析。作者简介：范振（花名辰繁），阿里云开源大数据-OLAP方向负责人。内容框架背景架构图核心流程图梳理内部代码流程梳理Nuraft关键配置排坑结论关于我们R
Clickhouse负载均衡客户端BalancedClickhouseDataSource源码分析颍天 clickhouse clickhouse
文章目录BalancedClickhouseDataSource源码分析结论BalancedClickhouseDataSource源码分析BalancedClickhouseDataSource的完整路径是ru.yandex.clickhouse.BalancedClickhouseDataSource，源码主要包括三部分，构造方法、获取连接、以及生成可用的地址列表。BalancedClickh
doris：ClickHouse 向阳1218 大数据 doris
DorisJDBCCatalog支持通过标准JDBC接口连接ClickHouse数据库。本文档介绍如何配置ClickHouse数据库连接。使用须知要连接到ClickHouse数据库，您需要ClickHouse23.x或更高版本(低于此版本未经充分测试)。ClickHouse数据库的JDBC驱动程序，您可以从Maven仓库下载最新或指定版本的ClickHouseJDBC驱动程序。推荐使用ClickH
后台数据报表导出数据量过大问题 FLGB 大数据业务常见解决方案 java clickhouse 数据导出
现状分析之前在mysql业务库,导出报表会出现各种表相互关联，导致夯死的情况改进使用ClickHouse做宽表后面使用binlog监听，洗数据洗成一张宽表，存放在ck中，但是发现超过一定数量级100w也会很卡慢，但是比mysql强的是可以出来。如何导出300w、500w1000w数据量级查看了CK有个特性，执行流式数据处理，可以使用这个特性来处理方案1：分批查询如果你当前的做法是一次性查询100W
ClickHouse单机安装与一些安装时可能出现的问题解决方法遇安.YuAn ClickHouse 大数据平台组件搭建 clickhouse 服务器 linux 环境搭建
博主这里的ClickHouse版本为21.9.4.351、将四个安装包上传并解压（解压顺序建议按照博主的解压顺序）：1.1、tar-zxvfclickhouse-common-static-21.9.4.35.tgz进入：cdclickhouse-common-static-21.9.4.35cdinstall启动脚本：./doinst.sh启动时如果报错：cp:无法创建普通文件“/usr/bin
使用DataX将ClickHouse数据导入Hive MYH516 clickhouse hive hadoop
在将ClickHouse数据导入Hive时，如果字段中包含回车符（\n）或换行符（\r），会导致Hive在读取数据时将其误认为是行分隔符，从而导致数据错列的问题。为了解决这个问题，可以采取以下方法：解决方法1：在ClickHouse中清洗数据在导出数据之前，先对ClickHouse表中的数据进行清洗，将回车符和换行符替换为其他字符（如空格或空字符串）。示例SQL：SELECTcol1,col2,r
魔鬼存在于细节中：从Redshift迁移到ClickHouse后再无数据丢失 flybirding10011
\nFunCorp是一家国际性娱乐App开发商，知名AppiFunny就是由FunCorp出品的。iFunny是一款非常有趣的图片和GIFApp，用户可以用它来打发时间，比如看模因、漫画、有趣的图片、宠物GIF等，也可以上传和分享自己的内容。iFunny一直使用Redshift作为后端服务和移动App的事件存储数据库。他们之所以选择Redshift，是因为当时从成本和便利性方面来看确实没有更好的选
Doris、ClickHouse 和 Flink 这三个技术典型的应用场景每天瞎忙的农民工大数据 clickhouse flink 大数据 doris
Doris、ClickHouse和Flink这三个技术在不同业务场景下有各自的成功落地方案，主要用于数据分析、实时计算和高性能查询。以下是一些典型的应用场景：1.ApacheDoris落地方案应用场景Doris适用于海量数据的实时查询和分析，尤其适用于报表查询、OLAP分析和BI工具对接。案例某互联网广告公司业务背景：广告业务需要分析用户点击行为，监测广告投放效果，并进行精准推荐。技术方案：数据来
利用go-migrate实现MySQL和ClickHouse的数据库迁移楚钧艾克 #Go:永远的神后端数据库数据库 mysql clickhouse redis 后端 migrate
1.背景在使用gorm时,尽管已经有了自动建表和钩子函数.但是在面临希望了解到数据库的变更,和插入一些系统字段时,以及最关键的数据库迁移的工作.gorm显得稍微有点不便.在了解到migrate这项技术后,就使用go-migrate开发了一个可以迁移MySQL和ClickHouse数据库的工具.2.实现2.1简单介绍go-migrate在启动后,会在数据库中自动生成一张"schema_migrati
【万字长文】开源之播对话白鲸开源CEO郭炜--乐观主义的开源精神走得更远 SeaTunnel 开源
本文为白鲸开源科技CEO郭炜1小时深度访谈全记录来源于：开源之播」·Episode15:对话郭炜–乐观主义的开源精神走得更远大家好，我是郭炜，开源圈的“郭大侠”。作为Apache基金会的成员，我曾参与并孵化了多个开源项目，如早期的ClickHouse，以及ApacheDolphinScheduler（中文名：海豚调度）和ApacheSeaTunnel。这些都是Apache的顶级项目。现在，我创办了
ClickHouse SQL 查询中别名导致报错的问题分析与解决方案水涵幽树 clickhouse sql 数据库后端学习数据库开发
一、引言在使用ClickHouse数据库进行数据查询时，SQL语句中的别名使用是常见的优化手段之一。但是，不当的别名使用可能会引发解析错误，影响查询结果的正确性。下面将通过实例详细探讨因别名使用而导致报错的原因，并提供相应的解决方案。二、问题描述考虑以下SQL查询片段：SELECTa.event_type2_idasevent_type2,...FROMtable_aaGROUPBYa.event
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS