1.环境准备
1.1.SSE4.2验证
验证是否支持SSE 4.2指令集,因为向量化执行需要用到这项特性
# grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"
> SSE 4.2 supported
如果不支持SSE指令集,则不能直接使用先前下载的预编译安装包,需要通过源
码编译特定的版本进行安装
ps:如果宿主机支持,那么看这篇文章关于虚拟化中cpu的指令集SSE 4.2的不支持,实在不行,那么换机器吧
1.2.docker安装
-
https://hub.docker.com/
搜索clickhouse - 拉取镜像
docker pull clickhouse/clickhouse-server
- 启动容器
docker run -d -v /etc/hosts:/etc/hosts:ro -v /etc/localtime:/etc/localtime:ro -v $(realpath ./ch_data):/var/lib/clickhouse/ -v $(realpath ./ch_logs):/var/log/clickhouse-server/ -p 18123:8123 -p19000:9000 --name some-clickhouse-server --ulimit nofile=262144:262144 clickhouse/clickhouse-server
-v /etc/localtime:/etc/localtime:ro
挂载宿主机时区,ro为只读,防止容器更改
-v /etc/hosts:/etc/hosts:ro
挂载宿主机的路由表,方便后续配置集群使用
ClickHouse存储数据的主文件夹$(realpath ./ch_data) 当前文件夹下的ch_data文件夹
日志$(realpath ./ch_logs)当前文件下的ch_log文件夹
clickhouse-client 端口映射外部19000
http端口映射外部18123
容器名称some-clickhouse-server
1.3.配置修改
复制容器中的配置
users.xml
config.xml
容器查看命令docker ps -a
sudo docker cp [容器id] /etc/clickhouse-server/users.xml /存放目录/users.xml
sudo docker cp [容器id] /etc/clickhouse-server/config.xml.xml /存放目录/config.xml
1.3.1.users.xml配置修改默认密码
生成
sha256_hex
方式echo -n root,.123 | openssl dgst -sha256
a14c4c9d228e0cc32814050fea0f1df49dad0e1857615f5c7900bcb8d33b55a1
::/0
default
default
1
1.3.2. 挂载users.xml
加入挂载文件
-v [修改过后的users.xml路径]:/etc/clickhouse-server/users.xml
1.3.3. config.xml配置集群(3分片1副本)
- 新建一个文件
vi metrika.xml
,内容如下,这里replica
中的host
也就是我们/etc/hosts
表中的信息,已经挂载到容器内了zookeeper
使用的是现成的- 我这里拉下来的clickhouse镜像版本为
21.12.3.32
,其中config.xml
文件中有测试分片的配置,找到标签,删掉标签以及子标签信息,或者注释掉,又或者备份一个作为
单机配置
使用
4.这里clickhouse
的port
为19000
,由docker
容器化映射的外部端口
5.注意replica
中的password
不能使用加密密码,只能使用明文,原网站部署Smartbi MPP分布式集群
1
true
node95
19000
default
root,.123
1
true
node94
19000
default
root,.123
1
true
node93
19000
default
root,.123
node95
2181
node94
2181
node93
2181
ck_cluster
shard01
replica01
::/0
10000000000
0.01
lz4
config.xml
文件需要修改,添加如下信息
1.1. 添加信息
指定我们刚才新建metrika.xml
文件路径,这个路径是容器内的路径,到时候需要挂载到容器中
1.2.网络
查找到
如果集群ipv4和ipv6地址都支持,将:
取消注释
如果集群支持ipv4和不支持ipv6,将:
取消注释
下面这种方式我没有成功,应该是我的服务器没有设置支持ipv6
1.3.遗漏点
之前没有配置clickhouse中的时区,文件中的
内容修改为
1.3.4.重构容器
先停止之前的容器
docker stop [容器id]
再删除容器docker rm [容器id]
启动容器,命令如下:
docker run -d -v /etc/hosts:/etc/hosts:ro -v /etc/localtime:/etc/localtime:ro -v /home/bigdata/clickhouse_docker/metrika.xml:/etc/clickhouse-server/metrika.xml -v /home/bigdata/clickhouse_docker/users.xml:/etc/clickhouse-server/users.xml -v /home/bigdata/clickhouse_docker/config.xml:/etc/clickhouse-server/config.xml -v /home/bigdata/clickhouse_docker/ch_data:/var/lib/clickhouse/ -v /home/bigdata/clickhouse_docker/ch_log:/var/log/clickhouse-server/ -p 18123:8123 -p19000:9000 --name some-clickhouse-server --ulimit nofile=262144:262144 clickhouse/clickhouse-server
1.额外挂载了metrika.xml
config.xml
user.xml
2.其他的2个节点分别按照以上1.3.3~1.3.4
的方式操作
3.补充一个传输的命令scp -r /home/bigdata/clickhouse_docker 用户名@主机:/home/bigdata/clickhouse_docker
4.docker镜像操作保存镜像到本地 docker save -o 保存的名字.tar 镜像REPOSITORY 镜像TAG
如docker save -o clickhouse.tar clickhouse/clickhouse-server latest
加载本地tar到镜像 docker load -i tar包名
如docker load -i clickhouse.tar
1.4集群验证
登录clickhouse,执行sql
SELECT * FROM system.clusters
会看到以下信息
集群情况查看
1.5分片测试
- 在3个节点都执行以下sql,其中
ck_cluster
为我们的集群名称,这点注意
--本地表
create table person_local (ID Int8, Name String, BirthDate Date) ENGINE = MergeTree(BirthDate, (Name, BirthDate), 8192);
--分布表(Distributed)本身不存储数据,相当于路由,需要指定集群名、数据库名、数据表名、分片KEY.
这里分片用rand()函数,表示随机分片。
create table person_all as person_local ENGINE = Distributed(ck_cluster, default, person_local, rand());
补充:
查询分布表,会根据集群配置信息,路由到具体的数据表,再把结果进行合并。
person_local 为本地表,数据只是在本地
person_all 为分布式表,查询这个表,引擎自动把整个集群数据计算后返回
-
执行完毕,结构是这样的
分片测试表 - 数据插入sql
insert into person_all (*) values ('1','a','2021-10-01');
insert into person_all (*) values ('2','b','2021-10-01');
insert into person_all (*) values ('3','c','2021-10-01');
insert into person_all (*) values ('4','d','2021-10-01');
insert into person_all (*) values ('5','e','2021-10-01');
insert into person_all (*) values ('6','f','2021-10-01');
insert into person_all (*) values ('7','g','2021-10-01');
insert into person_all (*) values ('8','h','2021-10-01');
insert into person_all (*) values ('9','i','2021-10-01');
insert into person_all (*) values ('10','j','2021-10-01');
insert into person_all (*) values ('11','k','2021-10-01');
insert into person_all (*) values ('12','l','2021-10-01');
- 数据查询验证,结果如下
select * from person_all;
select * from person_local;
- 可以发现数据分片到了三台机器的本地表。
感谢
Clickhouse分布式集群搭建
ClickHouse集群安装部署流程(踩坑解决)
clickhouse分布式三分片一副本部署