clickhouse安装心得

一、clickhouse

ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL
查询实时生成分析数据报告。 

二、为什么要使用ck

因为ck是列式存储,而列式存储有以下几个优点
1、对于列的聚合,计数,求和等统计操作原因优于行式存储。
2、由于某一列的数据类型都是相同的,针对于数据存储更容易进行数据压缩,每一列选择更优的数据压缩算法,大大提高了数据的压缩比重。
3、由于数据压缩比更好,一方面节省了磁盘空间,另一方面对于cache也有了更大的发挥空间。

三、ck有什么优势

多样化引擎

clickhouse和mysql类似,把表级的存储引擎插件化,根据表的不同需求可以设定不同的存储引擎。目前包括合并树、日志、接口和其他四大类20多种引擎。

3.1 写(MergeTree)

ClickHouse采用类LSM Tree的结构,数据写入后定期在后台合并。通过类LSM tree的结构,但是没有内存表,没有预写日志,ClickHouse在数据导入时全部是顺序append写入磁盘,在后台周期性合并数据到主数据段。顺序写的特性,充分利用了磁盘的吞吐能力,即便在HDD上也有着优异的写入性能。
官方公开benchmark测试显示能够达到50MB-200MB/s的写入吞吐能力,按照每行100Byte估算,大约相当于50W-200W条/s的写入速度。
不支持常规意义的修改行和删除行数据。
不支持事务。

3.2 读(MergeTree)

3.2.1 语句级多线程

ClickHouse将数据划分为多个partition,每个partition再进一步划分为多个index granularity(颗粒),然后通过多个CPU核心分别处理其中的一部分来实现并行数据处理。
在这种设计下,单条Query就能利用整机所有CPU。极致的并行处理能力,极大的降低了查询延时。
弊端:
clickhouse即使对于大量数据的查询也能够化整为零平行处理。但是有一个弊端就是对于单条查询使用多cpu,就不利于同时并发多条查询。所以对于高qps的查询业务,clickhouse并不是强项。

3.2.2 稀疏索引

clickhouse使用稀疏索引,索引之间的颗粒度(默认8192行)。
好处:范围查询过滤比较快。
弊端:不适合做点对点查询。

3.3 生命周期管理

支持对数据的生存周期进行管理,可以像Redis那样失效掉过期的数据,维持数据的新陈代谢。

四、在安装使用ck的时候遇到的一些问题

clickhouse-client -m --password
在这里插入图片描述
在装好ck进入客户端的时候遇到了,感觉是端口被占用了,于是
netstat -tulpn | grep 9000
查看了端口,发现并没有被占用,那么问题是什么呢,我去面向百度编程,找到了以下几个方法
1、修改config.xml这个配置文件,里面的
::
这个位置把里面换为0.0.0.0
2.就是你换成了0.0.0.0,但是莫名其妙就是不能进入,那就改回来
3、卸载重装clickhouse,这里引用了其他程序员的重装步骤,有点麻烦
链接: 卸载重装ck
也可以试试这个卸载方法,要简便很多
3.2.1 查看是否安装
rpm -qa | grep clickhouse
3.2.2 卸载
rpm -qa | grep clickhouse | sudo xargs rpm -e
3.2.3 删除数据和配置文件
sudo rm -rf /var/lib/clickhouse/ sudo rm -rf /etc/clickhouse-* s sudo rm -rf /var/log/clickhouse-server/
如果是集群:
rm -rf /etc/metrika.xml
删除zk上的元数据:
rmr /clickhouse
很神奇的是使用另外一个命令进去,有一点问题都没有
clickhouse-client -m -h hadoop174 --password

心得

1、这个命令解压文件是真的很爽
sudo rpm -ivh *.rpm
2、ck的语法和标准SQL的区别并不是很大,他也有很多神奇的函数,比如说ck的炸裂和元组那些,谁用谁知道
with rollup(上卷) : 从右至左去掉维度进行小计。
select uid , sku_id,sum(total_amount) from t_order_mt group by uid,sku_id with rollup;
以上sql等价于:
select uid,sku_id,sum(total_amount) from t_order_mt group by uid,sku_id union all select uid,'',sum(total_amount) from t_order_mt group by uid union all select 0,'',sum(total_amount) from t_order_mt;
clickhouse安装心得_第1张图片
with cube : 从右至左去掉维度进行小计,再从左至右去掉维度进行小计。
select uid , sku_id,sum(total_amount) from t_order_mt group by uid,sku_id with cube;
以上sql等价于:
select uid,sku_id,sum(total_amount) from t_order_mt group by uid,sku_id union all select 0,sku_id,sum(total_amount) from t_order_mt group by sku_id union all select uid,'',sum(total_amount) from t_order_mt group by uid union all select 0,'',sum(total_amount) from t_order_mt;
clickhouse安装心得_第2张图片

有时候很多问题百度也没用,自己遇到了,过段时间可能也会忘记,好记性不如烂笔头,学习这条路,只能是一条走到黑,要不然对不起自己曾经的努力,毕竟努力这件事,受益的是自己。

你可能感兴趣的:(大数据学习那些事,clickhouse,数据库,mysql)