ClickHouse高性能数据库

ClickHouse之简单性能测试

 

前面的文章ClickHouse之初步认识已经简单的介绍了ClickHouse,接下来进行简单的性能测试。测试数据来源于美国民用航班的数据,从1987年到2017年,有1.7亿条。

环境:

centos 6.3,32G内存,24核

下载脚本:

复制代码
#!/bin/bash

for s in `seq 1987 2017`
do
for m in `seq 1 12`
do
mwget -n 128  http://transtats.bts.gov/PREZIP/On_Time_On_Time_Performance_${s}_${m}.zip
done
done
复制代码

这里采用的是mwget,128个线程,mwget是wget的多线程版本。wget太慢了。关于mwget的安装,请参考:https://my.oschina.net/766/blog/156807
下载以后的数据是zip压缩包,如下:

ClickHouse高性能数据库_第1张图片

下载完数据以后建表:

客户端登录: clickhouse-client -m,如果不加-m启用多行,那么将会报错:

  View Code

导入数据:

for i in *.zip; do echo $i; unzip -cq $i '*.csv' | sed 's/\.00//g' | clickhouse-client  --query="INSERT INTO ontime FORMAT CSVWithNames"; done

开始查询测试:
ClickHouse高性能数据库_第2张图片

可以看见1.7亿数据,count用了0.034秒,当然列存储数据库count都不快还搞毛。

继续测试其他的语句

从2000年到2016年每天的航班统计

SELECT DayOfWeek, count(*) AS c FROM ontime WHERE Year >= 2000 AND Year <= 2016 GROUP BY DayOfWeek ORDER BY c DESC; 

ClickHouse高性能数据库_第3张图片

2000 - 2008年度机场延误数

SELECT Origin, count(*) AS c FROM ontime WHERE DepDelay>10 AND Year >= 2000 AND Year <= 2008 GROUP BY Origin ORDER BY c DESC LIMIT 10

ClickHouse高性能数据库_第4张图片

这些查询都有一个范围限制,那么全部查完呢?

比如:

SELECT OriginCityName, DestCityName, count() AS c FROM ontime GROUP BY OriginCityName, DestCityName ORDER BY c DESC LIMIT 10;

ClickHouse高性能数据库_第5张图片

可以看见依然快的不像话,哈哈。心动了没?心动了就动手安装,导入数据测试一下吧。

 转载自:http://www.cnblogs.com/gomysql/p/6655553.html

 

 

小编附加使用手册:https://clickhouse.yandex/reference_en.html#MergeTree

这个数据库适合 查询和存储两种方式的数据,不适合修改类型的数据,可以应用于数据的采集,和信息的记录;

转载于:https://www.cnblogs.com/cyq632694540/p/7003264.html

你可能感兴趣的:(ClickHouse高性能数据库)