TDengine与Cassandra对比测试

TDengine与Cassandra对比测试

为帮助用户了解TDengine的指标,特将TDengine与Cassandra做了读写性能对比测试。

测试环境

对比测试的测试程序和数据库服务在同一台4核8GB的Dell台式机上部署,台式机型号为OptiPlex-3050,详细配置如下

OS: Ubuntu 16.04 x64
CPU: Intel(R) Core(TM) i3-7100 CPU @ 3.90GHz
Memory: 8GB
Disk: 1TB HDD

测试数据集及其生成方法

1.测试数据生成方法

本次测试调研了两类比较热门的测试数据集:

  • 1.纽约出租车运行数据,因该数据中抹去了单台车辆的信息,无法对其进行建模
  • 2.faker生成工具,因其只能生成字符串,并不适合物联网场景下处理的数据。

所以,为了使得测试可轻易重复,自己写了一个生成模拟数据的程序来进行本次测试。

测试数据生成程序模拟若干温湿度计生成的数据,其中温度为整数、湿度为浮点数,同时每个温度计包含设备ID、设备分组、设备名称三个标签。为了尽可能真实地模拟温湿度计的生成数据,没有使用完全随机数,而是针对每个温度计确保生成的数据值呈正态分布。

测试数据的频率为1秒钟,数据集包含10000台设备,每台设备10000条记录。每条数据采集记录包含3个标签字段,2个数据字段,1个时间戳字段。

2.测试数据生成程序源码

采用java程序生成测试数据集,测试程序源代码行数较多,因此您可以到https://github.com/taosdata/TDengine/tree/master/tests/comparisonTest/dataGenerator 下载,执行如下语句

cd tests/comparisonTest/dataGenerator
javac com/taosdata/generator/DataGenerator.java 

3.测试数据生成程序用法

相关参数如下

  • dataDir 生成的数据文件路径
  • numOfFiles 生成的数据文件数目
  • numOfDevices 测试数据集中的设备数目
  • rowsPerDevice 测试数据集中每台设备包含的记录条数

4.生成测试数据

执行如下命令,会在~/testdata目录下生成100个数据文件,每个文件包含100台设备的测试数据;合计10000台设备,每台设备10000条记录

mkdir ~/testdata
java com/taosdata/generator/DataGenerator -dataDir ~/testdata -numOfDevices 10000 -numOfFiles 100 -rowsPerDevice 10000

TDengine环境准备

TDengine是一个开源的专为物联网、车联网、工业互联网、IT运维等设计和优化的大数据平台。除核心的快10倍以上的时序数据库功能外,还提供缓存、数据订阅、流式计算等功能,最大程度减少研发和运维的工作量。

1.安装部署

  • 下载tdengine-1.6.1.0.tar.gz,地址https://www.taosdata.com/
  • 安装TDengine,解压后运行install.sh进行安装
  • 启动TDengine,运行sudo systemctl start taosd
  • 测试是否安装成功,运行TDengine的shell命令行程序taos,可以看到如下类似信息
Welcome to the TDengine shell, server version:1.6.1.0  client version:1.6.1.0
Copyright (c) 2017 by TAOS Data, Inc. All rights reserved.

taos> 

2.数据建模

TDengine为相同结构的设备创建一张超级表,而每个具体的设备则单独创建一张数据表。因此,超级表的数据字段为采集时间、温度、湿度等与时间序列相关的采集数据;标签字段为设备编号、设备分组编号、设备名称等设备本身固定的描述信息。

创建超级表的SQL语句为

create table devices(ts timestamp, temperature int, humidity float) tags(devid int, devname binary(16), devgroup int);

以设备ID作为表名(例如device id为1,则表名为dev1),使用自动建表语句,写入一条记录的语句为

insert into dev1 using devices tags(1,'d1',0) values(1545038786000,1,3.560000);

3.测试程序源码

本文采用TDengine的原生C语言接口,编写数据写入及查询程序,后续的其他文章会提供基于JDBCDriver的测试程序。

测试程序源代码行数较多,因此您可以到https://github.com/taosdata/TDengine/tree/master/tests/comparisonTest/tdengine 下载,执行如下语句

cd tdengine
make

会在当前目录下生成可执行文件./tdengineTest

4.测试程序用法

TDengine的测试程序用法与Cassandra的用法相同,写入相关参数

  • writeClients 并发写入的客户端链接数目,默认为1
  • rowsPerRequest 一次请求中的记录条数,默认为100,范围1-1000
  • dataDir 读取的数据文件路径,来自于测试数据生成程序
  • numOfFiles 从数据文件路径中读取的文件个数

例如

./tdengineTest -dataDir ./data -numOfFiles 10 -writeClients 2 -rowsPerRequest 100

查询相关参数

  • sql 将要执行的SQL语句列表所在的文件路径,以逗号区分每个SQL语句

例如

./tdengineTest -sql ./sqlCmd.txt

Cassandra环境准备

Apache Cassandra是一个高度可扩展的高性能分布式数据库,用于处理大量商用服务器上的大量数据,提供高可用性,无单点故障。这是一种NoSQL类型的数据库。

1.安装部署

  • 下载并安装Cassandra
echo "deb http://www.apache.org/dist/Cassandra/debian 311x main" | sudo tee -a /etc/apt/sources.list.d/Cassandra.sources.list

curl https://www.apache.org/dist/Cassandra/KEYS | sudo apt-key add -

sudo apt-get update
sudo apt-get install Cassandra
  • 启动Cassandra服务
sudo service Cassandra start
  • 测试是否安装成功,运行Cassandra的shell命令行程序cqlsh,可以看到如下类似信息
Connected to Test Cluster at 127.0.0.1:9042.
[cqlsh 5.0.1 | Cassandra 3.11.4 | CQL spec 3.4.4 | Native protocol v4]
Use HELP for help.
cqlsh>

2.Cassandra数据建模

创建一个名为Cassandra.test的measurement,所有设备都属于该measurement。每条记录包含六个数据字段,分别为时间戳(毫秒),温度(整型),湿度(浮点),设备编号(整型)、设备分组编号(整型)、设备名称(字符型)。主键为(设备分组编号、设备编号、设备名称,时间戳)。因为Cassandra的where语句里只对主键进行搜索,所以在后面查询时需要进行筛选的列一定要放进主键里。同时,因为Cassandra里group by语句只能对主键且按照主键的顺序进行聚合,所以这里将后面聚合查询用到的设备分组编号放在主键的第一位。

3.Cassandra测试程序源码

本文采用Cassandra的原生Java语言接口,编写数据写入及查询程序,测试程序源代码行数较多,因此您可以到https://github.com/taosdata/TDengine/tree/master/tests/comparisonTest/Cassandra 下载。

安装Cassandra Java 客户端。本次测试使用DataStax提供的客户端,具体可见https://github.com/datastax/java-driver。 DataStax使用maven管理源码,在Cassandra/Cassandratest/pom.xml 里DataStax客户端已经被添加入maven的库里。

4.Cassandra测试程序用法

测试准备

由于Cassandra建表写入查询速度比较慢,在本次测试中很容易出现timeout错误,测试无法进行下去。因此测试前一定需要修改Cassandra服务端和客户端的timeout的默认值。

  • 服务端修改, 将/etc/Cassandra/Cassandra.yaml 中所有含有“timeout”的设置选项里的默认值增加100-1000倍。
  • 客户端修改, 在测试源代码Cassandra/目录下提供了“application.conf"文件,里面修改了客户端timeout默认值,执行源代码时需要提供这个文件的路径。

写入相关参数

  • writeClients 并发写入的客户端链接数目,默认为1
  • rowsPerRequest 一次请求中的记录条数,默认为100,范围1-1000
  • dataDir 读取的数据文件路径,来自于测试数据生成程序
  • numOfFiles 从数据文件路径中读取的文件个数
  • conf Cassandra客户端参数文件所在路径(修改timeout默认值)

例如

cd Cassandra/Cassandratest/target

java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -datadir ./data -numofFiles 100 -rowsperrequest 2000 -writeclients 4 -conf Cassandra/application.conf

查询相关参数

  • sql 将要执行的SQL语句列表所在的文件路径,以逗号区分每个SQL语句

例如

cd Cassandra/Cassandratest/target

java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -sql Cassandra/sqlCmd.txt -conf Cassandra/application.conf

写入性能对比

数据库的一个写入请求可以包含一条或多条记录,一次请求里包含的记录条数越多,写入性能就会相应提升。在以下测试中,使用R/R表示Records/Request ,即一次请求中的记录条数。同时,一个数据库可以支持多个客户端链接,链接数增加,系统总的写入通吐量也会相应增加。因此测试中,对于每一个数据库,都会测试一个客户端和多个客户端连接的情况。

1.TDengine的写入性能

TDengine按照每次请求包含1,100,500,1000,2000条记录各进行测试,同时也测试了不同客户端连接数的情况。测试步骤如下所示,您可以修改示例中的参数,完成多次不同的测试。

1.清空上次测试数据
运行TDengine的shell命令行程序taos,执行删除测试数据库语句
Welcome to the TDengine shell, server version:1.6.1.0  client version:1.6.1.0
Copyright (c) 2017 by TAOS Data, Inc. All rights reserved.

taos>drop database db;

2.测试执行
开启5个客户端读取~/testdata目录中的100个数据文件,每个请求写入1000条数据,可以参考如下命令
./tdengineTest -dataDir ~/testdata -numOfFiles 100 -writeClients 5 -rowsPerRequest 1000

写入吞吐量如下,单位为记录数/秒

R/R 1 client 2 clients 3 clients 4 clients 5 clients 6 clients 7 clients
1 26824 43699 55137 62869 64529 68647 72277
100 415800 734484 895522 976085 1087902 1171074 1192199
500 479846 882612 1083032 1195100 1269196 1364256 1417004
1000 500751 914494 1121914 1239157 1367989 1418104 1476560
2000 512820 1055520 1174164 1306904 1426635 1458434 1477208
表1 TDengine的写入吞吐量

TDengine与Cassandra对比测试_第1张图片

图1 TDengine的写入吞吐量

2.Cassandra的写入性能

Cassandra按照每次请求包含1,10,50, 100,500,1000条记录各进行测试,同时也测试了不同客户端连接数的情况。测试步骤如下所示,您可以修改示例中的参数,完成多次不同的测试。

1.清空上次测试数据
运行Cassandra的shell命令行程序cqlsh,可以看到如下类似信息
Connected to Test Cluster at 127.0.0.1:9042.
[cqlsh 5.0.1 | Cassandra 3.11.4 | CQL spec 3.4.4 | Native protocol v4]
Use HELP for help.
cqlsh> drop database Cassandra;

2.测试执行
开启5个客户端读取~/testdata目录中的100个数据文件,每个请求写入1000条数据,可以参考如下命令
java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -dataDir ~/testdata -numOfFiles 100 -writeClients 5 -rowsPerRequest 1000 -conf Cassandra/application.conf

写入吞吐量如下,单位为记录数/秒

R/R 1 client 2 clients 3 clients 4 clients 5 clients 6 clients 7 clients
1 3515 4925 5529 5991 6331 6380 6597
10 35998 35542 35124 34135 35077 35886 36102
50 31743 49423 51626 55752 57282 56815 55831
100 38328 50387 54519 56940 57853 59335 61708
500 30417 36264 38078 39066 39459 39758 39918
1000 21555 25293 26224 26559 26765 26511 26693
表2 Cassandra的写入吞吐量

TDengine与Cassandra对比测试_第2张图片

图2 Cassandra的写入吞吐量

3.TDengin和Cassandra的最佳性能对比

基于以上的测试数据,将TDengine和Cassandra测试出的最佳写入速度进行对比,结果如下

R/R 1 client 2 clients 3 clients 4 clients 5 clients 6 clients 7 clients
TDengine 512820 1055520 1174164 1306904 1426635 1458434 1477208
Cassandra 38328 50387 54519 56940 57835 59335 61708
表3 TDengine和Cassandra的最佳写入性能对比

TDengine与Cassandra对比测试_第3张图片

图3 TDengine和Cassandra的最佳写入性能对比

从图3可以看出,TDengine的写入速度约为百万条记录/秒的量级,而Cassandra的写入速度约为1~10万条记录/秒的量级。因此可以得出结论,在同等数据集和硬件环境下,TDengine的写入速度远高于Cassandra,约为20倍。

读取性能对比

本测试做了简单的遍历查询,就是将写入的数据全部读出。

  1. TDengine的测试方法
测试SQL语句存储在tdengine/q1.txt中,测试SQL语句参考
select * from db.devices where devgroup=0;

执行方法如下
./tdengineTest -sql ./q1.txt

2.Cassandra的测试方法

测试SQL语句存储在Cassandra/q1.txt中,测试SQL语句参考
select * from devices where devgroup=0;

执行方法如下
java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -conf Cassandra/application.conf -sql Cassandra/q1.txt

读取速度如下,单位为秒

Latency G-0 G-10 G-20 G-30 G-40 G-50 G-60 G-70 G-80 G-90
TDengine 0.235 0.212 0.208 0.218 0.209 0.210 0.209 0.209 0.216 0.208
Cassandra 3.92 3.68 3.65 3.61 3.69 3.57 3.55 3.59 3.66 3.64
表4 TDengine和Cassandra的读取性能对比

TDengine与Cassandra对比测试_第4张图片

图4 TDengine和Cassandra的读取性能对比

从图表中可以看出,TDengine的100万条的读取速度稳定在0.21秒,吞吐量约为500万条记录/秒,Cassandra的100万条的读取速度大约在3.6秒,吞吐量约为30万条记录/秒。所以从测试结果来看,TDengine的查询吞吐量高于Cassandra,约为Cassandra的17倍。

聚合函数性能对比

本单元的测试包含COUNT,AVERAGE,SUM,MAX,MIN这五个TDEngine和Cassandra共有的聚合函数。所有测试函数都会搭配筛选条件(WHERE)来选取设备的十分之一、十分之二、十分之三、直到全部设备。

1.TDengine的聚合函数性能

测试SQL语句存储在tdengine/q2.txt中,测试SQL语句参考

select count(*) from db.devices where devgroup<10;

执行方法如下

./tdengineTest -sql ./q2.txt

查询速度如下表,单位为秒

Latency 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
count 0.018 0.026 0.016 0.018 0.017 0.024 0.024 0.027 0.030 0.033
avg 0.007 0.014 0.015 0.020 0.024 0.038 0.044 0.050 0.057 0.060
sum 0.006 0.010 0.019 0.018 0.031 0.036 0.034 0.037 0.043 0.046
max 0.007 0.013 0.015 0.020 0.025 0.030 0.035 0.039 0.045 0.049
min 0.006 0.010 0.016 0.024 0.032 0.039 0.045 0.041 0.043 0.049
spread 0.007 0.010 0.015 0.019 0.033 0.038 0.046 0.052 0.059 0.066
表5 TDengine聚合函数性能

TDengine与Cassandra对比测试_第5张图片

图5 TDengine聚合函数性能

2.Cassandra的聚合函数性能

测试SQL语句存储在Cassandra/q2.txt中。

select count(*) from devices where devgroup<10;

执行方法如下

java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -sql Cassandra/q2.txt -conf Cassandra/application.conf

查询速度如下表,单位为秒

Latency 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
count 33.79 67.23 87.64 105.82 131.52 160.88 188.70 213.85 240.39 264.49
mean 28.88 57.83 87.16 114.87 145.30 173.32 204.11 235.33 261.29 290.97
sum 29.35 58.19 86.24 115.56 145.73 173.81 203.94 234.15 260.41 292.51
max 28.94 57.85 85.60 115.02 145.62 175.08 202.53 232.61 260.37 288.46
min 29.58 58.26 87.27 117.22 144.01 174.20 201.88 235.98 263.69 290.27
表6 Cassandra聚合函数性能

TDengine与Cassandra对比测试_第6张图片

图6 Cassandra聚合函数性能

3.聚合函数性能对比

基于以上的测试数据,将TDengine和Cassandra在1亿条记录数据集的测试结果进行对比

Latency count average sum max min
TDengine 0.033 0.06 0.046 0.049 0.049
Cassandra 264.49 290.97 291.51 288.46 290.27
表7 聚合函数性能对比

TDengine与Cassandra对比测试_第7张图片

图7 聚合函数性能对比

从图7可以看出,TDengine的聚合函数查询时间在100毫秒以内,而Cassandra的查询时间在200~300秒左右。因此可以得出结论,在同等数据集和硬件环境下,TDengine的写入速度远远高于Cassandra,超过100倍。

按标签分组查询性能对比

本测试做了按标签分组函数的性能测试,测试函数会搭配筛选条件(WHERE)来选取设备的十分之一、十分之二、十分之三、直到全部设备。

  1. TDengine的测试方法

测试SQL语句存储在tdengine/q3.txt中,例如

select count(temperature), sum(temperature), avg(temperature) from db.devices where devgroup<10 group by devgroup;

执行方法如下

./tdengineTest -sql ./q3.txt
  1. Cassandra的测试方法

测试SQL语句存储在Cassandra/q3.txt中,例如

select count(temperature), sum(temperature), avg(temperature) from db.devices where devgroup<10 group by devgroup;

执行方法如下

java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -sql Cassandra/q3.txt -conf Cassandra/application.conf

读取速度如下,单位为秒

Latency 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
TDengine 0.030 0.028 0.031 0.041 0.069 0.066 0.077 0.091 0.102 0.123
Cassandra 31.40 62.21 92.12 122.01 154.95 185.03 217.46 249.59 281.86 308.89
表8 TDengine和Cassandra的按标签分组查询性能对比

TDengine与Cassandra对比测试_第8张图片

图8 TDengine和Cassandra的按标签分组查询性能对比
从测试结果来看,TDengine的分组聚合查询速度远高于Cassandra,约为3000倍。

按时间分组性能对比

本测试做了按时间分组函数的性能测试,测试函数会搭配筛选条件(WHERE)来选取设备的十分之一、十分之二、十分之三、直到全部设备。

  1. TDengine的测试方法

测试SQL语句存储在tdengine/q4.txt中,例如

select count(temperature), sum(temperature), avg(temperature) from db.devices where devgroup<10 interval(1m);

执行方法如下

./tdengineTest -sql ./q4.txt
  1. Cassandra的测试方法

因为前面提到的Cassandra 在where和group by 语句里的限制,在测试之前,需要重新写入数据,在原表中加入“minute”这一列,同时将它放入主键的第一位。
执行下面命令再写入一次数据

java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -datadir ~/testdata -numofFiles 100 -rowsperrequest 2000 -writeclients 4 -conf Cassandra/application.conf -timetest

测试SQL语句存储在Cassandra/q4.txt中,例如

select count(temperature), sum(temperature), mean(temperature) from devices where devgroup<10 group by minute;

执行方法如下

java -jar Cassandratest-1.0-SNAPSHOT-jar-with-dependencies.jar -sql Cassandra/q4.txt -conf Cassandra/application.conf

读取速度如下,单位为秒

Latency 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
TDengine 0.237 0.472 0.653 0.902 1.134 1.422 1.753 1.784 2.085 2.549
Cassandra 131.35 153.87 169.40 188.86 203.47 227.61 250.41 274.53 294.87 303.51
表9 TDengine和Cassandra的按时间分组查询性能对比

TDengine与Cassandra对比测试_第9张图片

图9 TDengine和Cassandra的按时间分组查询性能对比
从测试结果来看,TDengine的分组聚合查询速度远高于Cassandra,约为100倍。

压缩比对比

1.原始数据的磁盘占用

本次测试共生成100个测试数据文件,存储在/testdata目录下,使用du命令查看/testdata目录的文件大小

cd ~/testdata
du -h .

如下图所示
在这里插入图片描述

图10 原始数据的磁盘占用情况
### 2.查看TDengine的磁盘占用

TDengine的磁盘文件默认位置在目录/var/lib/taos/data下,在查看磁盘文件大小时,首先将TDengine的服务停止

sudo systemctl stop taosd

然后,调用du命令,查看/var/lib/taos/data目录下文件的大小

cd /var/lib/taos/data
du -h .

如下图所示
TDengine与Cassandra对比测试_第10张图片

图11 TDengine的磁盘占用情况
### 3.查看Cassandra的磁盘占用

Cassandra的磁盘文件默认位置在目录/var/lib/Cassandra/data/keyspace_name下,在查看磁盘文件大小时,首先将Cassandra的服务停止

sudo service Cassandra stop

本测试中,数据存储在/var/lib/Cassandra/data/Cassandra目录下,调用du命令,查看该目录下文件的大小。

cd /var/lib/Cassandra/data/Cassandra
du -sh .

如下图所示
在这里插入图片描述

图12 Cassandra的磁盘占用情况
### 4.磁盘占用情况对比

生成的测试数据文件占用的磁盘大小为3941MB,Cassandra磁盘占用12GB,TDengine磁盘占用459MB。在相对比较随机数据集的情况下,TDengine的压缩比约为Cassandra压缩比的26.7倍。

在物联网场景下,大多数采集数据的变化范围都比较小。由于TDengine采用列式存储,因此可以预期,TDengine在真实场景的压缩比表现会更好。

功能对比

TDengine与Cassandra都是用与处理时序数据的存储引擎,其功能比较接近,各有特色。

功能支持 TDengine Cassandra
SQL语法支持 支持 不支持
查询中的计算支持* 支持 不支持
非主键分组 支持 不支持
私有化部署支持 支持 支持
水平扩展能力 支持 支持
系统连接管理 支持 支持
查询任务管理 支持 支持
数据导入工具 支持 支持
数据导出工具 支持 支持
Web管理工具 支持 支持
多介质分级存储 支持 支持
Telegraf数据采集 支持 支持
Grafana数据可视化 支持 支持
RESTFul 支持 支持
C/C++ 支持 不支持
JDBC/ODBC 支持 不支持
GO 支持 支持
Python 支持 支持
数据库参数配置 支持 支持
配置副本数 支持 支持
数据时效 支持 支持
数据分区 支持 支持
流式计算 支持 不支持
数据订阅 支持 不支持
微秒级精度 支持 支持
聚合函数支持 支持 支持
数据降采样 支持 支持
数据分页 支持 支持
数据插值 支持 支持
历史数据修改 不支持 支持
时间线删除 支持 支持
数据清空 支持 支持
表10 TDengine与Cassandra的功能对比
*note: Cassandra的select语句中不支持数学运算,如有需要,可以使用用户自定义函数。具体参见https://Cassandra.apache.org/doc/latest/cql/index.html

总结

此次测试,从数据库的读、写、查询、压缩比等方面对TDengine和Cassandra进行了对比测试。测试用数据集、测试程序源码、执行的SQL语句都可以从https://github.com/taosdata/TDengine/tree/master/tests/comparisonTest/ 下载,测试具备可重复性。

从测试结果上看,TDengine的性能远超Cassandra,写入性能约为20倍,读取性能约为17倍,聚合函数性能约为4000倍,按标签分组查询性能约为2500倍,按时间分组查询性能约为119倍,具体见下表。

TDengine Cassandra
写入吞吐量 1477208 记录数/秒 记录数61708/秒
100万条记录读取时间 0.21秒 3.64秒
1亿条记录取平均值时间 0.06秒 264.49秒
1亿条记录按标签分组取均值时间 0.123 308.39秒
1亿条记录按时间分组取均值时间 2.549秒 303.51秒
表11 TDengine与Cassandra的性能对比汇总

你可能感兴趣的:(TDengine与Cassandra对比测试)