数据库性能基准测试——TPCC、TPCH及TPCDS的区别

        针对数据库不同的使用场景TPC组织发布了多项测试标准。其中被业界广泛接受和使用的有TPC-C 、TPC-H和TPC-DS。

        TPC-C 、TPC-H和TPC-DS三者最大的一个区别是,TPCC是针对OLTP数据库进行性能测试,而TPC-H和TPC-DS是针对OLAP数据库进行测试的。

数据库处理大致可分为两大类:OLTP和OLAP。
        OLTP的全称是On-line Transaction Processing,中文名称是联机事务处理。其特点是会有高并发且数据量级不大的查询,是主要用于管理事务(transaction-oriented)的系统。此类系统专注于short on-line-tansactions 如INSERT, UPDATE, DELETE操作。通常存在此类系统中的数据都是以实体对象模型来存储数据,并满足3NF(数据库第三范式)。
        OLAP的全称是 On-line Analytical Processing,中文名称是联机分析处理。其特点是查询频率较OLTP系统更低,但通常会涉及到非常复杂的聚合计算。 OLAP系统以维度模型来存储历史数据,其主要存储描述性的数据并且在结构上都是同质的。

TPCC
        TPC-C于1992年7月获得批准,是针对OLTP的基准测试。因为多事务类型、更复杂的数据库和整体执行的结构。TPC-C混合五种不同类型的比并发事务及其复杂性,要么在线执行成功要么排队等候延迟执行。这个数据库由九种类型的表,这些表具有广泛的数据记录和数据大小。TPC-C通过每分钟事务数来衡量。TPC-C 基准测试描述了批发供应商的活动,他不局限于特定的商业活动,而是代表了包含管理、销售、分发产品或者服务的任何行业。

利用数据库处理类型就能区分三者,那么TPCH与TPCDS又有什么区别呢?

        TPC-H基准的数据库模式遵循第三范式。新兴的数据仓库开始采用新的模型,如星型模型、雪花模型。TPC-H已经不能精准反映当今数据库系统的真实性能。为此,TPC组织推出了新一代的面向决策应用的TPC-DS 基准。所以,TPCH与TPCDS最大区别在于测试的数据库模型上。

        在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。

星型模型
        当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型。
        星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。

雪花模型
        当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的" 层次" 区域,这些被分解的表都连接到主维度表而不是事实表。
        它的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花型结构去除了数据冗余。

TPCH
        TPC-H是决策支持的基准测试。它由一套面向业务的即席查询和并发数据修改组成。 这些查询和填充数据库的数据具有广泛的行业相关性。 该基准测试展示了决策支持系统,它可以检索大量数据,执行高度复杂的查询,并为关键业务问题提供答案。 TPC-H报告的性能指标称为TPC-H每小时综合查询性能指标(QphH @ Size),并反映了系统处理查询的能力的多方面。 这些方面包括执行查询所选的数据库大小,单个流提交查询时的查询处理能力,以及多个并发用户提交查询时的查询吞吐量。 
        TPC-H是一款面向商品零售业的决策支持系统测试基准,它定义了8张表,22个查询,遵循SQL92;

TPCDS
        TPC-DS是决策支持的基本测试,提供了决策支持系统的通用见面方式,包括数据查询和数据维护。TPC-DS基准测试提供了通用决策支持系统的性能评估。基准测试的结果衡量了单用户模式下的响应时间,多用户模式下的查询吞吐量,特定操作系统和硬件的数据维护性能,在受限复杂的环境下数据处理系统、支持多用户决策。TPC-DS基准测试为用户提供相关的 客观性能数据。TPC-DS v2则支持新兴技术如大数据 进行性能测试。

        TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。

        TPC-DS的这个特点跟大数据的分析挖掘应用非常类似。Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量也较低,数据分布是真实而不均匀的。因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQL on Hadoop技术的最佳测试集。这个基准测试有以下几个主要特点:

        一共99个测试案例,遵循SQL’99和SQL 2003的语法标准,SQL案例比较复杂,分析的数据量大,并且测试案例是在回答真实的商业问题。测试案例中包含各种业务模型(如分析报告型,迭代式的联机分析型,数据挖掘型等)。几乎所有的测试案例都有很高的IO负载和CPU计算需求。

结论:
TPC-C是针对OLTP的测试,TPC-H和TPC-DS则是针对OLAP的测试。
TPCDS代替TPCH测试基准的原因在于新型数据库开始采用新的模型,如星型模型、雪花模型,TPC-H已经不能精准反映当今数据库系统的真实性能。不过大部分数据库目前对TPCDS的99个SQL查询语句支持尚不完善。

 

你可能感兴趣的:(数据库,数据仓库,数据挖掘)