微软声称创造了ETL的新纪录——在30分钟内完成1TB的数据存储量

微软和Unisys声称他们创造了向关系型数据库载入信息的纪录。非官方的评测结果是:数据提取、转换和装载工具(简称ETL工具)在不到30分钟的时间内将1TB的TPC-H数据存储到关系数据库中。对于此数据量,此前的纪录是由Informatica创建的45分钟。

声明的详情如下:

从非结构化数据文件中分析得到超过1TB的数据,通过网络传送并装载到目标数据库中,而这只用了不到30分钟的时间,超越了此前所有公开使用ETL工具纪录,是一个新的世界纪录。它的速率达到了2TB每小时(每秒超过650MB),更准确地说,是在1794秒以内完成1.18TB的非结构化文件数据装载,这相当于每25分20秒就完成1TB或是每小时2.36TB。

ETL的评测使用了TPC-H数据,但这并非是事务处理性能委员会(Transaction Processing Performance Council)的官方评测,但这并不影响像Informatica这样的公司去吹嘘他们的产品性能。微软承认ETL评测很重要,因为他们能代表现实世界对产品的应用需求。

在如今的业务中,只有极少数的数据会一直保留在目标系统中而无须进行标准化以及载入前的错误处理,而在极大多数情况下,对大量数据装载的处理极有意义。数据的集成涉及到复杂的转换规则、错误检验和数据标准化技术。像SSIS这样的ETL工具就可以实现这些功能,如,在不同的系统间进行数据的移动、数据的再格式化、完整性校验、关键值查询、衍生跟踪等,SSIS也证明了它是一个有能力和有着多方面用途的ETL工具。现在,它又向公众展示它是ETL工具中最快的一员。

实现这一个漂亮成绩的硬件当然也是非标准的,它也不是大多数公司能企及的。

数据库服务器是运行在Unisys ES70000企业级服务器上的,它拥有32颗Intel® 双核XeonTM 3.4G(7140M)处理器,256GB内存和8个双端口4G的HBA网卡。SQL Server的数据是存储在一个拥有165个硬盘插槽的EMC Clariion CX3-80 SAN中(数据吞吐能力可以达到146GB/15 krpm)。数据库服务器是预发布SQL Server 2008企业版(版本号为V10.0.1300.4,是“2008二月份CTP版”之前的一个版本),操作系统是Windows Server 2008 x64 Datacenter版本。

有四台服务作为提供数据源,它们模拟着现代企业中各种不同系统的实际数据来源。每一个源服务器运行一个SSIS包将数据通过网络发送到数据库服务器上。源服务器上的SSIS是基于SQL Server build V10.0.1300.4版本,操作系统是Windows Server 2008。原始数据是从非关系型数据文件中获得的,这些文件都是由DBGEN生成的。

源服务器是四台Unisys ES3220L服务器,操作系统是Windows 2008 x64企业版。每一台设备都配备了2颗Inter®Quad Core 2GHz处理器、4GB内存和一个双端口4Gbit Emulex HBA以及Inter PRO1000/PT网卡。原始数据是从二台拥有45个硬盘插槽的EMC Clariion CX600 SAN中进行读入的。

关于这一评测的白皮书尚未发布。

查看英文原文:Microsoft Claims to Hold the ETL Record at 1 TB in 30 Minutes

你可能感兴趣的:(微软声称创造了ETL的新纪录——在30分钟内完成1TB的数据存储量)