一提到大数据,很多人首先想到的是互联网公司,比如Google、百度、阿里巴巴等。互联网企业在大数据分析方面确实走在了业界前列,其光环也遮住了行业大数据的光芒。IDC“4V”来定义大数据:Volume代表更大容量,Variety代表数据种类多样化,Velocity代表更快的处理速度,Value意味着大数据能创造更多价值。天津南大通用数据技术有限公司(以下简称南大通用)首席技术官武新表示,如果按“4V”的标准来衡量,行业大数据与互联网大数据在数据量、数据种类和数据处理速度方面处于同一级别,惟一的不同是行业大数据比互联网大数据的数据价值密度更高。因此,行业大数据给数据库厂商带来的商业机会也多于互联网大数据。
  数据库三分天下
  如果回溯数据处理架构变革的源头,那么就要从美国著名数据库科学家迈克尔·斯通布雷克(Michael Stonebraker)的一篇论文说起。迈克尔·斯通布雷克在论文中指出,行业技术的发展趋势是由一种架构支持所有应用转变为用多种架构支持多类应用。在大数据和云计算的背景下,这一理论导致了数据库市场的大裂变:数据库市场分化为三大阵营,包括OldSQL(传统数据库)NewSQL(新型数据库)NoSQL(非关系型数据库)
  从技术角度看,OldSQL的典型特征是行存储、关系型和SMP(对称多处理架构)OldSQL的代表产品包括TimesTenAltibaseSolidDBExadata等。OldSQL所代表的传统关系型数据库已经不能满足大数据对大容量、高性能和多数据类型的处理要求。为了更好地满足云计算和大数据的需求,NewSQLNoSQL脱颖而出,并且大有后来者居上的架式。
  NoSQL的技术主要源于互联网公司,如GoogleYahooAmazonFacebook等。NoSQL产品普遍采用了Key-ValueMapReduceMPP(大规模并行处理)等核心技术。在互联网大数据应用中,NoSQL占据了主导地位。
  武新认为,NewSQL数据库具有极高的商业价值,必将成为一个主流的数据库产品类别。在大数据需求的推动下,数据库行业正处于技术变革的转折点。在全球范围内,至少有30家新兴的数据库厂商和大约50款新产品涌入市场,传统的由几家数据库厂商垄断市场的局面终将被打破。武新表示,“NewSQL在保持关系模型的基础上,对存储结构、计算架构和内存使用等核心技术进行了创新。未来,NewSQLNoSQL将改变OldSQL一种架构服务于所有应用的局面,三类产品将各自拥有适用的应用类型和客户群。
  用户对高处理性能的强烈需求推动了数据库行业的创新。为了进一步提升产品的性能,NewSQLNoSQLOldSQL三大阵营的厂商都不同程度地采用了一些新技术,比如分布式计算、分布式文件系统、内存计算技术等,同时积极采用一些新的硬件,包括大内存、闪存和高速网络连接技术(万兆以太网和InfiniBand)。相比之下,NoSQLNewSQL在技术上的改进更能满足大数据的需求,比如NewSQL产品普遍采用了列存储技术,而NoSQL产品普遍采用了Key-Value技术。武新介绍说:“NoSQLNewSQL在处理海量数据时都表现出了较强的扩展能力。NoSQL的主要优势体现在对非结构化数据的处理上,而NewSQL对于全数据格式的支持正日趋成熟。此外,NewSQL在实时性、复杂分析、即时查询和可开发性等方面也比NoSQL更具优势。
  传统的关系型数据库不易扩展,也不能实现并行处理,因此在处理海量数据时显得有些捉襟见肘。在行业大数据应用中,像南大通用GBase 8a这样的分析型数据管理系统将替代传统的数据库。当前,大量的公有云数据库都是基于NoSQL技术构建的,例如HbaseBigtable等。这些产品的非线性、分布式、横向扩展等技术特点非常适合互联网行业的云计算和大数据处理,但是应用类型相对简单。行业大数据应用要求数据库具有复杂数据的多表关联分析能力,可以在任何情况下保证数据的一致性,同时还要易于使用。这种需求直接推动了基于云架构的新型数据库技术的发展。这种新型的数据库在传统数据库的基础上采用了Shared-Nothing集群,提高了系统的伸缩性,其代表产品包括EMC GreenplumHP Vertica和南大通用的GBase 8a MPP Cluster等。
  武新对数据库未来的发展趋势进行了预测:对全数据类型提供更好的支持,采用更大规模的MPP和数据管理集群技术,实现跨平台融合,大数据一体机将流行。
  中国大数据厂商的机会
  数据库市场成形于上个世纪80年代。在过去30多年中,全球数据库市场基本由美国厂商(其数据库产品主要以事物处理为主)垄断,不仅中国数据库厂商很难找到突破口,就连德国和日本的厂商也举步维艰。随着云计算、大数据的兴起,以处理分析类应用为主的新型数据库日益受到关注。大数据让中国数据库厂商找到了一个向传统数据库厂商发起挑战的机会。
  2013年是大数据应用元年。据记者了解,中国的三大电信运营商、建行总行、邮储银行、华夏银行、中石油等单位都已经完成或将在今年上半年完成大数据的技术选型、产品测试和应用规划。武新向记者透露说:我们的大数据库产品GBase 8a已经进入了上述这些项目的测试名单。
  在中国市场上,互联网大数据与行业大数据两个市场并存,且都有巨大的发展空间。互联网市场和以金融、电信等企业为代表的企业级市场其实是泾渭分明的两个市场。互联网企业与商业企业对IT的需求大相径庭。一位服务器厂商的负责人告诉记者。通常情况下,互联网企业都拥有一大批自己的研发人员,无论是硬件还是像大数据这类的软件都倾向于自己开发,而且对开源软件情有独钟。以南大通用为代表的中国数据库厂商,已经习惯了与商业企业打交道,并且专注于关系型数据库,因此很难在短时间内在互联网大数据市场上找到突破口。从另一个角度说,行业大数据市场本身规模足够大,可以给像南大通用这样的厂商大量的机会。
  武新将行业大数据市场分成四类:经营类、管理类、监管类和专业类。以经营类为例,电信话单、金融票据、电力调度、智能电网等都属于以结构化数据为主的大数据应用。中国移动一个省的话单数据每年就要新增300TB。由此可见,行业大数据市场大有可为。
  企业用户最挑剔的还是数据库的性能。区别于传统的数据处理,大数据分析的一个主要特征就是对数据进行实时处理。南大通用的GBase 8a大数据平台的定位是分析类应用和全数据处理,其最大的亮点就是具有高性能。GBase 8a之所以能够实现高性能,主要依靠两项技术:一是列存储数据库,二是新型的Shared Nothing+MPP架构技术。与行存储数据库不同,GBase 8a列存储数据库中表的每一列在物理上是分开进行存储的,每一列以数据包为单位进行组织,只有访问和查询到的列才产生I/O。因此,表的列数越多,GBase 8a列存储数据库的I/O效率越高,性能优势体现得越明显。此外,GBase 8aMPP Cluster架构是最适合处理大数据的架构。与传统的Shared Disk架构相比,它具有更强的横向扩展能力和更高的性能,并且可以动态伸缩。
  互联网大数据中90%以上的数据属于非结构化数据,而行业大数据还是以结构化数据处理为主。与那些从诞生之日起就不得不面临大数据挑战的互联网企业相比,传统企业现在面临的大数据压力更大,数据结构更复杂且多变。在行业大数据应用中,关系型数据库依然是主流,只是其技术内涵有了新的变化,列存储数据库、分布式计算等新技术开始得到广泛应用。
  武新表示,从产品角度看,国产新型数据库与国外同类产品在技术上处于同一起跑线,而在成本、本地服务和方案定制化等方面比国外产品更具优势;从行业大势上看,“x86+Linux”架构与云计算逐渐被行业用户所接受,更多中国企业开始在本地寻找更具成本效益的解决方案,从而减少对国外产品的依赖;从信息安全、自主创新的角度看,国产大数据解决方案在政府行业的一些大项目中也越来越受到青睐。
   相关链接
  南大通用进行最大规模NewSQL集群方案演示
  38日,南大通用在天津海泰绿色发展基地举办了国产新型大数据平台开放日活动。南大通用向客户及合作伙伴展示了其GBase 行业大数据大规模集群处理平台,并进行了多种经营分析业务场景演示,其中200TB行业数据处理方案演示尤为引人瞩目。这次演示共使用了80台中高端服务器、5台万兆交换机,横跨7个机柜。武新告诉记者,该测试平台无论从网络部署、测试复杂度还是数据量等方面衡量,都堪称国内规模最大的NewSQL集群环境。测试结果显示,该平台可支撑PB级的数据查询与分析,是应用于行业大数据分析的可靠平台。