专访巨杉数据库王涛:企业级分布式数据库如何快速落地大数据

近年来,随着数据量的高速增长,分布式数据库技术得到了快速的发展,传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留传统数据库的数据模型和基本特征下,从集中式存储走向分布式存储,从集中式计算走向分布式计算。

专访巨杉数据库王涛:企业级分布式数据库如何快速落地大数据_第1张图片

巨杉数据库 王涛

SequoiaDB巨杉数据库,专注新一代大数据基础架构研发,是国内领先的新一代分布式数据库厂商。其产品SequoiaDB巨杉数据库是一款支持SQL、高并发、实时性、分布式、可扩展、灵活存储的操作型NewSQL数据库。在上周的2016BDTC大数据技术大会上,巨杉数据库联合创始人&CTO王涛做了”NewSQL数据库技术与企业级应用”的专题技术分享。在会后,王涛也接受CSDN专访,就巨杉的最新进展和最新的产品亮点以及企业对大数据需求变化做深入沟通。

巨杉数据库

访谈一开始,王涛就巨杉过去一年在数据库领域取得的新进展做详细介绍,王涛表示,过去一年以来巨杉取得了许多的成绩,这离不开广大用户和爱好者们的关注和支持,总结来说主要分为以下四个方面:

  • 首先,巨杉数据库 2.0正式发布,巨杉数据库正式进入”2.0时代”,特别在企业级的功能上有了许多提升;
  • 其次,是巨杉获得B轮融资,在资本寒冬下得到DCM的千万美元B轮融资,是目前国内新一代分布式数据库领域最大一笔投融资。
  • 再次,巨杉的企业级用户持续增长,深耕金融、政府、电信等行业,交通、制造、医疗等新兴行业大数据崭露头角;
  • 最后,巨杉获得业界的认可,成为2016年唯一入选硅谷”大数据生态地形图”的中国厂商,并且连续两年获得《红鲱鱼》”全球创新100强”。

作为巨杉软件的联合创始人兼CTO,王涛始终关注着前沿的技术,在数据库方面,新一代分布式数据库已经真正规模性进入到了企业级应用,因此新技术如何在企业级领域中扩展其使用场景与范围,是巨杉今年最为关注的重点。同时,从技术趋势上来看,Spark在各个行业的普及应用已经证明了大数据的实用性和必要性,巨杉接下来要做的就是挖掘出更多的应用场景。此外,对于机器学习人工智能等与大数据结合紧密的新技术趋势也是巨杉软件关注的方向之一。

SequoiaDB 2.0亮点解析

在今年,巨杉数据库正式进入了”2.0时代”,SequoiaDB 2.0为用户提供高并发实时计算、高吞吐量批处理分析、以及在线流处理计算等一系列企业级解决方案。这些新特性,符合如今各个主要行业对于大数据技术的需求,包括海量数据存储、企业应用的兼容易用、存储计算的整合与优化、以及多数据源类型数据的统一存储等,帮助用户快速进行跨系统数据的融和、提炼和再加工,加速提升企业的数据价值。相比”1.0时代”巨杉数据库,其亮点可归纳为以下三点:

其一,标准SQL支持:支持标准SQL2003与事务机制,支持JDBC、ODBC、Hibernate、Spring等通用框架,完美兼容现有业务系统的无缝迁移。SequoiaDB 2.0在完全支持标准SQL之后,将能够适应几乎所有的企业级大数据需求,保证最低限度的迁移成本、学习成本,真正实现无缝对接。

其二,双存储引擎: 双引擎即为记录存储和块存储,SequoiaDB 2.0提供的对象存储引擎包含了完整ECM企业内容管理解决方案,包括文件的批次管理、版本管理、流程管理等一系列内容管理核心功能。

其三,内存计算引擎集成:SequoiaDB 2.0通过深度集成最新的Spark 2.0内存计算框架,实现了批处理分析、流处理等贴近应用的功能。存储层和计算层两层分离的架构、技术互补,是硅谷大数据新架构的主流,将分布式计算与分布式存储的能力分别发挥到了极致。

王涛表示,巨杉的”2.0时代”更专注企业级的数据库技术,帮助企业大数据快速落地,而这些新的特性也在市场上得到了众多客户的认可。

双引擎架构对行业客户应用的改变

SequoiaDB是目前唯一一款原生集成行存储与块存储双引擎的分布式数据库。除了此前的JSON存储引擎以外,为了提高非结构化文件的读写性能,SequoiaDB核心引擎提供了分布式块存储模式,可以将非结构化大文件按照固定大小的数据块进行切分并存放于不同分区。

SequoiaDB提供的块存储机制可以存放近乎无限数量的对象文件,并且不会由于元数据堆积而造成性能下降。同时,由于数据块被散列分布到所有数据节点,整个系统的吞吐量随集群磁盘数量的增加近乎线性提升。最后,SequoiaDB提供原生的内容管理接口,通过REST访问方式支持批次管理、版本管理、流程管理等一系列基本CM特性。

王涛认为双引擎的技术使得巨杉数据库能够成为传统ECM/影像系统的强有力替代。

典型案例解析

王涛表示,巨杉的客户主要是在金融、政府、电信以及互联网等行业,特别是今年以来,在交通、制造、医疗等新兴行业崭露头角。巨杉目前已拥有的客户包括多家世界五百强企业(如中国银行、民生银行、广发银行、中国移动、中国电信等),各级政府客户(国税总局、广州市政府等)和包括途牛网在内的多家知名互联网科技公司。

典型客户应用场景包括集中在对历史数据的全量在线应用,以及对非结构化数据应用这两大领域。

其中,历史数据全量在线应用一个典型的例子。在这一场景中巨杉的NewSQL数据库替代了传统的数据架构中的ODS(贴源层),作为全量历史数据的存储层。一方面为DW数据仓库部分进行了”瘦身”,另一方面也将能实现对海量的历史数据的实时操作,包括实时查询和高性能读写等。

除了历史全量数据意外,在”双引擎”的部分,巨杉数据库的块存储引擎还能处理海量的非结构化数据的存储,包括图像、音视频等数据的存储,成为传统企业内容管理(ECM)的有力替代。

客户需求的新变化

随着企业数据量的不断增长,对数据库的需求也有了新的变化,王涛认为主要有三方面表现:

首先,首先从业务场景上来看,大数据业务目前主要分为分析类和交互类,巨杉数据库大的发展方向是以实时交互类为主。在交互类这块,NewSQL是Hadoop架构的有力补充,也是目前企业级大数据应用中落地和见效最快的部分。如近线数据管理和查询、非结构化数据和影像数据管理、用户画像、数据湖平台等场景,都非常适合用巨杉数据库这样的新一代分布式数据库。

其次,大家都在谈NoSQL和NewSQL。从传统来看,NoSQL本身针对的是从互联网起家的一些玩家,这些玩家可能对于SQL和其他的企业级的功能并不是很重视。但是,未来随着新一代分布式数据库在各个行业的不断应用和普及,NoSQL和NewSQL这两者肯定是逐渐统一的过程,NoSQL数据库会不断注重企业级功能如SQL支持的提升。

最后,大数据环境下对于性能和稳定性要求更为苛刻,在企业级的大数据应用中,用户不仅会对产品本身的技术要求更高,同时也需要原厂厂商能够做到100%了解自己的产品,这样才能应对不断变化的大数据需求。

SequoiaDB巨杉数据库在这些新的需求中将作为Hadoop架构的有力补充,服务于海量数据的实时交互,也就是Lambda架构中的 Speed Layer的实时交互部分。

关于生态及未来

关于技术生态的建设方面,巨杉数据库目前与几乎所有的主流大数据技术架构都实现了对接,也成为Spark认证的全球10余家发行商之一。在技术生态上,巨杉在2016年入选硅谷”大数据生态地形图”也说明了整个业界对于巨杉的认可。

此外,对于开发者技术生态,自2014年SequoiaDB作为商业化产品产品开源之后,巨杉开始建立自己的产品开源社区,主要是为了能够聚拢用户,发挥”发烧友”们的热情,与此同时也可以帮助我们的产品快速成长,至今为止巨杉的社区用户量已经破万。

巨杉的所有同事都会积极参与社区互动中,与广大开发者交流,同时我们也会组织线上线下的活动。当然也会和CSDN这样的技术社区多多合作,争取为我们的用户以及广大开发者带来更多数据库相关的知识。

展望巨杉未来,王涛认为从数据库的使用场景上来看,我们会进一步提高SQL引擎的能力和性能,对于非结构化数据应用的领域也是关注的重点之一。此外,在技术生态上巨杉也会加强合作,构建好真正属于中国自己的大数据生态。

你可能感兴趣的:(专访巨杉数据库王涛:企业级分布式数据库如何快速落地大数据)