YupDB 数据库系统

Hadoop生态圈是专门为大数据处理而诞生的,每个工具都有自己的特性,各有各的用处,相互间又有重合。HDFS解决了大数据的分布式存储问题,MapReduce使批处理方式访问大数据成为可能,Hive引入了SQL接口将大数据直接开放给广大的数据分析人员,Spark的内存计算技术大大地提高了运算速度,而YupDB的出现将大数据的多维查询分析真正的推进到实时响应领域。

YupDB数据库是一款业界领先的面向下一代的多维度、高融合、企业级实时检索数据库,具有万亿秒级、实时索引、多维分析、全文检索、异构存储和行列级权限管理等特点。

为了实现万亿数据规模下的秒级响应,YupDB即没有采用堆积内存和SSD硬盘的方式,也没有采用预计算方法,而是采用了索引技术。YupDB 将索引创建在 HDFS中,通过索引技术将大数据分门别类整理好,就像是一个新华字典的目录,通过目录可以快速定位相关数据,避免了暴力扫描,从而提升查询速度。

每日千亿数据增量的情况下,如何保证数据的时效性,是每个实时系统必须面对的难题。YupDB采用的实时索引技术,数据边入库边建索引,在日增千亿的情况下,保证新增数据的分钟内可查。

大数据系统的表格变得越来越宽,YupDB通过动态列技术轻松地支持10万列数据表的存储,同时在查询时支持任意维度(列)的任意组合查询,每个维度支持上千个查询条件。多维分析技术使大数据的探索性、验证型分析成为可能。

YupDB引入的全文检索功能,作为数据库级的产品,采用了精确分词技术保证了全文检索的响应时间和准确性。

SSD硬盘由于其极短的响应时间,可以有效的提高大数据的查询速度,但其价格昂贵,大批量使用成本过高。YupDB采用异构技术,只将时效性要求高、访问频繁的索引数据部署到SSD硬盘,可以大幅降低SSD硬盘的应用数量,有效的节约了用户的硬件成本。

对于一个有上万列和千亿条记录的大表,出于安全性和管理方便,当然不希望每个用户都能操作所有数据,YupDB引入了行列级的权限管理,可以限制每个用户访问列和记录的数量和操作数据的方式。

上面简单的介绍的YupDB的特点和优势,那具体哪些用户需要YupDB呢?

  • 传统关系型数据,已经无法容纳更多的数据,查询效率严重受到影响的用户。
  • 目前在使用全文检索,但觉得分析功能太少,无法完成复杂的业务逻辑,或者数据量变多后系统变得不稳定。
  • 基于对海量数据的分析,但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。
  • 需要对用户画像行为类数据做多维定向分析的用户。
  • 需要对大量的 UGC(User Generate Content)数据进行检索的用户。
  • 当你需要在大数据集上面进行快速的,交互式的查询时。
  • 当你需要进行数据分析,而不只是简单的键值对存储时。
  • 当你想要分析实时产生的数据时。

总之,YupDB是一款基于Hadoop开源生态圈,自主开发、自主可控的生产级搜索数据库,可以为用户提供深度的定制化开发,并且拥有完善的技术支持体系,为用户提供及时的在线支持和现场服务。

你可能感兴趣的:(YupDB 数据库系统)