大数据存储技术选型

什么是大数据?

大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
通常我们将PB级别以上的通常为大数据

如何计算数据?

比如银行交易只要记下帐号、日期、金额;电信的通话记录也只是通话号码、时刻、时长等。就按100字节算,也就是0.1K,那么1T空间就可以放下10G行记录,100亿条!
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
1YB=1024ZB

如何存储如何选型?

一般来说,大数据存储技术有三种:
第一种:近年来最火的一个词Hadoop。其实简单的理解:Hadoop是一个生态,里面包含了各种产品,比如:有做数据存储的HBase,有做消息队列的Kafka等等。就像我们的微信小程序一样,也是一个生态,里面包含各种各种的小程序。通过官网文档以及其他伙伴实际得知,Hadoop在半结构化、非机构化大数据方面的优势非常明显。(本人未实践过)
第二种:采用MPP架构的新型数据库集群,以Greenplum数据库为例。是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。我们一般采用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求
第三种:大数据存储技术选型第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。
(本人未实践过)

你可能感兴趣的:(大数据专题)