MPPDB和Hadoop有什么区别

写在前面

本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和文献引用请见100个问题搞定大数据理论体系

解答

一、从数据类型考虑
Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求。

MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率。

二、从应用场景考虑
MPP适合多维度数据自助分析、数据集市等;

Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。

补充

MPP DB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。

两种技术以及传统数据库技术的对比

特征 Hadoop MPP DB 传统数据库
平台开放性
运维负责度
扩展能力
拥有成本
系统和数据管理成本
应用开发维护成本
SQL支持 中(低)
数据规模 PB级别 部分PB TB级别
计算性能 对非关系型操作效率高 对关系型操作效率高 对关系型操作效率中
数据结构 机构化、半结构化和非机构化数据 结构化数据 结构化数据

未来大数据存储与处理趋势

MPP DB+Hadoop混搭使用

用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事物支持能力;

用Hadoop实现半结构化、非结构化数据处理。这样可以同时满足结构化、半结构化和非结构化数据的高效处理需求。

你可能感兴趣的:(大数据理论体系,大数据,MPP,hadoop)