大数据之路、阿里巴巴大数据实践读书笔记 --- 第十四章、存储和成本管理

  • 在大数据时代,移动互联、社交网络、数据分析、云服务等应用迅速普及,对数据中心提出了革命性的需求,存储管理已经成为了IT核心之一。对于数据爆炸式的增长,存储管理也要面临一系列挑战。如何有效地降低存储资源的消耗,节省存储成本,将是存储管理孜孜追求的目标;

 

一、数据压缩

  • 在分布式文件系统中,为了提高数据的可用性与性能,通常会讲数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。目前MacCompute中提供了archive压缩方法,它采用了具由更高压缩比的压缩算法,可以将数据保存为RAID file的形式,数据不再简单地保存为3分,而是使用盘古RAID file的默认值(6,3)格式文件,即6分数据 + 3份校验块的方式,这样能够有效地存储比约为1:3提高到1:1.5,大约能够节省下一半的物理空间。当然,使用archive压缩方式也有一定的风险,如果某个块出现了损坏或者某台机器当即损坏。因此,目前一定将archive压缩方法应用在冷备数据与日志数据的压缩存储上。例如,一些非常大的淘系日志数据,底层数据超过一定时间期限后使用频率非常低,但是有属于不可恢复的充要数据,对于这部分就可以考虑对历史数据的分区进行archive压缩,使用RAID file来存储,以此节省存储空间。

 

Alter table A partition(ds=‘20130101’) archive;

 

大数据之路、阿里巴巴大数据实践读书笔记 --- 第十四章、存储和成本管理_第1张图片

 

在输出信息中可以看到archive前后的逻辑存储(File size)和

你可能感兴趣的:(大数据挖掘与大数据应用案例,数据仓库)