重复数据删除

英文名儿:Data Deduplication


小简介

1.干嘛用的?

节约数据存储空间。在较大范围内,查找大块的重复数据。

这是一种 节约数据存储空间 的技术。在计算机中存储了很多重复数据,这些数据占用了大量硬盘空间,利用重复数据删除技术,可以只存储一份数据。另外一项节约存储空间的技术是数据压缩,数据压缩技术在比较小的范围内以比较小的粒度查找重复数据,粒度一般为几个比特到几个字节。而重复数据删除是 在比较大的范围内查找大块的重复数据,一般重复数据块尺寸在 1KB以上

2.用到哪儿?
重复数据删除技术被广泛应用于网络硬盘、电子邮件、磁盘备份介质设备等。

3.有什么好处?
不同情境下,能节约硬盘空间、节约网络带宽、提升写入性能。

4.有哪几种类别?

  • 按数据处理时间分:
    在线重删:
    指的是在数据存储到存储设备上的同时进行重复数据删除流程,在数据存储到硬盘之前,重复数据已经被去除掉了。
    后重删:
    指的是在写到存储设备的同时不进行重删处理,先把原始数据写到硬盘上,随后启动后台进程对这些原始数据进行重删处理。与在线重删相比较,后重删需要更高的硬盘性能,需要更多的硬盘数量。

  • 按数据处理粒度分:
    文件级重删
    块级别重删

  • 按数据块分块方法分:
    变长分块重删
    定长分块重删

  • 按数据处理位置分:
    源端重删
    目的端重删


怎么做

1.基于散列

2.基于内容识别

3.Diligent Technologies用于其ProtecTier VTL的技术

4.其他

你可能感兴趣的:(重复数据删除)