Design Tradeoffs for Data Deduplication Performance in Backup Workloads

http://blog.csdn.net/lt2fish/article/details/48933829

[3]Design Tradeoffs for Data Deduplication Performance in Backup Workloads 
备份负载下的数据去重性能权衡 

Min Fu, Dan Feng, Yu Hua, Xubin He, Zuoning Chen, Wen Xia, Yucheng Zhang, Yujuan Tan. Design Tradeoffs for Data Deduplication Performance in Backup Workloads. In Proc. USENIX FAST, 2015.

Abstract:了解基本的设计决策,例如预取,取样的权衡,分解数据去重成N维参数空间.空间中每个点由多个参数组成,作为备份和恢复性能,内存占用,存储开销的权衡.然后提出一个通用框架评估不同去重策略.没有单个可以完美解决所有问题的策略,我们要做的就是在这些策略中间进行权衡,以获取最优性能.

1.Introduction: 

Design Tradeoffs for Data Deduplication Performance in Backup Workloads_第1张图片

数据块处理流程:

  • SHA-1计算指纹
  • 在DRAM缓存中查找指纹
  • 如果找到,跳7,去重
  • 没有找到,就在HDD,指纹序列存储区查找
  • 如果上步找到,则预取到缓存
  • 否则,写磁盘,回到1
  • 完成去重

2.数据去重空间: 

Design Tradeoffs for Data Deduplication Performance in Backup Workloads_第2张图片

(1)指纹序列 Fingerprint Index 
指纹是瓶颈,最简单的形式是键值存储区(Key-value Store),Key是指纹,Value是数据块(Trunks).指纹无法全部取到内存,根据备份数据流的布局性(Locality),采用指纹缓存(Fingerprint Cache),由此,指纹序列由两部分构成:键值区,指纹预取模型. 
精确去重与近似去重. 
物理局部性(Physical Locality):去重之后数据块序列,container 
逻辑局部性(Logical Locality):去重之前数据块序列,recipe

你可能感兴趣的:(Design Tradeoffs for Data Deduplication Performance in Backup Workloads)