Anyanyamy

【论文笔记】The Dilemma between Deduplication and Locality: Can Both be Achieved?

代码：https://github.com/Borelset/MFDedup/

演讲：https://www.youtube.com/watch?v=3oozoXYE9SQ

论文总结

论文详读

0. Abstract

1. Introduction

2. Background

2.1 Background of Data Deduplication

2.2 Deduplication Techniques

3. Observation and Motivation

3.1 Analysis for Fragmentation and Read Amplification after Deduplication

3.2 An Optimal Data Layout

3.3 Derivation Relationship of Backups

4. Design and Implementation

4.1 MFDedup Overview

4.2 Neighbor-Duplicate-Focus Indexing

4.3 Across-Version-Aware Reorganization

4.4 Restore and Garbage Collection

4.5 Discussion and Limitations

5. Performance Evaluation

5.1 experimental setup

5.2 Actual Deduplication Ratio

5.3 Backup Throughput

5.4 Restore Throughput

5.5 Arranging vs. Traditional GC

5.6 Size Distribution of Volumes/Categories

6. Conclusion and Future Work

论文总结

场景：基于HDD的全量备份存储

问题：目前全量备份的去重存在数据局部性问题（碎片），导致：

① Restore效率低：恢复backup时其中块引用之前存的块，需要随机来回访问磁盘，导致读放大和seek latency

② GC性能低：container中有引用和未引用的块，移动引用的块需要大量块读写

现状：全局OPT布局不可行。

1. restore优化方法：写去重（Capping和HAR），Caching无法完全解决碎片问题。

① Capping: 记录container中被引用块的数量，低被引的container重写

② HAR：根据备份流相似性，结合历史信息识别sparse container，重写指向sparse container的块（本方法重写最少）

2. GC方法：

① Mark-Sweep：未被引用的块清除，被引用的复制移动到新container，粒度太细，I/O紧张

② CMA：删除未被引用的container，粒度太粗，空间浪费

观察：

备份大量重复来自前一个版本：① 提出categories-变长container，其中所有块都有用，避免读放大；② Categories数量分析，原本很大 ③ 忽略unique块，降低categories数量

贡献：

设计OPT布局，比传统方法相比：管理友好、解决碎片问题（提升restore和GC性能）、离线算法代价可接受。

核心技术：

① NDF：检测新版本与前一版本的重复，减少索引内存占用

② AVAR：depulicating阶段：检测新版本中unique块（装入active categories）；arranging阶段：对active categories，用NDF进行比对，一部分archive，一部分继续activate，更新OPT。restore简单，读顺序的volumes；GC简单，只需删最早的categories

效果：ADR和restore throughput高，fully utilize设备，NDF代价可接受，GC 0代价

论文详读

0. Abstract

数据去重被广泛用于减少备份工作负载backup workloads的大小，但是具有低数据局部性data locality的缺点，这个问题也被称为碎片问题fragmentation problem，从而导致较低的恢复restore和垃圾回收garbage collection性能。目前的研究包括写去重writing duplicates来维持局部性，以及在内存或SSD中缓存数据，但是碎片还是会降低restore与GC的性能。（背景问题介绍）

为了解决局部性问题，发现备份中大部分的重复块duplicate chunks来自之前的备份。因此提出了易于管理的去重框架MFDedup，利用数据分类方法来生成最优数据分布OPT data layout，从而维持备份工作负载的局部性。核心两个技术：NDF Neighbor-Duplicate-Focus indexing 和 AVAR Across-Version-Aware Reorganization，来进行先前备份的重复检测，利用离线迭代算法重新整理chunks，使其成为紧凑线性compact, sequential的布局，几乎能去除恢复时的随机I/O。（本文观察与方法）

实验使用4个备份数据集，本方法的去重率deduplication ratios和恢复吞吐效率restore throughputs都很优秀，Arranging重组织阶段引入了额外消耗，但是more than offset by a nearly-zero overhead GC过程。NDF只需要索引两个备份版本，而传统的索引随着保存的版本增加而增加。（实验效果及优点）

1. Introduction

数据去重是目前备份系统重要的技术，去重率deduplication ratio (the logical size divided by the post deduplication size)通常在10~30。基本的去重方法是把重复块替换成指向已存储的同样块identical chunks的引用reference。本文研究基于硬盘的hard-drive based针对备份存储的去重。（基础概念+研究场景）

碎片是硬盘系统中的去重的显著问题：备份中的逻辑上连续的块可能指向之前所写的分布在磁盘中的块，导致低局部性poor locality（空间局部性）。碎片问题导致：1. 低恢复restore性能：需要随机磁盘读取，可能引用很多之前的块，随机来回访问磁盘 2. GC效率低：之前备份版本删除时，被引用的块可能与未被引用的块存在一起，被引用的块需要移动后保存。（2个问题简述：restore+GC）

碎片问题（低局部性）是由于备份版本之间共享块。去重系统一般把要去重的块分组成大的单元unit称为container（通常4MB），用于压缩和最大化磁盘数组的写性能，并且使用块引用表chunk-reference list，例如recipe来记录每个备份版本中的被引用块。例如，版本1基本没有重复，其块在container中连续存储；版本2可能只修改小部分，其recipe中有许多指向版本1的引用，与指向新块的引用混合在一起。版本N可能引用许多之前备份中的块，因此恢复备份时需要随机来回访问磁盘random seeks back and forth across the disks，由于accessed container中可能有不需要的块，导致read amplification很高。（问题1详述，导致random seeks+read amplification）

为了解决碎片问题，提高恢复性能，提出了许多基于碎片程度fragmentation degree来write duplicates又称为重写的方法，来保证数据局部性。而且有方法使用内存和SSD缓存碎片块和经常引用的块，提升恢复速度，但是增加了硬件成本。随着备份版本的不断增长，碎片不可避免的存在。对4个备份数据集实验发现，即使用Capping和HAR的重写技术，去重率ADR降低了，但是sequential read speed of storage devices恢复速度也下降了。（rewrite和chache方法介绍，缺点简介）

在传统基于container的数据组织下，GC的性能也会被数据局部性影响。旧备份删除后，一些块无引用后可以从container中删除。GC包括2个阶段：1. 选择包括unreferenced块的container 2. 移动container中referenced块到新container中。第1阶段目前已有工作能快速找出containers，当局部性很差时，container中有引用和未被引用的块，由于大量块读写，第2阶段会很耗时。（问题2详述，container中有引用与未引用块）

目前用来提升restore和GC性能的方法需要平衡去重deduplication与备份工作负荷的局部性locality of backup workloads。在非去重的存储中解决碎片问题，通常把数据重组织以提升其布局layout。然而由于不同备份版本中会共享块，导致块引用关系复杂，针对所有备份版本设计最优布局同时保证去重效率不太可行。另外，由于一些块可能被很多版本引用，重组织块代价高，组织这些块涉及到很多版本。（全局OPT布局不可行）

通过对去重备份的观察，发现几乎所有重复块都是来自前一个版本，使得设计几乎没有碎片的去重块deduplicated的最优数据布局是可行的。通过以下3点来描述：1. 最优数据布局把块根据引用关系划分成不同类别categories。例如，一些块（集合M）只被备份版本Bi和Bj引用，被分成同一类，category类似于可变容量的container，分类保证如果一个块在备份恢复时被需要，那同category中的其他块也被需要，加载整个category不会造成read amplification。2. 通过观察和理论分析，categories个数可能增加飞快，对n个备份版本可能高达2^n个categories。 3. 通过观察，很少一些块引用关系可以忽略，因此只考虑被1个版本或连续版本引用的块。这样块引用关系得到简化，categories个数下降到n(n+1)/2，使得最优OPT数据布局可行。（观察想法：categories定义+数量分析+忽略少量块）

基于分类的OPT数据布局与传统的去重框架不同。传统去重主要集中在写路径the write path of deduplication，很少对块的位置location和放置placement进行管理，称为写友好的write-friendly。本文方法重新设计去重块的数据布局，解决碎片问题从而使得恢复和GC更快，称为管理友好的management-friendly。在实现OPT数据布局中使用离线迭代组织方法对每个incoming备份版本处理，代价相比与传统方法可接受。（对比传统去重框架：管理块布局，解决碎片问题，离线方法代价可接受）

总的来说，本文提出全新的管理友好的去重架构MFDedup，引入Neighbor-Duplicate-Focus indexing (NDF) and Across-Version-Aware Reorganization scheme (AVAR)技术。能够生成和维持OPT数据布局，解决碎片问题。具体贡献包括：

1. NDF只检测Bi+1与Bi版本中的重复，利用观察结论，使得有机会构建OPT数据布局。NDF在实现near-exact去重率的同时大大减少索引内存占用the memory footprint for the fingerprint index。（NDF优点）

2. 利用NDF对新备份版本Bi+1中去重后，AVAR依据简化的块和版本间的引用关系对版本Bi+1中unique块进行识别和分组，把这些特殊的块组织进OPT数据布局中。通过迭代更新OPT布局，GC直接删掉最旧的categories即可，因为最旧的版本被删除了，GC操作变得简单。（AVAR优点）

3. 实验结果表明，本方法拥有更高的去重率ADR和恢复吞吐效率restore throughput，恢复吞吐完全使用fully utilize存储设备。NDF索引相比于传统的全局索引只需要固定有限的成本fixed and limited overhead，GC基本是0代价的。（实验结论+优点总结）

2. Background

2.1 Background of Data Deduplication

数据去重是常用的存储系统数据缩减方法，通常数据去重系统会把输入数据流（备份数据、DB快照、VM映像等）划分成许多数据chunks（例如8KB），利用安全哈希签名（SHA-1）来进行唯一标识，也叫指纹fingerprint。然后去重系统根据指纹去除重复数据块，只保存一个物理copy来实现节约存储空间的目的。（基本去重方法）

备份存储和局部性：backup storage：由于本身重复特性通常会使用数据去重技术。在备份存储系统中，工作负荷workload一般指一系列的备份版本（例如primary data的连续快照），这些备份的大小可以缩减至1/10~1/30，从而减少硬件成本。Locality局部性：备份流中的块很可能在每个full完全备份中以相同的顺序order出现，经常被用于提升去重性能，利用HDD高度连续的I/O速度the high sequential I/O speed of HDDs，用于提升指纹检索fingerprint indexing、恢复restore的效率。（备份会去重，局部性可提升效率）

基于container的I/O：许多去重方法会与压缩方法结合使用，所有块被存到container中作为压缩的基本单元。因此，存储I/O通常基于container，这些container一般不可变且具有固定大小（例如4MB）。container优点：1. Writing in large unit写大单元可实现最大化的HDD顺序吞吐，compatible with striping across multiple drives in a RAID configuration？。硬盘比SSD和其他设备便宜，能节约备份存储的成本。2. Container中的数据局部性可以用于提升重复识别和恢复备份的效率。（container优点）

碎片问题：去重系统中的碎片与container-based I/O and the seek latency of HDDs有关。不同的备份会共享块，这些块随机分布在不同的container中，每个备份的空间局部性在去重后会被破坏。由于基于container的I/O，当恢复备份时，即使有少部分块被需要，整个container都要从硬盘中读取，称为read amplification= 。即使系统支持container内部压缩 compression regions，完整的fully压缩区域也需要被读取并解压，以获得需要的chunk。由于每个备份需要的container是在HDD上随机分布的，在HDD上寻找这些container也很耗时。随着备份的增多，read amplification和seek问题也更严重。（碎片导致读放大和seek时延）

2.2 Deduplication Techniques

分块方法chunking：Content-Defined Chunking (CDC)是常用的把备份流基于内容划分成可变长度块的方法，能解决定长分块fixed-size chunking中的boundary-shift问题。

指纹索引Fingerprint Index：检查指纹索引以检测重复是去重中重要的一步，指纹索引是备份系统的一部分，保存在内存中很昂贵，但是保存在HDD上会导致去重系统索引的瓶颈。目前方法大部分利用spatial or temporal locality局部性原理，使用指纹索引从磁盘加载指纹most leverage spatial or temporal locality by using the fingerprint index to load many fingerprints from disk that were written at the same time or consecutively in a file.

恢复优化方法Restore Optimization Techniques：在去重后恢复备份时碎片会导致read amplification和seek问题。目前的恢复优化方法主要有两种技术：1. Rewriting重写：通过selectively rewrite duplicates来平衡去重率与提升局部性，重写会降低去重率，在重写后read amplification仍会有2~4倍。2. Caching 缓存：使用SSD或者内存来缓存经常被引用或者将来可能要用的块，缓存命中率cache hit ratio依赖于局部性，读放大问题仍未解决。

在重写技术中，Capping：在对之前写过的container去重时，会记录当前备份对container中的块引用数量。对于low reuse的container，重写块以提升当前备份的局部性。 HAR：利用备份流的相似性，根据历史信息识别sparse container，重写引用这些container的块。本方法写最少的重复块，并且创建没有碎片和读放大问题的数据布局writes minimal duplicate chunks and creates a data layout without any fragmentation or read amplification。（本方法比Capping和HAR重写更少）

GC：用户通常使用备份软件配置保留策略retention policy，一般保存数周或者数月后删除更旧的备份。GC从系统中移除未被引用的块，目前有两种GC方法：

1. 传统的Mark-Sweep：遍历备份，标记引用的块walks the backups and marks the chunks referenced from those backups，未被引用的块被清除。这需要从部分未引用的container中拷贝活动块，并创建新container，copying live chunks from a partially-unreferenced container and forming new containers这个操作是I/O紧张的。（粒度太细，I/O紧张）

2. Container-Marker Algorithm (CMA)：维护container manifest用来记录每个container被引用的备份，删除无引用的container，是粗粒度coarse-grained的GC方法，如果container中有任何块被引用，就会保留container，会造成空间浪费。本文用细粒度fine-grained GC，但比之前的方法代价更小。（粒度太粗，空间浪费）

3. Observation and Motivation

3.1 Analysis for Fragmentation and Read Amplification after Deduplication

碎片会导致使用基于container的I/O的去重系统出现读放大问题，本节分析读放大产生的详细原因。（读放大产生原因:读了不需要的块-restore性能低之一）

3个备份版本进行去重后的传统数据布局与基于分类的OPT数据布局

传统的去重后，所有保留的块按照备份中的出现顺序存储在container中，图1中块6被所有备份版本引用，因此不论恢复哪个版本，都需要从HDD中读取container2。

对于版本2和3，只需要container2中的块6，但是包含了未引用的块4和5，这是空间局部性低的例子。因此加载container2时导致了读放大，在恢复备份时读取了不需要的2个块。对于版本1，container2中的3个块都需要，具有强局部性，没有碎片和读放大问题。在传统数据布局下，块6对于版本2和3是碎片，对版本1不是碎片，碎片与备份版本和块引用关系有关。

3.2 An Optimal Data Layout

本节讨论根据块引用关系的基于分类的OPT数据布局。

分类例子：container2中的3个块可以分为两类：第1类包括块4和5，只被版本1引用；第2类包括块6，被3个版本都引用。如果把这两类分开存储到不同的container中，碎片问题可以解决，在恢复版本时没有读放大问题。

基于分类的数据布局：所有块可以按照引用关系分为5类，把每一类存到变长container中，container1中包括被3个版本引用的块，container2中包括只被版本1引用的块。。这种布局对每个备份版本都能保持强空间局部性，读放大为1，因此称为最小化读放大数量的OPT数据布局。恢复备份时不会读取任何不必要的块，最坏情况下n个版本会有2^n-1类

OPT数据布局的挑战：实际的备份工作负载非常复杂，这种方法解决读放大，但是需要对很多只包括1个块的container进行搜索seek，也造成了低数据局部性。（本方法无读放大，但可能seek太多）

3.3 Derivation Relationship of Backups

对4个大备份数据集进行分析，能帮助减少categories的个数。

在备份存储系统中，工作负载workload通常包括一系列备份映像，都是从主要存储系统primary storage system中的原始数据original data所产生。因此，每个备份的重复块不是随机分布的，而是由上一个版本继承得到的。这个观察与许多系统利用的重复内容具有典型的连续特征这一原则相符合。

在备份版本Bi中标注4种块：1. 内部internal重复块：引用的块也在Bi中； 2. 相邻adjacent重复块，引用的块不在Bi，在Bi-1中； 3. 跳跃skip重复块：引用的块不在Bi-1和Bi中； 4. 唯一unique块：不重复的块

Key observation：图2中展示了4个备份数据集在去重过程中的4中块的个数分布。发现重复最多的是第2类和第1类，占据了超过99.5%，第3类跳跃块很少，因此不对跳跃块去重以保证局部性，因为这些块对去重率影响很小。

把第3类当作第4类来处理，很大的简化了块引用关系：OPT布局中每个块要么被1个版本引用，要么被连续的版本（Bi…Bi+k）引用。基于这个条件，可以大大减少categories的数量，3个备份版本，k=0时，有3个categories，k!=0时，选择开头和结尾，有3个category，一共6个，比原来的7个少。n个备份版本，k=0即开头与结尾相同，共n个；k!=0，在n个中不重复挑两个作为开头和结尾，n(n-1)/2个，总共categories的个数最多为n(n+1)/2。

30个备份版本，最多有465个container，2150个块，每个container的大小平均为17.6MB，使得OPT数据布局可行，且container的大小足以维持空间局部性。（简化块定义：internal,adjcent以及unique(包括skip)，减少categories数量）

4. Design and Implementation

4.1 MFDedup Overview

在去重备份系统中实现OPT数据布局是可行的，主要基于以下2个设计原则：① 所有块根据引用关系被分类到categories中 -> 避免读放大 ② Skip跳跃块被当作unique块，以简化引用关系

MFDedup：保持局部性，减少碎片，利用离线算法重组织块，使用以下两个技巧：

1. Neighbor-Duplicate-Focus indexing (NDF)：只去除相邻备份版本间的重复，只需要建立和访问包括相邻版本指纹的索引，比传统的全局指纹索引资源要求更少

2. Across-Version-Aware Reorganization (AVAR): 检测到每个新版本中的重复块后，MFDedup在线下组织上一个版本的去重块。这些块被不断的分类从而更新OPT数据布局。

图3展示了完整流程，包括3个阶段：① Chunking & Fingerprinting：利用CDC对备份数据流进行分块，利用SHA1对每个块计算指纹；② Indexing & Storing：利用基于NDF的指纹索引，检测来自上一版本的重复和唯一块，存储唯一块，以及对每个备份的Recipe，记录备份中的块指纹顺序chunk-fingerprint sequence，用于去重后的备份版本恢复；③ Arranging：离线操作，迭代更新OPT数据布局，以支持基于NDF的指纹索引。

MFDedup利用NDF进行在线去重，只去重相邻备份版本间的重复，利用AVAR进行离线组织，使得OPT数据布局能保持备份的局部性且去除碎片。

4.2 Neighbor-Duplicate-Focus Indexing

NDF索引是基于大部分重复块来自前一版本的观察结论，在版本Bi中只识别与Bi中其他块相同的块，或者与Bi-1中块相同的块。

对每个备份版本维护一个独立的指纹索引表，除了在Indexing & Storing中使用NDF来进行重复检测，在Arranging阶段也使用NDF进行分类。对最新的2个备份版本使用指纹索引表后，即可释放表，因此只需要维护2个指纹索引表，相比于传统的存储所有版本的索引要小的多，因此可以存在内存里或者利用基于局部性locality-based的方法进行加载。假设1个指纹索引条目entry需要20 bytes（SHA1的摘要长度），备份版本大小为10GB，块大小为8KB，基于NDF的指纹索引所需空间为2×10GB/8KB×20B = 50MB。

NDF的索引成本indexing overhead与最新的2个备份版本的数据大小有关，相比于传统的全局指纹索引要小。NDF还可以在支持OPT布局的同时实现achieve a near-exact deduplication ratio。（NDF中包括2个表，更小，且去重率差不多）

4.3 Across-Version-Aware Reorganization

AVAR用于去除碎片和利用NDF生成OPT布局。包括：① Deduplicating (i.e., Indexing & Storing)：识别版本Bi中的unique块； ② Arranging：利用Bi的unique块，重新组织B1..Bi-1的布局，从而对版本B1..Bi的OPT布局进行更新。当第1个版本保存时，自然有一个OPT布局，这时候不需要Arranging。图4给出3个备份下的AVAR工作流程。

Deduplicating Stage：利用基于NDF的指纹检测重复块，保存unique块到Recipe中。先忽略Recipe，主要关注OPT布局中如何组织数据块。图4中的①②④中，去重阶段把Bi中的unique块存入新的active category中，目前只被Bi引用，这些块未来可能被新版本引用，那时候会被Arranging阶段处理。（去重：把unique块存入active categories）

每个category的名称反映了哪些备份版本引用本category。例如被版本2，3，4引用的category命名为Cat.(2,4)

Arranging Stage：根据MFDedup的第1个原则：所有块根据引用关系被分类到categories中。分类方法是基于块和版本的引用关系，当新版本产生并被Deduplicating阶段处理后，旧的OPT布局就会失效，因为块和版本的引用关系发生了变化。因此本阶段遵循第2个原则Skip跳跃块被当作unique块，以简化引用关系，基于经过Deplicating阶段处理的新版本的unique块，来更新OPT布局。

图5中展示了OPT布局的变化过程，在版本集B1..Bn-1中，Cat.(1,n-4)没有被最新版本Bn-1引用，也不会被Bn及以后的版本引用。因此这类categories作为OPT布局的一部分carried forward一直保存，被标记为archived。另外，被最新版本Bn-1引用的Cat.(1,n-1)在备份Bn时会被分成2个categories，这类categories称为active。

在更新OPT布局时，Archived表示categories不可变，active表示categories后续会被Arranging。因此在Arranging阶段，主要关注active类的categories。例如图4中的⑤，在备份版本3后，现存的active Cat.(1,2)和Cat.(2,2)是唯一2个目前active的，因此使用版本3的指纹索引检查其中的每个块，在版本3中重复的块就移动到new active Cat.(1,3)和Cat.(2,3)，其他块保存到archived Cat.(1,2)和Cat.(2,2)。当完成移动与archive后，旧的active Cat.(1,2)和Cat.(2,2)被删掉。（分组：用最新指纹对当前active categories分类）

Grouping分组：对现有active的categories进行Arranging后，新的Archived categories根据名称顺序(e.g. in the order of Cat.(1,3), Cat.(2,3), Cat.(3,3))被分组到Volume中，能更好的管理存储。

4.4 Restore and Garbage Collection

Restore: 进行备份恢复时，只用读取OPT布局中需要的categories。所需块的检索可以通过OPT布局计算出来，因此是 totally metadata-free。

存储了n个备份版本，想恢复Bk，所有被Bk引用的块都需要，其计算公式如下：

图6中有4个存储的版本，恢复版本3需要蓝色的categories，根据Volume的存放规则，是顺序存放的，因此加载这些categories最多需要n次顺序读操作。

在恢复备份时需要Recipe来构建’restore’哈希表，其结构如图6所示。哈希表中的条目包括<指纹，偏移>，记录了块指纹和在要恢复系统中的偏移量。

图6也展现了restore的过程，在获得需要的categories后，根据版本3的Recipe每个块依次恢复。MFDedup只需要找到需要的Volumes，然后顺序读取所需categories，这样实现了更高的restore性能，只需很少的seeks和大量sequential I/O。（restore快速顺序读）

Deletion and Garbage Collection：删除和GC很简单，空间可以立刻重用。在去重系统中，删除备份版本意味着重新使用其unique块（未被其他备份引用的块）。FIFO-based的删除只需要删除和重用最老的Volumes，因为他们包括了最早备份版本的unique块。例如图6中，直接删掉Volume1就能重用版本1的空间。

MFDedup也支持删除非最早版本的备份。从Depulicating阶段中的描述可知每个备份版本的unique块都存储在每个volume最后一个category中，如图6所示。因此，可以通过修改volume的长度，删掉最新的category，从而删除任意版本的备份。例如要删掉图6的版本2，可以直接从Volume2中删掉archived Category 3。已有工作提到CMA方法只支持FIFO删除，本方法可以支持任意删除。

MFDedup中不使用传统的GC方法，例如mark-sweep或者reference-count management，由于块引用关系已经在OPT布局中设计好，可以大大减少系统资源（CPU cycles, RAM, I/O）的消耗，以及编码复杂度。（删除简单0代价）

4.5 Discussion and Limitations

本节讨论overheads、limitations、optimizations。

Self-Organization of OPT data layout ：OPT数据布局是自组织且简单的，元数据metadata的成本大大降低。传统的去重系统中每个unique块的真实物理位置和引用计数被用于restore和GC，这里不再需要。在OPT布局中每个版本的所需categories都可以计算。

Backups Size：备份大小一般是可变的，许多VM备份超过100GB，最近的虚拟机的索引是400MB。有学者指出大部分Data Domain and Symantec production系统的备份为50~500GB，MFDedup的内存成本合理，可以直接用于这些场景。

Fingerprint Prefetching for Larger Backups：目前MFDedup设计的索引在RAM中，之前针对大量指纹索引设计的prefetching and caching sequences of fingerprints技术也可以使用。认为顺序局部性sequential locality仍然存在的原因：1. 尽管经过Arranging，categories之间的顺序局部性被破坏，categories内部的顺序局部性仍然存在；2. Recipe保存了每个备份的顺序局部性。

Restoring for Larger Backups：当恢复单个大备份时，由于块是由categories组织的，也可以对每个category设计’restore’哈希表，单独加载到内存中。另外，单个备份可以被分为多个小单元sub-units < 100GB，以减轻备份和恢复的内存压力。当备份大小很大（超过10TB）时，如果只有1个categories，哈希表也会很大over 10T B/8KB × (20B + 8B) = 35GB，其中指纹20B，偏移8B，很难保存到内存中，因此MFDedup不能处理这种情况。

Incremental Backups vs. Full Backups：MFDedup是为全量备份设计的，对于增量备份，可以增加API进行区分备份类型。由于synthetic full backups应用广泛，增长的变化incremental changes与最新的全量备份有关，MFDedup也可以直接应用。

Reserved Space for Arranging：Arranging是离线的，其中块要么迁移要么存档，需要额外的空间。图4中显示Arranging是在active categories上运行的，因此预留空间与active categories最大空间相等，与全量备份相比很小，在5.6中会介绍。

What if Arranging Falls Behind：如果要备份的workload很多，没时间完成Arranging，可以暂时跳过这个阶段，将来空闲时间再完成。如果拖得越久，OPT布局更新越慢，会导致读放大和restore吞吐量的下降。不过有研究表明用户备份时间一般间隔较大，可以留足够时间完成Arranging，另外当Arranging滞后时，去重率越高，读放大程度和restore吞吐量的减少越小。

Time Overhead of Offline Arranging：把GC的一些后台工作放到Arranging中有多个好处：高restore speed，即时空间重利用。Arranging是一个遍历备份中active categories，把重复块迁移、unique块存档的离线过程。在5.5中表明，Arranging的耗时接近或者优于GC，并且提供更高的restore和GC性能。本文中在每次备份后都运行Arranging，以保证OPT布局最优，但是Arranging也可以像GC一样，几次备份后再运行，这种情况下，会增加读放大，不过这种情况下重复块多次迁移的情况可以进行合并，减少迁移次数，不过这点没有进行实验。

Out-of-Order Restore：与传统去重系统不同，MFDedup中的restore是乱序的，恢复块的写顺序不一定与workload中的逻辑顺序一致。但是一个备份中volumes中的块一般是顺序的，有一些由其他volumes来填充的logical gaps，因此会导致随机写random writes。尽管categories内部仍具有顺序局部性，如果存储介质由很好的随机写性能（例如SSD）那么restore效率会更高。此外，在恢复备份到HDD时也可以使用reassembly buffer等技术提高性能。（相关问题讨论）

5. Performance Evaluation

5.1 experimental setup

Evaluation Platform and Configurations：workstation ubuntu 18.04, i7, 3.2GHz CPU, 64GB内存，Intel D3-S4610 SSDs, and 7200rpm HDDs 构建原型和Destor（实验平台）用于比较多个restore和GC的方法，包括HAR、Capping和CMA。MFDedup和Destor在Chunking&Fingerprinting阶段使用相同配置：Chunking使用FastCDC (块最小2KB，平均8KB，最大64KB)，Fingerprinting使用ISA_L_crypto的SHA1算法。

Experimental methods：为了模拟真实的备份/恢复场景，把工作站的存储空间分成两部分：备份空间使用7200转的HDD，用户空间使用SSD。两个空间都有XFS日志文件系统，用HDD做备份，用SSD运行主系统primary system很常见。

测试数据集用于从用户空间存储到备份空间，保存一个个版本，恢复过程则相反。在每次备份/恢复前，都需要清空文件系统缓存 echo 3> /proc/sys/vm/drop_caches

为了模拟用户的删除需求，最多保存20个备份版本，因此当版本n备份时，版本n-20被删除，与HAR和CMA一样。对备份、恢复、GC的吞吐量throughput (time cost)进行评估采用5次运行的平均值。

基于Container的I/O也被考虑，许多去重存储系统会与压缩技术结合，所有块存储在container中，作为压缩的基本单元。压缩与去重目标一样，但方法不同，不评估压缩方法。

Evaluation Dataset：4个数据集代表不同的典型备份workload，包括网页、开源项目、VM镜像和人工数据集synthetic，去重率从2.19~44.65. WEB, SYN, VMS数据集已经被其他数据去重工作使用过。（实验配置：平台+对比方法+数据集+模拟过程）

5.2 Actual Deduplication Ratio

ADR= 重写和GC方法（HAR, Capping, CMA）使用更多存储空间来换取更好的恢复和GC性能。MFDedup忽略skip块来实现OPT布局，也会降低去重率。

图7反映了MFDedup（包括GC），Exact Deduplication和其他方法，包括重写（HAR+Capping）、GC（Perfect GC+CMA）。由于只保留20个最新备份，Perfect GC和CMA代表两个使用Mark-Sweep的典型方法，效用分别是utilization thresholds set at 0% and 100%。Perfect GC重复使用所有可能的空间，CMA运作更快，但是在container中留下了部分未引用的块，代表了GC影响的两种极端。

图7中MFDedup与Extract去重的ADR非常接近，比重写和GC方法更高。因为MFDedup中忽略skip重复块的空间相比于用其他方法的重写块要小很多。

图7中在版本21后GC开始后，重写技术造成了ADR的下降。CMA技术加入后，下降更严重。符合第2章的讨论：重写降低去重率，GC可以lead to more rewritten chunks。OPT布局支持删除和GC，没有碎片问题和空间开销。由于OPT布局，MFDedup比其他方法去重率高1.12~2.19。（ADR对比）

5.3 Backup Throughput

本节评估与重写技术相比的备份吞吐量。由于GC一般离线，这里不考虑GC的影响。HAR和Capping都使用full-in-memory全局指纹索引，MFDedup使用基于NDF的local指纹索引。为了最小化读取数据集的性能影响，把数据集从ram disk中备份来衡量备份的吞吐量。

图8中显示本方法没有牺牲备份吞吐量以达到其他优点。3种方法的性能都相似受限于块和SHA1摘要计算。理论上，MFDedup不用重写重复块，达到更高的ADR，其在备份时的存储I/O也会更小。

Indexing Overhead：在备份时，测量了NDF索引的最大内存代价，从6.27~46.35MB（只索引2个备份版本）。传统的去重方法保留所有20个版本的全局指纹索引，需要26.81~64.45MB空间，传统的全局索引随着保留版本的增多而增长，而NDF只保留2个索引。（备份数据吞吐量不影响，索引存储更少）

5.4 Restore Throughput

以前的工作用Speed Factor来衡量恢复的吞吐量，指的时去重系统中每个固定大小的container读取中有用的数据比例。defined as the ratio of useful data restored per container read。由于MFDedup使用变长container，定义别的标准：1. Restore Throughput, 2. Seek Number：读磁盘上的container/volume所需要的寻道操作seek operations, 3.Read Amplification Factor：第2.2节定义过。

图9，10，11中展示MFDedup, HAR, Capping在3个标准的结果，恢复吞吐量与其他2个标准基本一致。图9表明HAR优于Capping，MFDedup比HAR更好。这是因为MFDedup消除碎片，利用OPT布局维持备份workload的局部性，但是其他2种方法种碎片问题还是存在，而且随着版本变多更加严重。（恢复吞吐量好）

图10展示2个数据集的seek数量，因为空间不够移除了另外2个数据集，趋势是一致的。MFDedup把seek number从上千减少到20，因为把archived categories存储到大的顺序写的volume中，另外2个方法由于所需块分散而需要更多的seek操作。（seek number少）

图11中所有数据集的读放大趋势一致，MFDedup最小，是因为去除了碎片，而另2个方法在恢复时会读无用的块。MFDedup的读放大因子<1是因为备份版本的内部去重（图2），读的块可以在恢复时多次使用。甚至比存储媒体本身的fread效率更高，说明可以完全利用存储介质的性能。（读放大低）

以上结果也是在保留20个版本的情况下评估的，如果保留更多备份版本，HAR和Capping的恢复性能会降低，而MFDedup没有碎片问题，实现了基本一贯较高的恢复吞吐量。

5.5 Arranging vs. Traditional GC

与传统去重方法相比，本方法的GC代价基本为0，但是增加了离线Arranging的过程。接下来与Perfect GC进行比较，对MFDedup中更新OPT布局的代价进行评估。

GC方法主要在如何选取要清除的container和块时不同，一旦选择后，所有GC方法都需要把被引用的块移动到新的不可变的container中。为了简化分析，主要关注GC中公共的阶段，即读取被选定的container和移动有效块到新container中。这是GC代价的下限，因为忽略了挑选阶段，例如遍历块等的耗时。

图12中比较Arranging和Perfect GC，对前20个备份不运行GC，但是会运行Arranging，对20个备份后的性能分析发现，Arranging在3个数据集上的处理时间比GC短，在VM映像上要长9%，这是因为VMS的修改方式是一直修改每个备份中的同一区域，使得GC很容易。通常来说，图12反映出即使把挑选环节考虑进来，Arranging通常要更快一些。当MFDedup进行GC时，处理时间可以忽略不计，因为大的volumes可以直接删除without any copy-forward。

Arranging的耗时是比较稳定的，而GC的运行时间不定，更稳定的代价对存储系统来说更好进行规划。Arranging稳定是因为这是一个对最近版本的本地操作local process，而GC是全局处理global process。图6中显示，每次版本中产生了active categories都会进行arranging，且总能实现更好的局部性。而其他方法中的GC局部性差，是因为被挑选的container和块可能随机分布。

在第5.2节中讨论过，其他GC方法比Perfect GC要快，但是会牺牲ADR真实去重率。而MFDedup几乎没有ADR的损失，而且支持立即immediate删除和GC，也达到了几乎完美的nearly perfect恢复性能，以及可接受的Arranging代价。（耗时短，稳定，代价可接受）

5.6 Size Distribution of Volumes/Categories

本节展示volumes和active categories的数据布局，保留了100个版本without retention for evaluation，系统中会有99个volumes和100个active categories，这些active categories组成了逻辑上的volume，会在下一次Arranging后archive到volume中。

图13(a)表明volumes大小在90MB~1.3GB间，可以告知用户通过删除备份版本volumes可以释放多少空间，也能帮助用户估计剩余写空间，因为volumes代表了相邻版本的差距。对于传统的去重方法，即使考虑sketching approaches，这两个问题也难以解答。

图13(b)表明active categories的大小波动大，最大的categories空间为最新备份版本的51.87%，这表明离线Arranging所需要预留的空间比完整备份要小很多，与第4.5节的讨论一致。而且预留的空间可以通过压缩categories进行缩减。（volumes/categories占用空间）

6. Conclusion and Future Work

本文提出了管理友好的去重框架MFDedup，与传统的写友好Write Friendly的框架不同，本方法通过引入NDF和AVAR来生成OPT布局，从而维持备份的局部性，解决了碎片问题。

由于去除了碎片，MFDedup提高了ADR实际去重率(1.12× to 2.19× higher) 和恢复吞吐量(2.63× to 11.64× higher) ，在用于更新OPT布局的离线Arranging耗时可以接受的同时，GC基本零成本。

未来工作，加入delta压缩，进一步节约空间；对更复杂的备份场景进行处理，例如增量备份。

你可能感兴趣的:(PAPER,存储,去重)

告别DockerHub 镜像下载难题：掌握高效下载策略，畅享无缝开发体验汀、人工智能 LLM技术汇总 AI Agent LLM工业级落地实践 docker hub Docker加速器 docker镜像下载 RAG LLM大模型人工智能 AI Agent
告别DockerHub镜像下载难题：掌握高效下载策略，畅享无缝开发体验1.介绍1.1DockerHub简介DockerHub是Docker提供的一项服务，用于与您的团队查找和共享容器映像。它是世界上最大的容器映像存储库，其中包含一系列内容源，包括容器社区开发人员，开源项目和独立软件供应商（ISV），它们在容器中构建和分发其代码。1.2DockerHub镜像加速器为何被禁止拉取访问6月6日，上海交大
vue实战指南 vue上传解析excel文件 DTcode7 Vue实战指南 VUE HTML web vue框架前端
vue实战指南vue上传解析excel文件基本概念与作用说明示例一：基本的文件上传功能示例二：使用FileReader读取文件内容示例三：使用xlsx库解析Excel文件示例四：处理多工作表的Excel文件示例五：错误处理和用户反馈实际工作中的使用技巧在现代Web应用中，数据导入和导出是一项常见的需求，特别是在企业级应用中。Excel作为一种广泛使用的电子表格软件，经常被用来存储和管理数据。Vue
2023年JAVA面试题【Redis/Elasticsearch】 GJH-JAVA java redis elasticsearch
1.什么是Redis？Redis是一个使用C语言写成的，开源的高性能key-value非关系缓存数据库。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sortedset--有序集合)和hash（哈希类型）。Redis的数据都基于缓存的，所以很快，每秒可以处理超过10万次读写操作，是已知性能最快的Key-ValueDB。Redis也可以实
使用 icinga2 写入 TDengine
icinga2是一款开源主机、网络监控软件，最初由Nagios网络监控应用发展而来。目前，icinga2遵从GNUGPLv2许可协议发行。只需要将icinga2的配置修改指向taosAdapter对应的服务器和相应端口即可将icinga2采集的数据存在到TDengine中，可以充分利用TDengine对时序数据的高效存储查询性能和集群处理能力。前置条件要将icinga2数据写入TDengine需要
『大模型笔记』KV缓存：Transformer中的内存使用！ AI大模型前沿研究大模型笔记缓存 transformer KVcache 大模型 LLM
『大模型笔记』KV缓存：Transformer中的内存使用！文章目录一.KV缓存：Transformer中的内存使用！1.1.介绍1.2.自注意力机制回顾1.3.KV缓存的工作原理1.4.内存使用和示例1.4.1.存储键值缓存需要多少内存1.4.2.Example:OPT-30B（300亿参数）四.参考文献进一步阅读：加速GPT-KV缓存：https://www.dipkumar.dev/beco
Mysql存储过程 clk6607 mysql
1.什么是存储过程？存储过程是预编译好的SQL代码块，存放在数据库里。你可以带参数调用它，实现复杂的逻辑处理，比如条件判断、循环、事务等。好处是减少网络传输，多次调用时执行效率更高。2.存储过程的基本结构DELIMITER$$CREATEPROCEDUREprocedure_name(INparam1INT,OUTparam2VARCHAR(20))BEGIN--这里写过程体，比如变量声明，条件判
C++实现学生管理系统 lijiatu10086 C++c++
文章目录实验要求一、实验平台二、代码1.结构体以及相关变量2.相关函数实现过程（1）判断一个学生是否已经存在（2）从文件中读写学生信息（3）增加学生（4）删除学生（5）修改学生（6）查询学生（7）main函数的实现3.整体代码总结实验要求实验要求：将班上同学的信息（编号（001对应第一个，008对应第八个），姓名，性别，年龄，学校，年级，班级，爱好……），使用自己设计的结构体来存储。并在此基础上结
Java ArrayList 扩容机制笑衬人心。 JAVA学习笔记 java 开发语言笔记后端
一、ArrayList简介ArrayList是Java集合框架中基于数组实现的可变长度列表，其核心特性是：支持随机访问（通过索引）支持动态扩容插入/删除效率较低（非尾部操作）二、底层数据结构//JDK11+transientObject[]elementData;//实际存储元素的数组三、容量与初始状态默认构造函数publicArrayList(){this.elementData=DEFAULT
链表重排序问题 VictorWuuu 算法链表数据结构后端
链表重排序问题（1→2→…→n变为1→n→2→n-1→…）问题分析这道题目要求我们将一个链表从1→2→...→n重排为1→n→2→n-1→...的形式，并且要求空间复杂度为O(1)。例如：输入：1→2→3→4→输出：1→4→2→3输入：1→2→3→4→5→输出：1→5→2→4→3解题思路由于空间复杂度限制为O(1)，我们不能使用额外的数据结构（如数组）来存储节点。可以通过以下步骤实现：找到链表中点
Milvus向量数据库入门指南 longfei.li milvus 数据库人工智能
一、Milvus简介Milvus是一个开源的向量数据库，专为AI应用和向量相似度搜索而设计，以加速非结构化数据的检索。自2019年创建以来，Milvus专注于存储、索引和管理由深度神经网络和其他机器学习模型生成的海量嵌入向量。其能够处理万亿级别的向量索引任务。Milvus的核心优势在于其高效的索引机制，它支持多种索引类型，包括FLAT、IVF_FLAT、IVF_SQ8、IVF_PQ和HNSW等。这
Go语言 — Unicode码点包
unicode介绍Unicode只是定义了一个字符和一个编码的映射，但是呢，对应的存储却没有制定。比如一个编码0x0041代表大写字母A，那么可能有一种存储至少有4个字节，那可能0x00000041来存储代表A。这个就是unicode的具体实现。unicode的具体实现有很多种，UTF-8和UTF-16就是其中两种。UTF-8表示最少用一个字节就能表示一个字符的编码实现。它采取的方式是对不同的语言
【数据库】-2 mysql基础语句（上）艾伦_耶格宇数据库数据库 mysql
文章目录1、SQL语句1.1SQL语句的简要介绍2、SQL语句的四种基本类型2.1DDL-数据库定义语言管理对象修改表的结构2.2DML-数据库操纵语言2.3DQL-数据库查询语言2.4DCL-数据库控制语言1、SQL语句1.1SQL语句的简要介绍SQL（StructuredQueryLanguage，结构化查询语言）是用于管理关系型数据库的标准语言，广泛应用于数据存储、查询、更新和管理等场景。它
数据库Mysql基础------第一部分数据的准备与基础命令 Judy~judy 数据库数据库 mysql
一、初识数据库一、为什么要用数据库？数据库（Database）是按照数据结构来组织、存储和管理数据的仓库数据库随时随地的存在，并且使用，简单的说，数据库就是收集数据的结构。数据涉及很多，例如一个产品属于种类，并且有自己的数据标签，这就是为什么要用关系型数据。在关系数据库，我们建模数据包括产品，品类，标签等等，所有这些都用一个表格，包含行和列，就像Excel中的电子表格。从文件中读取数据的反序列化操
JVM——垃圾回收五月茶 JVM jvm
在Java开发中，JVM不仅负责运行Java字节码，还通过自动内存管理机制帮助开发者避免手动内存管理的复杂性。1.JVM内存模型JVM的内存模型主要包括以下几个部分：方法区(JDK8之后叫元空间):存储类信息，常量池，静态变量堆：所有线程共享的一块内存区域，存放对象实例栈：线程私有程序计数器：线程私有，记录当前线程执行的字节码行号本地方法栈：为Native方法服务2.Java堆的划分年轻代Surv
LabVIEW实现SSB调制解调技术的详细教程九门提督守皇上
本文还有配套的精品资源，点击获取简介：本文详细探讨了在LabVIEW环境下实现单边带调制（SSB）的技术和原理。SSB是一种高效且广泛应用于无线电通信的模拟调制技术。通过LabVIEW的虚拟仪器（VI）编程，可以完成包括信号生成、预处理、调制、滤波、存储或发送以及接收、反向调制、解调和后处理在内的完整SSB调制解调过程。这些步骤对于优化通信系统和提高通信效率至关重要。1.SSB调制解调技术概述1.
b树与b+树的区别 Senkorl MySQL b树数据结构 mysql
B树和B+树都是平衡树的一种，广泛应用于数据库和文件系统中。它们的主要区别在于结构和性能优化上。以下是B树和B+树的主要区别：1.结构差异B树：节点存储键和值：B树的每个节点不仅存储键，还存储与键关联的数据（值）。叶子节点和内部节点都可以存储数据。多层次的值存储：数据可能存储在内节点或叶子节点，因此查找时可能会终止于非叶节点。B+树：节点只存储键，值存储在叶子节点：B+树的内部节点只存储键，数据（
Java面试题专项（Redis篇）嗨，正在熬夜的你面试部分 java redis 开发语言
1.什么是缓存穿透？怎么解决？答：缓存穿透是指查询一个一定不存在的数据（例：假设数据库只有用户1-1000的信息，黑客一直请求用户ID=99999，每次都查DB，DB扛不住。），由于存储层查不到数据因此不写入缓存，这将导致这个不存在的数据每次请求都要到DB去查询，可能导致DB挂掉。这种情况大概率是遭到了攻击。通常都用布隆过滤器（提前用布隆过滤器存储所有存在的key。查询前先查布隆过滤器，不存在的直
中国计算机学会（CCF）推荐学术会议-C（计算机体系结构/并行与分布计算/存储系统）：ATS 2025 爱思德学术可用性测试压力测试功能测试
ATS2025The34thAsianTestSymposium(ATS)andthe9thInternationalTestConferenceinAsia(ITC-Asia)willbeheldinconjunctionwithSEMICONJapan2025inTokyo,Japan.Thisjointeventprovidesavaluableplatformforacademicrese
B树和B+树的区别嗨，正在熬夜的你面试部分 b树数据结构 b+树
B树，如图B+树，如图B树和B+树的区别1.B树的叶子节点和非叶子节点都存放数据（树更高），而B+树只有叶子节点存放数据，非叶子节点可以存储更多的键值（树更矮）。这种结构使得B+树在查询的的时候效率更稳定2.B+树的叶子节点之间形成了双向链表，使得范围查询性能更好
达梦dsc与mpp集群机制比较 wyllove97 数据库 dba
达梦数据库现有2套分布式产品，即DMdsc共享存储集群以及DMmpp非共享存储集群DMdsc共享存储集群：该产品功能类似于oraclerac，具有高可用性和高伸缩性的特征，可提供横向扩展，实现超单一服务器的功能。其提升了错误恢复能力，并且随着系统增长而逐步扩展。一旦系统发生失败，该集群对用户保证最高可用性，保障关键业务数据不被丢失。拓扑图如下图所示：在配置DMdsc时，需配置两套网络，一套用于提供
DMdsc搭建部署过程初禾木达梦数据库数据库
DMdsc搭建部署过程环境准备：下列机器事先安装好达梦服务，不用初始化库环境说明：节点一：CentOS7-01：192.168.100.101节点二：CentOS7-02：192.168.100.102关机配置共享磁盘：（使用虚拟机需要在虚拟机路径下xxx.vmx文件中加入disk.locking=“FALSE”）第一台添加磁盘选择创建新磁盘，20G大小差不多，立即分配所有，选择单个存储文件，下一
MySQL的btree索引和hash索引的区别 xiaolyuh123 MySQL 哈希算法 mysql 算法
MySQL的BTree索引和Hash索引的区别一、定义类型定义说明时间复杂度BTree索引使用B+树结构组织索引数据，适用于范围查询、有序遍历等O(logn)Hash索引使用哈希表结构组织索引，仅适用于等值查找操作O(1)二、使用引擎存储引擎索引类型InnoDB默认使用BTree索引Memory默认使用Hash索引，可手动改为BTree三、核心区别对比维度BTree索引Hash索引数据结构B+树结
记忆力锻炼方法穗余记忆力计算机视觉人工智能深度学习
记忆力锻炼的核心在于科学方法、持续训练和健康生活习惯的结合。通过重复训练、关联记忆、充足睡眠等方式，可有效提升大脑信息处理与存储能力。关键在于长期坚持，并结合多种技巧形成适合自己的记忆策略。一、科学记忆方法重复训练与间隔复习大脑通过重复强化神经连接，但机械重复效率低。建议采用间隔重复法，例如学习新知识后，在1天、3天、1周等间隔复习，利用“遗忘曲线”规律巩固记忆。关联记忆法将新信息与已知内容关联，
如何在 Android 14系统中修改默认锁屏壁纸(非桌面壁纸) 熊熊饲养员 Android开发笔记 android
如何在Android14系统中修改默认锁屏壁纸本文介绍如何通过修改LockscreenWallpaper.java文件，实现针对默认锁屏壁纸定制化需求。以下是具体实现方法和代码逻辑分析。需求背景客户要求在X设备上更换默认锁屏壁纸，其他设备保持原有壁纸不变。修改涉及系统UI模块的LockscreenWallpaper.java文件，通过条件判断实现差异化配置。代码修改步骤在LockscreenWal
PostMan接口测试流程程序员小雷 postman lua 测试工具测试用例 selenium 功能测试单元测试
1、下载和安装Postman:前往Postman官网（https://www.postman.com），下载适用于你的操作系统的Postman客户端。执行下载后的安装程序，并按照安装向导的指引完成安装过程。2、创建一个新的集合：打开Postman，点击左上角的"New"按钮，选择"Collection"（集合）。输入集合的名称，例如"APITests"，并选择存储位置。点击"Save"（保存）。3
Python 爬虫实战：抓取哔哩哔哩收藏夹视频（API 逆向 + 视频分类整理）西攻城狮北 python 爬虫音视频
引言哔哩哔哩（B站）作为国内知名的视频分享平台，拥有丰富多样的视频资源和活跃的用户社区。对于视频创作者、数据分析人员或爬虫学习者来说，抓取B站收藏夹中的视频数据，不仅能帮助我们更好地了解用户喜好和视频内容，还能为创作和研究提供有力支持。本文将深入浅出地讲解如何通过Python爬虫实现抓取哔哩哔哩收藏夹视频，并对其进行分类整理，涵盖从环境搭建、API逆向分析到数据处理与存储等关键步骤，旨在为读者提供
变量与数据类型转换久未放晴的天空@ 算法
文章目录前言一、变量二、数据类型二、类型转换总结前言在编程中，变量与数据类型转换是基础且核心的概念。变量用于存储数据，而数据类型决定了数据的存储方式与操作规则。实际开发中，经常需要将数据从一种类型转换为另一种类型以满足计算、逻辑判断或交互需求。理解数据类型转换的规则、方法及潜在问题，能够帮助开发者更高效地编写健壮、灵活的代码。本节将系统介绍变量定义、常见数据类型以及如何在不同类型间进行安全转换。一
JSON + 存储过程：SaaS 架构下的统一接口与租户定制之道 nbsaas-boot java 数据库网络
在多租户SaaS系统中，不同客户往往有差异化的业务逻辑、字段要求与流程规则。传统“统一模型+配置参数”的开发模式，虽然具有可控性，但在高度动态、合作多样化的场景下，逐渐暴露出扩展困难、上线周期长、定制成本高等问题。随着数据库对JSON的原生支持日益成熟，以JSON作为统一数据协议+存储过程作为租户可编程执行单元的模式，成为SaaS架构的新选择。该模式不仅保留了统一接口的规范性，还为租户、合作伙伴甚
2024全新版视频短剧SAAS系统/影视短剧小程序/短剧APP小程序源码酷讯网络_240870160 酷讯部落格小程序
2024最新版视频短剧SAAS系统源码影视短剧小程序源码附完整搭建教程1.依旧采用saas版本2.目前支持微信小程序和公众号h53.fenxiao商等级自定义价格配置4.二级fenxiao功能5.vip会员功能6.强大的卡密兑换（vip卡密，积分卡密，经销商卡密）7.多个云存储平台配置，自己的视频可自由选择存储平台8.支持批量导入9.支持接口采集![在这里插入图片描述](https://img-b
Python 中的集合（Set）详解：从基础操作到实际应用面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言：集合在Python中的重要性在Python编程中，集合（Set）是一种极为重要的内置数据结构，它以无序性和元素唯一性为主要特点。集合中的每个元素都是独一无二的，这使得它在处理数据去重、成员检测以及数学运算（如并集、交集）时表现出色。无论是进行大规模数据分析，还是优化算法效率，集合都能提供高效的解决方案。例如，在处理用户ID列表时，集合可以快速去除重复项，确保数据准确性。此外，集合与字
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟