basicthinker

CAS & deduplication 综述（关注去冗余存储）

本文总结了近十年围绕 CAS(content-addressable store) 和 deduplication 的主要工作，供借鉴。
【转载请注明作者、出处及链接】

该 topic 长期持续活跃，经过下面整理出的几个阶段，我们可以感觉到单纯 block/chunk level deduplication 的“矿”已经挖得差不多了:)

====基本架构====

Venti [3] 是较早使用“unique hash of block = block identifier”思想（即 content-addressable store, CAS）的实现，可以说为其后的诸多系统提供了基本参照。

只提供 block-level 的存储接口，block size 可根据应用需要改变，最大 52 KB
文件可组织成 a tree of blocks，父 block 存储子 blocks 的 fingerprints [上层应用相关]
Hash 函数采用 20-byte SHA-1，60 MB/s (700 MHz Pentium 3)
数据保存在 append-only log，基本单位为 self-contained arena；不提供垃圾回收
用 disk-resident hash table 保存 index（从 fingerprint 到 location in log 的映射）。
* 两级映射：index 由 bucket 组成，首先用 hash 把 fingerprint 映射到一个 bucket 上，然后在 bucket 内部使用 binary search 查找 entry（fingerprint+type+size+address）
* stripping index across multiple disks
[相当于 key-value store 内部实现，仅供参考]
Cache: block cache 与 index cache（分离）
I/O 测评：与 SCSI RAID 相比，大约 50% 以下。

SIS [2] 是较早基于 file-level 的去冗余文件系统，不属于 CAS，但放在这里作为对比。SIS 由一个用户态服务 groveler 根据 NTFS's updated journal 比较文件并去冗余（与我们最早的设计类似）。

variable-size file
128 bit file signature 是很有借鉴意义的设计：前 64 bit 是文件大小，可以据此迅速缩小判断范围；余下 64 bit 是从文件 2 个固定部分各抽取 4KB 进行哈希（类似后来的 super-fingerprint [5] 和 sampling [9]）。signature 相同的文件需要再进行 byte-by-byte 的比较才能确定相同。
Copy-on-close，只复制没有 overwritten 的部分。
Groveler 不是 CPU intensive，而是 I/O intensive（注意，离线去冗余的弊端）。

====比较研究====

[4] 比较了 whole file content, fixed size blocks, variable-length chunks (Rabin fingerprint) 三种方式。

均采用 SHA-1 的前 64 bits 做判断标准，不影响实验结果
对于 300 MB 的文件，在 500MHz Pentium 3 上，依次花费 62s（4.8 MB/s）、71s（4.2 MB/s）、340s（<1 MB/s），其中 Rabin fingerprint 包含了确定边界后计算 SHA-1 的时间（后者占 24% = 82s，< 4 MB/s）
Rabin 压缩比率最高，re-computation of SHA-1 较少，但有额外的定界开销
通常情况下，update locality 使得相当部分 fixed size blocks 的 SHA-1 值是一直有效的

除此之外，delta encoding [1] 只保存两个文件之间的差异，也是去冗余的手段之一。常见的有三种实现：

Unix diff：原只用于文本。对于二进制文件，可以先映射为文本，再使用 diff，但压缩比较低。
Bdiff：可用于二进制文件。使用 64KB 的滑动窗口，按 16KB 的步长移动，建立 a suffix tree，而后扫描新文件，使用贪心策略寻找匹配的部分，最终将新文件表示为 copy blocks 和 character insertions 的序列。
Vdelta：可用于二进制文件。使用 hash table 代替 suffix tree，同样基于贪心策略。输出表示为 add 和 copy 组成的序列。

Vdelta 的 encoding/decoding 效率明显高于其他，而压缩比率和 bdiff 不相上下。但是，三种编码方式都需要扫描原始文件。对于我们处理大文件部分更改的需求，这种扫描最好可以避免。与节省空间相比，我们更关心减少额外 I/O 和 en-/decoding 效率。

====技术组合====

进而出现了上述多种技术的组合——REBL [5]，使用了 compression、elimination of content-defined chunks(CDC) 和 delta-compression of similar chunks，组合方式为：

将文件使用 Rabin fingerprints 切割成 CDC，分别计算 SHA hash，保存在 Berkeley DB 中，重复的 chunk 去冗余；
另一个进程分析这些 chunks，每个 chunk 提取若干 fingerprints（基于 chunk 的某些部分）组成 super-fingerprint 作为特征，用于计算相似性；基于这些相似性特征，选择出 reference chunks，然后其他 chunks 相对它们进行 delta-encoding；
对于没有经过如上两种处理的 chunk，压缩存储。

文章偏重于 effectiveness，提供的图表都是压缩比率相关的，具体参数不在此赘述了，实现时可参考；对于 efficiency，只是提到 REBL 比 CDC 会有额外开销。

====优化改进====

Data Domain 在 [7] 中提出了三点改进，如下。注意该系统的基本存储单元不是 block，而是 container，后者也是 fixed-sized，但是包含更多信息（元数据段+数据段），是 self-describing 的（类似 Venti [3] 中组成 log 的 arena）。

Bloom filter，迅速进行 in-memory 的判断 segment descriptor（对应于我们这里所说的 chunk fingerprint）是否存在，确定不存在的可直接插入，从而减少一次 index lookup（可能读磁盘）。
Segment layout 遵照 data stream 的顺序连续存储于同个 container 当中，以保持 spatial locality。即便经过去冗余，一个文件片段所对应的 segments 往往也是连续的。
利用第 2 条，cache 预取 segment 所在 container 的元数据。

Sparse indexing [9] 与 [7] 解决的是同一个问题：chunk-lookup disk bottleneck problem，即 fingerprint 映射到 chunk location 的 index 无法保存在 RAM 中，使得 lookup 时经常需要 disk seek。

但是它采取了不同的方法：

利用 chunk locality（类似 [7] 的 spacial locality）：某次访问 chunk A 时临近访问了 B、C 和 D，下次即使在不同的 backup data 中，很可能访问 chunk A 的前后还会遇到 B、C 和 D。
使用 CDC 把数据流切割成 chunks，然后同理再将 thousands of chunks 组成一个大粒度的 segment（若干 MB 大小）。（类比到 file-level，可视作文件切块）
Sampling 指从一个 segment 当中选取小部分 chunk hash 作为 hooks（代表特征），而不是 full index 全部 chunks，这样可以把由 hooks 组成的 sparse index 放入 RAM 中。
当一个新的 segment 到来时，通过 parse index 从已有 segments 中选择 hooks 重合多（即最相似）的若干个作为 chunk deduplication 的比较对象；再将这些选中的 segments 的 manifests（类似元数据，包含每个 chunk 的 hash 和 address）载入内存进行 chunk 的去冗余。

这个工作是面向 inline 的，对 segment 的去冗操作由原先 chunk 数量的 disk seeks，减少为 manifests 的数量（可差 2 个数量级）；可见，如果把 segment 类比为我们 file-level 的文件切块，即便 index 仍无法放入内存，每个切块 1 次的 disk seek 也是可以接受的。

Foundation [8] 仿照 Venti [3]，但只针对个人用户（实验只在单台 laptop 上做的），声称在低端硬件上实现了高吞吐的 archival，主要改进如下：

使用 bloom filter 判断新数据，与上述 [7] 的做法一致。
设置 index update buffer（数据不另设缓冲，认为直接写入 log 存储），减少 fresh write 更新 index 的开销；定期 pause & flush。
比较了 compare-by-hash 和 compare-by-value 两种实现；后者用 offset 而不是 hash 定位 blocks（严格说不再是 CAS，类似 SIS [2]），并用 MD4 的前 4 bytes 作为初步判重标准取代 SHA-1，之后再进行 byte-by-byte 比较确定相同。
By-value 的读性能恒高于 by-hash，但作者测试认为写性能也比较接近。（为 file-level 的读性能提供了有利证据）

[12] 作为一篇 best paper，把性能做到了极致，一个 single node 可以达到写 1 GB/s for unique data and 6 GB/s for duplicate data，读 1 GB/s for single stream and 430 MB/s for multiple streams，支持 123 billion objects, 500 TB of data per 25 GB of memory。（不过这也意味着，我们需要大量的 data nodes 才可能支持 thousands of VMs 的需求）

作者坦言“the opportunities for deduplication efficiency optimizations become scarce”，但定位于“combine with careful implementations of known system engineering techniques”。当然，技术上的改进也颇具新意：

Progressive sampled indexing：与 [7, 9] 一致，首要解决 index lookup 的瓶颈。这里用了一个小伎俩，把 fingerprint 和 location 都存在 file metadata 中，这样读取文件时可避免 index lookup（严格说已经不是 CAS 了）；与 [9] 类似不保存 full index，而是取一部分（sampling），与 [9] 不同的是没有复杂的 segment 选择过程，就直接 chunk deduplication，并将命中 fingerprint 对应 container 的所有 fingerprints 都载入 cache，根据 locality 随后很可能仍会命中。
特别提出了以往系统常常忽略但又很重要的部分 reference management，对垃圾回收有重要作用。它没有采用简单引用计数的方式，而是考虑 reliability and recoverability 选择了 mark-and-sweep 的方法，并为解决其 scalability 问题，提出了 grouped mark-and-sweep。
改进了 client-server interaction，采用基于 fully asynchronous RPC 的 event-driven, pipelined design。（我们设计 C/S 交互流程时要特别参考）

==== Beyond CAS ====

Deep Store [6] 和 EMC Centera 都是基于 object store 的 CAS，所以提供了独特的功能：

rich metadata：metadata 和 data 同时存放于 object 当中，archival 的时间长久到产生它们的系统都不复存在时，这些数据依然具备可管理性；
diverse search features：对象存储具备基于对象特征的搜索功能；
以及 dynamically scalable、improved reliability 等。

HYDRAstor [10] 和 HydraFS [11] 共同构成了一个存储系统，分别属于后端（block-level store）和前端（file system）：

HYDRAstor [10] 是一个基于“a grid of storage nodes”+“a distributed hash table”的存储系统，论文的立足点就在于“a concrete commercial implementation”。因此，它着重完善了 system-wide deduplication、high availability、on-line extensions and upgrades、disk/node/network fault-tolerance、automatic rebuilds on failures 等等，并且提供了一个 low-level API 的编程模型，可供 client 实现新的访问协议。
进而，[11] 研究了如何基于 CAS 搭建一个高效 file system 的问题。主要的设计在于 cache：
- 应对了三个挑战：updates 代价更高了、cache misses for metadata blocks、需要更大的 write buffer / read cache
- 相应地，设计策略有：分离 metadata 和 data 的处理过程，将 metadata modifications 集中为 batch（类似 [8] 的 index update buffer）；使用 fixed-size caches，限制并行文件系统操作的数量；使用二级 cache。

===============

【结论 / 启示】

Cinquain 的定位是 file-level deduplication，就需要处理 file-level 带来的新问题，利用 block-level 不具备的独特优势。

我们可以评估 file-level 所需 fingerprints（数量远少于 block-level 的）是否可能常驻内存，如果不行的话再考虑 key-value store 上层添加 bloom filter 等技术。
NFS servers 需要配置缓存/缓冲，特别是写缓存/缓冲（大文件的 hash 计算可并行处理；当频繁更改某个文件时可避免没必要的去冗余存储）。由于文件体积可能较大，meta cache 和 data cache 分离较为合理。
多种去冗技术的组合，集中体现在大文件处理上。我们的目标是尽量避免大文件部分更改时重新读取整个文件（用于重计算 hash 和 COW），即达到：
(1) 通过更改的部分计算新的 hash 值
(2) 通过更改的部分计算 delta-encoding
与 block-level 相比，文件所具有的特殊而又易于获取的属性（比如大小、类型），应该可以给予利用，以减小碰撞和优化查询。
Inheritance 带来的文件之间的新关系也可被利用增强去冗余效果和效率。

除此之外，对 key-value store 的性能要求应该是很高的，value 的定位时间应该接近于非 CAS 实现。

同时对未来测试环境表示担忧，一个解决办法是将 FS-related 和 VM-related 分开测试，因为前者可以放到 Amazon 上，以达到性能测试规模；后者只能本地测试，主要验证 inheritance 对 VM 的功能性支持。

P.S. 张扬，我觉得 Liquid 或可考虑 ICDE 等偏数据库/数据管理的会（参照 [6]）。如果认为 Liquid 在去冗余技术层面创新空间已很有限的话，将其包装成专门优化支持 VM images 数据管理的存储系统，应该可以靠上 ICDE 的宗旨 in designing, building, managing, and evaluating advanced data-intensive systems and applications. 况且，他们领域的人对去冗余存储未必了解那么全面。其实 [6] 就是用了对象存储，强调了可管理特性。

==========

Reference

[1] Hunt, J. J.; Vo, K.-P. and Tichy, W. F. Delta algorithms: an empirical analysis. ACM Trans. Softw. Eng. Methodol., ACM, 1998, 7, 192-214.

[2] Bolosky, W. J.; Corbin, S.; Goebel, D. and Douceur, J. R. Single instance storage in Windows 2000. In Proceedings of the 4th conference on USENIX Windows Systems Symposium, USENIX Association, 2000.

[3] Quinlan, S. and Dorward, S. Venti: a new approach to archival storage. In Proceedings of the 1st USENIX conference on File and storage technologies (FAST '02), USENIX Association, 2002.

[4] Policroniades, C. and Pratt, I. Alternatives for detecting redundancy in storage systems data. In Proceedings of the USENIX Annual Technical Conference (FAST '04), USENIX Association, 2004.

[5] Kulkarni, P.; Douglis, F.; LaVoie, J. and Tracey, J. M. Redundancy elimination within large collections of files. In Proceedings of the USENIX Annual Technical Conference (USENIX '04), USENIX Association,2004.

[6] You, L.L.; Pollack, K.T. and Long, D.D.E. Deep Store: an archival storage system architecture. In Proceedings of the 21st International Conference on Data Engineering (ICDE '05), IEEE, 2005.

[7] Zhu, B.; Li, K. and Patterson, H. Avoiding the disk bottleneck in the data domain deduplication file system. In Proceedings of the 6th USENIX Conference on File and Storage Technologies (FAST '08), USENIX Association, 2008.

[8] Rhea, S.; Cox, R. and Pesterev, A. Fast, inexpensive content-addressed storage in foundation. In USENIX 2008 Annual Technical Conference (USENIX '08), USENIX Association, 2008, 143-156.

[9] Lillibridge, M.; Eshghi, K.; Bhagwat, D.; Deolalikar, V.; Trezise, G. and Camble, P. Sparse indexing: large scale, inline deduplication using sampling and locality. In Proccedings of the 7th conference on File and storage technologies (FAST '09), USENIX Association, 2009, 111-123.

[10] Dubnicki, C.; Gryz, L.; Heldt, L.; Kaczmarczyk, M.; Kilian, W.; Strzelczak, P.; Szczepkowski, J.; Ungureanu, C. and Welnicki, M. HYDRAstor: a scalable secondary storage. In Proccedings of the 7th USENIX Conference on File and Storage Technologies (FAST '09), USENIX Association, 2009, 197-210.

[11] Ungureanu, C.; Atkin, B.; Aranya, A.; Gokhale, S.; Rago, S.; Grzegorz, C.; Dubnicki, C. and Bohra, A. HydraFS: a high-throughput file system for the HYDRAstor content-addressable storage system. In Proceedings of the 8th USENIX conference on File and storage technologies (FAST '10), USENIX Association, 2010.

[12] Guo, F. and Efstathopoulos, P. Building a high-performance deduplication system. In Proceedings of the 2011 USENIX Annual Technical Conference (USENIX '11), USENIX Association, 2011.

C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
利用python实现图片格式之间的相互转换难得北窗高卧 python 开发语言
一、概要图片一般有多种格式，常见的图片格式包括：JPEG（.jpg或.jpeg）：一种广泛使用的有损压缩格式，适用于摄影图像和网页上的图片。PNG（.png）：一种无损压缩格式，支持透明度和更好的图像质量，常用于图标、图形和需要透明背景的图片。该图片是4通道的，外加一个透明通道。如截屏GIF（.gif）：一种支持动画和透明度的格式，常用于简单的动画和图标。BMP（.bmp）：一种无损格式，存储图像
TextFiled 中输入金额宁梓茞
要求:输入的金额不能超过六位,小数点后面只能输入两位小数如果textFIled中第一位输入的是0,后面必须输入小数点,否则禁止输入用到textfiled代理方法#pragmamark----textFiledDelegate-----(BOOL)textField:(UITextField*)textFieldshouldChangeCharactersInRange:(NSRange)range
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
Vue( ElementUI入门、vue-cli安装) m0_l5z elementui vue.js
一.ElementUI入门目录：1.ElementUI入门1.1ElementUI简介1.2Vue+ElementUI安装1.3开发示例2.搭建nodejs环境2.1nodejs介绍2.2npm是什么2.3nodejs环境搭建2.3.1下载2.3.2解压2.3.3配置环境变量2.3.4配置npm全局模块路径和cache默认安装位置2.3.5修改npm镜像提高下载速度2.3.6验证安装结果3.运行n
iPhone怎么删除重复照片，可以尝试这几种方法 2401_85240355 iphone ios
在数字化时代，智能手机尤其是iPhone成为我们日常生活中不可或缺的一部分。随着我们不断使用iPhone拍照，重复照片的积累逐渐成为一个普遍问题。这不仅占用了大量的存储空间，也使得照片库变得杂乱无章。本文将介绍几种有效的iPhone怎么删除重复照片方法，并介绍如何利用CleanMyPhone来简化这一过程。iPhone怎么删除重复照片方法一：人工筛查人工筛查是最直接的方法，尽管它可能比较耗时。这种
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
iOS内存管理简单理解烧烤有点辣
什么是引用计数引用计数（ReferenceCount）是一个简单而有效的管理对象生命周期的方式。当我们创建一个新对象的时候，它的引用计数为1，当有一个新的指针指向这个对象时，我们将其引用计数加1，当某个指针不再指向这个对象是，我们将其引用计数减1，当对象的引用计数变为0时，说明这个对象不再被任何指针指向了，这个时候我们就可以将对象销毁，回收内存。由于引用计数简单有效，除了Objective-C和S
python获取子进程返回值_Python对进程Multiprocessing子进程返回值 weixin_39752157 python获取子进程返回值
在实际使用多进程的时候，可能需要获取到子进程运行的返回值。如果只是用来存储，则可以将返回值保存到一个数据结构中；如果需要判断此返回值，从而决定是否继续执行所有子进程，则会相对比较复杂。另外在Multiprocessing中，可以利用Process与Pool创建子进程，这两种用法在获取子进程返回值上的写法上也不相同。这篇中，我们直接上代码，分析多进程中获取子进程返回值的不同用法，以及优缺点。初级用法
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

CAS & deduplication 综述（关注去冗余存储）

你可能感兴趣的:(cache,File,存储,reference,inheritance,asynchronous)