LevelDB之LRUCaChe解析

背景:

之前学过操作系统的都应该知道LRU Cache算法，即最近最少使用算法。算法的缘由是Cache的容量有限，不可能无限制的去存储数据，那么在容量用完又需要添加新的数据时，就需要在原cache当中选择一些数据清除掉，而我们选择的数据就是那些最近最少使用的数据(实际上在我看来，说是最久未使用算法更形象，因为该算法每次替换掉的就是一段时间内最久没有使用过的内容)

技术实现:

LRU一般的实现是hash map + 双向链表，hash map是为了在cache当中寻找数据的时候能够以O(1)的时间复杂度去返回找寻的结果。而双向链表就是用于实现最近最少使用的思想，当每次数据被访问时，就将其插入到双向链表的头部。那么越接近头部的数据，就越是最近被使用过的数据，越靠近双向尾部的数据，就越是最久未被使用的数据，尾部的数据就是我们未来需要删除的对象。在cache容量满了而需要删除数据的时候，只需要从尾部开始遍历双向链表，将数据清除掉，就达到了剔除的是最近最少使用数据的目的。

现在举个例子，假设头节点为head，1被使用过，此时1是最近被使用过的数据，将其插入到head的next。

此时1是最近被使用过的，然后又使用了数2，又将其插入到头部，那么如下所示：

那么2是最新被使用的数据，1次之。那么删除的时候就先选最久未被使用的1。这就是最近最少使用的核心概念。

LevelDB的LRUCache的实现:

先看类的实现框架

// A single shard of sharded cache.
class LRUCache {
 public:
  LRUCache();
  ~LRUCache();

  // Separate from constructor so caller can easily make an array of LRUCache
  void SetCapacity(size_t capacity) { capacity_ = capacity; }

  // Like Cache methods, but with an extra "hash" parameter.
  Cache::Handle* Insert(const Slice& key, uint32_t hash,
                        void* value, size_t charge,
                        void (*deleter)(const Slice& key, void* value));
  Cache::Handle* Lookup(const Slice& key, uint32_t hash);
  void Release(Cache::Handle* handle);
  void Erase(const Slice& key, uint32_t hash);
  void Prune();
  size_t TotalCharge() const {
    MutexLock l(&mutex_);
    return usage_;
  }

 private:
  void LRU_Remove(LRUHandle* e);
  void LRU_Append(LRUHandle*list, LRUHandle* e);
  void Ref(LRUHandle* e);
  void Unref(LRUHandle* e);
  bool FinishErase(LRUHandle* e) EXCLUSIVE_LOCKS_REQUIRED(mutex_);

  // Initialized before use.
  size_t capacity_;

  // mutex_ protects the following state.
  mutable port::Mutex mutex_;
  size_t usage_ GUARDED_BY(mutex_);

  // Dummy head of LRU list.
  // lru.prev is newest entry, lru.next is oldest entry.
  // Entries have refs==1 and in_cache==true.
  LRUHandle lru_ GUARDED_BY(mutex_);      //lru_ 是冷链表，属于冷宫

  // Dummy head of in-use list.
  // Entries are in use by clients, and have refs >= 2 and in_cache==true.
  LRUHandle in_use_ GUARDED_BY(mutex_); //in_use_ 属于热链表，热数据在此链表

  HandleTable table_ GUARDED_BY(mutex_);
};

可以看到数据成员主要有HandleTable类型变量table_(猜测和hash有关)，LRUHandle类型的变量in_use_(顾名思义是正在使用当中的数据)，LRUHandle类型的变量lru_(顾名思义最近最少使用的数据)，还有size_t类型的usage_(当前使用的容量)和capacity_(总总量)。在看到in_use_和lru_可以进行猜测，其应该是有两个双向链表，一个维护正在被使用的数据，一个维护最近最少被使用的数据，那么清除cache数据的时候应当会从lru_当中去选择数据删除。

此类的成员方法是围绕着私有方法LRU_Remove、LRU_Append、Ref、Unref来展开实现的，具体的public实现方法有SetCapacity、Insert、Lookup、Release、Erase、Prune、TotalCharge，实现细节后面具体分析。整体的分析思路是分析各个函数的含义，以及数据成员在其中扮演的角色。最后整体上讲述其多线程安全性的实现，还有整个LRUCache与普通LRU方法之间的差异性以及其相关实现的亮点。

Cache::Handle* LRUCache::Insert(
    const Slice& key, uint32_t hash, void* value, size_t charge,
    void (*deleter)(const Slice& key, void* value)) {
  MutexLock l(&mutex_);

  LRUHandle* e = reinterpret_cast(
      malloc(sizeof(LRUHandle)-1 + key.size()));
  e->value = value;
  e->deleter = deleter;
  e->charge = charge;
  e->key_length = key.size();
  e->hash = hash;
  e->in_cache = false;
  e->refs = 1;  // for the returned handle.
  memcpy(e->key_data, key.data(), key.size());

  if (capacity_ > 0) {
    e->refs++;  // for the cache's reference.
    e->in_cache = true;
    LRU_Append(&in_use_, e); //将该缓存记录插入到双向链表中热链表中
    usage_ += charge;      //使用的容量增加
    fprintf(stderr,"fun(%s) line(%d) usage_(%d) capacity_(%d)\n", __FILE__, __LINE__, usage_, capacity_);
    FinishErase(table_.Insert(e)); //如果是更新操作，回收旧记录，新的插入哈希表会取代旧的，即旧的不会存在哈希表里，所以旧的同时需要finish removing *e from the cache
  } else {  // don't cache. (capacity_==0 is supported and turns off caching.)
    // next is read by key() in an assert, so it must be initialized
    e->next = nullptr;
  }
  // 已用容量超过总量，回收最近最少被使用的缓存记录
  while (usage_ > capacity_ && lru_.next != &lru_) {
  	 //如果容量超过了设计的容量，并且冷链表中有内容，则从冷链表中删除元素直到usage_ <= capacity_
    LRUHandle* old = lru_.next;
    assert(old->refs == 1);
    bool erased = FinishErase(table_.Remove(old->key(), old->hash));
    if (!erased) {  // to avoid unused variable when compiled NDEBUG
      assert(erased);
    }
  }

  return reinterpret_cast(e);
}

从Insert实现可以大体看出这样几个步骤:

、先动态分配一个LRUHandle*类型的变量e，内存大小为sizeof(LRUHandle)-1 + key.size()。
、通过传递的参数初始化e，注意，初始化时的引用计数refs为1，in_cache为false表示还未存进缓存。
当LRUCache的容量大于0的时候，首先将引用计数增1以及in_cache置为true表示已插入到cache中。然后会做三件事:1、将e存入到in_use_双向链表当中，表示其正在被使用当中；2、增大LRUCache的当前使用容量；3、将e插入到哈希表(table_)中。
当LRUCache的容量等于0的时候，表示关闭了cache功能，不作插入存储操作
假如当前已使用的容量_usage大于预定的总容量capacity_且_lru当中有数据(LRUHandle*类型)的时候，会一直清除_lru当中插入的数据直到_usage没有超过capacity_。
将e抽象为Handle*类型后返回。

大体步骤就如此，但是深究细节会有一些疑问：1、refs的作用是什么？2、什么情况_lru双向链表当中会有数据？3、为何要拆分为两个双向链表in_use_和lru_？

refs的作用是什么？

refs可以看作其维护这数据的状态，也可以看作是当前多少个并发持有了这个指针，refs大于1的时候表示数据在in_use双向链表当中、等于1的时候表示其在lru_双向链表当中，等于0的数据会被销毁掉。其实可以表示数据被使用的热度，使用得越频繁，其refs值就会越大。而refs值越低，则使用得频率越低，表示最近最少被使用，那么其会是cache中首要被清除得对象。

什么情况_lru双向链表当中会有数据？

当数据被更新的时候(插入的时候发现key值已被保存过)，或数据不被使用的时候，会进行FinishErase操作，然后执行Unref操作在其refs为1的时候，将数据插入到lru_双向链表当中，在refs为0的时候真正的销毁数据。

为何要拆分为两个双向链表in_use_和lru_？

如果只有一个链表，且链表的尾部数据引用计数>1的话，这个节点是不能被淘汰的。只能每次从尾部往前查找，直到第一个引用计算==1的数据才能被淘汰。效率较低。

于是这里拆成两个链表， used链表+lru链表， used链表代表正在使用的链表，这里的数据引用计数>1，这里的数据不可能被淘汰。当引用计数减少到1的时候，再放到lru链表，因此lru_链表当中的全是refs为1的数据，这里的数据都可以被淘汰。 (随着引用计数的变更，在两个链表里来回切换。从lru链表淘汰的时候，再delete清理内存。)

讲述完Insert,其他的方法实现就比较容易了

Cache::Handle* LRUCache::Lookup(const Slice& key, uint32_t hash) {
  MutexLock l(&mutex_);
  LRUHandle* e = table_.Lookup(key, hash);
  if (e != nullptr) {
    Ref(e);
  }
  return reinterpret_cast(e);
}

cache的lookup实际上就是调用哈希表table_的LookUp快速寻找数据，table_的类型HandleTable后面会详细介绍

void LRUCache::Release(Cache::Handle* handle) {
  MutexLock l(&mutex_);
  Unref(reinterpret_cast(handle));
}

cache的Release的意义就是不再使用此数据(进行一次Unref操作)，注意这里未必会真正销毁数据，只有其refs为0的时候才会执行deleater销毁数据

void LRUCache::Erase(const Slice& key, uint32_t hash) {
  MutexLock l(&mutex_);
  FinishErase(table_.Remove(key, hash));
}

cache的Erase就是根据传递的key和其通过hash算法得到的hash值删除cache存储的相关数据。

void LRUCache::Prune() {
  MutexLock l(&mutex_);
  while (lru_.next != &lru_) {
    LRUHandle* e = lru_.next;
    assert(e->refs == 1);
    bool erased = FinishErase(table_.Remove(e->key(), e->hash));
    if (!erased) {  // to avoid unused variable when compiled NDEBUG
      assert(erased);
    }
  }
}

cache的Prune方法就是清除lru_链表里的数据。

cache的方法解析到此结束，可以看到其实现和哈希表类HandleTable息息相关，哈希表主要是用于以0(1)的时间复杂度查询时间，哈希表类的具体定义如下:

// We provide our own simple hash table since it removes a whole bunch
// of porting hacks and is also faster than some of the built-in hash
// table implementations in some of the compiler/runtime combinations
// we have tested.  E.g., readrandom speeds up by ~5% over the g++
// 4.4.3's builtin hashtable.
class HandleTable {
 public:
  HandleTable() : length_(0), elems_(0), list_(nullptr) { Resize(); }
  ~HandleTable() { delete[] list_; }

  LRUHandle* Lookup(const Slice& key, uint32_t hash) {
    return *FindPointer(key, hash);
  }

  LRUHandle* Insert(LRUHandle* h) {
    LRUHandle** ptr = FindPointer(h->key(), h->hash);
    LRUHandle* old = *ptr;
    h->next_hash = (old == nullptr ? nullptr : old->next_hash);
    *ptr = h;
    if (old == nullptr) {
      ++elems_;
      if (elems_ > length_) {
        // Since each cache entry is fairly large, we aim for a small
        // average linked list length (<= 1).
        Resize();
      }
    }
    return old;
  }

  LRUHandle* Remove(const Slice& key, uint32_t hash) {
    LRUHandle** ptr = FindPointer(key, hash);
    LRUHandle* result = *ptr;
    if (result != nullptr) {
      *ptr = result->next_hash;
      --elems_;
    }
    return result;
  }

 private:
  // The table consists of an array of buckets where each bucket is
  // a linked list of cache entries that hash into the bucket.
  uint32_t length_; //当前hash桶的个数
  uint32_t elems_; //整个hash表一共存在了多少个元素
  LRUHandle** list_; //二维指针，每个指针指向一个桶的表头位置

  // Return a pointer to slot that points to a cache entry that
  // matches key/hash.  If there is no such cache entry, return a
  // pointer to the trailing slot in the corresponding linked list.
  LRUHandle** FindPointer(const Slice& key, uint32_t hash) {
    LRUHandle** ptr = &list_[hash & (length_ - 1)];
    while (*ptr != nullptr &&
           ((*ptr)->hash != hash || key != (*ptr)->key())) {
      ptr = &(*ptr)->next_hash;
    }
    return ptr;
  }

  void Resize() {
    uint32_t new_length = 4;
    while (new_length < elems_) {
      new_length *= 2;
    }
    LRUHandle** new_list = new LRUHandle*[new_length];
    memset(new_list, 0, sizeof(new_list[0]) * new_length);
    uint32_t count = 0;
    for (uint32_t i = 0; i < length_; i++) {
      LRUHandle* h = list_[i];
      while (h != nullptr) {
        LRUHandle* next = h->next_hash;
        uint32_t hash = h->hash;
        LRUHandle** ptr = &new_list[hash & (new_length - 1)];
        h->next_hash = *ptr;
        *ptr = h;  //将某个hash对应的新桶的链表头指向h，h的next_hash为刚刚建立的新桶，相当于逐步往桶的头部插入节点。
        h = next;
        count++;
      }
    }
    assert(elems_ == count);
    delete[] list_;
    list_ = new_list;
    length_ = new_length;
  }
};

该类的数据成员有哈希桶列表list_、哈希桶的个数length_、整个列表拥有的数据的总数elems_。它的方法通俗易懂，解析如下:

HandleTable() : length_(0), elems_(0), list_(nullptr) { Resize(); }

void Resize() {
    uint32_t new_length = 4;
    while (new_length < elems_) {
      new_length *= 2;
    }
    LRUHandle** new_list = new LRUHandle*[new_length];
    memset(new_list, 0, sizeof(new_list[0]) * new_length);
    uint32_t count = 0;
    for (uint32_t i = 0; i < length_; i++) {
      LRUHandle* h = list_[i];
      while (h != nullptr) {
        LRUHandle* next = h->next_hash;
        uint32_t hash = h->hash;
        LRUHandle** ptr = &new_list[hash & (new_length - 1)];
        h->next_hash = *ptr;
        *ptr = h;  //将某个hash对应的新桶的链表头指向h，h的next_hash为刚刚建立的新桶，相当于逐步往桶的头部插入节点。
        h = next;
        count++;
      }
    }
    assert(elems_ == count);
    delete[] list_;
    list_ = new_list;
    length_ = new_length;
  }
};

其构造函数会先进行Resize()操作，第一次Reisze()会创建一个长度为4的哈希桶列表，每个列表的元素是LRUHandle*类型的指针，由于第一次Reisze()，其各个桶当中的指针会指向nullptr。而之后的Reisze()操作会适当的扩大哈希桶列表的长度，然后将旧的哈希桶列表当中的数据重新分散到新的列表当中，以确保一直能够保证每个桶当中只存储一个数据以保证查询的时间复杂度为0(1)。

// Return a pointer to slot that points to a cache entry that
  // matches key/hash.  If there is no such cache entry, return a
  // pointer to the trailing slot in the corresponding linked list.
  LRUHandle** FindPointer(const Slice& key, uint32_t hash) {
    LRUHandle** ptr = &list_[hash & (length_ - 1)];
    while (*ptr != nullptr &&
           ((*ptr)->hash != hash || key != (*ptr)->key())) {
      ptr = &(*ptr)->next_hash;
    }
    return ptr;
  }

LRUHandle* Lookup(const Slice& key, uint32_t hash) {
    return *FindPointer(key, hash);
  }

而FindPointer就是根据提供的hash值和key值去哈希桶列表list_中寻找数据，规则如下:先通过hash值和哈希桶列表的长度length_确定所要寻找的数据在哈希桶列表中的位置hash & (length_ - 1)。然后遍历此桶的链表找寻数据，若无返回nullptr。

Lookup接口实际上就是FindPointer的封装

LRUHandle* Insert(LRUHandle* h) {
    LRUHandle** ptr = FindPointer(h->key(), h->hash);
    LRUHandle* old = *ptr;
    h->next_hash = (old == nullptr ? nullptr : old->next_hash);
    *ptr = h;
    if (old == nullptr) {
      ++elems_;
      if (elems_ > length_) {
        // Since each cache entry is fairly large, we aim for a small
        // average linked list length (<= 1).
        Resize();
      }
    }
    return old;
  }

  LRUHandle* Remove(const Slice& key, uint32_t hash) {
    LRUHandle** ptr = FindPointer(key, hash);
    LRUHandle* result = *ptr;
    if (result != nullptr) {
      *ptr = result->next_hash;
      --elems_;
    }
    return result;
  }

Insert操作先通过Key和hash值确认哈希表中是否已有此数据，若有则占有他的位置并返回旧的数据(更新操作)，若无则插入到相应的哈希桶当中并更新哈希桶的头节点为此节点。同时注意！假如哈希桶列表拥有的元素超过哈希桶列表的长度了就再次进行Resize()操作重新分散数据

Remove操作就更简单了，先通过key和hash值查询列表当中是否有此数据，有就更新其所在的桶的头节点为此节点的下一个节点，然后返回此节点(用于在LRUCache中删除此节点在lru_双向链表或in_use_双向链表中的位置)。

至此整个LRUCache的核心就解析完毕。

虽然LRUCache的实现基本解析完毕，但在leveldb中实际上这只是一个LRUCache的具体的实现，leveldb为了提高并发量，还提供了一个类ShardedLRUCache维护有16个LRUCache，当需要容量创造大小为kCacheSize的cache的时候，会将其均分为16份，每份生成容量为kCacheSize / 16的LRUCache，同时在插入和删除等操作的时候其不是围绕整个大的容量的cache进行加锁操作，而是按照分区的粒度去进行锁操作，提高了并发量(按区进行锁操作不同分区的操作可以并发执行，不按区进行锁操作不同线程无法并发进行cache相关操作)

其类定义和实现很简单，如下所示:

static const int kNumShardBits = 4;
static const int kNumShards = 1 << kNumShardBits;

class ShardedLRUCache : public Cache {
 private:
  LRUCache shard_[kNumShards];
  port::Mutex id_mutex_;
  uint64_t last_id_;

  static inline uint32_t HashSlice(const Slice& s) {
    return Hash(s.data(), s.size(), 0);
  }

  static uint32_t Shard(uint32_t hash) {
//hash右移28位，提取高4位的值，4位二进制最大值为2^4 - 1。
    return hash >> (32 - kNumShardBits);
  }

 public:
  explicit ShardedLRUCache(size_t capacity)
      : last_id_(0) {
    //为什么减1呢？试想一下，总容量capacity为16，正常情况下，16个分区，每个分区的容量为1个就可以了，但是假如不减1，则
    //（16+16）/16 =2 ，就变成每个分区有2个容量，这会造成冗余，于是(16+(16-1)) / 16 =1 ,满足每个区只有一个容量且不冗余
    //即只有每超过一个kNumShards时候，才会增加一个分区。
    const size_t per_shard = (capacity + (kNumShards - 1)) / kNumShards;
    for (int s = 0; s < kNumShards; s++) {
      shard_[s].SetCapacity(per_shard);
    }
  }
/*
使用哈希值的前4位进行路由, 路由到2^4(0-15) 个独立的缓存区, 各个缓存区维护自己的mutex进行并发控制; 
哈希表在插入节点时判断空间使用率, 并进行自动扩容, 保证查找效率在O(1)
*/
  virtual ~ShardedLRUCache() { }
  virtual Handle* Insert(const Slice& key, void* value, size_t charge,
                         void (*deleter)(const Slice& key, void* value)) {
    const uint32_t hash = HashSlice(key);
    return shard_[Shard(hash)].Insert(key, hash, value, charge, deleter);
  }
  virtual Handle* Lookup(const Slice& key) {
    const uint32_t hash = HashSlice(key);
	printf("hash->%u, Shard(hash)->%d\n",hash, Shard(hash));
    return shard_[Shard(hash)].Lookup(key, hash);
  }
  virtual void Release(Handle* handle) {
    LRUHandle* h = reinterpret_cast(handle);
    shard_[Shard(h->hash)].Release(handle);
  }
  virtual void Erase(const Slice& key) {
    const uint32_t hash = HashSlice(key);
    shard_[Shard(hash)].Erase(key, hash);
  }
  virtual void* Value(Handle* handle) {
    return reinterpret_cast(handle)->value;
  }
  virtual uint64_t NewId() {
    MutexLock l(&id_mutex_);
    return ++(last_id_);
  }
  virtual void Prune() {
    for (int s = 0; s < kNumShards; s++) {
      shard_[s].Prune();
    }
  }
  virtual size_t TotalCharge() const {
    size_t total = 0;
    for (int s = 0; s < kNumShards; s++) {
      total += shard_[s].TotalCharge();
    }
    return total;
  }
};

这里不得不说一下 NewId() 的作用，NewId() 接口可以生成一个唯一的 id，多线程环境下可以使用这个 id 与自己的键值拼接起来，防止不同线程之间互相覆写，以提高其线程安全性。

至此，Leveldb有关LRUCache的实现终于解析完毕，可以看到大神的代码浅显易懂但又亮点多多，从数据结构和算法的使用，从到线程安全性到提高并发性的技巧，都让我受益匪浅。

你可能感兴趣的:(leveldb)

goleveldb的原理简述（基于golang的goleveldb库）陈墨1234 golang进阶之路源码学习 golang 开发语言后端经验分享笔记 db
简介goleveldb是基于LSM-Tree实现的针对处理写多读少场景的解决方案，通常用于构建写多读少的存储引擎整体架构图如下基于用户接口层简述原理吧Get，按key查询数据，首先区内存中的数据，如果内存中没有则依次从硬盘中的ldb文件中取得数据。Put,按key更新数据，首先写内存数据，如果大小达到内存存储的阈值，则将immutable替换为memtable，新建一个logfile存储wal日志
Leveldb源码分析--9 sparkliang Leveldb 分布式系统
6SSTable之36.5读取sstable文件6.5.1类层次Sstable文件的读取逻辑在类Table中，其中涉及到的类还是比较多的，如图6.5-1所示。图6.5-1Table类导出的函数只有3个，先从这三个导出函数开始分析。其中涉及到的类（包括上图中为画出的）都会一一遇到，然后再一一拆解。本节分析sstable的打开逻辑，后面再分析key的查找与数据遍历。6.5.2Table::Open()
rust嵌入式key/value数据库 kk3909 rust
文章目录项目介绍sled已知问题如何使用leveldb-rs如何使用rust-rocksdb如何使用lmdb-rs如何使用功能对比性能测试对比插入不同的长度的key/valuemonotonicinsert/get/removerandominsert/get/remove项目介绍类型语言star简介sledrust4.6k嵌入式数据库,全新设计，beta尚未稳定LevelDBc++23.3kgo
windows vs 自己编译源码 leveldb 然后使用自己编译的文件 tenc1239 vs c++cmake c++
1准备源码文件1.1第一种方法git下载源码vs项目中gitleveldb源码和gitthird_partygoogletest-CSDN博客1.2第二种方法手动下载然后把第三方的源码下载复制到third_party对应的文件夹中没有文件夹third_party->powershellmkdirthird_party2编译leveldb源码2.1在leveldb文件夹目录下mkdirbuildcd
leveldb学习2 Tony_Xian C++c++
无论indexblock还是datablock两者的内部结构都相同(都是block的结构),均使用block的Seek方法进行二分查找,根据重启点进行二分查找查找key先从indexblock查找,再从datablock查找indexblock的key是两个datablock的分割点,大于等于当前block的所有key,小于下一个block的最小keyvalue是对应datablock地址的偏移量
日志打印宏的编写清风玉骨 mudo c++
参考文献整理：C/C++可变参数，“##__VA_ARGS__”宏的介绍和使用_##__va_args__-CSDN博客代码为了方便以后的测试，直接使用日志来进行测试的打印，就使用了宏日志#defineINF0#defineDBG1#defineERR2#defineLOG_LEVELDBG#defineLOG(level,format,...)\do\{\if(level
【图文详解】一文全面彻底搞懂HBase、LevelDB、RocksDB等NoSQL背后的存储原理：LSM-tree 日志结构合并树禅与计算机程序设计艺术
LSM树广泛用于数据存储，例如RocksDB、ApacheAsterixDB、Bigtable、HBase、LevelDB、ApacheAccumulo、SQLite4、Tarantool、WiredTiger、ApacheCassandra、InfluxDB和ScyllaDB等。在这篇文章中，我们将深入探讨LogStructuredMergeTree，又名LSM树：许多高度可扩展的NoSQL分布
浅谈目前主流NoSql数据库大飞攻城狮后端开发 nosql redis mongodb
浅谈目前主流NoSql数据库，编程学习资料点击免费领取前言无意翻资料发现目前好多noSql数据库，但是工作中貌似并没有接触到，很好奇他们的区别，所以就有了这篇文章。（整合了网上许多大佬的文章，如有侵权，麻烦私信告知。）采用浅谈也是为了方便大家无压力阅读，快速了解知识。如果有文章问题的地方麻烦评论做补充。感谢。目前我了解的主流Nosql如下：redismongoDBmemcacheLevelDBCa
利用C++读取图片数据内存，一键智能识别技术！ Python编程导师
关于使用C++接口来提取特征，caffe官方提供了一个extract_features.cpp的例程，但是这个文件的输入是blob数据，即使输入层使用的是ImageData，也需要在deploy.prototxt中指定图片的位置，很不方便。image如果想要使用opencv来读取一个图片，然后用caffe训练好的model提取特征，就需要对输入层进行改写。另外官方例程默认的输出是leveldb格式
从leveldb学编码技巧(3) wangjie_yy
leveldb中的大部分文件都是用一种类似日志的方式来写数据的，比如和memtable一一对应的log文件，以及manifest文件。他们的特点是：文件内容都是一条条记录，每条记录都有特定的格式。为了方便读取这类文件中的内容，leveldb使用一个log::Reader类完成读取和解析的工作。log::Reader提供了从文件中读取出一条完整记录的方法，定义如下：boolReadRecord(Sl
MAC安装和卸载redis xiaolyuh
安装卸载查询可安装的版本查询版本号brewsearchredis：olafwang@OLAFWANG-MB0etc%brewsearchredis==>Formulaehiredisredis✔[email protected]@4.0==>Caskshomebrew/cask/another-redis-desktop-managerhomebrew/cask/redis安装
大白话解析LevelDB: VersionEdit Howard0o0 大白话解析LevelDB 数据库 c++
文章目录VersionEditVersionEdit::EncodeTo(std::string*dst)VersionEdit::DecodeFrom(constSlice&src)VersionEditLevelDB在进行Compaction的过程中，会增加一些SST并且删除一些SST，这些操作都会引起数据库状态的变化。每个数据库状态都对应一个Version版本，Version里对应的数据库状
大白话解析LevelDB: VersionSet Howard0o0 大白话解析LevelDB 数据库 c++
文章目录VersionSetVersionSet接口概览VersionSet中各个接口的实现VersionSet::LogAndApply(VersionEdit*edit,port::Mutex*mu)VersionSet::Builder的实现VersionSet::Builder的构造VersionSet::Builder::Apply(VersionEdit*edit)VersionSet
大白话讲解 LevelDB 0: 目录 Howard0o0 大白话解析LevelDB c++数据库
大白话讲解LevelDB大白话解析LevelDB1:把Key-Value写入MemTable大白话解析LevelDB2:MemTable落盘为SST文件
LevelDB 中各种文件的作用 Howard0o0 大白话解析LevelDB c++数据库
文章目录LevelDB中各种文件的作用SSTWALMANIFESTCURRENTLOCKLOGLevelDB中各种文件的作用在LevelDB中，有以下几种类型的文件:SST(SortedStringTable)文件名为xxx.ldb，存储实际的Key-Value数据。WAL(WriteAheadLog)文件名为xxx.log，记录最近的写操作，以便在系统崩溃后恢复数据。MANIFEST文件名为MA
大白话解析LevelDB: TableBuilder Howard0o0 大白话解析LevelDB 数据库 c++
文章目录TableBuilder`TableBuilder`的使用姿势SST的格式`TableBuilder`的代码实现`TableBuilder`的构造函数TableBuilder::Add(constSlice&key,constSlice&value)TableBuilder::WriteBlockTableBuilder::WriteRawBlockTableBuilder::Flush(
大白话解析LevelDB: WritableFile 接口 Howard0o0 大白话解析LevelDB c++数据库
文章目录WritableFileWritableFile的构造PosixWritableFilePosixWritableFile的构造PosixWritableFile::Append(constSlice&data)PosixWritableFile::FlushBuffer()PosixWritableFile::WriteUnbuffered(constchar*data,size_tsi
大白话解析LevelDB: Env Howard0o0 大白话解析LevelDB 数据库 c++
文章目录leveldb::Env跨平台运行环境的封装Env接口概览POSIX环境下的Env的实现POSIX下的Env::Default()的实现SingletonEnv的实现前置知识:placementnew与std::aligned_storageSingletonEnv的代码实现SingletonEnv的存在意义PosixEnv的构造函数PosixEnv的构造函数PosixEnv::NewSe
大白话解析LevelDB：数据格式 Howard0o0 大白话解析LevelDB 缓存 c++
文章目录LevelDB中的数据格式KeyUserKeyInternalKeyLookupKeyWriteBatchSSTDataBlockIndexBlockMetaBlock(FilterBlock)MetaIndexBlockFooterMANIFESTRecordLevelDB中的数据格式Key先说LevelDB里比较容易混淆的3种Key:UserKeyInternalKeyLookupKe
大白话解析LevelDB 2: MemTable 落盘为 SST 文件 Howard0o0 大白话解析LevelDB c++数据库
文章目录MemTable落盘为SST文件什么是`CompactMemTable`什么时候触发`CompactMemTable`如何触发`CompactMemTable``CompactMemTable`的过程将`MemTable`落盘成`SST`文件将`MemTable`生成一个新的`SST`文件:挑选合适的level-i用于放置新的`SST`将新SST的MetaData记录到`VersionEd
常见技术选型独处人
MQRocketMQ,RabbitMQ,Kafka,ActiveMQNoSQLRedis,Memcache分布式计算Blink,Storm,SparkDB关系型TiDB,MySQL,MongoDB,CassandraKVLevelDB,Rocksdb,PalDB文件BerkeleyDB,MapDB,ChronicleQueue,SQLite,RSocket时序型Influxdb,HiTSDB,Op
Ubuntu 16.04 + caffe环境搭建(CPU) 默写年华Antifragile
1.安装依赖sudoapt-getinstalllibprotobuf-devlibleveldb-devlibsnappy-devlibopencv-devlibhdf5-serial-devprotobuf-compilersudoapt-getinstall--no-install-recommendslibboost-all-devsudoapt-getinstalllibgflags-d
Db2插入数据溢出报错测试蓝黑2020 DB Java 数据库 db2 mybatis jdbc
本文是测试Db2数据库插入数据报错。具体来讲，是通过命令行、JDBC、Mybatis等各种方式，尝试把一个长度为11的字符串插入到VARCHAR(8)的字段，查看报错信息，方便以后遇到类似的错误时，能够帮助快速定位问题。测试环境Db2$db2levelDB21085IThisinstanceorinstall(instancename,whereapplicable:"db2inst1")uses
比特币源码阅读(leveldb-CBlockFileInfo) 坠叶飘香
CBlockFileInfo:包含存储block的文件的基本信息，具体的内容见下图2018-08-0716-10-53的屏幕截图.pngsrc/chain.hclassCBlockFileInfo{public:unsignedintnBlocks;//!inlinevoidSerializationOp(Stream&s,Operationser_action){READWRITE(VARINT
Leveldb代码阅读笔记 xiannvlei 技能建设笔记
整体架构如上图，leveldb的数据存储在内存以及磁盘上，其中：memtable：存储在内存中的数据，使用skiplist实现。immutablememtable：与memtable一样，只不过这个memtable不能再进行修改，会将其中的数据落盘到level0的sstable中。多层sstable：leveldb使用多个层次来存储sstable文件，这些文件分布在磁盘上，这些文件都是根据键值有序
LevelDB 完全解析（6）：Filter linjinhe
前文回顾LevelDB完全解析（0）：基本原理和整体架构LevelDB完全解析（1）：MemTableLevelDB完全解析（2）：LogLevelDB完全解析（3）：SSTableLevelDB完全解析（4）：ManifestLevelDB完全解析（5）：CacheBloomFilterLevelDB可以设置通过bloomfilter来减少不必要的读I/O次数。1970年，BurtonHowar
分布式块存储 ZBS 的自主研发之旅｜元数据管理志凌海纳SmartX 分布式
重点内容元数据管理十分重要，犹如整个存储系统的“大黄页”，如果元数据操作出现性能瓶颈，将严重影响存储系统的整体性能。如何提升元数据处理速度与高可用是元数据管理的挑战之一。SmartX分布式存储ZBS采用LogReplication的机制，在元数据存储方案上选择将LevelDB和Zookeeper相结合，从而以更加精简的架构实现了高可靠、高性能与轻量级的元数据服务。更多ZBS架构设计与技术解读，请阅
数据结构 | Log-Structured Merge Tree (LSM Tree) 赵同学的代码时间数据结构 lsm-tree
今天介绍LSMTree这个数据结构，严格意义上来说，他并不像他的名字一样是一棵树型的数据结构，而更多是一种设计思想。LSMTree最先在1996年被提出，后来被广泛运用于现代NoSQL（非关系型数据库）系统中，包括BigTable,Dynamo,HBase,Cassandra,LevelDB,RocksDB,andAsterixDB.LSMTree主要是瞄准了IO操作中，顺序写的速度比随机写快几个
时间序列数据的存储和计算 - 开源时序数据库解析 chuange6363 大数据数据库数据结构与算法
开源时序数据库如图是17年6月在db-engines上时序数据库的排名，我会挑选开源的、分布式的时序数据库做详细的解析。前十的排名中，RRD是一个老牌的单机存储引擎，Graphite底层是Whisper，可以认为是一个优化的更强大的RRD数据库。kdb+、eXtremeDB和Axibase都未开源，不做解析。InfluxDB开源版和Prometheus的底层都是基于levelDB自研的单机的存储引
caffe+ubuntu18.04+cuda10.2编译配置 s1037222866 caffe 人工智能深度学习
安装相应依赖apt-getinstalllibprotobuf-devlibleveldb-devlibsnappy-devlibopencv-devlibhdf5-serial-devprotobuf-compilerapt-getinstall--no-install-recommendslibboost-all-devapt-getinstallpython-devapt-getinstal
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/