lilbedwin

open-vcdiff流式编码过程分析（一）

open-vcdiff（官方主页），是Google的一个开源项目，提供了VCDIFF（rfc3284）的一种开源实现。VCDIFF是一种增量压缩算法，其编码过程可以将目标文件（target）基于一个字典（dictionary）文件，编码生成增量（delta）文件。解码过程则是由dictionary及delta还原target。

VCDIFF通过增量压缩，只传输delta，通常比一般的压缩算法的效率更高。基于VCDIFF，Google提出了一种http1.1兼容的内容编码标准，称为sdch，而本文将分析的open-vcdiff也正是为sdch而生。这里要注意，为了更适应http协议的流式传输特性，sdch即open-vcdiff的内容编码方案相比rfc3284略有不同，包括采用了interleaved format以及增加了adler32 checksum等。

本文主要关注open-vcdiff的流式编码过程，即StreamingEncoder类的工作原理。如果你对VCDiff完全没有概念，建议花5分钟先阅读rfc3284中 "3. Delta Instructions"这一节的例子，了解ADD，COPY，RUN指令的含义，否则可能会影响理解效果。

开始看代码，本文解析的代码版本为0.8.3，首先膜拜一下作者，打开代码大牛Jeff Dean的名字赫然在目：

/* rolling_hash.h */
 Copyright 2007, 2008 Google Inc.
 Authors: Jeff Dean, Sanjay Ghemawat, Lincoln Smith

言归正传，流式编码的使用方法，官方给出的手册如下：

// The client should use these routines as follows:
HashedDictionary hd(dictionary, dictionary_size);
if (!hd.Init()) {
  HandleError();
  return;
}
string output_string;
VCDiffStreamingEncoder v(hd, false, false);
if (!v.StartEncoding(&output_string)) {
  HandleError();
  return;  // No need to call FinishEncoding()
}
Process(output_string.data(), output_string.size());
output_string.clear();
while (get data_buf) {
  if (!v.EncodeChunk(data_buf, data_len, &output_string)) {
    HandleError();
    return;  // No need to call FinishEncoding()
  }
  // The encoding is appended to output_string at each call,
  // so clear output_string once its contents have been processed.
  Process(output_string.data(), output_string.size());
  output_string.clear();
}
if (!v.FinishEncoding(&output_string)) {
  HandleError();
  return;
}
Process(output_string.data(), output_string.size());
output_string.clear();

可以看到，整个编码过程，向用户暴露的只有2个类HashedDictionary、VCDiffStreamingEncoder。前者首先以字典作为参数进行构造，然后须调用Init方法。后者采用前者作为参数进行初始化，然后通过StartEncoding，EncodingChunk，FinishEncoding三个成员函数完成流式编码过程。

为了解析其内部运转原理，首先给出UML图：

HashedDictonary会聚集一个VCDiffEngine对象，HashedDictionary构造函数会调用VCDiffEngine的构造函数，传递dict的指针及size，VCDiffEngine会新开内存保存。成员变量hashed_dictionary_暂时置空，注意此变量的类型为BlockHash。代码如下：

VCDiffEngine::VCDiffEngine(const char* dictionary, size_t dictionary_size)
    // If dictionary_size == 0, then dictionary could be NULL.  Guard against
    // using a NULL value.
    : dictionary_((dictionary_size > 0) ? new char[dictionary_size] : ""),
      dictionary_size_(dictionary_size),
      hashed_dictionary_(NULL) {
  if (dictionary_size > 0) {
    memcpy(const_cast<char*>(dictionary_), dictionary, dictionary_size);
  }
}

接下来，客户代码会调用HashedDictonary的Init()方法，如UML图中所示，该方法同样传递至类VCDiffEngine的Init()方法。进一步，调用静态方法BlockHash::CreateDictionaryHash来构建BlockHash对象，并赋值给hashed_dictionary_，代码如下：

bool VCDiffEngine::Init() {
  if (hashed_dictionary_) {
    VCD_DFATAL << "Init() called twice for same VCDiffEngine object"
               << VCD_ENDL;
    return false;
  }
  hashed_dictionary_ = BlockHash::CreateDictionaryHash(dictionary_,
                                                       dictionary_size());
  if (!hashed_dictionary_) {
    VCD_DFATAL << "Creation of dictionary hash failed" << VCD_ENDL;
    return false;
  }
  RollingHash<BlockHash::kBlockSize>::Init();
  return true;
}

BlockHash::CreateDictionaryHash函数的伪代码可以参考之前uml图中的代码注释。仍热是首先new，再Init()。new的过程只是初始化指向字典的指针，我们重点关注一下Init方法。我们知道VCDIFF的增量编码很大程度上要依赖于target内容与dict内容的字符串匹配，为了加快匹配速度，必然需要对dict的内容进行预处理，并用合适的数据结构进行存储。

该预处理的过程即通过BlockHash::Init()函数实现，该函数会对dict划分为16byte为单位的block，对每个block计算其哈希值，存入哈希表，并采用拉链发解决冲突。哈希表的的实现，主要依靠3个数组成员变量。hash_table_这是主数组，以哈希值为index存放block的index，当然是该哈希值对应的第一片index。2个辅助数组：next_block_table_以及last_block_table_，分别存放同哈希值的下一block的index，最后一个block的index。

举个例子：block[index a]、block[index b]的哈希值均为h，它们按照顺序被加入哈希表，当block[index a]被加入哈希时，有如下逻辑：

hash_table_[h] = a； // a是具有同hash值的链表的首位
last_block_table_[a] = a;  // 通过链表首对应的链表尾，还是a

当block[index b]被加入哈希时，此时a已经在哈希里，即hash_table_[h]已经被a占据链表首位，此时的逻辑：

next_block_table_[a] = b； // a的下一个是节点是b
last_block_table_[a] = b;  // 以a为首的链表终结于b

下面看一下BlockHash::CreateDictionaryHash的代码：

bool BlockHash::Init(bool populate_hash_table) {
  if (!hash_table_.empty() ||
      !next_block_table_.empty() ||
      !last_block_table_.empty()) {
    VCD_DFATAL << "Init() called twice for same BlockHash object" << VCD_ENDL;
    return false;
  }
  const size_t table_size = CalcTableSize(source_size_);
  if (table_size == 0) {
    VCD_DFATAL << "Error finding table size for source size " << source_size_
               << VCD_ENDL;
    return false;
  }
  // Since table_size is a power of 2, (table_size - 1) is a bit mask
  // containing all the bits below table_size.
  hash_table_mask_ = static_cast<uint32_t>(table_size - 1);
  hash_table_.resize(table_size, -1);
  next_block_table_.resize(GetNumberOfBlocks(), -1);
  last_block_table_.resize(GetNumberOfBlocks(), -1);
  if (populate_hash_table) {
    AddAllBlocks();
  }

有了之前的原理铺垫，解释起来就容易了。其中CalcTableSize()用于计算哈希表的大小，注意这里的哈希表需要存储的元素数目即blocknum应该是source_size_/16。综合考虑冲突避免，内存节省两个因素，open-vcdiff采取的算法是首先计算min_size = source_size_/sizeof(int) + 1。这个基本是除以4了，然后min_size开始向上寻找，遇到第一个2的整数次幂即停止，该整数次幂作为哈希表的size。关于hash_table_mask_的作用，还记得之前说的由hash值作为hash_table_数组的index吗，其实并不是直接作为index而是与hash_table_mask_位与一下，具体可以参考函数GetHashTableIndex。GetNumberOfBlocks()名字已经说的很清楚了，就是返回source_size_/16。AddAllBlocks()，即是实际把各个block进行哈希计算然后加入哈希表的过程，期间又调用了AddAllBlocksThroughtIndex，我们把代码一并贴上来：

void BlockHash::AddAllBlocks() {
  AddAllBlocksThroughIndex(static_cast<int>(source_size_));
}

void BlockHash::AddAllBlocksThroughIndex(int end_index) {
  if (end_index > static_cast<int>(source_size_)) {
    VCD_DFATAL << "BlockHash::AddAllBlocksThroughIndex() called"
                  " with index " << end_index
               << " higher than end index  " << source_size_ << VCD_ENDL;
    return;
  }
  const int last_index_added = last_block_added_ * kBlockSize;
  if (end_index <= last_index_added) {
    VCD_DFATAL << "BlockHash::AddAllBlocksThroughIndex() called"
                  " with index " << end_index
               << " <= last index added ( " << last_index_added
               << ")" << VCD_ENDL;
    return;
  }
  int end_limit = end_index;
  // Don't allow reading any indices at or past source_size_.
  // The Hash function extends (kBlockSize - 1) bytes past the index,
  // so leave a margin of that size.
  int last_legal_hash_index = static_cast<int>(source_size() - kBlockSize);
  if (end_limit > last_legal_hash_index) {
    end_limit = last_legal_hash_index + 1;
  }
  const char* block_ptr = source_data() + NextIndexToAdd();
  const char* const end_ptr = source_data() + end_limit;
  while (block_ptr < end_ptr) {
    AddBlock(RollingHash<kBlockSize>::Hash(block_ptr));
    block_ptr += kBlockSize;
  }
}

AddAllBlocks首先调用AddAllBlocksThroughIndex，注意参数，是dict的长度。AddAllBlocksThroughIndex的作用是从(last_block_added+1)*blocksize作为起始，一直到参数的作为终止，期间所有完整的block，均会被顺序加入哈希表，至于末尾不够一个block的数据，则直接忽略掉。AddAllBlocksThroughIndex函数的末尾，通过一个循环调用AddBlock将具体的block加入哈希表，在参数里，又调用了RollingHash<kBlockSize>::Hash函数计算block的哈希值。我们以此看一下这2个函数，首先是AddBlock：

void BlockHash::AddBlock(uint32_t hash_value) {
  if (hash_table_.empty()) {
    VCD_DFATAL << "BlockHash::AddBlock() called before BlockHash::Init()"
               << VCD_ENDL;
    return;
  }
  // The initial value of last_block_added_ is -1.
  int block_number = last_block_added_ + 1;
  const int total_blocks =
      static_cast<int>(source_size_ / kBlockSize);  // round down
  if (block_number >= total_blocks) {
    VCD_DFATAL << "BlockHash::AddBlock() called"
                  " with block number " << block_number
               << " that is past last block " << (total_blocks - 1)
               << VCD_ENDL;
    return;
  }
  if (next_block_table_[block_number] != -1) {
    VCD_DFATAL << "Internal error in BlockHash::AddBlock(): "
                  "block number = " << block_number
               << ", next block should be -1 but is "
               << next_block_table_[block_number] << VCD_ENDL;
    return;
  }
  const uint32_t hash_table_index = GetHashTableIndex(hash_value);
  const int first_matching_block = hash_table_[hash_table_index];
  if (first_matching_block < 0) {
    // This is the first entry with this hash value
    hash_table_[hash_table_index] = block_number;
    last_block_table_[block_number] = block_number;
  } else {
    // Add this entry at the end of the chain of matching blocks
    const int last_matching_block = last_block_table_[first_matching_block];
    if (next_block_table_[last_matching_block] != -1) {
      VCD_DFATAL << "Internal error in BlockHash::AddBlock(): "
                    "first matching block = " << first_matching_block
                 << ", last matching block = " << last_matching_block
                 << ", next block should be -1 but is "
                 << next_block_table_[last_matching_block] << VCD_ENDL;
      return;
    }
    next_block_table_[last_matching_block] = block_number;
    last_block_table_[first_matching_block] = block_number;
  }
  last_block_added_ = block_number;
}

上述函数就是之前描述的加入哈希表，然后拉链解决冲突的过程，具体不再解释了，代码应该比较清楚。然后再来看一下哈希的计算函数RollingHash<kBlockSize>::Hash，代码如下：

// Compute a hash of the window "ptr[0, window_size - 1]".
  static uint32_t Hash(const char* ptr) {
    uint32_t h = RollingHashUtil::HashFirstTwoBytes(ptr);
    for (int i = 2; i < window_size; ++i) {
      h = RollingHashUtil::HashStep(h, ptr[i]);
    }
    return h;
  }

这里的window_size是模板参数，在本例中即是Block的size 16。就是一个滚动技术哈希的过程，看一下涉及的2个函数，HashFirstTwoBytes和HashStep，其中又会设计部分常量及取模操作，代码如下：

 // Multiplier for incremental hashing.  The compiler should be smart enough to
 // convert (val * kMult) into ((val << 8) + val).
 static const uint32_t kMult = 257;

 // All hashes are returned modulo "kBase".  Current implementation requires
 // kBase <= 2^32/kMult to avoid overflow.  Also, kBase must be a power of two
 // so that we can compute modulus efficiently.
 static const uint32_t kBase = (1 << 23);

 // Returns operand % kBase, assuming that kBase is a power of two.
 static inline uint32_t ModBase(uint32_t operand) {
    return operand & (kBase - 1);
 }
 
 static inline uint32_t HashFirstTwoBytes(const char* ptr) {
    return (static_cast<unsigned char>(ptr[0]) * kMult)
        + static_cast<unsigned char>(ptr[1]);
 }
 
 static inline uint32_t HashStep(uint32_t partial_hash,
                                  unsigned char next_byte) {
    return ModBase((partial_hash * kMult) + next_byte);
 }

以上介绍了HashDictionary初始化后的流程以及数据结构设计，下篇会继续介绍实际编码流程。

Nginx gzip压缩、expires缓存时间 Sunrise清风 Nginx linux
原理:浏览器---请求---->声明可以接受gzip压缩或deflate压缩或compress或sdch压缩从http协议的角度看--请求头声明acceopt-encoding:gzipdeflatesdch(是指压缩算法,其中sdch是google倡导的一种压缩方式,目前支持的服务器尚不多)服务器-->回应---把内容用gzip方式压缩---->发给浏览器浏览80字节,而且压缩也是耗费CPU资源
Python解析html的几种操作方式？？？？？ python
解析html是爬虫后的重要的一个处理数据的环节。一下记录解析html的几种方式。先介绍基础的辅助函数，主要用于获取html并输入解析后的结束#把传递解析函数，便于下面的修改defget_html(url,paraser=bs4_paraser):headers={'Accept':'*/*','Accept-Encoding':'gzip,deflate,sdch','Accept-Languag
Request Headers 里面的 Accept 属性 monica888888 jsp 浏览器 http web服务器 servlet Request Headers 里面的
文章来源：https://tools.ietf.org/html/rfc7231#section-1.1例子：Accept:text/html,application/xhtm+xml,application/xml;q=0.9,image/webp,*/*;q=0.8Accept-Encoding:gzip,deflate,sdch,brAccept-Language:zh-CN,zh;q=0.
从python爬虫引发出的gzip,deflate,sdch,br压缩算法分析 asiwuy9180
今天在使用python爬虫时遇到一个奇怪的问题,使用的是自带的urllib库，在解析网页时获取到的为b'\x1f\x8b\x08\x00\x00\x00\x00...等十六进制数字，尝试使用chardet来检查编码格式时发现encoding为None,因为以前一直用的是requests库，所以没有仔细注意过这个问题，经过详细搜索后分析如下（下面代码是修改后加入gzip的）：转载注明http://w
用requests爬虫拒绝301/302页面的重定向而拿到Location(重定向页面URL)的方法 Mao_code python爬虫笔记
defyunsite():'url'headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding':'gzip,deflate,sdch,br','Accept-Language':'zh-CN,zh;q=0.8','Connection
05_nginx之gzip压缩对方不想理你并向你抛出一个异常
gizp压缩官方文档http://nginx.org/en/docs/http/ngx_http_gzip_module.html网页内容的压缩编码与传输速度优化，我们观察news.163.com的头信息请求:Accept-Encoding:gzip,deflate,sdch响应:Content-Encoding:gzipContent-Length:36093再把页面另存下来,观察,约10W字节
如何将一个非ASCII编码的字典格式数据按照中文输入一个文件 Philosopher_
注意json的dump方法中的ensure_ascii参数的值:默认为True,这样输出所有非ASCII编码的时候,就会采用"u\xxxxx"的形式若改为False,则非ASCII编码的字符就会按照原本的字符形式输入importrequestsimportjsonheaders={'Pragma':'no-cache','Accept-Encoding':'gzip,deflate,sdch','
Ajax中的setRequestHeader设置请求头小※兽
Ajax中的setRequestHeader设置请求头1、问题引发点:前不久发现一个问题:前端并没有设置请求头信息里面的Accept-Encoding:gzip...但是在请求头中可以明显的看到Accept-Encoding:gzip,deflate,sdch,并且我尝试修改这个请求头，发现不生效；2、XMLHttpRequest对象提供了一个设置请求头的方法:setRequestHeader，对
对Python3 解析html的几种操作方式小结极客点儿
解析html是爬虫后的重要的一个处理数据的环节。一下记录解析html的几种方式。先介绍基础的辅助函数，主要用于获取html并输入解析后的结束#把传递解析函数，便于下面的修改defget_html(url,paraser=bs4_paraser):headers={'Accept':'*/*','Accept-Encoding':'gzip,deflate,sdch','Accept-Languag
Nginx中gzip配置 Fe_cow丿 Nginx
Nginx中gzip配置：一、作用：减少从服务器下载的文件和请求的资源大小，大幅提高页面加载速度。二、原理：浏览器------请求------->声明可以接收gzip压缩；或者deflate压缩；或compress压缩；或sdch压缩从http协议的角度看----请求头声明:acceopt-encoding:gzipdeflatesdch[是指压缩算法,其中sdch是google倡导的一种压缩方式
ajax中的setRequestHeader设置请求头 hong2511
原文地址为：ajax中的setRequestHeader设置请求头1、问题引发点:前不久发现一个问题:前端并没有设置请求头信息里面的Accept-Encoding:gzip...但是在请求头中可以明显的看到Accept-Encoding:gzip,deflate,sdch,并且我尝试修改这个请求头，发现不生效；2、XMLHttpRequest对象提供了一个设置请求头的方法:setRequestHe
python requests用url爬妹子套图保存在文件夹杀手binsen python爬虫
参考文章：http://cuiqingcai.com/3179.html代码可封装成函数，此仅为学习第一种：importrequestsheaders={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding':'gzip,deflate,sdch'
Http--Header zlcook
Encoding请求：Accept-Encoding响应：Content-Encoding取值：gzip、deflate、sdch作用：对请求体和响应体进行压缩，压缩文本数据能减少带宽并加快显示速度。压缩的时间会远小于传输的时间，所以不用担心压缩。请求头响应头Connection请求：Connection响应：Connection取值范围：Keep-Alive、Close作用：Keep-Alive
使用Brotli提高网站访问速度 icyfire 前端优化前端性能
使用Brotli提高网站访问速度在优化网站打开速度上，我们有很多的方法，而其中一个就是减少诸如Javascript和CSS等资源文件的大小，而减少文件大小的方法除了在代码上下功夫外，最常用的方法就是使用压缩算法对文件进行压缩。目前，网站普遍使用的是gzip压缩算法，当然你可能还知道deflate和sdch算法，但是最近两年新兴了一个新的压缩算法：Brotli，下面我将会对这个算法进行简单的介绍。什
Python的验证码识别，模拟ajax请求，爬取优酷会员（滑稽） Recar Python 爬虫
首先想写一个爬取一个网站的优酷会员分享，但是是要输入验证码。首先，我用谷歌分析其验证码的请求。然后拼接url去访问发现做了限制那么应该是做了检测对请求头。复制刷新验证码图片的请求头。自己构造个请求，并写出图片defgetyzm():headers={'Accept-Encoding':'gzip,deflate,sdch','Accept-Language':'zh-CN,zh;q=0.8','C
Nginx启用GZIP压缩网页传输方法(推荐) kwinH
原理:浏览器―请求―->声明可以接受gzip压缩或deflate压缩或compress或sdch压缩从http协议的角度看�C请求头声明acceopt-encoding:gzipdeflatesdch(是指压缩算法,其中sdch是google倡导的一种压缩方式,目前支持的服务器尚不多)服务器�C>回应―把内容用gzip方式压缩―->发给浏览器浏览80字节,而且压缩也是耗费CPU资源的.比较小的文件
ajax中的setRequestHeader设置请求头暗语321
1、问题引发点:前不久发现一个问题:前端并没有设置请求头信息里面的Accept-Encoding:gzip...但是在请求头中可以明显的看到Accept-Encoding:gzip,deflate,sdch,并且我尝试修改这个请求头，发现不生效；2、XMLHttpRequest对象提供了一个设置请求头的方法:setRequestHeader，对应的jQuery可以再beforeSend回调里面设置
Python每日一练(3):爬取百度贴吧图片 weixin_30399821 python
importrequests,re#先把要访问URL和头部准备好url='http://tieba.baidu.com/p/2166231880'head={'Accept':'*/*','Accept-Encoding':'gzip,deflate,sdch','Accept-Language':'zh-CN,zh;q=0.8','Connection':'keep-alive'}#获取html
HTTP 协议之压缩 rnZuoZuo
注意：请求头中写了Accept-Encoding:gzip,deflate,sdch不代表返回的数据就一定是GZIP压缩的，需要服务器那边处理才可以（测试结论）HTTP压缩是指:Web服务器和浏览器之间压缩传输的”文本内容“的方法。HTTP采用通用的压缩算法，比如gzip来压缩HTML,Javascript,CSS文件。能大大减少网络传输的数据量，提高了用户显示网页的速度。当然，同时会增加一点点服
HTTP压缩算法SDCH socket
程序设计中使用的那些共享方法或者技术前段时间看了个paper是讲述谷歌浏览器使用的压缩方法SDCH，其实原理还是比较简单的。看了论文后就想总结一下程序中使用的一些共享方法或者技术吧。 1.Google最近发明的HTTP压缩算法SDCH 　　SDCH的全称是Shared Dictionary Compression over HTTP的简写。　　SDCH的基于以下的事实：　　
13 nginx gzip压缩提升网站速度 nginx
一：nginx gzip压缩提升网站速度我们观察news.163.com的头信息请求: Accept-Encoding:gzip,deflate,sdch 响应: Content-Encoding:gzip Content-Length:36093 再把页面另存下来,观察,约10W字节,实际传输的36093字节原因-------就在于gzip压缩上. 原理:
动态网站学习笔记（1）学习笔记
1. 为什么给一个URL发送的http请求里会有host这一项 Accept:text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Charset:GBK,utf-8;q=0.7,*;q=0.3 Accept-Encoding:gzip,deflate,sdch Accept-Language:zh-
Python 3 之 Chrom 截获的Headers转成dict格式 kinglearnjava
如题，直接复制Chrom截获的Headers如下：Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 Accept-Encoding:gzip,deflate,sdch Accept-Language:zh-CN,zh;q=0.8 Connection:keep-alive Cookie
扒一扒各大电商网站的m站都用的什么前端技术输入日志标题前端
凡客首页使用Swiper和zepto，没有使用jquery ，静态首页+js交互，资源加载使用 lazyLoad X-AspNet-Version: 4.0.30319 X-AspNetMvc-Version: 3.0 X-Powered-By: ASP.NET Accept-Encoding: gzip, deflate, sdch
程序设计中使用的那些共享方法或者技术程序设计
前段时间看了个paper是讲述谷歌浏览器使用的压缩方法SDCH，其实原理还是比较简单的。看了论文后就想总结一下程序中使用的一些共享方法或者技术吧。 1.Google最近发明的HTTP压缩算法SDCH 　　SDCH的全称是Shared Dictionary Compression over HTTP的简写。　　SDCH的基于以下的事实：　　(1)在HTTP的传输文件之间有大量重复冗余
高性能web网站优化原则4——利用gzip压缩组件 jobar GZip
从HTTP/1.1开始，web客户端在http请求头Accept-Encoding里支持压缩技术 Accept-Encoding:gzip, deflate, sdch 如果服务器看到这个请求，就可以用客户端给定列表里面的压缩方法压缩响应数据，web服务器使用响应头Content-Encoding来通知客户端Conte
nginx gzip压缩提升网站速度 freedomai
观察news.163.com的头信息请求:Accept-Encoding:gzip,deflate,sdch响应:Content-Encoding:gzipContent-Length:36093再把页面另存下来,观察,约10W字节,实际传输的36093字节原因-------就在于gzip压缩上.原理: 浏览器---请求---->声明可以接受gzip压缩或deflate压缩或compress或sd
curl ywc
curl"https://www.google.com/"-H"accept-encoding:gzip,deflate,sdch"-H"accept-language:zh-CN,zh;q=0.8"-H"user-agent:Mozilla/5.0(Linux;Android4.2.1;en-us;Nexus5Build/JOP40D)AppleWebKit/535.19(KHTML,likeG
curl ywc
curl"https://www.google.com/"-H"accept-encoding:gzip,deflate,sdch"-H"accept-language:zh-CN,zh;q=0.8"-H"user-agent:Mozilla/5.0(Linux;Android4.2.1;en-us;Nexus5Build/JOP40D)AppleWebKit/535.19(KHTML,likeG
还以为SDCH是什么高端的东西， cteng 压缩 http sdch
原来不过是在服务器、客户端都存储一份相同的字典，用于压缩网站连续页面中相同的内容（比如header、footer、广告什么的）主要就是为了节省流程加快传输不过这实在没啥意思简直令人厌倦了
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

open-vcdiff流式编码过程分析（一）

你可能感兴趣的:(open-vcdiff,sdch)