ZhaoYingChao88

Redis HBase Es HyperLogLog与BloomFilter笔记

什么是布隆过滤器？
它实际上是一个很长的二进制向量和一系列随机映射函数。把一个目标元素通过多个hash函数的计算，将多个随机计算出的结果映射到二进制向量的位中，依次来间接标记一个元素是否存在于一个集合中。
布隆过滤器可以做什么？
布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。
布隆过滤器特点
如果布隆过滤器显示一个元素不存在于集合中，那么这个元素100%不存在与集合当中
如果布隆过滤器显示一个元素存在于集合中，那么很有可能存在，可能性取决于对布隆过滤器的定义（BF.RESERVE {key} {error_rate} {capacity}）

布隆过滤器的原理图，这个就很容易理解了。

Bloom Filter实现

要实现一个布隆过滤器，我们需要预估要存储的数据量为n，期望的误判率为P，然后计算位图的大小m，哈希函数的个数k，并选择哈希函数。

求位图大小m公式：

哈希函数数目k公式：

Python中已经有实现布隆过滤器的包：pybloom

安装

pip install pybloom

简单的看一下实现：

class BloomFilter(object):
    FILE_FMT = b'>> b = BloomFilter(capacity=100000, error_rate=0.001)
        >>> b.add("test")
        False
        >>> "test" in b
        True
        """
        if not (0 < error_rate < 1):
            raise ValueError("Error_Rate must be between 0 and 1.")
        if not capacity > 0:
            raise ValueError("Capacity must be > 0")
        # given M = num_bits, k = num_slices, P = error_rate, n = capacity
        #       k = log2(1/P)
        # solving for m = bits_per_slice
        # n ~= M * ((ln(2) ** 2) / abs(ln(P)))
        # n ~= (k * m) * ((ln(2) ** 2) / abs(ln(P)))
        # m ~= n * abs(ln(P)) / (k * (ln(2) ** 2))
        num_slices = int(math.ceil(math.log(1.0 / error_rate, 2)))
        bits_per_slice = int(math.ceil(
            (capacity * abs(math.log(error_rate))) /
            (num_slices * (math.log(2) ** 2))))
        self._setup(error_rate, num_slices, bits_per_slice, capacity, 0)
        self.bitarray = bitarray.bitarray(self.num_bits, endian='little')
        self.bitarray.setall(False)

    def _setup(self, error_rate, num_slices, bits_per_slice, capacity, count):
        self.error_rate = error_rate
        self.num_slices = num_slices
        self.bits_per_slice = bits_per_slice
        self.capacity = capacity
        self.num_bits = num_slices * bits_per_slice
        self.count = count
        self.make_hashes = make_hashfuncs(self.num_slices, self.bits_per_slice)

    def __contains__(self, key):
        """Tests a key's membership in this bloom filter.
        >>> b = BloomFilter(capacity=100)
        >>> b.add("hello")
        False
        >>> "hello" in b
        True
        """
        bits_per_slice = self.bits_per_slice
        bitarray = self.bitarray
        hashes = self.make_hashes(key)
        offset = 0
        for k in hashes:
            if not bitarray[offset + k]:
                return False
            offset += bits_per_slice
        return True

计算公式基本一致。

算法将位图分成了k段(代码中的num_slices，也就是哈希函数的数量k)，每段长度为代码中的bits_per_slice，每个哈希函数只负责将对应的段中的bit置为1：

        for k in hashes:
            if not skip_check and found_all_bits and not bitarray[offset + k]:
                found_all_bits = False
            self.bitarray[offset + k] = True
            offset += bits_per_slice

当期望误判率为0.001时，m与n的比率大概是14：

>>> import math
>>> abs(math.log(0.001))/(math.log(2)**2)
14.37758756605116

当期望误判率为0.05时，m与n的比率大概是6：

>>> import math
>>> abs(math.log(0.05))/(math.log(2)**2)
6.235224229572683

上述题目中，m最大为320亿，n为50亿，误判率大概为0.04，在可以接受的范围：

>>> math.e**-((320/50.0)*(math.log(2)**2))
0.04619428041606246

应用

布隆过滤器一般用于在大数据量的集合中判定某元素是否存在：

1. 缓存穿透：

缓存穿透，是指查询一个数据库中不一定存在的数据。正常情况下，查询先进行缓存查询，如果key不存在或者key已经过期，再对数据库进行查询，并将查询到的对象放进缓存。如果每次都查询一个数据库中不存在的key，由于缓存中没有数据，每次都会去查询数据库，很可能会对数据库造成影响。

缓存穿透的一种解决办法是为不存在的key缓存一个空值，直接在缓存层返回。这样做的弊端就是缓存太多空值占用了太多额外的空间，这点可以通过给缓存层空值设立一个较短的过期时间来解决。

另一种解决办法就是使用布隆过滤器，查询一个key时，先使用布隆过滤器进行过滤，如果判断请求查询key值存在，则继续查询数据库；如果判断请求查询不存在，直接丢弃。

2. 爬虫：

在网络爬虫中，用于URL去重策略。

3. 垃圾邮件地址过滤

由于垃圾邮件发送者可以不停地注册新地址，垃圾邮件的Email地址是一个巨量的集合。使用哈希表存贮几十亿个邮件地址可能需要上百GB的内存，而布隆过滤器只需要哈希表1/8到1/4的大小就能解决问题。布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。至于误判问题，常见的补救办法是在建立一个小的白名单，存储那些可能被误判的清白邮件地址。

4. Google的BigTable

Google的BigTable也使用了布隆过滤器，以减少不存在的行或列在磁盘上的I/O。

5. Summary Cache

Summary Cache是一种用于代理服务器Proxy之间共享Cache的协议。可以使用布隆过滤器构建Summary Cache，每一个Cache的网页由URL唯一标识，因此Proxy的Cache内容可以表示为一个URL列表。进而我们可以将URL列表这个集合用布隆过滤器表示。

扩展

要实现删除元素，可以采用Counting Bloom Filter。它将标准布隆过滤器位图的每一位扩展为一个小的计数器(Counter)，插入元素时将对应的k个Counter的值分别加1，删除元素时则分别减1:

代价就是多了几倍的存储空间。

==============================================================================

HyperLogLog与布隆过滤器都是针对大数据统计存储应用场景下的知名算法。

HyperLogLog是在大数据的情况下关于数据基数的空间复杂度优化实现，布隆过滤器是在大数据情况下关于检索一个元素是否在一个集合中的空间复杂度优化后的实现。

在传统的数据量比较低的应用服务中，我们要实现数据基数和数据是否存在分析的功能，通常是简单的把所有数据存储下来，直接count一下就是基数了，而直接检索一个元素是否在一个集合中也很简单。

但随着数据量的急剧增大，传统的方式已经很难达到工程上的需求。过大的数据量无论是在存储还是在查询方面都存在巨大的挑战，无论我们是用位存储还是树结构存储等方式来优化，都没法达到大数据时代的要求或者是性价比太低。

HyperLogLog原理

最直白的解释是，给定一个集合 S，对集合中的每一个元素，我们做一个哈希，假设生成一个 16 位的比特串，从所有生成的比特串中挑选出前面连续 0 次数最多的比特串，假设为 0000000011010110，连续 0 的次数为 8，因此我们可以估计该集合 S 的基数为 2^9。当然单独用这样的单一估计偶然性较大，导致误差较大，因此在实际的 HyperLogLog 算法中，采取分桶平均原理了来消除误差。（这段话引用了 HyperLogLog 原理中的描述，还有一些细节实现感兴趣可阅读 https://blockchain.iethpay.com/hyperloglog-theory.html）

特点：实现牺牲了一定的准确度（在一些场景下是可以忽略的），但却实现了空间复杂度上的极大的压缩，可以说是性价比很高的。

虽然基数不完全准确，但是可以符合，随着数量的递增，基数也是递增的。

布隆过滤器原理

布隆过滤器（Bloom Filter）的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为m，哈希函数的个数为k，以上图为例，具体的操作流程：假设集合里面有3个元素{x, y, z}，哈希函数的个数为3。首先将位数组进行初始化，将里面每个位都设置为0。对于集合里面的每一个元素，将元素依次通过3个哈希函数进行映射，每次映射都会产生一个哈希值，这个值对应位数组上面的一个点，然后将位数组对应的位置标记为1。查询W元素是否存在集合中的时候，同样的方法将W通过哈希映射到位数组上的3个点。如果3个点的其中有一个点不为1，则可以判断该元素一定不存在集合中。反之，如果3个点都为1，则该元素可能存在集合中。注意：此处不能判断该元素是否一定存在集合中，可能存在一定的误判率。可以从图中可以看到：假设某个元素通过映射对应下标为4，5，6这3个点。虽然这3个点都为1，但是很明显这3个点是不同元素经过哈希得到的位置，因此这种情况说明元素虽然不在集合中，也可能对应的都是1，这是误判率存在的原因。（这段话与图片引用于布隆过滤器(Bloom Filter)的原理和实现中的描述，还有一些细节实现感兴趣可阅读 https://www.cnblogs.com/cpselvis/p/6265825.html）

特点：巧妙的使用hash算法和bitmap位存储的方式，极大的节约了空间。

由于主要用的是hash算法的特点，所有满足和hash算法相同的规则：当过滤器返回 true时（表示很有可能该值是存在的），有一定概率是误判的，即可能不存在；当过滤器返回false时（表示确定不存在），是可以完全相信的。

我们换个数据的角度来看规则：当数据添加到布隆过滤器中时，对该数据的查询一定会返回true；当数据没有插入过滤器时，对该数据的查询大部分情况返回false，但有小概率返回true，也就是误判。

　　我们知道它最终满足的规则和hash的规则是一致的，只是组合了多个hash，使用了bitmap来存储，大大优化了存储的空间和判断的效率。

redis中的HyperLogLog

在redis中对HyperLogLog 的支持早在2.8.9的时候就有了。它的操作非常简单

PFADD 给HyperLogLog添加值
PFCOUNT 获取基数
PFMERGE 合并两个HyperLogLog数据（完美合并，分别添加和统一添加的结果是一致的）

redis中的布隆过滤器（rebloom模块扩展）

在redis中的布隆过滤器的支持是在redis4.0后支持插件的情况下，通过插件的方式实现的，redis的布隆过滤器插件地址：https://github.com/RedisLabsModules/rebloom

它的操作也很简单，以下为几个主要命令，其它命令请参考文档 https://github.com/RedisLabsModules/rebloom/blob/master/docs/Bloom_Commands.md

BF.RESERVE {key} {error_rate} {size}   创建一个布隆过滤器   key为redis存储键值，error_rate 为错误率（大于0，小于1），size为预计存储的数量（size是比较关键的，需要根据自己的需求情况合理估计，设置太小的话会增大错误率，设置太大会占用过多不必要的空间）

BF.ADD {key} {item}  添加值到布隆过滤器中（当过滤器不存在的时候会，会以默认值自动创建一个，建议最好提前创建好）  key为redis存储键值，item为值（如需要添加多个，请使用BF.MADD 可同时添加多个）

BF.EXISTS {key} {item}  判断值是否存在过滤器中  true（表示很可能存在） false （表示绝对不存在）

参考文章：

Redis中的布隆过滤器实现（rebloom模块扩展）

下载并编译
git clone git://github.com/RedisLabsModules/rebloom
cd rebloom
make
配置文件中加载rebloom
loadmodule /your_path/rebloom.so
重启Redis服务器即可
./bin/redis-cli -h 127.0.0.1 -p 6379 -a ****** shutdown
./bin/redis-server redis.conf

rebloom在Redis中的使用

bloom filter定义

BF.RESERVE {key} {error_rate} {capacity}
使用给定的期望错误率和初始容量创建空的Bloom过滤器（如果不存在的话）。如果打算向Bloom过滤器中添加许多项，则此命令非常有用，否则只能使用BF.ADD 添加项。
初始容量和错误率将决定过滤器的性能和内存使用情况。一般来说，错误率越小(即对误差的容忍度越低)，每个过滤器条目的空间消耗就越大。

bloom filter基本操作

1，BF.ADD {key} {item}
单条添加元素
向Bloom filter添加一个元素，如果该key不存在，则创建该key(过滤器)。
如果项是新插入的，则为“1”;如果项以前可能存在，则为“0”。

2，BF.MADD {key} {item} [item...]
批量添加元素
布尔数(整数)的数组。返回值为0或1的范围的数据，这取决于是否将相应的输入元素新添加到过滤器中，或者是否已经存在。

3，BF.EXISTS {key} {item}
判断单个元素是否存在
如果存在，返回1，否则返回0

4，BF.MEXISTS {key} {item} [item...]
判断多个元素是否存在
布尔数(整数)的数组。返回值为0或1的范围的数据，这取决于是否将相应的元是否已经存在于key中。

127.0.0.1:8001>  bf.reserve bloom_filter_test 0.0000001 1000000
OK
127.0.0.1:8001>  bf.reserve bloom_filter_test 0.0000001 1000000
(error) ERR item exists
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.add bloom_filter_test key1
(integer) 1
127.0.0.1:8001> bf.add bloom_filter_test key2
(integer) 1
127.0.0.1:8001>
127.0.0.1:8001> bf.madd bloom_filter_test key2 key3 key4 key5
1) (integer) 0
2) (integer) 1
3) (integer) 1
4) (integer) 1
127.0.0.1:8001> bf.exists bloom_filter_test key2
(integer) 1
127.0.0.1:8001> bf.exists bloom_filter_test key3
(integer) 1
127.0.0.1:8001> bf.mexists bloom_filter_test key3 key4 key5
1) (integer) 1
2) (integer) 1
3) (integer) 1
127.0.0.1:8001>

5，bf.insert

bf.insert{key} [CAPACITY {cap}] [ERROR {ERROR}] [NOCREATE] ITEMS {item…}
该命令将向bloom过滤器添加一个或多个项，如果它还不存在，则默认情况下创建它。有几个参数可用于修改此行为。
key:过滤器的名称
capacity:如果指定了，应该在后面加上要创建的过滤器的所需容量。如果过滤器已经存在，则忽略此参数。如果自动创建了过滤器，并且没有此参数，则使用默认容量(在模块级指定)。见bf.reserve。
error:如果指定了，后面应该跟随着新创建的过滤器的错误率(如果它还不存在)。如果自动创建过滤器而没有指定错误，则使用默认的模块级错误率。见bf.reserve。
nocreate:如果指定，表示如果过滤器不存在，就不应该创建它。如果过滤器还不存在，则返回一个错误，而不是自动创建它。如果需要在创建过滤器和添加过滤器之间进行严格的分离，可以使用这种方法。将NOCREATE与容量或错误一起指定是一个错误。
item:指示要添加到筛选器的项的开头。必须指定此参数。

127.0.0.1:8001> bf.insert bloom_filter_test2 items  key1 key2 key3
1) (integer) 1
2) (integer) 1
3) (integer) 1
127.0.0.1:8001> bf.insert bloom_filter_test2 items  key1 key2 key3
1) (integer) 0
2) (integer) 0
3) (integer) 0
127.0.0.1:8001> bf.insert bloom_filter_test2 capacity  10000 error 0.00001  nocreate  items  key1 key2 key3
1) (integer) 0
2) (integer) 0
3) (integer) 0
127.0.0.1:8001>
127.0.0.1:8001> bf.insert bloom_filter_test2 capacity  10000 error 0.00001  nocreate  items  key4 key5 key6
1) (integer) 1
2) (integer) 1
3) (integer) 1
127.0.0.1:8001>

bf持久化操作

BF.SCANDUMP {key} {iter}

对bloom过滤器进行增量保存。这对于不能适应常规save和restore模型的大型bloom filter非常有用。
第一次调用这个命令时，iter的值应该是0。这个命令将返回连续的(iter, data)对，直到(0,NULL)，以表示完成
Python伪代码演示:

chunks = []
iter = 0
while True:
    iter, data = BF.SCANDUMP(key, iter)
    if iter == 0:
        break
    else:
        chunks.append([iter, data])

# Load it back
for chunk in chunks:
    iter, data = chunk
    BF.LOADCHUNK(key, iter, data)

bf.scandump示例

127.0.0.1:8001> bf.scandump bloom_filter_test2 0
1) (integer) 1
2) "\x06\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x04\x00\x00\x00\x80\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x06\x00\x00\x00\x00\x00\x00\x00{\x14\xaeG\xe1z\x84?\x88\x16\x8a\xc5\x8c+#@\a\x00\x00\x00j\x00\x00\x00\n"
127.0.0.1:8001> bf.scandump bloom_filter_test2 1
1) (integer) 129
2) "\x00\x00\x00\x00\xa2\x00\x00\x00\x00\x00\x00B\x01\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00 \x00\x00\b\x00\x00\x00\x00\b\x00\x00@\x00\x01\x04\x18\x02\x00\x00\x00\x82\x00\x00\x80@\x00\b\x00\x00\x00\x00 \x00\x00@\x00\x00\x00\x00\x18\b\x00\b\x00\b\x00\x80B\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x00 (\x00\x00\x00\x00@\x00\x00\x00\x00@\x00\x00\x04\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x80\x00\x00@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\b"
127.0.0.1:8001> bf.scandump bloom_filter_test2 129
1) (integer) 0
2) ""
127.0.0.1:8001>

blool filter数据类型的属性

bf.debug

这里可以看到，随着bloom filter元素的增加，其空间容量也在不断地增加

127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:5"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:5 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:128955"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:128955 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:380507"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:380507 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:569166"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:569166 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:852316"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:852316 ratio:1e-07"
127.0.0.1:8001>
127.0.0.1:8001>
127.0.0.1:8001> bf.debug bloom_filter_test
1) "size:1000005"
2) "bytes:4194304 bits:33554432 hashes:24 hashwidth:64 capacity:1000200 size:1000005 ratio:1e-07"
127.0.0.1:8001>

关于布隆过滤器数据类型的空间分析

redis的bigkeys选项可以分析整个实例中的big keys信息，但是无法分析出MBbloom--类型的key值得大小

这里基于Redis的debug object功能，实现对MBbloom--类型的key的统计（没有找到怎么用Python执行bf.debug原生命令的执行方式）。

import redis
import sys
import time
import random

def get_bf_bigkeys():
    try:
        redis_conn = redis.StrictRedis(host='127.0.0.1', port=8001, db=0, password='******')
    except:
        print("connect redis error")
        sys.exit(1)
    dict_key = {}
    cursor = 1
    while cursor != 0:
        if cursor == 1:
            key = redis_conn.scan(cursor=0, match='*',  count=5000)
        else:
            key = redis_conn.scan(cursor=cursor,match='*', count=5000)
        cursor = key[0]
        if len(key[1]) > 0:
            for var in key[1]:
                if str(redis_conn.type(var), encoding = "utf-8") == 'MBbloom--':
                    info = redis_conn.debug_object(var)
                    dict_key[var] = float(info['serializedlength']) / 1024 / 1024  # byte ---> mb

        res = sorted(dict_key.items(), key=lambda dict_key: dict_key[1], reverse=True)
        for i in range(10 if len(res) > 10 else len(res)):
            print(res[i])


if __name__ == "__main__":
    get_bf_bigkeys()

统计结果示例如下

[root@tencent02 redis8001]# python3 static_big_bf_keys.py
(b'bloom_filter_test', 4.000059127807617)
(b'my_bf2', 0.04577445983886719)
(b'bloom_filter_test2', 0.00014019012451171875)
(b'my_bf1', 0.0001220703125)
[root@tencent02 redis8001]#

===================================================================

1、主要功能

提高随机读的性能

介绍一下HBase的块索引机制。块索引是HBase固有的一个特性，因为HBase的底层数据是存储在HFile中的，而每个HFile中存储的是有序的键值对，HFile文件内部由连续的块组成[1]，每个块中存储的第一行数据的行键组成了这个文件的块索引，这些块索引信息存储在文件尾部。当HBase打开一个HFile时，块索引信息会优先加载到内存；HBase首先在内存的块索引中进行二分查找，确定可能包含给定键的块，然后读取磁盘块找到实际想要的键（重点啊）。
但实际应用中，仅仅只有块索引满足不了需求，这是因为，块索引能帮助我们更快地在一个文件中找到想要的数据，但是我们可能依然需要扫描很多文件。而布隆过滤器就是为解决这个问题而生。因为布隆过滤器的作用是，用户可以立即判断一个文件是否包含特定的行键，从而帮我们过滤掉一些不需要扫描的文件。如下图所示，块索引显示每个文件中都可能包含对应的行键，而布隆过滤器能帮我们跳过一些明显不包含对应行键的文件。

2、存储开销

bloom filter的数据存在StoreFile的meta中，一旦写入无法更新，因为StoreFile是不可变的。Bloomfilter是一个列族（cf）级别的配置属性，如果你在表中设置了Bloomfilter，那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据，称其为MetaBlock；MetaBlock与DataBlock（真实的KeyValue数据）一起由LRUBlockCache维护。所以，开启bloomfilter会有一定的存储及内存cache开销。

3、控制粒度

a)ROW

根据KeyValue中的row来过滤storefile

举例：假设有2个storefile文件sf1和sf2，

sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

sf2包含kv3（r3 cf:q1 v）、kv4（r4 cf:q1 v）

如果设置了CF属性中的bloomfilter为ROW，那么get(r1)时就会过滤sf2，get(r3)就会过滤sf1

b)ROWCOL

根据KeyValue中的row+qualifier来过滤storefile

举例：假设有2个storefile文件sf1和sf2，

sf1包含kv1（r1 cf:q1 v）、kv2（r2 cf:q1 v）

sf2包含kv3（r1 cf:q2 v）、kv4（r2 cf:q2 v）

如果设置了CF属性中的bloomfilter为ROW，无论get(r1,q1)还是get(r1,q2)，都会读取sf1+sf2；而如果设置了CF属性中的bloomfilter为ROWCOL，那么get(r1,q1)就会过滤sf2，get(r1,q2)就会过滤sf1

4、常用场景

1、根据key随机读时，在StoreFile级别进行过滤

2、读数据时，会查询到大量不存在的key，也可用于高效判断key是否存在

5、举例说明

假设x、y、z三个key存在于table中，W不存在

使用Bloom Filter可以帮助我们减少为了判断key是否存在而去做Scan操作的次数

step1）分别对x、y、z运算hash函数取得bit mask，写到Bloom Filter结构中

step2）对W运算hash函数，从Bloom Filter查找bit mask

如果不存在：三个Bit位至少有一个为0，W肯定不存在该（Bloom Filter不会漏判）

如果存在：三个Bit位全部全部等于1，路由到负责W的Region执行scan，确认是否真的存在（Bloom Filter有极小的概率误判）

6、源码解析

1.get操作会enable bloomfilter帮助剔除掉不会用到的Storefile

在scan初始化时（get会包装为scan）对于每个storefile会做shouldSeek的检查，如果返回false，则表明该storefile里没有要找的内容，直接跳过

if (memOnly == false    
            && ((StoreFileScanner) kvs).shouldSeek(scan, columns)) {    
          scanners.add(kvs);    
}

shouldSeek方法：如果是scan直接返回true表明不能跳过，然后根据bloomfilter类型检查。


if (!scan.isGetScan()) {    
        return true;    
}    
byte[] row = scan.getStartRow();    
switch (this.bloomFilterType) {    
  case ROW:    
    return passesBloomFilter(row, 0, row.length, null, 0, 0);    
   
  case ROWCOL:    
    if (columns != null && columns.size() == 1) {    
      byte[] column = columns.first();    
      return passesBloomFilter(row, 0, row.length, column, 0, column.length);    
    }    
    // For multi-column queries the Bloom filter is checked from the    
    // seekExact operation.    
    return true;    
   
  default:    
    return true;  
}

2.指明qualified的scan在配了rowcol的情况下会剔除不会用掉的StoreFile。

对指明了qualify的scan或者get进行检查：seekExactly

// Seek all scanners to the start of the Row (or if the exact matching row    
// key does not exist, then to the start of the next matching Row).    
if (matcher.isExactColumnQuery()) {    
  for (KeyValueScanner scanner : scanners)    
  scanner.seekExactly(matcher.getStartKey(), false);    
} else {    
  for (KeyValueScanner scanner : scanners)    
  scanner.seek(matcher.getStartKey());    
}

如果bloomfilter没命中，则创建一个很大的假的keyvalue，表明该storefile不需要实际的scan

public boolean seekExactly(KeyValue kv, boolean forward)    
      throws IOException {    
    if (reader.getBloomFilterType() != StoreFile.BloomType.ROWCOL ||    
        kv.getRowLength() == 0 || kv.getQualifierLength() == 0) {    
      return forward ? reseek(kv) : seek(kv);    
    }    
    
    boolean isInBloom = reader.passesBloomFilter(kv.getBuffer(),    
        kv.getRowOffset(), kv.getRowLength(), kv.getBuffer(),    
        kv.getQualifierOffset(), kv.getQualifierLength());    
    if (isInBloom) {    
      // This row/column might be in this store file. Do a normal seek.    
      return forward ? reseek(kv) : seek(kv);    
    }    
    
    // Create a fake key/value, so that this scanner only bubbles up to the top    
    // of the KeyValueHeap in StoreScanner after we scanned this row/column in    
    // all other store files. The query matcher will then just skip this fake    
    // key/value and the store scanner will progress to the next column.    
    cur = kv.createLastOnRowCol();    
    return true;    
}

这边为什么是rowcol才能剔除storefile纳，很简单，scan是一个范围，如果是row的bloomfilter不命中只能说明该rowkey不在此storefile中，但next rowkey可能在。而rowcol的bloomfilter就不一样了，如果rowcol的bloomfilter没有命中表明该qualifiy不在这个storefile中，因此这次scan就不需要scan此storefile了！

7、总结

1.任何类型的get（基于rowkey或row+col）Bloom Filter的优化都能生效，关键是get的类型要匹配Bloom Filter的类型

2.基于row的scan是没办法走Bloom Filter的。因为Bloom Filter是需要事先知道过滤项的。对于顺序scan是没有事先办法知道rowkey的。而get是指明了rowkey所以可以用Bloom Filter，scan指明column同理。

3.row+col+qualify的scan可以去掉不存在此qualify的storefile，也算是不错的优化了，而且指明qualify也能减少流量，因此scan尽量指明qualify

======================================

ES的聚合是其一大特色。然而出于性能的考虑， ES的聚合是以分片Shard为单位，而非Index为单位，所以

有些聚合的准确性是需要注意的。比如： TermAggregations.

es的基数聚合使用到了hyperloglog算法。出于好奇，了解了一下。

在海量数据场景下，我们通常会遇到这样的两个问题:

数据排重。比如在推送消息场景，消息重复对用户是打扰，用户发券场景，重复发券就是损失了。
pv/uv统计。这类场景下，对精确度要求没必要锱铢必较。

如何高效解决这两类问题呢？

对于数据排重，我们可以使用布隆过滤器。java 样列代码如下:

BloomFilter bloomFilter = BloomFilter.create(new Funnel() {

            private static final long serialVersionUID = 1L;

            @Override
            public void funnel(String arg0, PrimitiveSink arg1) {

                arg1.putString(arg0, Charsets.UTF_8);
            }

        }, 1024*1024*32);

        bloomFilter.put("asdf");
        bloomFilter.mightContain("asdf");

对于计数，我们可以使用HyperLogLog算法，ES中已经有相关的实现。

其实封装一下，布隆过滤器也是能直接实现HyperLogLog算法的功能的。

https://blockchain.iethpay.com/hyperloglog-theory.html hyperloglog原理

https://www.cnblogs.com/cpselvis/p/6265825.html 布隆过滤器原理

http://redisdoc.com/hyperloglog/index.html redis的hyperloglog的使用

https://github.com/RedisLabsModules/rebloom/blob/master/docs/Bloom_Commands.md redis的布隆过滤器的使用

你可能感兴趣的:(系统调优)

Linux系统性能调优技巧 A_aspectJ项目开发 JavaWeb技术网络工具 linux 运维服务器
前言Linux系统因其稳定性和灵活性广泛应用于服务器、开发环境和企业级应用中。然而，为了确保最佳性能，尤其是在负载较高的情况下，系统调优变得至关重要。Linux系统性能调优技巧主要包括硬件优化、软件优化、内核参数优化、进程管理优化等方面。一、硬件优化‌：‌内存优化‌：增加物理内存是最直接的方法，同时可以通过优化内存使用策略来减少内存的浪费，使用内存管理工具如free、vmstat等来监控和调整内存
Linux 系统调优之安全防护1 云端梦留白 Linux 系统 Shell 脚本 linux 安全网络服务器运维
文章目录前言1、系统命令审计2、公网防护3、服务器使用秘钥登录4、默认账户及口令文件的防护5、其他配置总结前言 Linux系统以其开放性和强大的功能成为众多企业和开发者的首选。然而，开放性也带来了安全风险。本文将探讨Linux系统调优中的安全防护策略，分享并提供一系列实用的优化措施，确保系统在高效运行的同时，也能抵御潜在的网络威胁，减少日常使用的安全隐患。大家好，我是技术界的小萌新，今天要和
Linux——系统优化 @小官人^
https://blog.csdn.net/li_wen01/article/details/82699167系统调优概述系统的运行状况：CPU->MEM->DISK*->NETWORK->应用程序调优系统性能优化的4个子系统：CPUMemoryIONetwork出现以下问题，怎么解决？1、找出系统中使用CPU最多的进程？2、找出系统中使用内存最多的进程？3、找出系统中对磁盘读写最多的进程？4、找
openGauss学习笔记-222 openGauss性能调优-系统调优-操作系统参数调优 superman超哥 openGauss学习笔记 openGauss 国产数据库开源数据库数据库 RDBMS
文章目录openGauss学习笔记-222openGauss性能调优-系统调优-操作系统参数调优222.1前提条件222.2内存相关参数设置222.3网络相关参数设置222.4I/O相关参数设置openGauss学习笔记-222openGauss性能调优-系统调优-操作系统参数调优在性能调优过程中，可以根据实际业务情况修改关键操作系统（OS）配置参数，以提升openGauss数据库的性能。222.
openGauss学习笔记-223 openGauss性能调优-系统调优-数据库系统参数调优-数据库内存参数调优 superman超哥 openGauss学习笔记 openGauss 国产数据库开源数据库数据库 RDBMS
文章目录openGauss学习笔记-223openGauss性能调优-系统调优-数据库系统参数调优-数据库内存参数调优223.1逻辑内存管理参数223.2执行算子是否下盘的参数openGauss学习笔记-223openGauss性能调优-系统调优-数据库系统参数调优-数据库内存参数调优数据库的复杂查询语句性能非常强的依赖于数据库系统内存的配置参数。数据库系统内存的配置参数主要包括逻辑内存管理的控制
基于Swoole的高性能系统监控及Nginx负载均衡的实现 Bing的天涯路
索引Part1服务监控Part2日志落盘处理Part3平滑重启Part4负载均衡监控是非常重要的，如果没有监控的情况下服务挂掉了，用户体验极差会丢失掉用户，在本文中我们会结合Linux+swoole+php来实现系统性能的监控。在一些方面性能也需要进行优化。优化可以从很多的角度处理，比如说底层代码，系统调优比如要加大核数或者是否借助es查mysql，或者不同地区用户走到哪个机房。Part1服务监控
性能测试瓶颈分析与系统调优(4)jmetrer+influxdb+grafana性能测试当代键仙 grafana java 压力测试 jmeter
3.3性能测试领域概念细分基准测试：理论推断负载测试：实际性能数据（小规模）基准测试和负载测试目的：探索程序的负载能力压力测试：取负载测试结果中最高的负载能力-压取超过预期负载的测试没看程序的性能反应耐久性测试（疲劳测试）测试时长，取决于业务场景尖峰测试：模拟突然出现的高并发负载压力，耐久，尖峰测试目的，是为了探索程序在负载情况下的反应3.4jmeter性能测试技巧csv文件驱动：jmeter读取
几个MySQL系统调优工具拾光师 MySQL 程序人生
几个MySQL系统调优工具可以使用下面几个工具来做基准测试：sysbench：一个模块化，跨平台以及多线程的性能测试工具。https://github.com/akopytov/sysbenchiibench-mysql：基于Java的MySQL/Percona/MariaDB索引进行插入性能测试工具。https://github.com/tmcallaghan/iibench-mysqltpcc
Linux 性能调优之文件系统调优(Tuning file system utilization) 山河已无恙 Linux 性能调优 linux 运维服务器
写在前面考试整理相关笔记博文内容涉及，文件系统常见调优手段不同文件系统格式适用场景分析，格式化选项，挂载日志策略调整日志和数据分离配置fstrim空间回收理解不足小伙伴帮忙指正不必太纠结于当下，也不必太忧虑未来，当你经历过一些事情的时候，眼前的风景已经和从前不一样了。——村上春树RHEL8默认文件系统为XFS，Ext4依然是可以使用的文件系统方案。XFS支持1PB的文件系统，单个文件大小限制为8E
网工内推 | 中高级网工，IE认证优先，带薪年假，五险一金 HCIE考证研究所网络网络工程师华为认证运维服务器
01敏于行（北京）科技有限公司招聘岗位：高级网络开发工程师职责描述：1、负责设计、参与数字身份安全中网络安全模块相关项目（零信任SDP、VPN等）；2、深入研究和理解网络底层协议和通信机制，提供可靠和高性能的网络解决方案；3、进行系统调优和故障排除，确保产品稳定性和性能；4、与团队成员紧密合作，解决技术难题并推动项目进展；5、持续学习和关注最新的网络技术和行业动态，提供创新的解决方案；任职要求:1
JVM性能调优大梦谁先觉i 其他 JVM jvm
一、前言性能调优，顾名思义，就是对系统或软件的性能进行优化，以提高其运行效率和响应速度。在计算机科学中，性能调优通常涉及到硬件、操作系统、数据库、网络等多个方面。对于Java开发者来说，JVM（Java虚拟机）的性能调优是非常重要的一环，因为JVM的性能直接影响到Java程序的运行效率。性能调优包含多个层次，比如:架构调优、代码调优、JVM调优、数据库调优、操作系统调优等。架构调优和代码调优是JV
JVM性能调优详解（值得收藏） java领域运维 linux 服务器 spring java
JVM性能调优详解前面我们学习了整个JVM系列，最终目标的不仅仅是了解JVM的基础知识，也是为了进行JVM性能调优做准备。这篇文章带领大家学习JVM性能调优的知识。性能调优性能调优包含多个层次，比如：架构调优、代码调优、JVM调优、数据库调优、操作系统调优等。架构调优和代码调优是JVM调优的基础，其中架构调优是对系统影响最大的。性能调优基本上按照以下步骤进行：明确优化目标、发现性能瓶颈、性能调优、
性能测试准备方案美团程序员软件测试自动化测试技术分享功能测试测试用例开发语言
性能测试目的性能调优开发人员对系统调优后，需要测试人员配合去做性能测试，验证这次优化是否有效果。如果性能指标相比较之前的性能指标更好了，说明系统优化的有效果。反之说明调优不理想新业务、新接口上线系统从无到上线，验证新系统的能力是否能够满足某段时间系统使用要求，否则当高峰期来临，系统可能会崩溃。验证系统稳定性做性能测试经常跑一两个小时或者几十分钟就可以了，但系统的稳定性，系统能否长期稳定的工作，这个
关于调优 kar_joe
操作系统调优句柄、swapiness、文件系统、网络IOJVM调优合理设置堆大小、合理选择GC收集器Broker调优尽力保持客户端版本和Broker端版本一致、合理配置参数应用层不要频繁地创建Producer和Consumer对象实例用完及时关闭合理利用多线程来改善性能Kafka的JavaProducer是线程安全的，你可以放心地在多个线程中共享同一个实例；而JavaConsumer虽不是线程安全
【论文阅读 CIDR17】Self-Driving Database Management Systems Tototototorres self-driving DB 论文阅读论文阅读数据库
Self-DrivingDatabaseManagementSystemsMySummaryABSTRACT之前的advisorytools来帮助DBA处理系统调优和物理设计的各个方面，都仍然需要人类对数据库的任何更改做出最终决定，并且是在问题发生后修复问题的反动措施reactionarymeasures。Antruly“self-driving”databasemanagementsystem(
2023 IoTDB Summit：天谋科技高级开发工程师谭新宇《优其效：如何用 IoTDB 监控工具进行深度系统调优》... Apache IoTDB iotdb 科技
12月3日，2023IoTDB用户大会在北京成功举行，收获强烈反响。本次峰会汇集了超20位大咖嘉宾带来工业互联网行业、技术、应用方向的精彩议题，多位学术泰斗、企业代表、开发者，深度分享了工业物联网时序数据库IoTDB的技术创新、应用效果，与各行业标杆用户的落地实践、解决方案，并共同探讨时序数据管理领域的行业趋势。我们邀请到天谋科技高级开发工程师，ApacheIoTDBPMCMember谭新宇参加此
Linux系统调优详解（十二）——网卡绑定技术永远是少年啊服务器运维 linux 服务器运维网络网卡绑定
今天继续给大家介绍Linux运维相关知识，本文主要内容是网卡绑定技术。一、网卡绑定技术简介网卡绑定，即在物理服务器上使用多块网卡虚拟成一块网卡，这个虚拟成的网卡由多快网卡聚合而成，可以看做一个单独的以太网接口设备，并且当一块网卡出现故障后不会影响业务。网卡绑定技术可以起到提供负载均衡、冗余或者增加带宽的作用。网卡绑定技术可以分为2类：1、负载均衡。将多块物理网卡当作一块来使用，解决一个IP地址网络
【JVM】性能调优 hope笔记 JVM Java jvm java
一、前言性能调优，顾名思义，就是对系统或软件的性能进行优化，以提高其运行效率和响应速度。在计算机科学中，性能调优通常涉及到硬件、操作系统、数据库、网络等多个方面。对于Java开发者来说，JVM（Java虚拟机）的性能调优是非常重要的一环，因为JVM的性能直接影响到Java程序的运行效率。性能调优包含多个层次，比如:架构调优、代码调优、JVM调优、数据库调优、操作系统调优等。架构调优和代码调优是JV
系统安全及应用 Miraitowa_xu 系统安全安全
目录一、系统的优化二、系统安全的加固中病毒该这么处理？1.账户管理2.锁定配置文件3.清除历史记录三、sudo1.sudo概念及优点2.使用sudo3.sudo实操演示4.设置sudo别名5.sudo特别注意一、系统的优化1.关闭不必要的开机自启动程序2.禁止使用超级管理员3.使用目录的yum源4.内核调优：1.开启路由转发功能2.TCP链接数10245.关闭核心防护selinux注意：系统调优和
38 调优kafka ZyyIsPig kafka核心技术与实战 kafka
操作系统调优1.禁止atime更新，减少文件系统的写操作。mount-onoatime2.选择高性能的文件系统，如ext4或者XFS3.swap空间设置，将swappniness设置成很小的一个值比如1～10，防止linuxOOMKiller开启随意杀掉进程。swappiness的值是个参考值，是否会发生swap跟当前是哪种pagereclaim及系统当前状态都有关系，所以设置了swappines
PTS 3.0：可观测加持的下一代性能测试服务阿里云云原生数据库阿里云云原生性能测试
作者：肖长军（穹谷）大家好，我是来自阿里云云原生应用平台的肖长军，花名穹谷，我此次分享的主题是《可观测加持的下一代性能测试服务》。提到性能测试大家并不陌生，性能测试已成为评估系统能力、识别系统弱点、进行系统调优，验证系统稳定性等的重要手段。我们一般进行性能测试的大概流程就是构造数据，配置场景，发起压测，出压测结果，但测试同学也清楚性能测试并不是这么简单，我们还面临着以下问题：一、压测前的影响范围评
Linux系统性能的四个指标：CPU、内存、磁盘、网络运维仙人运维
Linux系统调优时需要用到一些工具来查看和分析CPU/内存/磁盘/网络的情况，先根据四个方面对接的工具进行介绍。一、CPU性能调优工具1.vmstat命令vmstat(virtualmemorystatistics虚拟内存统计)的缩写。使用语法：vmstat[-V][-n][delay[count]][root@master79100~]#vmstat35procs-----------memo
8-高可用-压测与预案 Andy技术支援高并发高可用高并发高可用
在大促来临之前，研发人员需要对现有系统进行梳理，发现系统瓶颈和问题，然后进行系统调优来提升系统的健壮性和处理能力。一般通过系统压测来发现系统瓶颈和问题，然后进行系统优化和容灾(如系统参数调优、单机房容灾、多机房容灾等)。即使已经把系统优化和容灾做得非常好了，但也存在一些不稳定因素，如网络、依赖服务的SLA不稳定等，这就需要我们制定应急预案，在出现这些因素后进行路由切换或降级处理。在大促之前需要进行
健康学习到 150 岁：人体系统调优不完全指南 | 开源日报 No.93 开源服务指南开源日报 godot 开源游戏引擎
jesseduffield/lazygitStars:40.0kLicense:MITlazygit，一个用Go语言编写的简单终端UI工具，可以执行Git命令。该项目旨在让使用者更加方便地使用Git，并提供了以下功能：可视化操作：用户可以通过图形界面进行分支合并、提交等操作；快捷键支持：快速切换到常用选项和菜单；交互式重排列（InteractiveRebase）:用户可直接编辑TODO文件而不必手
MySQL之性能分析和系统调优努力学习的小飞侠 MySQL mysql android adb
MySQL之性能分析和系统调优性能分析查看执行计划EXPLAINEXPLAIN作为MySQL的性能分析神器，可以用来分析SQL执行计划，需要理解分析结果可以帮助我们优化SQLexplainselect…from…[where...]TABLE表名查询的每一行记录都对于着一张表id该语句的唯一标识。如果explain的结果包括多个id值，则数字越大越先执行；而对于相同id的行，则表示从上往下依次执行
【ES实战】Elasticsearch6.7的安装部署卸载-RPM方式顧棟 Elastic实战 elasticsearch 大数据
Elasticsearch6.7的安装部署卸载-RPM方式文章目录Elasticsearch6.7的安装部署卸载-RPM方式环境准备系统调优安装操作错误总结错误一：memlockunlimited错误二：memoryisnotlocked卸载补充知识systemctl常用指令表格RPM包采用系统默认的安装路径环境准备操作系统：CentOS7.Xrpm安装包：官网下载地址elasticsearch-
Hadoop性能调优概要说明 fjssharpsword Big data Hadoop专栏
Hadoop容易遇到的问题有：Namenode/jobtracker单点故障、HDFS小文件问题、数据处理性能等。为此“HadoopPerformanceOptimization”(HPO)是必要的。本文试着从性能调优的总体原则入手来了解概要，实际生产中遇到的问题也会在这个框架下处理。Hadoop运行环境：下面大致给出这四个层次的调优原则。1、硬件选型原则2、操作系统调优1）避免使用swap分区将
Linux常见系统调优方法 ChiZB linux 服务器运维系统安全安全网络
目录一.关闭不必要的开机自启程序二.修改国外yum源为国内yum源1.备份本地默认yum源2.下载阿里云的yum源配置文件并改名3.清理并生成缓存，效验结果三.修改主机名1.临时修改主机名2.永久修改主机名①.命令修改②.配置文件修改四.修改网卡名1.查看网卡信息2.修改/etc/default/grub配置文件3.重命名/etc/sysconfig/network-scripts网卡配置文件4.
一次java系统调优从150到最高1800的过程大鸟-0101 压测 java 开发语言
前言在做公司系统压力测试(500个线程并发)的时候某个服务的接口压测初始结果如下初始指标(最高)：吞吐量150/sTPS:240CPU,内存，带宽，磁盘io如下图所示可以看到资源使用是有问题的cpu和带宽并没有给足压力说明并不是资源所导致的瓶颈，所以现在分析代码怎么分析代码在哪里耗时比较久呢？主链路梳理前置拦截器耗时节点次数查询缓存4查询数据库3刷新缓存2写数据库1处理请求耗时节点次数查询数据库1
Linux系统调优 YJ Thoreau Linux系统管理 linux 运维数据库
文章目录系统硬件资源1．CPU2．内存3．磁盘I/O性能4．网络宽带操作系统相关资源1．系统安装优化2．内核参数优化3．文件系统优化应用程序软件资源一linux服务器性能查看1.1cpu性能查看1、查看物理cpu个数：2、查看每个物理cpu中的core个数：3、逻辑cpu的个数：1.2内存查看1、查看内存使用情况：1.3硬盘查看1、查看硬盘及分区信息：2、查看文件系统的磁盘空间占用情况：43、查看
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交