laiahu

深入理解Bloom Filter

文章转自： http://blog.csdn.net/liuben/article/details/6602683

Bloom Filter是1970年由Bloom提出的，最初广泛用于拼写检查和数据库系统中。近年来，随着计算机和互联网技术的发展，数据集的不断扩张使得 Bloom filter获得了新生，各种新的应用和变种不断涌现。Bloom filter是一个空间效率很高的数据结构，它由一个位数组和一组hash映射函数组成。Bloom filter可以用于检索一个元素是否在一个集合中，它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

基本原理

查找或判断一个元素是否存在于一个指定集合中，这是计算机科学中一个基本常见问题。通常，我们会采用线性表（数组或链表）、树（二叉树、堆、红黑树、 B+/B-/B*树）等数据结构对所有元素进行存储，并在其上进行排序和查找。这里的查找时间复杂性通常都是O(n)或O(logn)的，如果集合元素非常庞大，不仅查找速度非常慢，对内存空间的需求也非常大。假设有10亿个元素，每个元素节点占用N个字节，则存储这个集合大致需求N GB内存。大家可能很快会想到hashtable，它的查找时间复杂性是O(1)的，可以对元素进行映射索引并定位，但它并没有减少内存需求量。hash 函数的一个问题是可能会发生碰撞，即两个不同的元素产生相同的hash值，在某些场合下需要通过精确比较来解决这个问题。

实际上，判断一个元素是否存在于一个指定集合中，可能并不需要把所有集合元素的原始信息都保存下来，我们只需要记住“存在状态”即可，这往往仅仅需要几个bit就可表示。Hash函数可将一个元素映射成一个位数组中一个点，为了降低碰撞率可采用多个hash函数将元素映射成多个点。这样一来，只要看看几个位点是0或1 就可以判断某个元素是否存在于集合当中。这就是Bloom filter的基本思想，不仅可大大缩减内存空间，查找速度非常快。

Bloom filter使用一个位数组来记录元素存在状态，并使用一组hash函数(h1, h2, hk...)来对元素进行位映射。插入元素时，对该元素分别进行K次hash计算，并将映射到位数组的相应bit置1。查找元素时，任何其中一个映射位为 0则表示该元素不存在于集合当中，只要当所有映射位均为1时才表示该元素有可能存在于集合当中。换句话说，如果Bloom filter判断一个元素不在集合中，那肯定就不存在；而如果判断存在，则不一定存在，虽然这个概率很低。这个问题是由hash函数会发生碰撞的特性所决定的，它造成了Bloom filter的错误率产生。这个错误率可通过改变Bloom filter数组大小，或改变hash函数个数进行调节控制。由此可见，Bloom filter也不是完美的，它的高效也是有一定代价的，它通过容忍一定的错误率发生换取了存储空间的极大节省。另外，Bloom filter不能支持元素的删除操作，如果删除会影响其他元素的存在性正确判断。因此，Bloom Filter不适合那些“零错误”的应用场合，但是这个错误是正向的（false positive），不会发生反向的错误（false negative），判断元素不存在集合中是绝对正确的。Bloom filter使用可控的错误率获得了空间的极大节省和极快的查找性能，得到广泛应用也是理所当然的。

一点数学基础

(1)错误率估计
假设 kn < m，且hash是完全随机的，其中k为hash函数个数，n为项目数，m为位数组位数。当所有项目都被k个hash函数映射到m位数组中时，某位仍然为0的概率为(1 - 1/m)^(kn) = e^(-kn/m)，则错误率约为
f = (1 - (1-1/m)^(kn))^k = (1 - e^(-kn/m))^k
令　p = e^(-kn/m)，给定m, n，则
f = (1 - p)^k = e^(kln(1-p))

(2)最优hash函数个数
令 g = kln(1-p)，当g极小时，f取极小值，因为 ln(e^(-kn/m)) = -kn/m，
g = -m/n * ln(p) * ln(1-p)
根据对称性原理有，当 p =1/2时，g取极小值，因此，
p = e^(-kn/m) = 1/2，得到，
k = ln2 * (m/n)，此时错误率最小，即f = (1/2)^k = (0.618)^(m/n)

(3)位数组大小
给定错误率E，参考文献4中推算出当 m >= n * log2(1/E)时，f不超过E。上面我们已经推算出 k = ln2 * (m/n)时f最小，因此当hash函数个数最优时，为了让错误率不超过E，则有
m >= log2(e) * (n * log2(1/E))，这个值是正常情况下m最小值的1.44倍。

根据上面推导所得到的数学公式，假设错误率我们取0.01，则可以确定最优化情况下，m >= 9.567n，k = 7。

基本特征

从以上对基本原理和数学基础的分析，我们可以得到Bloom filter的如下基本特征，用于指导实际应用。
(1)存在一定错误率，发生在正向判断上（存在性），反向判断不会发生错误（不存在性）；
(2)错误率是可控制的，通过改变位数组大小、hash函数个数或更低碰撞率的hash函数来调节；
(3)保持较低的错误率，位数组空位至少保持在一半以上;
(4)给定m和n，可以确定最优hash个数，即k = ln2 * (m/n)，此时错误率最小；
(5)给定允许的错误率E，可以确定合适的位数组大小，即m >= log2(e) * (n * log2(1/E))，继而确定hash函数个数k；
(6)正向错误率无法完全消除，即使不对位数组大小和hash函数个数进行限制，即无法实现零错误率；
(7)空间效率高，仅保存“存在状态”，但无法存储完整信息，需要其他数据结构辅助存储；
(8)不支持元素删除操作，因为不能保证删除的安全性。

优缺点

与其它数据结构相比较，Bloom filter的最大优点是空间效率和查找时间复杂性，它的存储空间和插入/查询时间都是常数。Hash函数之间没有相关性，可以方便地由硬件并行实现。Bloom filter不需要存储元素本身，在某些对保密要求非常严格的场合有优势。另外，Bloom filter一般都可以表示大数据集的全集，而其它任何数据结构都难以做到。

Bloom filter的缺点和优点一样显著，首先就是错误率。随着插入的元素数量增加，错误率也随之增加。虽然可以通过增加位数组大小或hash函数个数来降低错误率，但同时也时影响空间效率和查找性能，而且这个错误率是无法从根本上消除的。这使得要求“零错误”的场合无法应用Bloom filter。其次，一般情况下不能从Bloom filter中删除元素。一方面是我们不能保证删除的元素一定存在Bloom filter中，另一方面是不能保证安全地删除元素，可能会对其他元素产生影响，究其原因还是hash函数可能产生的碰撞造成的。计数Bloom filter可以在一定程度上支持元素删除，但保证安全地删除元素并非如此简单，它也不能从根本上解决这个问题，而且计数器回绕也会有问题。这两方面也是目前Bloom filter的重点研究方向，有不少工作，使得出现了很多Bloom filter的变种。

应用原则和案例

只要使用列表或集合，如果考虑空间效率，就可以考虑使用Bloom filter。应用时，要特别考虑bloom filter的正向错误率影响，对于“零错误”的应用需要相应的辅助机制来消除错误率，否则关键业务不可应用。

Bloom filter被广泛应用于各种领域，比如拼写检查、字符串匹配算法、网络包分析工具、Web Cache、文件系统、存储系统等，这里着重介绍一下Bloom filter在重复数据删除中的应用。主流的重复数据删除技术的基本原理是对文件进行定长或变长分块，然后利用hash函数计算数据块指纹，如果两个数据块指纹相同则认为是重复数据块（同样这里存在数据碰撞问题），只保存一个数据块副本即可，其他相同数据块使用该副本索引号表示，从而实现数据缩减存储空间并提高存储效率。为了查询一个数据块是否重复或者已经存在，需要计算数据块指纹并进行查找，并记录所有唯一数据块的指纹。举一个例子：32TB的数据，平均数据块大小为8KB，每个数据块使用MD5和SHA1计算两个指纹并用64位整数表示唯一块号则共占用44字节((128+160+64)/8），则总共最多需要176GB（32TB/8KB * 44 Byte）的存储空间来保存数据块信息。现在的去重系统数据容量通常多达数十到数百TB，如果把数据块信息全部保存在内存中，显然对内存的需求量非常巨大，出于成本考虑这对商业产品是不现实的。因此，为了在成本和性能两方面作折中，通常的做法是把数据块信息保存在磁盘或SSD上，使用一定内存量作 Cache缓存数据块指纹，利用时间局部性和空间局部性来提高查找性能。这种方法的一个关键问题是，如果新的数据块是不重复的，查找时会出现Cache不命中，从而引起大量的磁盘读写操作。由于磁盘或SSD性能要远远小于内存的，对查找性能影响非常大。Bloom filter可以有效解决这个问题，DataDomain中的Summary Vector就是采用Bloom filter来实现的。对于前面的例子，一个数据块用3个hash函数计算指纹最多占用3个位，则Bloom filter仅需要1.5GB = 32TB/8KB * 3 /8 bytes的内存空间，这即使对于普通的PC机都不是问题。引入Bloom filter机制后，对于一个新数据块，首先查找Bloom filter，如果未命中则说明这是一个新的唯一数据块，直接保存数据块和并Cachr数据块信息即可；如果命中，则说明这有可能是一个重复数据块，需要通过进一步的hash或tree查找进行确认，此时需要Cache与Disk进行交互。受益于Bloom filter以及Cache，DataDomain系统可以减少99%的磁盘访问，从而利用少量的内存空间大幅提高了数据块查重性能。

C语言实现

Bloom filter原理简单但却总能派上大用场，实现起来也非常容易。这里没有重新发明轮子，而是引用了文献[5]的C语言实现，总共不过百来行代码，而且还有测试例程。完整C程序请访问 http://en.literateprograms.org/Bloom_filter_%28C%29?oldid=16893

[cpp]  view plain copy print ? 
     
    
 /* bloom.h */  
 #ifndef __BLOOM_H__  
 #define __BLOOM_H__  
   
 #include<stdlib.h>  
   
 typedef unsigned int (*hashfunc_t)(const char *);  
 typedef struct {  
     size_t asize;  
     unsigned char *a;  
     size_t nfuncs;  
     hashfunc_t *funcs;  
 } BLOOM;  
   
 BLOOM *bloom_create(size_t size, size_t nfuncs, ...);  
 int bloom_destroy(BLOOM *bloom);  
 int bloom_add(BLOOM *bloom, const char *s);  
 int bloom_check(BLOOM *bloom, const char *s);  
   
 #endif  
   
   
 /* bloom.c */  
 #include<limits.h>  
 #include<stdarg.h>  
   
 #include"bloom.h"  
   
 #define SETBIT(a, n) (a[n/CHAR_BIT] |= (1<<(n%CHAR_BIT)))  
 #define GETBIT(a, n) (a[n/CHAR_BIT] & (1<<(n%CHAR_BIT)))  
   
 BLOOM *bloom_create(size_t size, size_t nfuncs, ...)  
 {  
     BLOOM *bloom;  
     va_list l;  
     int n;  
       
     if(!(bloom=malloc(sizeof(BLOOM)))) return NULL;  
     if(!(bloom->a=calloc((size+CHAR_BIT-1)/CHAR_BIT, sizeof(char)))) {  
         free(bloom);  
         return NULL;  
     }  
     if(!(bloom->funcs=(hashfunc_t*)malloc(nfuncs*sizeof(hashfunc_t)))) {  
         free(bloom->a);  
         free(bloom);  
         return NULL;  
     }  
   
     va_start(l, nfuncs);  
     for(n=0; n<nfuncs; ++n) {  
         bloom->funcs[n]=va_arg(l, hashfunc_t);  
     }  
     va_end(l);  
   
     bloom->nfuncs=nfuncs;  
     bloom->asize=size;  
   
     return bloom;  
 }  
   
 int bloom_destroy(BLOOM *bloom)  
 {  
     free(bloom->a);  
     free(bloom->funcs);  
     free(bloom);  
   
     return 0;  
 }  
   
 int bloom_add(BLOOM *bloom, const char *s)  
 {  
     size_t n;  
   
     for(n=0; n<bloom->nfuncs; ++n) {  
         SETBIT(bloom->a, bloom->funcs[n](s)%bloom->asize);  
     }  
   
     return 0;  
 }  
   
 int bloom_check(BLOOM *bloom, const char *s)  
 {  
     size_t n;  
   
     for(n=0; n<bloom->nfuncs; ++n) {  
         if(!(GETBIT(bloom->a, bloom->funcs[n](s)%bloom->asize))) return 0;  
     }  
   
     return 1;  
 }  

参考文献

[1] http://en.wikipedia.org/wiki/Bloom_filter
[2] http://www.cs.jhu.edu/~fabian/courses/CS600.624/slides/bloomslides.pdf
[3] http://www.eecs.harvard.edu/~michaelm/postscripts/im2005b.pdf
[4] http://www.partow.net/programming/hashfunctions/#BloomFilters
[5] http://en.literateprograms.org/Bloom_filter_%28C%29?oldid=16893
[6] http://www.datadomain.com/pdf/DataDomain-Avoiding-the-Bottleneck-with-Dedupe.pdf

深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
2019-07-09 AutoCompleteTextView 问题皮皮铭
实现自定义Adapter要实现Filterable接口，不然会报错重写getFilter()方法performFiltering()方法实现过滤数据的操作publishResults()用来接收performFiltering()的返回值，发布。
Python 推导式(Comprehensions) 戒灵
1,列表推导式num=[1,2,-5,10,-7,5,7,-1]filtered_and_squared=[x**2forxinnumifx>0]print(filtered_and_squared)迭代器(iterator)遍历输入序列num的每个成员x断言式判断每个成员是否大于零如果成员大于零，则被交给输出表达式，平方之后成为输出列表的成员。列表推导式被封装在一个列表中，所以很明显它能够立即生
程序员架构师主要是做什么_程序员架构师：职责、技能与挑战绿色小猪
免费备考资料（2024年11月软考）：历年试题+视频课合集+电子讲义点击领取>>>免费刷题：2024年11月软考备考刷题点此进入>>>程序员架构师的角色定位在软件开发领域，程序员架构师是一个至关重要的角色。他们不仅需要深入理解业务需求，还要将其转化为技术上的解决方案。程序员架构师是项目中的技术领航者，负责制定和维护软件系统的整体架构，确保系统的可扩展性、可维护性和性能。他们的工作涉及从概念化到实现
spring security中几大组件的作用和执行顺序阿信在这里 java spring
springsecurity中几大组件的作用和执行顺序在SpringSecurity中，AuthenticationProvider、GroupPermissionEvaluator、PermissionEvaluator、AbstractAuthenticationProcessingFilter、DefaultMethodSecurityExpressionHandler和ManageSecu
深入理解Python中的“_,”：一个实用的语法特性小桥流水---人工智能 Python程序代码 Python常见bug 深度学习 python 开发语言
在Python编程中，你可能经常会看到一个特殊的标识符“_”。这个符号在Python中有多种用途，其具体含义依上下文而定。本文将探讨其中一种常见用法——作为一个临时性的占位符——并解释它在实际编程中的实用性和应用场景。1.“_”作为占位符在Python中，下划线（_）经常被用作一个临时或不重要的变量。当你在解包（unpacking）一个表达式但又不想使用其中某些值时，下划线可用作占位符。这样做的好
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
深入理解AOP（面向切面编程）及其应用自身就是太阳 java 开发语言 spring
目录AOP的核心概念AOP的实现方式1.定义DAO接口和实现类2.定义通知类3.开启AOP注解驱动切入点表达式通配符的使用：AOP通知类型案例分析：测量业务层接口的执行效率结论概述：AOP（Aspect-OrientedProgramming，面向切面编程）是一种编程范式，主要用于将共性功能从具体的业务逻辑中分离出来，实现松耦合的代码设计。其作用是在不修改原始代码的情况下，对现有方法进行增强，广泛
tf.get_collection() yalesaleng
此函数有两个参数，key和scope。Args:1.key:Thekeyforthecollection.Forexample,theGraphKeysclasscontainsmanystandardnamesforcollections.2.scope:(Optional.)Ifsupplied,theresultinglistisfilteredtoincludeonlyitemswhose
springcloud — 微服务鉴权管理Spring Security原理解析(二) RachelHwang springcloud spring java spring security oauth2 springcloud
引言：回顾之前介绍的OAuth2简单分析与介绍，微服务鉴权管理之OAuth2原理解析(一)，前面的部分，我们关注了SpringSecurity是如何完成认证工作的，但是另外一部分核心的内容：过滤器，一直没有提到，我们已经知道SpringSecurity使用了springSecurityFilterChain作为了安全过滤的入口，这一节主要分析一下这个过滤器链都包含了哪些关键的过滤器，并且各自的使命
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数 aehrutktrjk langchain python
深入理解LangChain中的Callback机制：如何为Runnable添加回调函数引言在LangChain中，回调（Callbacks）是一种强大的机制，允许开发者在运行过程中监控和干预各种操作。本文将深入探讨如何为Runnable对象添加回调函数，这对于调试、日志记录和性能监控等任务至关重要。我们将通过实际的代码示例来演示这一过程，并讨论一些常见的应用场景和最佳实践。理解Callback机制
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
PON光模块的独特类型和特性 audrey-luo 网络光模块 PON模块 PON技术
在当前互联网需求快速增长的背景下，PON光模块已成为实现光纤网络高速数据传输的重要组成部分。从住宅宽带到各种企业应用程序解决方案，PON光模块始终致力于实现高质量的数据传输与无缝通信。了解PON光模块的类型和特性对于深入理解现代网络基础设施至关重要，本文将探讨PON光模块的多种类型及其独特优势，展示其在现代网络连接中的重要作用。PON光模块又称无源光网络模块，是电信网络中的关键组件，有助于通过光纤
Java高并发编程详解系列-深入理解Thread构造 nihui123 高并发 Java高并发 Java 高并发
上篇分享中主要是对线程的基本概念和基本操作做了一个分享，同时提出了两种常用的创建多线程的方法，当然在后期的分享中也会提及到更多的创建线程的方式，到后期的分享的时候再说。这次主要是深入的理解一下Thread的构造函数，通过构造函数对于Thread有一个更加深入的了解。这里首先提供一个JDK1.6的ThreadAPI截图线程命名规范从源码分析可以看到在Thread类中默认提供了线程的命名方式，这个
深入理解单元测试元闰子单元测试 log4j
荐语本文要介绍的是2020年O’Reilly出版的书籍UnitTestingPrinciples,Practices,andPatterns，一本在豆瓣评分高达9.9的好书。作为一名软件开发工程师，你应该对单元测试（unittest）很熟悉，但单元测试的目的、Mock的正确用法、单元测试和集成测试的区别等等，你真的懂吗？书中对这些内容都做了深入的介绍，并通过实际案例教你如何写出好的单元测试。读完这
Stream 流根据对象属性去重 abments jdk1.8新特性 python pandas 数据分析
目录前言一、实现原理二、实现过程三、filter过滤器的原理总结前言这篇文章介绍一种通过stream流对集合中的对象根据key值去重的简便方法。一、实现原理通过Stream流中的filter方法实现对数据的去重，具体操作是构造一个Predict对象，在Predict中通过检查数据是否存在返回断言中的布尔值。二、实现过程代码如下：publicstaticPredicatedistinctPredic
深入理解Webpack核心模块Tapable钩子[异步版] weixin_34413802 webpack javascript ViewUI
接上一篇文章深入理解Webpack核心模块WTApable钩子(同步版)tapable中三个注册方法1tap(同步)2tapAsync(cb)3tapPromise(注册的是Promise)tapable中对三个触发方法1call2callAsync3promise这一章节我们将分别实现异步的Async版本和Promise版本异步钩子AsyncParallelHookAsyncParallelHo
C#LINQ常用扩展语句月落. C#c#linq solr
在C#中，LINQ提供了许多扩展方法，这些方法定义在System.Linq命名空间中。以下是一些常用的LINQ扩展方法：Where-过滤数据集合，返回满足条件的元素。varfilteredItems=collection.Where(item=>item.SomeProperty>10);Select-从数据集合中选择数据或创建新的投影。varprojectedItems=collection.S
2022-01-03 day62 pipaline流水线作业 zhaocheng690
今日作业：1.pipeline实现流程：拉取代码-->编译-->部署测试-->发送测试通知-->确认是否部署-->部署服务-->发送部署结果通知pipeline{agentanyparameters{gitParameterbranch:'',branchFilter:'.*',defaultValue:'v1.0',description:'请选择要发布的版本:',name:'git_versi
使用Python和wxPython创建动态HTML日历生成器 winfredzhang python html xml 带照片和节假日信息的日历
在这个数字化时代,日历仍然是我们日常生活中不可或缺的工具。今天,我们将探讨如何使用Python创建一个动态HTML日历生成器。这个项目不仅实用,还能帮助我们深入理解Python编程、GUI开发和网页生成的相关知识。项目概述我们的目标是创建一个应用程序,允许用户选择特定的年份和月份,然后生成并显示一个美观的HTML日历。这个日历不仅显示日期,还会包含中国的主要节假日信息。C:\pythoncode\
js数组方法map和filter 人间废料记 javascript javascript 前端
目录.map()方法概念语法注意使用场景.filter()方法概念语法注意使用场景.map()和.filter()的区别和联系.map()方法概念.map()函数是JavaScript数组结构中很实用的一个方法之一。可以将map()方法视为经过一个循环并在回调函数中编写语句（格式化、数据处理）以构造一个新数组。用来创建新数组、修改其内容并保持原始数组不变的通用方法。当出现需要修改现有数组的内容并将
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
【加密社】深入理解TON智能合约 (FunC语法) 加密社闲侃 Nethereum教程区块链智能合约
king:摘要：在TON（TheOpenNetwork）区块链平台中，智能合约扮演着举足轻重的角色。本文将通过分析一段TON智能合约代码带领读者学习dict（字典）和list（列表）在FunC语言中的用法，以及如何在实际场景中实现高效的验证者选举。一、引言TON区块链平台的智能合约采用FunC语法一、引言TON区块链平台的智能合约采用FunC语言编写，该语言提供了丰富的数据结构，如dict和lis
el-table日期格式化处理2种方式 c28n07 elementui
关于el-table总结[toc]1.方式一：采用filters//template{{props.row.time|dateTimeFormat}}//script->filtersfilters:{dateTimeFormat(dateTime){if(!dateTime){returndateTime;}returnmoment(dateTime).format("YYYY-MM-DD");
Interceptor拦截器+JWT令牌实现登陆验证 wy08success Interceptor springboot java 登陆验证
一、背景与过滤器的作用类似，不过拦截器是spring中的组件，只能拦截进入spring的请求；过滤器则可以拦截所有从前端页面发送来的请求。*拦截器和过滤器选一就可以实现登陆验证，过滤器的实现在以下这篇博客中，有需要可以自取：Filter过滤器+JWT令牌实现登陆验证-CSDN博客二、分析定义拦截器，实现HanderInterceptor接口，并重写其所有方法。注册拦截器三、实现1、目录结构：2、L
【C++】手把手教你写出自己的vector类 Ornamrr C++c++vector
在上一篇博客中，我们学习了vector的基本使用，以及迭代器的失效问题：【C++】深入理解vector类(一)今天我们来模拟实现以下vector类。目录成员变量接口实现构造函数迭代器拷贝构造赋值reserveresizepush_backpop_back实现[]访问成员变量我们先从原码中找出其成员变量：可以看到，原码中有三个成员变量：startfinishend_of_storage数据类型是it
登录校验实现——Jwt、Filter/Interceptor 应起忆 java spring
Jwt令牌生成引入依赖，JDK8之后的版本需要引入JAXBjavax.xml.bindjaxb-api2.3.1org.glassfish.jaxbjaxb-runtime2.3.1io.jsonwebtokenjjwt0.9.1写JwtUtilsimportio.jsonwebtoken.Claims;importio.jsonwebtoken.Jwts;importio.jsonwebtoke
登录校验，会话技术，Cookie，Session，JWT令牌，统一拦截技术，过滤器FIlter，拦截器Interceptor，全局异常处理器暖阳爱学计算机 springboot spring boot web java
目录1登录校验2会话技术2.1会话技术介绍2.2Cookie2.2Session2.4令牌技术2.5JWT令牌2.5.1介绍2.5.2生成和校验2.5.3登录下发令牌3统一拦截技术3.1过滤器Filter3.1.1过滤器的使用步骤3.1.2代码实现3.1.3细节3.2拦截器Interceptor3.2.1拦截器的使用步骤3.2.2代码实现3.2.3细节4登录功能具体实现步骤5异常处理5.1异常的解
Cookie & Session & JWT认证 & Filter & Interceptor aDreamerOutOfTheSky java spring spring boot
文章目录前言一、Cookie和Session二、JWT1.三部分2.使用3.另外一种使用3.1引入依赖3.1定义工具类三、Filter过滤器3.1实现Filter接口，并且增加@WebFilter注解3.2启动类上增加注解3.3Filter过滤实现登陆校验3.4拦截器实现登陆校验总结前言本文介绍了Cookie，Session，JWT，过滤器，拦截器的相关知识一、Cookie和Session浏览器请
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文