caoruntao

海量数据处理之Bloom Filter详解

【转】http://blog.csdn.net/v_july_v/article/details/6685894

海量数据处理之Bloom Filter详解

前言

本博客内曾已经整理过十道海量数据处理面试题与十个方法大总结。接下来，本博客内会重点分析那些海量数据处理的方法，并重写十道海量数据处理的面试题。如果有任何问题，欢迎不吝指正。谢谢。

一、什么是Bloom Filter

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的：在判断一个元素是否属于某个集合时，有可能会把不属于这个集合的元素误认为属于这个集合（false positive）。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter通过极少的错误换取了存储空间的极大节省。

有人可能想知道它的中文叫法，倒是有被译作称布隆过滤器。该不该译，译的是否恰当，由诸君品之。下文之中，如果有诸多公式不慎理解，也无碍，只作稍稍了解即可。

1.1、集合表示和元素查询

下面我们具体来看Bloom Filter是如何用位数组表示集合的。初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0。

为了表达S={x₁, x₂,…,x_n}这样一个n个元素的集合，Bloom Filter使用k个相互独立的哈希函数（Hash Function），它们分别将集合中的每个元素映射到{1,…,m}的范围中。对任意一个元素x，第i个哈希函数映射的位置h_i(x)就会被置为1（1≤i≤k）。注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在下图中，k=3，且有两个哈希函数选中同一个位置（从左边数第五位，即第二个“1“处）。

在判断y是否属于这个集合时，我们对y应用k次哈希函数，如果所有h_i(y)的位置都是1（1≤i≤k），那么我们就认为y是集合中的元素，否则就认为y不是集合中的元素。下图中y₁就不是集合中的元素（因为y1有一处指向了“0”位）。y₂或者属于这个集合，或者刚好是一个false positive。

1.2、错误率估计

前面我们已经提到了，Bloom Filter在判断一个元素是否属于它表示的集合时会有一定的错误率（false positive rate），下面我们就来估计错误率的大小。在估计之前为了简化模型，我们假设kn<m且各个哈希函数是完全随机的。当集合S={x₁, x₂,…,x_n}的所有元素都被k个哈希函数映射到m位的位数组中时，这个位数组中某一位还是0的概率是：

其中1/m表示任意一个哈希函数选中这一位的概率（前提是哈希函数是完全随机的），(1-1/m)表示哈希一次没有选中这一位的概率。要把S完全映射到位数组中，需要做kn次哈希。某一位还是0意味着kn次哈希都没有选中它，因此这个概率就是（1-1/m）的kn次方。令p = e^-kn/m是为了简化运算，这里用到了计算e时常用的近似：

令ρ为位数组中0的比例，则ρ的数学期望E(ρ)= p’。在ρ已知的情况下，要求的错误率（false positive rate）为：

(1-ρ)为位数组中1的比例，(1-ρ)^k就表示k次哈希都刚好选中1的区域，即false positive rate。上式中第二步近似在前面已经提到了，现在来看第一步近似。p’只是ρ的数学期望，在实际中ρ的值有可能偏离它的数学期望值。M. Mitzenmacher已经证明^[2] ，位数组中0的比例非常集中地分布在它的数学期望值的附近。因此，第一步的近似得以成立。分别将p和p’代入上式中，得：

相比p’和f’，使用p和f通常在分析中更为方便。

1.3、最优的哈希函数个数

既然Bloom Filter要靠多个哈希函数将集合映射到位数组中，那么应该选择几个哈希函数才能使元素查询时的错误率降到最低呢？这里有两个互斥的理由：如果哈希函数的个数多，那么在对一个不属于集合的元素进行查询时得到0的概率就大；但另一方面，如果哈希函数的个数少，那么位数组中的0就多。为了得到最优的哈希函数个数，我们需要根据上一小节中的错误率公式进行计算。

先用p和f进行计算。注意到f = exp(k ln(1 − e^−kn/m))，我们令g = k ln(1 − e^−kn/m)，只要让g取到最小，f自然也取到最小。由于p = e^-kn/m，我们可以将g写成

根据对称性法则可以很容易看出当p = 1/2，也就是k = ln2· (m/n)时，g取得最小值。在这种情况下，最小错误率f等于(1/2)^k≈ (0.6185)^m/n。另外，注意到p是位数组中某一位仍是0的概率，所以p = 1/2对应着位数组中0和1各一半。换句话说，要想保持错误率低，最好让位数组有一半还空着。

需要强调的一点是，p = 1/2时错误率最小这个结果并不依赖于近似值p和f。同样对于f’ = exp(k ln(1 − (1 − 1/m)^kn))，g’ = k ln(1 − (1 − 1/m)^kn)，p’ = (1 − 1/m)^kn，我们可以将g’写成

同样根据对称性法则可以得到当p’ = 1/2时，g’取得最小值。

1.4、位数组的大小

下面我们来看看，在不超过一定错误率的情况下，Bloom Filter至少需要多少位才能表示全集中任意n个元素的集合。假设全集中共有u个元素，允许的最大错误率为є，下面我们来求位数组的位数m。

假设X为全集中任取n个元素的集合，F(X)是表示X的位数组。那么对于集合X中任意一个元素x，在s = F(X)中查询x都能得到肯定的结果，即s能够接受x。显然，由于Bloom Filter引入了错误，s能够接受的不仅仅是X中的元素，它还能够є (u - n)个false positive。因此，对于一个确定的位数组来说，它能够接受总共n + є (u - n)个元素。在n + є (u - n)个元素中，s真正表示的只有其中n个，所以一个确定的位数组可以表示

个集合。m位的位数组共有2^m个不同的组合，进而可以推出，m位的位数组可以表示

个集合。全集中n个元素的集合总共有

个，因此要让m位的位数组能够表示所有n个元素的集合，必须有

即：

上式中的近似前提是n和єu相比很小，这也是实际情况中常常发生的。根据上式，我们得出结论：在错误率不大于є的情况下，m至少要等于n log₂(1/є)才能表示任意n个元素的集合。

上一小节中我们曾算出当k = ln2· (m/n)时错误率f最小，这时f = (1/2)^k= (1/2)^{mln2 / n}。现在令f≤є，可以推出

这个结果比前面我们算得的下界n log₂(1/є)大了log₂e≈ 1.44倍。这说明在哈希函数的个数取到最优时，要让错误率不超过є，m至少需要取到最小值的1.44倍。

1.5、概括

在计算机科学中，我们常常会碰到时间换空间或者空间换时间的情况，即为了达到某一个方面的最优而牺牲另一个方面。Bloom Filter在时间空间这两个因素之外又引入了另一个因素：错误率。在使用Bloom Filter判断一个元素是否属于某个集合时，会有一定的错误率。也就是说，有可能把不属于这个集合的元素误认为属于这个集合（False Positive），但不会把属于这个集合的元素误认为不属于这个集合（False Negative）。在增加了错误率这个因素之后，Bloom Filter通过允许少量的错误来节省大量的存储空间。

自从Burton Bloom在70年代提出Bloom Filter之后，Bloom Filter就被广泛用于拼写检查和数据库系统中。近一二十年，伴随着网络的普及和发展，Bloom Filter在网络领域获得了新生，各种Bloom Filter变种和新的应用不断出现。可以预见，随着网络应用的不断深入，新的变种和应用将会继续出现，Bloom Filter必将获得更大的发展。

二、适用范围

可以用来实现数据字典，进行数据的判重，或者集合求交集

三、基本原理及要点

对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。

还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，因为还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。

举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。

注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。

四、扩展

Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Counting bloom filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的最小值来近似表示元素的出现频率。

五、问题实例

给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。

以上内容整理自：

完。

Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南好龙7575 spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
SpringMVC @RequestHeader @CookieValue 处理获取请求参数的乱码问题杨宸杨 SpringMVC java jvm 数据库
SpringMVC@RequestHeader@CookieValue处理获取请求参数的乱码问题@RequestHeader@CookieValue什么是cookie通过POJO获取请求参数通过CharacterEncodingFilter处理获取请求参数的乱码问题get请求的乱码post请求乱码处理获取请求参数的乱码问题)@RequestHeader1.@RequestHeader是将请求头信息
spring boot 拦截器简单demo 测试开发小白变怪兽服务端 spring boot 后端 java
拦截器（Interceptor）与过滤器的区别特性过滤器（Filter）拦截器（Interceptor）所属规范Servlet规范（javax.servlet）SpringMVC框架（基于AOP实现）作用范围所有请求（包括静态资源）仅拦截Controller的请求执行时机在DispatcherServlet之前执行在Controller方法前后执行访问上下文无法直接获取Spring的Bean或注解
pandas 根据给定的条件动态筛选 Aa123456789_55 pandas pandas python
defdynamic_filter(df,conditions):"""根据给定的条件动态筛选DataFrame。:paramdf:pandasDataFrame:paramconditions:字典，键为列名，值为筛选条件（单个值、列表或其他布尔表达式）:return:筛选后的DataFrame"""mask=pd.Series(True,index=df.index)#初始化全True的mas
Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南 chenOnlyOne spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
ES的预置分词器阿湯哥 elasticsearch 服务器 linux
Elasticsearch（简称ES）提供了多种预置的分词器（Analyzer），用于对文本进行分词处理。分词器通常由字符过滤器（CharacterFilters）、分词器（Tokenizer）和词元过滤器（TokenFilters）组成。以下是一些常用的预置分词器及其示例：1.StandardAnalyzer（标准分词器）默认分词器，适用于大多数语言。处理步骤：使用标准分词器（StandardT
linux的防火墙（iptables） JM丫 linux centos
防火墙的作用：linux防火墙主要是工作在网络层，针对TCP/IP数据包实施过滤和限制，属于典型的包过滤防火墙（或者为网络层防火墙）linux的防火墙分为两种，分别为netfiter和iptables，这两种都被称为防火墙，但是又有一些区别，具体的区别在于：1、netfilter：称为内核空间，是linux内核中实现包过滤的防火墙的内部结构，属于“内核态，又称为内核空间”防火墙功能体系。2、ipt
Spring Security 6.4登录全览：机制、特性、实战与优化古龙飞扬 java 前端数据库
一、登录机制SpringSecurity的登录机制是其安全框架的核心部分，它提供了一种灵活且强大的方式来保护应用程序的资源。在SpringSecurity6.4中，登录机制主要包括以下几个方面：认证流程：用户通过登录表单提交用户名和密码。SpringSecurity的UsernamePasswordAuthenticationFilter拦截该请求，并从中提取用户名和密码。创建一个Username
element UI 2.15.13和 vue2.0表格勾选回显前端vue.js
弹窗回显勾选的项关键代码//函数名叫什么无所谓，函数的参数值data是要回显表格的所有数据//数据改变放在this.$nextTick中handleSelection(data){this.$nextTick(()=>{//selectedArr是所有需要勾选的项的集合constselectedArr=data.filter(item=>item.userId);selectedArr.forEa
elasticsearch analyzer 学习笔记 weixin_40455124 elasticsearch 代码分析及扩展 elasticsearch analyzer token
基本定义analyzer执行将输入字符流分解为token的过程使用场景在indexing的时候，也即在建立索引的时候在searching的时候，也即在搜索时，分析需要搜索的词语analysisCharacterfiltering(字符过滤器):使用字符过滤器转换字符Breakingtextintotokens(把文字转化为标记):将文本分成一组一个或多个标记Tokenfiltering：使用标记过
过滤器和拦截器的区别详解总是学不会. Java Web 开发 java spring boot maven spring
文章目录过滤器和拦截器的区别详解一、基本概念1.过滤器（Filter）2.拦截器（Interceptor）二、核心区别三、执行流程对比四、具体实现1.过滤器的实现常用场景：2.拦截器的实现2.1.`preHandle`方法2.2.`postHandle`方法2.3.`afterCompletion`方法五、应用场景总结过滤器适合场景拦截器适合场景六、总结过滤器和拦截器的区别详解过滤器（Filter
关于scipy中uniform_filter函数的注意事项明·煜 scipy
关于scipy中uniform_filter函数的注意事项在处理分组聚合问题时，有时需要使用均值作为统计量。那其实就是一个均值滤波问题。我不希望使用for循环和均值卷积核来对二维数组进行滤波，因为这个线性运算且可用通过数字搬移来实现。在使用uniform_filter时在边界处会出现难以解释的值，不过后来发现是我对python语法不够熟悉导致的。例如以下代码：importnumpyasnpx=np
zuul动态路由的伪代码实现高飞的Leo 源码分析 java spring 开发语言
自定义RouteLocator实现和事件发布1.继承自定义RouteLocator在SpringCloudZuul中，我们可以自定义一个RouteLocator，来替代默认的SimpleRouteLocator。伪代码实现：importorg.springframework.cloud.netflix.zuul.filters.route.RouteLocator<
Java 入门指南：Java 8 新特性 —— Stream 流热带鱼Tech Java java 后端个人开发 java-ee
文章目录JavaStream操作类型操作过程创建流操作流遍历forEach过滤filter映射map匹配match归约reduce排序sorted去重distinct限制limit跳过skip转换流流操作的特性JavaStreamJavaStream是Java8引入的一个新的API，它提供了一种函数式编程的方式来处理集合数据。Stream可以看作是一系列支持高效的、函数式操作的元素序列。通过使用S
Apache OFBiz路径遍历漏洞(CVE-2024-36104) WuY1nSec 漏洞复现 apache
0x01漏洞描述ApacheOFBiz是美国阿帕奇（Apache）基金会的一套企业资源计划（ERP）系统。该系统提供了一整套基于Java的Web应用程序组件和工具。ApacheOFBiz18.12.14之前版本存在命令执行漏洞，该漏洞源于ControlFilter对路径限制不当导致用户能够访问ProgramExport导出功能执行Groovy代码。0x02影响版本ApacheOFBiz<18.12
SpringBoot设置过滤器（Filter）或拦截器（Interceptor）的执行顺序：@Order注解、setOrder()方法 pan_junbiao Spring Spring Boot 我の原创 spring boot java 后端
JavaWeb过滤器、拦截器、监听器，系列文章：（1）过滤器（Filter）的使用：《Servlet过滤器（Filter）的使用：Filter接口、@WebFilter注释》《SpringMVC使用过滤器（Filter）解决中文乱码》《SpringBoot过滤器（Filter）的使用：Filter接口、FilterRegistrationBean类配置、@WebFilter注释》《SpringBo
react和vue 基础使用对比圣京都 react react.js javascript vue.js
1.实现功能（ts）0.基础属性使用1.组件直接的通信2.useState动态修改值3.循环遍历功能4.实现类型vue的watch，filter，computed属性功能5.实现类似vue2的生命周期5.类型vuev-if功能的实现2.文件结构图3.具体代码interface.tsimport"./index.less";import{message}from"antd";import{useSt
Qt如何让按钮的菜单出现在按钮的右侧神之媛 Qt编程之路 qt 命令模式开发语言
直接上代码，我们用到了一个eventfilter的函数功能。这个函数比较厉害和重要，大家务必经常拿出来看看。voidMainWindow::initMenu(){QMenu*menuLiXiang=newQMenu;QAction*actXiangMuZhangCheng=newQAction("项目章程");menuLiXiang->addAction(actXiangMuZhangCheng)
JavaScript的学习6——jQuery 十五春会
文章目录jQuery选择器按ID查找按tag查找按class查找按属性查找组合查找多项选择器练习层级选择器子选择器（ChildSelector）过滤器（Filter）表单相关练习查找和过滤操作DOM修改Text和HTML修改CSS显示和隐藏DOM获取DOM信息操作表单修改DOM结构添加DOM删除节点练习事件鼠标事件键盘事件其他事件事件参数取消绑定事件触发条件浏览器安全限制练习动画show/hide
用css写背景模糊的三种情况小竹子14 css 前端
1.背景模糊这种最简单也是最直接的，这里展示两种背景模糊的写法：1.用backdrop-filter的一个子属性blur进行设置模糊（这里的值代表的是将n✖n方格里面的像素的颜色做加权平均，即高斯模糊。2.用filter直接进行设置模糊。这里需要注意的是，filter会直接影响元素的内容，而backdrop-filter作用于元素的背景。通常情况下，使用backdrop-filter会使整个元素的
【实战-解决方案】Webpack 打包后很多js方法报错：not defined oliver.chau 前端开发 webpack 前端 node.js
问题分析在不打包的情况下，方法（如checkLoginStatus、filterSites、initProgressBar等）可以正常运行，而经过Webpack打包后报isnotdefined错误，通常有以下几个可能的原因：全局变量丢失在Webpack打包时，默认使用模块作用域（strictmode），不会自动将定义的函数暴露到window全局作用域。在不打包的情况下，脚本文件直接在HTML里引入
面试官：Vue中的过滤器了解吗？过滤器的应用场景有哪些？动感超人，过滤器 filter vue epoll tapestry
一、是什么过滤器（filter）是输送介质管道上不可缺少的一种装置大白话，就是把一些不必要的东西过滤掉过滤器实质不改变原始数据，只是对数据进行加工处理后返回过滤后的数据再进行调用处理，我们也可以理解其为一个纯函数Vue允许你自定义过滤器，可被用于一些常见的文本格式化ps:Vue3中已废弃filter二、如何用vue中的过滤器可以用在两个地方：双花括号插值和v-bind表达式，过滤器应该被添加在Ja
shell 删除文件指定列小逗比r 偶发遇到的一些小点
删除\t分隔的倒数第2列FS指定输入列分隔符OFS指定输出列分隔符$(NF-1)=""即为把指定列置为空catnew|awk'{FS="\t";OFS="\t";$(NF-1)="";print$0}'>filter_new
STM32 HAL库 CAN_1 泠君 stm32 arm 嵌入式硬件
"can.c"#include"stdio.h"CAN_TxHeaderTypeDefmycan_tx;CAN_RxHeaderTypeDefmycan_rx;voidCANFilter_Config(void)//滤波{CAN_FilterTypeDefsFilterConfig;sFilterConfig.FilterBank=0;//CAN过滤器编号，范围0-27sFilterConfig.
java中过滤器实现拦截非法访问 Java--成长之路 filter 过滤器 spring
packagecom.hs.filter;importjava.io.IOException;importjava.io.PrintWriter;importjava.util.HashMap;importjava.util.List;importjava.util.Map;importjavax.servlet.Filter;importjavax.servlet.FilterChain;imp
java中过滤器简洁冬冬监听器和过滤器 java
Filter过滤器它的作用是：拦截请求，过滤响应应用场景：权限检查日志操作事务管理web.xml1.配置过滤器2.指定过滤器的url-pattern规则doFilter中如果没有调用继续请求的方法，就停止如果继续访问，filterChain.doFilter(servletRequest,servletResponse)在调用过滤器前，request对象已经被创建并封装request.getReq
Apollo部署及整合SpringBoot实战 It_BeeCoder SpringBoot
前言：最近在完成毕业设计，题目是《基于微服务的B2C网上商城系统的设计与实现》，整个项目最早是我在看黑马的培训视频时学习JavaWeb做的一个项目，第一次做完大约在去年过年的时候，这个项目前前后后自己改了差不多5、6次了，使用技术不断更新（还有一些小细节的修改比如最早购物车用Session后来用Redis存储），从最早的Servlet+Filter到SSM+Redis到SpringBoot+Thy
时态知识图谱补全任务为什么要进行损坏四元组过滤？ sauTCc 知识图谱知识图谱人工智能
过滤设置（FilteredSetting）的目的是为了确保模型评估的公平性和合理性。以下详细解释为什么要进行这样的过滤：1.避免模型因预测正确事实而受到惩罚问题：在知识图谱（KG）或时序知识图谱（TKG）的链接预测任务中，模型需要为查询（如((s,r,?,t))）生成候选答案。如果候选答案中包含了已经存在于图谱中的正确事实，模型可能会将这些正确事实的排名降低，仅仅因为它们已经存在。例子：假设图谱中
每日学Java之一万个为什么 ~Yogi 修炼 java 开发语言
文章目录RESTFUL风格设计JSON数据中的返回工具类R浏览器跨域问题及其前后端解决办法SpringMVC基于AOP的功能有哪些SpringMVC声明式异常处理SpringMVC拦截器区别filter不能放行RESTFUL风格设计url：尽量使用名词，如果实在重复使用动词method：GETDELET（区别路径传参：唯一标识，和接受查询字符串：范围查询）POSTPUTparam：response
lambda表达式Stream流学习十—Stream操作练习题头真的好重好重Y java lambda stream
lambda表达式Stream流学习十—Stream操作练习题，map、sorted、collect、filter、forEach、max、min一，map与reduce复习/*1)给定一个数字列表,如何返回一个由每个数平方构成的列表呢,给定[1,2,3,4,5],应该返回[1,4,5,16,25]map—接收Lambda,将元素转换为其他形式或提取信息,接收一个函数作为参数,该函数会被应用到每个
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

海量数据处理之Bloom Filter详解

海量数据处理之Bloom Filter详解

前言

一、什么是Bloom Filter

1.1、集合表示和元素查询

1.2、错误率估计

1.3、最优的哈希函数个数

1.4、位数组的大小

1.5、概括

二、适用范围

三、基本原理及要点

四、扩展

五、问题实例

你可能感兴趣的:(filter,bloom)