阿_旭

【数据结构】布隆过滤器原理详解及其代码实现

《博主简介》

小伙伴们好，我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。
✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~
感谢小伙伴们点赞、关注！

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】
二、机器学习实战专栏【链接】，已更新31期，欢迎关注，持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】

布隆过滤器（Bloom Filter）是一个占用空间很小、效率很高的随机数据结构，它由一个bit数组和一组Hash算法构成。可用于判断一个元素是否在一个集合中，查询效率很高（1-N，最优能逼近于1）。

在很多场景下，我们都需要一个能迅速判断一个元素是否在一个集合中。譬如：

网页爬虫对URL的去重，避免爬取相同的URL地址；

反垃圾邮件，从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱（同理，垃圾短信）；

缓存击穿，将已存在的缓存放到布隆中，当黑客访问不存在的缓存时迅速返回避免缓存及DB挂掉。

可能有人会问，我们直接把这些数据都放到数据库或者redis之类的缓存中不就行了，查询时直接匹配不就OK了？

是的，当这个集合量比较小，你内存又够大时，是可以这样做，你可以直接弄个HashSet、HashMap就OK了。但是当这个量以数十亿计，内存装不下，数据库检索极慢时该怎么办。

以垃圾邮箱为例

方案比较

1.将所有垃圾邮箱地址存到数据库，匹配时遍历

2.用HashSet存储所有地址，匹配时接近O（1）的效率查出来

3.将地址用MD5算法或其他单向映射算法计算后存入HashSet，无论地址多大，保存的只有MD5后的固定位数

4.布隆过滤器，将所有地址经过多个Hash算法，映射到一个bit数组；怎么判断一个外来的元素是否已经在集合里呢？如果映射的元素的中包含0，则该元素一定不在集合里，如果该元素映射的都为1，那么该元素可能在数组里。

优缺点

方案1和2都是保存完整的地址，占用空间大。一个地址16字节，10亿即可达到上百G的内存。HashSet效率逼近O(1)，数据库就不谈效率了，不在一个数量级。

方案3保存部分信息，占用空间小于存储完整信息，存在冲突的可能（非垃圾邮箱可能MD5后和某垃圾邮箱一样，概率低）

方案4将所有地址经过Hash后映射到 同一个bit数组，看清了，只有一个超大的bit数组，保存所有的映射，占用空间极小，冲突概率高。

大家知道，java中的HashMap有个扩容参数默认是0.75，也就是你想存75个数，至少需要一个100的数组，而且还会有不少的冲突。实际上，Hash的存储效率是0.5左右，存5个数需要10个的空间。算起来占用空间还是挺大的。

而布隆过滤器就不用为每个数都分配空间了，而是直接把所有的数通过算法映射到同一个数组，带来的问题就是冲突上升，只要概率在可以接受的范围，用时间换空间，在很多时候是好方案。布隆过滤器需要的空间仅为HashMap的1/8-1/4之间，而且它不会漏掉任何一个在黑名单的可疑对象，问题只是会误伤一些非黑名单对象。

原理

经过K个哈希算法将每个算法将元素映射到数组中的位置标1；

初始化状态是一个全为0的bit数组

为了表达存储N个元素的集合，使用K个独立的函数来进行哈希运算。x1，x2……xk为k个哈希算法。

如果集合元素有N1，N2……NN，N1经过x1运算后得到的结果映射的位置标1，经过x2运算后结果映射也标1，已经为1的1保持不变。经过k次散列后，对N1的散列完成。

依次对N2，NN等所有数据进行散列，最终得到一个部分为1，部分位为0的字节数组。当然了，这个字节数组会比较长，不然散列效果不好。

那么怎么判断一个外来的元素是否已经在集合里呢，譬如已经散列了10亿个垃圾邮箱，现在来了一个邮箱，怎么判断它是否在这10亿里面呢？

很简单，就拿这个新来的也依次经历x1，x2……xk个哈希算法即可。

在任何一个哈希算法譬如到x2时，得到的映射值有0，那就说明这个邮箱肯定不在这10亿内。

如果是一个黑名单对象，那么可以肯定的是所有映射都为1，肯定跑不了它。也就是说是坏人，一定会被抓。

那么误伤是为什么呢，就是指一些非黑名单对象的值经过k次哈希后，也全部为1，但它确实不是黑名单里的值，这种概率是存在的，但是是可控的。

什么情况下需要布隆过滤器？

先来看几个比较常见的例子

字处理软件中，需要检查一个英语单词是否拼写正确
在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上
在网络爬虫里，一个网址是否被访问过
yahoo, gmail等邮箱垃圾邮件过滤功能

这几个例子有一个共同的特点： 如何判断一个元素是否存在一个集合中？

常规思路

数组
链表
树、平衡二叉树、Trie
Map (红黑树)
哈希表

虽然上面描述的这几种数据结构配合常见的排序、二分搜索可以快速高效的处理绝大部分判断元素是否存在集合中的需求。但是当集合里面的元素数量足够大，如果有500万条记录甚至1亿条记录呢？这个时候常规的数据结构的问题就凸显出来了。数组、链表、树等数据结构会存储元素的内容，一旦数据量过大，消耗的内存也会呈现线性增长，最终达到瓶颈。有的同学可能会问，哈希表不是效率很高吗？查询效率可以达到O(1)。但是哈希表需要消耗的内存依然很高。使用哈希表存储一亿个垃圾 email 地址的消耗？哈希表的做法：首先，哈希函数将一个email地址映射成8字节信息指纹；考虑到哈希表存储效率通常小于50%（哈希冲突）；因此消耗的内存：8 * 2 * 1亿字节 = 1.6G 内存，普通计算机是无法提供如此大的内存。这个时候，布隆过滤器（Bloom Filter）就应运而生。在继续介绍布隆过滤器的原理时，先讲解下关于哈希函数的预备知识。

哈希函数

哈希函数的概念是：将任意大小的数据转换成特定大小的数据的函数，转换后的数据称为哈希值或哈希编码。下面是一幅示意图：

可以明显的看到，原始数据经过哈希函数的映射后称为了一个个的哈希编码，数据得到压缩。哈希函数是实现哈希表和布隆过滤器的基础。

布隆过滤器介绍

巴顿.布隆于一九七零年提出
一个很长的二进制向量（位数组）
一系列随机函数 (哈希)
空间效率和查询效率高
有一定的误判率（哈希表是精确匹配）

布隆过滤器原理

布隆过滤器（Bloom Filter）的核心实现是一个超大的位数组和几个哈希函数。假设位数组的长度为m，哈希函数的个数为k

以上图为例，具体的操作流程：假设集合里面有3个元素{x, y, z}，哈希函数的个数为3。首先将位数组进行初始化，将里面每个位都设置位0。对于集合里面的每一个元素，将元素依次通过3个哈希函数进行映射，每次映射都会产生一个哈希值，这个值对应位数组上面的一个点，然后将位数组对应的位置标记为1。查询W元素是否存在集合中的时候，同样的方法将W通过哈希映射到位数组上的3个点。如果3个点的其中有一个点不为1，则可以判断该元素一定不存在集合中。反之，如果3个点都为1，则该元素可能存在集合中。注意：此处不能判断该元素是否一定存在集合中，可能存在一定的误判率。可以从图中可以看到：假设某个元素通过映射对应下标为4，5，6这3个点。虽然这3个点都为1，但是很明显这3个点是不同元素经过哈希得到的位置，因此这种情况说明元素虽然不在集合中，也可能对应的都是1，这是误判率存在的原因。

布隆过滤器添加元素

将要添加的元素给k个哈希函数
得到对应于位数组上的k个位置
将这k个位置设为1

布隆过滤器查询元素

将要查询的元素给k个哈希函数
得到对应于位数组上的k个位置
如果k个位置有一个为0，则肯定不在集合中
如果k个位置全部为1，则可能在集合中

布隆过滤器实现

import mmh3

from bitarray import bitarray

# zhihu_crawler.bloom_filter

# Implement a simple bloom filter with murmurhash algorithm.

# Bloom filter is used to check wether an element exists in a collection, and it has a good performance in big data situation.

# It may has positive rate depend on hash functions and elements count.

BIT_SIZE = 5000000

class BloomFilter:

def __init__(self):

# Initialize bloom filter, set size and all bits to 0

bit_array = bitarray(BIT_SIZE)

bit_array.setall(0)

self.bit_array = bit_array

def add(self, url):

# Add a url, and set points in bitarray to 1 (Points count is equal to hash funcs count.)

# Here use 7 hash functions.

point_list = self.get_postions(url)

for b in point_list:

self.bit_array[b] = 1

def contains(self, url):

# Check if a url is in a collection

point_list = self.get_postions(url)

result = True

for b in point_list:

result = result and self.bit_array[b]

return result

def get_postions(self, url):

# Get points positions in bit vector.

point1 = mmh3.hash(url, 41) % BIT_SIZE

point2 = mmh3.hash(url, 42) % BIT_SIZE

point3 = mmh3.hash(url, 43) % BIT_SIZE

point4 = mmh3.hash(url, 44) % BIT_SIZE

point5 = mmh3.hash(url, 45) % BIT_SIZE

point6 = mmh3.hash(url, 46) % BIT_SIZE

point7 = mmh3.hash(url, 47) % BIT_SIZE

return [point1, point2, point3, point4, point5, point6, point7]

关于本篇文章大家有任何建议或意见，欢迎在评论区留言交流！

觉得不错的小伙伴，感谢点赞、关注加收藏哦！

欢迎关注下方GZH：阿旭算法与机器学习，共同学习交流~

你可能感兴趣的:(算法与数据结构,数据结构,布隆过滤器)

论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
Lua：Lua函数设计与实现_2024-07-14_15-37-17.Tex chenjj4003 游戏开发2 lua 开发语言 kotlin 网络 android 微信
Lua：Lua函数设计与实现Lua函数基础函数定义与调用在Lua中，函数是一等公民，这意味着它们可以被赋值给变量、存储在数据结构中、作为参数传递给其他函数，甚至可以作为返回值。函数定义使用function关键字，后跟函数名和参数列表，然后是函数体，最后以end结束。--定义一个函数，计算两个数的和functionsum(a,b)returna+bend--调用函数localresult=sum(5
代码随想录刷题day34|（二叉树篇）二叉树的递归遍历花鱼白羊我爱算法！我爱刷题！算法
目录一、二叉树理论基础二、递归遍历思路三、相关算法题目四、总结一、二叉树理论基础二叉树是一种基本数据结构，TreeMap和TreeSet的底层实现使用了红黑树；基础知识详见：代码随想录(programmercarl.com)1.二叉树的种类：完全二叉树、平衡二叉搜索树、满二叉树、二叉搜索树2.二叉树的遍历方式：深度优先遍历（前序遍历、中序遍历、后序遍历）、广度优先遍历（层次遍历）3.二叉树的存储方
redis 快速入门栀夏613 数据库 redis 数据库缓存
目录数据库的分类NoSQL非结构化认识redis特征安装redis单机安装Docker安装redis的基本配置启动redis关闭redisredis开机自启redis客户端redis数据结构介绍基本类型String的基础操作List基本操作Set基本操作SortedSet基本操作Hash基本操作redis通用命令key的层级格式数据库的分类关系型数据库结构化数据表中存储的数据格式是一样的数据与数据
二叉树的类型定义与基本操作 S01d13r 笔记
二叉树的类型定义与基本操作树结构是一类重要的非线性数据结构，在客观世界中广泛存在。树在计算机领域中也得到了广泛的应用，尤以二叉树最为常用。本文重点讨论二叉树的基本操作。1.二叉树的类型定义二叉树通常由三个域组成：数据域、左孩子指针域和右孩子指针域。其类型定义为：typedefstructBiNode{chardata;//数据域structBiNode*lchild,*rchild;//左右孩子指
Java数据结构第十六期：走进二叉树的奇妙世界(五) 手握风云- Java数据结构秘籍数据结构
专栏：Java数据结构秘籍个人主页：手握风云目录一、非递归实现遍历二叉树1.1.二叉树的前序遍历1.2.二叉树的中序遍历1.3.二叉树的后序遍历一、非递归实现遍历二叉树1.1.二叉树的前序遍历我们这里要使用栈来进行实现。我们反向思考一下为什么不使用队列？如下图，前序遍历肯定是先将根结点放进去，如果是队列，根结点先进先出，然后怎么去遍历右子树呢，就无法打印的顺序了。我们定义一个引用cur，只要cur
HarmonyOS Next 应用开发实战：构建高性能动画组件（ArkTS深度解析）前端
第一章案例背景与技术选型###1.1项目需求分析本案例将实现一个复杂的粒子动画登录界面，包含以下核心功能：1.动态粒子背景：300+粒子按流体力学规律运动2.智能输入框：输入时触发粒子聚散动画3.登录按钮：3D翻转交互动效4.性能优化：确保60fps流畅运行1.2技术方案设计采用ArkTS实现以下技术组合：typescript//粒子对象数据结构classParticle{x:number=0y:
【C# 数据结构】队列 FIFO code bean C#数据结构 c#数据结构开发语言
目录队列的概念FIFO(First-In,First-Out)`Queue`的工作原理：示例：解释：小结：环形队列1.**FIFO？**2.**环形缓冲队列如何实现FIFO？**关键概念：3.**环形缓冲队列的工作过程**假设：操作步骤：4.**具体例子**初始状态：操作1：入队数据`A`操作2：入队数据`B`操作3：出队操作4：入队数据`C`,`D`,`E`操作5：出队操作6：入队数据`F`操作
C++数据结构之数组（详解）画个逗号给明天" C++常用数据结构数据结构 c++开发语言
1.介绍在C++中，数组是一种基本的数据结构，用于存储相同类型的元素的集合。数组的元素在内存中是连续存储的，可以通过索引访问。下面将详细介绍C++数组的相关内容。2.数组的定义数组的定义需要指定元素的类型和数组的大小。typearrayName[arraySize];type:数组元素的类型（如int、char）等。arrayName:数组的名称。arraySize:数组的大小（必须是常量表达式）
算法与数据结构（二叉树中的最大路径和） a_j58 数据结构
题目思路这道题我们可以考虑用递归来解决。首先设计一个maxPath函数用来递归计算二叉树中一个节点的最大贡献值，具体来说，就是以该节点为根节点的子树中寻找以该节点为起点的一条路径，使得该路径上的节点值之和最大。如果该节点为空，则最大贡献值为0。如果非空，最大贡献值就等于节点值与其子节点中的最大贡献值之和过程分析假设二叉树如下递归步骤：1.节点20：左子树：空，leftGain=0。右子树：空，ri
C语言排序算法只有月亮知道排序算法 c语言算法
这篇文章总结一下C语言数据结构中常见的几种排序算法。1.直接插入排序直接插入排序的算法思想是，从第二个元素开始，逐个将元素插入到已排序部分。对于每个待插入元素，从后向前扫描已排序部分，找到合适的位置并插入voidInsertSort(int*a,intn){for(inti=1;i=0)//挨个遍历判断大小{if(temp1){gap/=2;//当gap为1时，就为直接插入排序for(inti=0
一篇文章搞懂C#中的泛型类/泛型方法/泛型接口方程式sunny C#c#
一篇文章搞懂C#中的泛型类/泛型方法/泛型接口链接:源码提起泛型类，很多人就头疼，我也头疼。在C#中这个概念很重要，重要的向定义一个int数值类型一样，但是这个内容又不像if···else那样容易理解。我花费了两天的时间，把整个知识点梳理了一遍，希望讲清楚，也当给自己做个笔记。泛型类（GenericClasses）泛型类是一种可以处理多种数据类型的数据结构或算法模板。它允许在定义类时使用一个或多个
Java里的ArrayList和LinkedList有什么区别？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【Java里的ArrayList和LinkedList有什么区别？】面试题。希望对大家有帮助；Java里的ArrayList和LinkedList有什么区别？1000道互联网大厂Java工程师精选面试题-Java资源分享网ArrayList和LinkedList都是Java集合框架中的常用数据结构，它们都实现了List接口，但在底层实现、性能表现和使用场景上有显著区别
数据结构--二叉树OJ习题2 晴晴学语言数据结构OJ习题二叉树 leetcode 数据结构
1另一个树的子树1.1题目介绍给定两个非空二叉树s和t，检验s中是否包含和t具有相同结构和节点值的子树。s的一个子树包括s的一个节点和这个节点的所有子孙。s也可以看做它自身的一棵子树。示例:给定的树s:给定的树t：返回true，因为t与s的一个子树拥有相同的结构和节点值。来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/subtree-of-an
学习笔记分享-进阶数据结构与算法-图-并查集-优化 -暮倦- #学习笔记分享-数据结构与算法学习笔记
前言图片上面的personal表示只有图片上面的一行语句是解释图片内容的、local表示这个图片所在标题下的所有语句都是解释图片内容的、global表示有多个标题下的所有语句都是解释图片内容的我是一名大二的学生，学了差不多一年java技术栈了，想记录一下自己对知识点的心得，目前还是个小白，期望大佬们可以指出我笔记中的不足之处、对知识点的认知错误、笔记结构的混乱等这些图片内容都是在观看黑马课程时的视
数据结构-算法 wind_one1 数据结构与算法数据结构算法
目录2.1算法的定义2.2算法的特性2.2.1输入输出2.2.2有穷性2.2.3确定性2.2.4可行性2.3算法设计的要求2.3.1正确性2.3.2可读性2.3.3健壮性2.3.4时间效率高和储存量低2.4算法效率的度量方法2.4.1事后统计方法2.4.2事前分析估算方法2.5函数的渐进增长2.6算法时间复杂度2.6.1算法时间复杂度定义2.6.2推导大O阶方法2.6.3常数阶2.6.3线性阶2.
深度学习模型可视化：通俗易懂的全面解读 Crazy learner 模型部署深度学习人工智能
目录1.什么是深度学习模型可视化？2.张量（Tensors）：深度学习中的核心数据结构3.常见的节点操作**Gather**操作**Transpose**操作**Pow**操作**Add**操作**Mix**操作4.查看模型详情5.可视化工具总结在深度学习领域，理解模型内部的工作原理对于优化、调试和改进模型至关重要。随着神经网络的复杂性日益增加，开发者和研究人员逐渐意识到，可视化不仅是理解模型的一
zswap 数据结构维护解析仙度瑞拉快点跑数据结构
zswap数据结构维护解析zswap是Linux内核中的一个前端压缩交换（swap）机制，它在内存中维护一个zpool来存储被压缩的页面，以减少磁盘I/O并提高性能。以下是zswap维护加解压相关数据结构的核心解析。1.zswap的核心数据结构1.1structzswap_entryzswap_entry结构体表示zswap维护的每个压缩页面的元数据。structzswap_entry{struc
【Linux 进程状态】—— 从创建到消亡的全生命周期一整颗红豆 Linux驾驭之道掌控操作系统的艺术与哲学 linux 运维开发 python
欢迎来到ZyyOvO的博客✨，一个关于探索技术的角落，记录学习的点滴，分享实用的技巧️，偶尔还有一些奇思妙想本文由ZyyOvO原创✍️，感谢支持❤️！请尊重原创！欢迎评论区留言交流个人主页ZyyOvO本文专栏➡️Linux驾驭之道掌控操作系统的艺术与哲学各位于晏，亦菲们请看引言==进程=内核数据结构+自己的代码和数据==系统调用fork函数功能返回值代码层面理解进程状态Linux内核源代码进程状态
【数据结构】给定n个元素的一维数组，建立一个有序单链表的最低时间复杂度爱学习的小孩啦数据结构
建立一个有序单链表的最少时间复杂度是O(nlog2n)。要建立一个有序单链表，有两种主要的方法：1️⃣先建立链表，然后依次插入建立有序表：这种方法的时间复杂度为O(n^2)。这是因为每插入一个元素，都需要遍历链表来找到插入位置，这相当于直接插入排序的过程。2️⃣先将数组排好序，然后建立链表：这种方法的时间复杂度为O(nlog2n)。首先，数组排序的最短时间复杂度是O(nlog2n)（例如使用折半
[C语言]初阶数据结构---链表习题 yycwhks 数据结构 c语言链表
经典问题---链表带环问题最后一个节点的next指针，本来应该指向空指针，但是现在指向前面的节点（非NULL），这样就构成了带环链表例子1：判断链表是否带环（力扣）解题代码如下：/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/boolhasCycle(structListNod
[H滑动窗口] lc239. 滑动窗口最大值(模拟+数据结构+单调队列+滑动窗口模板题) Ypuyu LeetCode 数据结构
文章目录1.题目来源2.题目解析1.题目来源链接：239.滑动窗口最大值相关博文：[单调队列+模板]单调队列模板题单：待补充2.题目解析一道单调队列模板题，不赘述了吧。看看日后有没有写不出来来补题、或者有新感悟的时候再来看看。注意一下C++中双端队列的用法即可。时间复杂度：O(n)O(n)O(n)空间复杂度：O(n)O(n)O(n)C++STL::deque写法：classSolution{pub
软考程序员各模块知识点对应的分值分布及考试形式总结水瓶丫头站住考试排序算法算法数据结构
软考程序员考试分为基础知识（综合知识）和应用技术两个科目，各科目满分均为75分，合格标准通常为45分。以下是各模块知识点对应的分值分布及考试形式总结：一、综合知识（上午考试）题型：75道客观选择题（含5道专业英语题），每题1分，总分75分。核心模块及分值（基于近10次考试统计）：数据结构和算法（11-13分）重点：顺序表、链表、树、图、排序与查找算法等。计算机系统基础知识（7-11分）包含进制转换
Redis系列之进阶篇（下）可乐不渴了 Redis redis 进阶
Redis系列之进阶篇（下）前言上一期我们学习了Redis的一些高级应用，今天我们来继续学习Redis的高级技术。这篇文章主要内容是：布隆过滤器限流GeoHashScan本文所学知识点过多，请做好实践。1.布隆过滤器布隆过滤器是一种高级数据结构，专门用于解决去重和检测某个对象是否存在的问题。布隆过滤器就像一个不怎么精确的set结构，当你使用它的contains方法判断某个对象是否存在时，它可能会误
深入理解 Java 中的 ArrayList ^辞安 java 开发语言 idea
1.引言ArrayList是Java集合框架中最常用的数据结构之一。它基于动态数组实现，提供了快速的随机访问和高效的尾部插入操作。无论是初学者还是资深开发者，`ArrayList`都是日常开发中不可或缺的工具。本文将深入探讨`ArrayList`的实现原理、常见操作及其性能特点，并结合源码解析其内部机制。2.ArrayList的基本概念2.1什么是ArrayList？ArrayList是Java集
栈的应用（插入一个元素，删除栈顶元素，输出栈元素）数据结构 nqqcat~ 数据结构数据结构
一、实验目的：1、掌握栈的特点(先进后出FILO)及基本操作，如入栈、出栈等。2、利用栈的特点解决实际问题，提高编程能力。二、实验内容编程实现顺序栈的各种基本运算，并在此基础上设计一个主程序，完成如下功能：1、初始化顺序栈；2、给定一个元素，将此元素压入此栈中；3、将栈顶一个元素弹出此栈。三、源程序#include#includetypedefintelemtype;#definemaxsize3
[持续更新]八股速通之Java基础面试题答案精简速记版! 八股文领域大手子 java 数据库 mysql jvm sql spring
问题1：请解释Java中ArrayList和LinkedList的区别？回答思路：数据结构：明确底层实现（数组vs双向链表）。性能对比：从查询、插入/删除、内存占用三方面分析。适用场景：根据性能特点给出使用建议。补充细节：扩容机制、线程安全性等。示例回答：ArrayList基于动态数组实现，支持快速随机访问（时间复杂度O(1)），但在中间插入或删除元素时，需要移动后续元素，性能较差（平均O(n)）
JAVA数组与集合相互转换山高自有客行路 Java java
一简介在Java中，集合（如List、Set等）和数组是可以互相转换的。下面是两种数据结构之间相互转换的一些常用方法。二数组转集合1.使用Arrays.asList()方法Arrays.asList()方法是将数组转换为集合最常用的方式之一。它返回一个由指定数组支持的固定大小的列表，这意味着你不能对返回的列表进行添加或删除操作，但可以修改现有元素。如果数组是对象类型，可以直接使用Arrays.as
数据结构~AVL树 TU^ 数据结构数据结构 c++算法
文章目录一、AVL树的概念二、AVL树的定义三、AVL树的插入四、AVL树的平衡五、AVL树的验证六、AVL树的删除七、完整代码八、总结一、AVL树的概念AVL树是最先发明的自平衡二叉查找树，AVL是⼀颗空树，或者具备下列性质的二叉搜索树：它的左右子树都是AV树，且左右子树的高度差的绝对值不超过1。AVL树是⼀颗高度平衡搜索二叉树，通过控制高度差去控制平衡。AVL树得名于它的发明者G.M.Adel
C#模式匹配详解 VTheShow #C#c#
一、模式匹配核心概念1.什么是模式匹配？模式匹配是一种检查数据结构是否满足特定条件并提取信息的机制，取代传统的if-else或switch逻辑，使代码更简洁、安全。2.核心优势简洁性：减少类型检查和转换的冗余代码安全性：编译时检查模式的有效性（如属性是否存在）表达力：支持嵌套、递归和逻辑组合模式二、核心模式类型与语法1.类型模式（TypePattern）用途：检查对象是否为指定类型，并提取变量语法
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他