every__day

位图：如何实现网页爬虫中的URL去重功能？

------ 本文是学习算法的笔记，《数据结构与算法之美》，极客时间的课程 ------

网页爬虫是搜索引擎中的非常重要的系统，负责爬取几十亿、上百亿的网页。爬虫的工作原理是，通过解析已经爬取页面中的网页链接，然后再爬取这些链接对应的网页。而同一个网页链接有可能被包含在多个页面中，这就会导致爬取的过程中，重复爬取相同网页。如果你是一名负责爬虫的工程师，你会如何避免这些重复的爬取呢？

最容易想到的方法就是，我们记录已经爬取的网页链接（也就是URL）在爬取一个新的网页之前，我们拿它的链接，在已经爬取的网页链接列表中搜索。如果存在，那就说明这个网页已经被爬取过了；如果不存在，那就说明这个网页还没有被爬取过，可以继续去爬取。等爬取到这个网页之后，我们将这个网页的链接添加到已经爬取的网页链接表。

思路非常简单，可我们该如何记录已经爬取的网页链接呢？需要用什么样的数据结构呢？

算法解析

这个问题要处理的对象是网页链接，也就是URL，需要支持的操作有两个，添加一个URL和查询一个URL。除了这两个功能性的要求之外，在非功能性方面，我们还要求这两个操作的执行效率要尽可能高。除此之外，因为我们处理的是上亿的网络链接，内存消耗会非常大，所以在存储效率上，我们要尽可能地高效。

回想一下，满足这些条件的数据结构有哪些呢？显然，散列晴、红黑树、跳表这些动态数据结构，都能支持快速插入、查找数据，但对内存消耗方面，是否可以接受呢？

我们拿散列表来举例。假设我们要爬取10亿个网页（像Google、百度这样的通用搜索引擎，爬取的网页可能会更多），为了判重，我们把这10亿网页链接存储在散列表中。你来估算下，大约需要多少内存？

假设一个URL的平均长度是64字节，那单纯存储这10亿个URL，需要大约60GB的内存空间。因为散列表必须维持较小的装载因子，才能保证不会出现过多散列冲突。而且，用链表法解决总被的散列表，还会存储表指针。所以，如果将这10亿个URL构建成散列表，那需要的内存空间会远大于60GB，有可能超过100GB。

当然，对于一个大型的搜索引擎来说，即便是100GB的内存要求，其实也不算太高，我们可以优胜分治的思想，用多台机器（比如20台内存是8GB的机器）来存储这10亿网页链接。这种分治处理思路，我们之前讲过多次。

对于爬虫的URL去重这个问题，刚刚讲到的分治加散列表的思路，已经是可以实实在在工作了。不过，作为一个有追求的工程师，我们应该考虑，在添加、查询数据的效率以及内存消耗方面，我们是否有进一步的供货空间呢？

你可能会说，散列表中添加、查找数据的时间复杂度已经是O(1)，还能有进一步的空间吗？实际上，我们前面也讲过，时间复杂度并不能代表代码的执行时间。大O时间复杂度表示法，会忽略常数、系数和低阶，并且统计的对象是语句的频度。不同的语句执行时间也是不同的。时间复杂度只表示执行时间随着数据规模的变化趋势，并不能试题在特定数据下，代码执行时间的多少。

如果时间复杂度中原来的系数是10，我们现在能够优化，将系数降为1，那在时间复杂度没有变化的情况下，执行效率提高了10倍速。对于实际的软件开发来说，10倍的效率提升，显然是一个非常值得的优化。

如果我们用基于链表的方法解决冲突问题，散列表中存储的是URL，那当查询的时候，通过哈希函数定位到某个链表之后，我们还需要依次比对每个链表的URL。这个操作是比较耗时的，主要有两点原因。

一方面，链表中的结点在内存中不是连续的，所以不能一下子加载到CPU缓存中，没法很好的利用CPU调整缓存，所以数据访问性能方面会打折扣。

另一方面，链表中的每个数据都是URL，而URL不是简单的数字，是平均长度为64字节的字符串。也就是说，我们要让判重的URL，跟链表中的每个URL，做字符串匹配。显然，这样一个字符串匹配操作，比起单纯数字比对，慢的多。所以，基于这两点，执行效率方面肯定是有优化空间的。

对于内存消耗方面的优化，除了刚刚这种基于散列表的解决方法，貌似没有更好的法子了。实际上，如果要想内存方面有明显的节省，那就得换一种解决方案，也就是我们今天要着重讲的这种存储结构，布隆过滤器（Bloom Filter）。

在讲布隆过滤器前，我要先讲一下另一种存储结构，位图（BitMap）。因为，布隆过滤器本身是基于位图的，是对位图的一种改进。

我们先来看一个跟开篇的问题非常类似，但稍微简单的问题。我们有1千万个整数，整数的范围在1到1亿之间。如何快速查找某个整数是否在这1千万个整数中呢？

当然，这个问题还是可以用散列表来解决，不过，我们用可以使用一种比较“特殊”的散列表，那就是位图。我们申请一个大小人1亿、数据类型为布尔型（true 或者 false）的数组。我们将这1千万个整数作为数组下标，将对应的数组设置成true。比如，整数5对应下标为5的数组值设置为true，也就是array[5]=true。

当我们查询某个整数K是否在这1千万整数中的时候，我们只需要将对应的数组值 array[K]取出来，看是否先于 true。如果先于 true，那说明包含这个k；反之则不包含。

不过，很多语言中提供的布尔类型，大小是1个字节的，并不能节省太多内存空间。实际上，表示 true 和 false 两个值，我们只需要用一个二进制（bit）就可以了。那如何通过编程语言，来表示一个二进制位呢？

这里就要用到位运算了。我们可以借助编程语言中提供的数据类型，比如 int, long, char等类型，通过位运算，用其中的某个位表示某个数字。代码如下

	public class BitMap { // java 中 char 类型占16 bit,即2个字节
		private char[] bytes;
		private int nbits;

		public BitMap(int nbits) {
			this.nbits = nbits;
			this.bytes = new char[nbits / 16 + 1];
		}
		
		public void set(int k) {
			if (k > nbits) {
				return;
			}
			int byteIndex = k / 16;
			int bitIndex = k % 16;
			bytes[byteIndex] |= (1 << bitIndex);
		}
		
		public boolean get(int k) {
			if (k > nbits) {
				return false;
			}
			int byteIndex = k / 16;
			int bitIndex = k % 16;
			return (bytes[byteIndex] & (1 << bitIndex)) != 0;
		}
	}

从刚刚位图结构的讲解中，你应该可以发现，位图通过数组下标来定位数据，所以，访问效率非常高。而且，每个数字用一个二进制位来表示，在数字范围不大的情况下，所需要的内存空间非常节省。

比如刚刚那个例子，如果用散列表存储这1千万的数据，数据是32位的整形数，也就是需要4个字节的存储空间，那总共至少需要40MB的存储空间。如果我们通过位图的话，数字范围在1到1亿之间，只需要1亿个二进制位，也就是12MB的存储空间就够了。

关于位图，我们就讲完了，是不是挺简单的？不过，这里我们有个假设，就是数字所在范围不是很大。如果数字范围很大，比如刚刚那个问题，数字范围不是1到1亿，而是1到10亿，那位图的大小就是10亿个二进制，也就是120MB的大小，消耗的内存空间，不降反增。

这个时候，布隆过滤器就要出场了。布隆过滤器就是为了解决刚刚这个问题，对位图这种数据结构的珞改进。

还是刚刚的例子，数据范围是1到10亿。布隆过滤器的做法是，我们仍然使用一个1亿个二进制大小位图，然后通过哈希函数，对数字进行处理，让它落在这1到1亿范围内。比如我们把哈希函数设计成 f(x)=x%n。其中，x 表示数字，n 表示位图的大小（1亿），也就是，对数字跟位图的大小进行取模求余。

不过，你肯定会说，哈希函数存在冲突问题啊，一亿零一和1两个数字，经过你刚刚那个取模求余的哈希函数处理之后，最后结果都是1。这样我就无法区分，位图存储的是1还是一亿零一了。

为了降低这种冲突概率，当然我们可以设计一个复杂点，随机点的哈希函数。除此之外，还有其他的方法吗？我们来看布隆过滤器的处理方法。既然一个哈希函数可能会存在冲突，那多个哈希函数一块儿定位一个数据，是否能降低冲突的概率呢？

我们使用 K 个哈希函数，对同一个数字进行求哈希值，那会得到 K 个不同的哈希值，我们分别记作 X1, X2, X3,…,Xk。我们把这 K 个数字作为图中的下标，将对应的 BitMap[X1], BitMap[X2], BitMap[X3], … ,BitMap[Xk]都设置成true，也就是说，我们用 K 个二进制位，来表示一个数字的存在。

当我们要查询某个数字是否存在的时候，我们用同样的 K 个哈希函数，对这个数求哈希值，分别得到 Y1, Y2, Y3,…,Yk。我们看这 K 个哈希值，对应位图中的数值是否都为 true，如果都是 true，则说明，这个数字存在，如果有其中任意一个不为ture，那就说明这个数字不存在。

对于两个不同的数字来说，经过一个哈希函数处理之后，可能会产生相同的哈希值。但是经过K 个哈希函数处理之后，K 个哈希值都相同的概率就非常低了。尽管采用 K 个哈希函数之后，两个数字哈希冲突的概率降低了，但是，这种处理方式又带来新的问题，那就是容易误判。我们看下面的例子。

布隆过滤器的误判有一个特点，那就是，它只会对存在情况有误判。如果某个数字经过布隆过滤器判断不存在，那就说明这个数字真的不存在，不会发生误判；如果某个数字经过布隆过滤器判断存在，这个时候才有可能误判，有可能并不存在。不过，只要我们调整哈希函数的个数，位图大小跟要存储数字的个数之间的比例，那就可以将这种误判的概率降到非常低。

尽管布隆过滤器会存在误判，但是，这并不影响它发挥大作用。很多场景对误判有一定的容忍度。比如我们今天要解决的爬虫判重问题，即便一个没有被爬取过的网页，被误判为已经被爬取，对于搜索引擎来说，也并不是什么大事情，是可以容忍的，毕竟网页太多了，搜索引擎也不可能100%都爬取到。

弄懂了布隆过滤器，我们今天爬虫网页去重的问题，就很简单了。

我们用布隆过滤器来记录已经爬取过的网页链接，假设需要判重的网页有10亿，那我们可以用一个10倍大小的位图来存储，也就是100亿个二进制位，换算成字节，那就是大约1.2GB。之前我们用散列表判重，需要至少100GB的空间，相比来讲，布隆过滤器在存储空间的消耗上，降低了非常多。

那我们再来看下，利用布隆过滤器，在执行效率方面，是否比散列表更加高效呢？

布隆过滤器用多个哈希函数对同一个网页链接进行处理，CPU只需要将网页链接从内存中读取一次，进行多次哈希计算，理论上讲这组操作CPU 密集型的。而在散列表的处理方式中，需要读取散列冲突拉链的钦网页链接，分别跟待判重的网页链接，进行字符串匹配。这个操作涉及很多内存数据的读取，所以是内存密集型的。我们知道CPU计算可能是要比内存访问更快速的，所以，理论上讲，布隆过滤器的判重方式，更加快速。

总结引申

今天，关于搜索引擎爬虫网页去重的解决，我们从散列表讲到位图，再讲到布隆过滤器。布隆过滤器非常适合这种不需要100%准确、允许存在小概率误判的大规模判重场景。除了爬虫网页去重这个例子，还有比如统计一个大型网站的每天的UV数，也就是每天有多少用户访问了网站，我们就可以用布隆过滤器，对重复访问的用户，进行去重。

我们前面讲到，布隆过滤器的误判率，主要跟哈希函数的个数、位图大小有关。当我们往布隆过滤器中不停地加入数据后，位图中不是true的位置就越来越少了，误判率就越来越高了。所以，对于无法事先知道要判重的数据个娄的情况，我们需要支持自动扩容的功能。

当布隆过滤器中，数据个数与位图大小比例超过阈值的时候，我们就重新申请一个新的位图。后面新来的新数据，会被放置到新的位图中。但是，如果我们要判断某个数据是否在布隆过滤器中已经存在，我们就要查看多个位图，相应的执行效率就降低了一些。

位图、布隆过滤器应用如此广泛，很多编程语言都已经实现了。比如 Java 中的 BitSet 类就是一个位图，Redis也提供了 BitMap 位图类，Google 的 Guava 工具包提供了 BloomFilter布隆过滤器实现。

自定义布隆过滤器解决缓存穿透暗金烂狗缓存
什么是缓存穿透以及常见解决方案缓存穿透是指客户端请求的数据在缓存中和数据库中都不存在，这样缓存永远不会生效，这些请求都会打到数据库，导致数据库压力提高，造成宕机。缓存穿透就是指用户访问那些在数据库和Redis中都不存在的数据，例如我们知道id采用自增策略，那么就不可能出现负数id，而如果不法分子使用负数id进行查询，那么这些请求都会穿过Redis直接向数据库发送请求，从而导致数据库压力骤增，导致数
Google大数据架构技术栈剑海风云 Big Data 大数据架构 Google BigData
数据存储层ColossusColossus作为Google下一代GFS（GoogleFileSystem）。GFS本身存在一些不足单主瓶颈GFS依赖单个主节点进行元数据管理，随着数据量和访问请求的增长，出现了可扩展性瓶颈。想象一下，只有一位图书管理员管理着一个庞大的图书馆——最终，事情变得难以承受。元数据可扩展性有限主节点上的集中元数据存储无法有效扩展，影响了性能并妨碍了PB和EB级数据的管理。实
【 WPF 中常用的 `Effect` 类的介绍、使用示例和适用场景】 TIF星空 WPF分享 wpf 经验分享笔记
WPF中常用的`Effect`类的介绍、使用示例和适用场景使用场景解释示例代码示例代码解释Effect类描述使用示例适用场景DropShadowEffect为元素应用投影效果。xml为控件、文本、图像添加阴影效果，增加立体感和视觉层次。BlurEffect为元素应用模糊效果。xml模糊背景、图像或文本，常用于突出前景内容或创建模糊背景效果。BitmapEffect通过位图管道为元素应用特效（已过时
深入理解Redis原理：缓存雪崩/击穿/穿透/预热/降级 Hey 锡瑞 Redis 缓存
目录1、缓存雪崩1.1、什么是缓存雪崩1.2、解决缓存雪崩2、缓存击穿2.1、什么是缓存击穿2.2、解决缓存击穿3、缓存穿透3.1、什么是缓存穿透3.2、解决缓存穿透3.3、基于RedisBloom实现布隆过滤器4、缓存预热4.1、什么是缓存预热4.2、解决缓存预热5、缓存降级5.1、什么是缓存降级下一篇：redis5种数据结构及底层实现原理1、缓存雪崩1.1、什么是缓存雪崩如果缓在某一个时刻出现
【译】Swift算法俱乐部-布隆过滤器 Andy_Ron
Swift算法俱乐部本文是对SwiftAlgorithmClub翻译的一篇文章。SwiftAlgorithmClub是raywenderlich.com网站出品的用Swift实现算法和数据结构的开源项目，目前在GitHub上有18000+⭐️，我初略统计了一下，大概有一百左右个的算法和数据结构，基本上常见的都包含了，是iOSer学习算法和数据结构不错的资源。andyRon/swift-algori
CTF 竞赛密码学方向学习路径规划 David Max CTF 学习笔记密码学 ctf 信息安全
目录计算机科学基础计算机科学概念的引入、兴趣的引导开发环境的配置与常用工具的安装WattToolkit（Steam++）、机场代理Scoop（Windows用户可选）常用Python库SageMathLinux小工具yafuOpenSSLMarkdown编程基础Python其他编程语言、算法与数据结构（可选）数学基础离散数学与抽象代数复杂性分析密码学的正式学习兴趣的培养做题小技巧系统学习需要了解并
Redis缓存机制(详解) 就是有缘人 redis 缓存数据库
1.Redis是什么?*redis是*一个运行在内存上的key-value存储系统。是NoSQL数据库之一2.缓存穿透,缓存击穿,缓存雪崩/**缓存穿透*/它会先查询Redis,Redis没有会查询数据库,数据库也没有这就是缓存穿透业界主流解决方案:布隆过滤器布隆过滤器的使用步骤布隆过滤器的使用步骤:1.针对现有所有数据,生成布隆过滤器2.在业务逻辑层,判断Redis之前先检查这个id是否在布隆过
C++算法与数据结构闻缺陷则喜何志丹 #算法基础算法数据结构 c++动态规划图论背包问题贪心
求职的感想学历、证书、名气都是敲门砖，大大提高面试机会。能否入职主要取决于：a，项目（行业）经验。b，编程语言的熟练程度。c，算法水平。对于某个具体公司，a>b>c，对于所有公司ab>c，长期而言a
默纳克系统服务器怎么看抱闸,默纳克抱闸制动力检测怎么关闭丹力默纳克系统服务器怎么看抱闸
默纳克抱闸制动力检测怎么关闭2018-09-14直达号历史记录清除历史记录直达号反馈关闭全部问答贴吧资讯视频文库职位图片购物音乐应用地图默纳克3000怎样把抱闸检测功能关掉_百度知道1个回答-回答时间：2017年11月25日[最佳答案]N|CE3000一体机将F5一1～25代码中参数为39的改为00既可迖到你的要求。默纳克3000怎样用服务器关闭抱闸反馈2013年12月11日电梯默纳克系统故障码6
多处理器SMP系统结构--SMP结构中的进程调度 New_Worms linux
多核进程调度中，相关task_struct结构中代表进程与CPU之间关系的变量structtask_struct{...inthas_cpu,processor;unsignedlongcpus_allowed;...}has_cpu:表示当前进程在CPU上正在运行；processor:表示在哪个CPU上运行；cpus_allowed:一个位图变量，其中一位，置1，表示允许这个进程接受调度在置1编
350页前端校招面试题直击大厂：前端基础、前端核心、计算机基础、项目、Hr面 2401_86400095 前端
**1.HTML2.CSS3.前端基础4.前端核心5.前端进阶6.移动端开发7.计算机基础8.算法与数据结构9.设计模式10.项目11.职业发展12.Hr面**正文HTML1.浏览器页面有哪三层构成，分别是什么，作用是什么?2.HTML5的优点与缺点？3.Doctype作用?严格模式与混杂模式如何区分？它们有何意义?4.HTML5有哪些新特性、移除了哪些元素？5.你做的网页在哪些浏览器测试过,这些
鸿蒙（API 12 Beta6版）图形【使用Drawing实现图形绘制与显示 (C/C++)】方舟2D图形服务移动开发技术栈鸿蒙开发 c语言 c++harmonyos openharmony 移动开发鸿蒙鸿蒙系统
场景介绍NativeDrawing模块提供了一系列的接口用于基本图形和字体的绘制。Drawing绘制的内容无法直接在屏幕上显示，需要借用XComponent以及NativeWindow的能力支持，将绘制的内容通过NativeWindow送显。接口说明Drawing常用接口如下表所示。接口名描述OH_Drawing_BitmapCreate(void)创建一个位图对象。OH_Drawing_Bitm
布隆过滤器 guangzhi0633 面试职场和发展
揭秘数据筛选的神秘利器在浩瀚的数据海洋中，如何快速、准确地找到我们需要的信息？这不仅是数据科学家的难题，也是每一个与数据打交道的人面临的挑战。今天，让我们一起走进布隆过滤器（BloomFilter）的世界，看看这个被誉为“筛选神器”的技术如何帮助我们在海量数据中淘金。布隆过滤器的奥秘想象一下，你手中有一个巨大的筛子，它不仅能过滤掉无用的沙子，还能智能地保留下珍贵的金粒。布隆过滤器就是这样的“智慧筛
位图索引 woshishui1243
案例有张表名为table的表，由三列组成，分别是姓名、性别和婚姻状况，其中性别只有男和女两项，婚姻状况由已婚、未婚、离婚这三项，该表共有100w个记录。现在有这样的查询：select*fromtablewhereGender=‘男’andMarital=“未婚”;image.png1）不使用索引不使用索引时，数据库只能一行行扫描所有记录，然后判断该记录是否满足查询条件。2）B树索引对于性别，可取值
2022-Java 后端工程师面试指南 -(Redis）倾听铃的声后端 redis java 面试分布式经验分享
说说什么是redis吧Redis是一个开放源代码（BSD许可）的内存中数据结构存储，用作数据库，缓存和消息代理。它支持数据结构，例如字符串，哈希，列表，集合，带范围查询的排序集合，位图，超日志，带有半径查询和流的地理空间索引。Redis具有内置的复制，Lua脚本，LRU逐出，事务和不同级别的磁盘持久性，并通过RedisSentinel和RedisCluster自动分区提供了高可用性。说说Redis
Microsoft Word使用公式字体Latin Modern Math时导出pdf显示异常 yann_qu word pdf formula font
MicrosoftWord使用公式字体LatinModernMath时导出pdf显示异常参考资料1问题描述将Word公式字体修改为LatinModernMath，另存为pdf，导出的pdf文件中公式字体为位图而非矢量图，且部分符号可能缺失。2问题原因安装的字体LatinModernMath为otf文件而非ttf文件，Word无法将字体正确嵌入pdf。2解决方案卸载已经安装的LatinModernM
CorelDRAW2024无限试用版一键下载安装激活 qq_48396513 CorelDRAW最新版下载 CorelDRAW linux windows macos 学习
CorelDRAW，简称CDR，是一款功能极其强大的矢量图绘制软件，由加拿大Corel公司开发。经历了超过二十年的发展，CorelDRAW因其卓越的性能和用户友好性，成为了设计师们的首选工具。无论你是在制作矢量动画、网页设计，还是进行位图编辑，CorelDRAW都能满足你的需求。CorelDRAW全系列汉化版下载网盘分享链接：抓紧保存以防失效https://pan.quark.cn/s/31f7e
springboot 整合 redis布隆过滤器 wwwzhouzy java进阶-基础篇
一、什么是布隆过滤器布隆过滤器（英语：BloomFilter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。BloomFilter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集
布隆过滤器：大数据的高效守门员（在 Spring Boot 项目中实现布隆过滤器）无理 Java #Java spring boot 后端 java 布隆过滤器面试
文章目录手写SpringBoot启动器：实现布隆过滤器布隆过滤器基本概念布隆过滤器原理应用场景SpringBoot实现示例添加依赖示例代码解析总结手写SpringBoot启动器：实现布隆过滤器在大数据和高性能计算领域，布隆过滤器（BloomFilter）作为一种概率型数据结构，以其独特的空间效率和快速查询能力脱颖而出。它能够在允许一定误报率的前提下，大幅减少存储需求，特别适合于处理海量数据集中的元
springboot+redis+mybatis体会布隆过滤器落魄程序员在线炒饼 spring boot redis mybatis
1.建立数据库表和对应实体类CREATETABLE`user`(`id`int(11)NOTNULLAUTO_INCREMENT,`uname`varchar(50)DEFAULTNULL,`usex`varchar(20)DEFAULTNULL,`uage`int(11)DEFAULTNULL,PRIMARYKEY(`id`)USINGBTREE)ENGINE=InnoDBAUTO_INCREM
Redis缓存穿透/雪崩/击穿凌晨去看海缓存 redis java
目录一缓存穿透1.什么是缓存穿透2.解决方法①在请求api接口时对数据进行非法校验②在redis中对没有的数据作个标记③布隆过滤器二缓存雪崩1.什么是缓存雪崩2.解决方法三缓存击穿1.什么是缓存击穿2.解决方法一缓存穿透1.什么是缓存穿透我们使用redis请求数据的时候，正常流程是先去redis缓存中查找，如果查到了数据，那么就直接返回，不需要再去查数据库，如果没有查到，就需要去查询数据库。所以缓
【Redis】什么是Redis缓存雪崩、穿透、击穿？（一篇文章就够了） Mxin5 Redis 缓存 redis 数据库
目录什么是Redis?Redis的正常存储流程？什么是Redis缓存雪崩？缓存雪崩缓存预热缓存失效时间的随机性什么是Redis缓存穿透？缓存穿透缓存空对象BloomFilter（布隆过滤器）什么是Redis缓存击穿？缓存击穿互斥锁逻辑过期时间什么是Redis?Redis：是一种高性能开源的基于内存的，采用键值对存储的非关系型数据库，不保证数据的ACID特性【事务一旦提交，都不会进行回滚】采用键值对
项目中Redis常见的一些问题（缓存穿透，缓存雪崩，内存耗尽等） rylzdz 缓存 redis 数据库
缓存穿透缓存穿透是指查询一个不存在的数据，导致每次请求查询这个不存在的数据都会转发到数据库，可能导致数据库崩溃通常都会用布隆过滤器来解决它布隆过滤器布隆过滤器主要是用于检索一个元素是否在一个集合中。它的底层主要是先去初始化一个比较大数组，里面存放的二进制0或1。在一开始都是0，当一个key来了之后经过3次hash计算，找到对应的数据的下标然后把数组中原来的0改为1，这样的话，三个数组的位置就能标明
Redis—基础篇启航1999 redis 数据库缓存
Redis基础1.Redis简介2.Redis应用3.Redis数据结构3.1String3.2hash3.3list3.4set3.5sortedset4.Redis为什么快？5.RedisI/O多路复用6.Redis6.0多线程1.Redis简介Redis是一种基于键值对的NoSQL数据库Redis中的value支持string、hash、list、set、zset、Bitmaps（位图）、H
Oracle_进阶珍珠是蚌的眼泪 #Oracle oracle B树索引位图索引位图转换
文章目录第一节索引1.1Oracle获取数据的方式1.1.1全表扫描1.1.2ROWID扫描1.2索引1.2.1B树索引1.2.2位图索引1.2.3位图转换第一节索引1.1Oracle获取数据的方式 Oracle在选择执行计划的时候，优化器要决定用什么方法去访问存储在数据文件中的数据。我们从数据文件中查询到相关记录，有两种方法可以实现：1.直接访问表记录所在位置。2.访问索引，拿到索引中对应的r
【Android 10 SystemUI 如何隐藏状态栏耳机图标和定位图标】萌虎不虎 android python 开发语言
Android10SystemUI如何隐藏状态栏耳机图标和定位图标代码路径：frameworks/base/packages/SystemUI/src/com/android/systemui/statusbar/phone/PhoneStatusBarPolicy.javaframeworks\base\core\res\res\values\config.xml隐藏状态栏耳机图标在PhoneS
实战训练：python爬取图片 weixin_46422745 实战 python 爬虫开发语言
爬取url：随意，此次项目实战中爬取url为pic.netbian.com通过页面捕捉工具，分析页面源码，定位图片名称与地址。分析页面源码可知，每一张图片的信息都由一个li标签保存，每一个li标签中的a标签下的href为图片的详细地址，title为图片名称。点击上述href跳转到图片详细界面，再次通过页面捕捉工具，获取图片下载地址分析页面代码，img标签下的src属性即为图片下载地址。代码编写im
计算机专业考研书目（中科大） FQLSY
考研408计算机学科专业基础综合一、数据结构1.教材：《数据结构》严蔚敏清华大学出版社清华大学严蔚敏的这本数据结构的教材是国内数据结构教材的权威。也是国内使用最广，其广度远远超越其他同类教材，计算机考研专业课命题必定以它为蓝本。这一本数据结构是2007年的最新版本，完全适合任何学校的考研数据结构的复习之用，是数据结构学习最权威的教材。2.辅导书：《算法与数据结构考研试题精析（第二版）》机械工业出版
鸿蒙（API 12 Beta3版）【使用Image_NativeModule完成位图操作】图片开发指导移动开发技术栈鸿蒙开发 harmonyos openharmony 图片鸿蒙鸿蒙系统
创建位图，获取位图的宽，高，pixelFormat，alphaType，rowStride信息，对位图进行操作以及释放位图实例。开发步骤添加链接库在进行应用开发之前，开发者需要打开native工程的src/main/cpp/CMakeLists.txt，在target_link_libraries依赖中添libpixelmap.so以及日志依赖libhilog_ndk.z.so。target_li
【可视化大屏系列】DataV的使用元气满满的大咸鱼可视化大屏系列可视化大屏数据看板 DataV
以下内容为近期个人学习总结，若有错误之处，欢迎指出！可视化大屏开发系列——DataV的使用一、介绍二、注意事项1、技术支持2、兼容性3、状态更新三、实现效果四、使用（在vue2项目中）1.npm安装2.main.js中引入3.开启愉快地玩耍（1）全屏容器（2）边框（3）装饰（4）图表（5）其它图表推荐A.水位图B.轮播表C.胶囊柱图D.排名轮播表E.锥形柱图一、介绍DataV是一款用来做大屏数据展
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

位图：如何实现网页爬虫中的URL去重功能？

算法解析

总结引申

你可能感兴趣的:(算法与数据结构,位图,布隆过滤器)