to_be_better_one

算法与数据结构之美—散列表

算法与数据结构之美—散列表

开篇思考
散列思想

散列函数
散列冲突

开放寻址法(open addressing)
链表法

如何设计散列函数

装载因子
工业级散列表举例分析

散列表和链表的组合

LRU缓存淘汰算法
Redis有序集合
Java LinkedHashMap

解答开篇

开篇思考

Word文档中的单词拼写检查功能是如何实现的？

散列思想

散列表，“Hash Table”,平时也叫“哈希表”，采用的是数组支持按照下标随机访问，相当于数组的一种扩展。

例如：学生参加学校运动会，100名选手每个人都有一个参赛编号，那么如何快速通过参赛编号找到运动员呢？那我们就可以将参赛编号与数组下标一一对应起来，当需要查询参赛编号x的时候，只需要将其从对应下标为x，从数组中取出来即可，就可以实现快速查找编号对应的选手信息了。

这里就用到了散列思想，参赛选手的编号作为key或者关键字，将编号映射为数组下标的方法就是散列函数，得到的值就是散列值；

散列函数

散列函数设计要求：

散列函数计算得到的散列值是一个非负整数，因为数组下标从0开始；
如果key1 = key 2,那么hash(key1)==hash(key2);
如果key1!= key 2,那么hash(key1)!=hash(key2);
对于第三点，在实际情况中想要找到没有散列冲突的散列函数是不可能的，所以针对于散列冲突需要采取别的方式解决；

散列冲突

开放寻址法(open addressing)

开放寻址法的核心思想是，如果出现了散列冲突，就重新探测一个空闲位置将其插入；
探测方法

线性探测法
从当前位置依次往后查找，看是否有空闲位置，直到找到为止。
探测算法的弊端：
当散列表中插入的数据越来越多时，散列冲突发生的可能性就越来越大，空闲位置会越来越少，线性探测的时间越久，在极端情况下的时间复杂度是O(n);
二次散列(Quadratic probing)
线性探测的步长是1，那么它探测的下标序列就是hash(key)+0,hash(key)+1,hash(key)+2…，二次探测的步长就变成了原来的"二次方"，
hash(key)+0，hash(key)+1^2…
双重散列(Double hashing)
双重散列，就是不仅要使用一个散列函数，要用一组散列函数hash1(key),hash2(key),hash3(key)…我们先用第一个散列函数，如果计算得到的存储位置已经被占用，再用第二个散列函数，依次类推，直到找到空闲的存储位置。

当散列表中的空闲位置不多时，不管哪种探测方法，散列冲突的概率都会大大提高。

链表法

在散列表中，每个“桶(bucket)”或者"槽(slot)"都会对应一条链表，所有散列值相同的饿元素都会放到相同槽位对应的链表中。

当插入的时候，我们只需要通过散列函数计算出对应的散列槽位，将其插入到对应链表中即可，所以插入的时间复杂度是O(1)。当查找、删除一个元素时，我们同样通过散列函数计算出对应的槽，然后遍历链表查找或者删除。那查找或删除操作的时间复杂度是多少呢？

实际上，这两个操作的时间复杂度跟链表的长度k成正比，也就是O(k)。对于散列比较均匀的散列函数来说，理论上讲，k=n/m，其中n表示散列中数据的个
数，m表示散列表中“槽”的个数。

如何设计散列函数

散列函数的设计不能太复杂，需要考虑关键字的长度、特点、分布还有散列表的大小等，散列函数的设计方法有，直接寻址法、平方取中法、折叠法、随机数法等；

装载因子

装载因子 = 填入表中的元素个数/散列表的长度；
装载因子越大，说明散列表的元素越多，空闲位置越小，散列冲突的概率越大；
当散列因子过大时，我们也可以进行动态扩容

工业级散列表举例分析

Java中的HashMap

初始大小
HashMap默认的初始值大小为16，可以修改默认初始大小，减少动态扩容次数，大大提高HashMap的性能；
装载因子和动态扩容
最大装载因子为0.75，当HashMap中的元素个数超过0.75*capacity的时候就会启动自动扩容，每次扩容都会变为原来的两倍；
散列冲突解决方法
HashMap的底层采用链表法来解决冲突，当链表长度过长(默认值为8)时，链表就转换为红黑树，可以利用红黑树快速增删改查，提高HashMap的性能
散列函数
简单高效，分布均匀；

散列表和链表的组合

LRU缓存淘汰算法

借助散列表可以将LRU缓存淘汰算法的时间复杂度降低为O(1);
一个缓存**(cache)**系统主要包含以下几个操作：

往缓存中添加一个数据；
从缓存中删除一个数据；
在缓存中查找一个数据

Redis有序集合

在有序集合中，每个成员对象有两个重要的属性，key（键值）和score（分值）。我们不仅会通过score来查找数据，还会通过key来查找数据；

添加一个成员对象；
按照键值来删除一个成员对象；
按照键值来查找一个成员对象；
按照分值区间查找数据，比如查找积分在[100,356]之间的成员对象；
按照分值从小到大排序成员变量；

Java LinkedHashMap

LinkedHashMap也是通过散列表和链表组合在一起实现的。实际上，它不仅支持按照插入顺序遍历数据，还支持按照访问顺序来遍历数据;
以下面这段代码为例：

HashMap<Integer,Integer> m = new LinkedHashMap<>();
m.put(3,11);
m.put(1,12);
m.put(5,23);
m.put(2,22);
for(Map.Entry e:m.entrySet()){
	System.out.println(e.getKey());
}

最终输出的结果是3，1，2，5

//初始大小为10，0.75是装载因子，true是指按照访问时间排序
HashMap<Integer,Integer> m = new LinkedHashMap<>()(10,0.75f,true);
m.put(3,11);
m.put(1,12);
m.put(5,23);
m.put(2,22);

m.put(3,26);
m.get(5);
for(Map.Entry e:m.entrySet()){
	System.out.println(e.getKey());
}

这段代码的输出为1，2，3，5；
思考一下为啥会这样：
咱们看一下过程，当调用完前4个put函数的时候，链表中的数据如下图所示：

将键值为3的数据再次假如LinkedHashMap的时候，先查找这个值是否存在，将已经存在的(3,11)删除，并将新的(3,26)加入链表尾部，此时的链表数据如下图所示：

当执行m.get(5)的时候，需要将key为5的数据取出，插入链表的尾部，此时链表中的数据变为：

最终打印的数据就是1，2，3，5
LinkedHashMap是通过双向链表和散列表这两种数据结构组合实现的LinkedHashMap中的“Linked”实际上是指的是双向链表，并非指用链表法解决散列冲突。

解答开篇

Word文档中单词拼写检查功能如何实现？

常用的英文单词有20万个左右，假设单词的平均长度是10个字母，平均一个单词占用10个字节的内存空间，那20万英文单词大约占2MB的存储空间，就算放大10倍也就是20MB。对于现在的计算机来说，这个大小完全可以放在内存里面。所以我们可以用散列表来存储整个英文单词词典。

当用户输入某个英文单词时，我们拿用户输入的单词去散列表中查找。如果查到，则说明拼写正确；如果没有查到，则说明拼写可能有误，给予提示。借助散列表这种数据结构，我们就可以轻松实现快速判断是否存在拼写错误。

你可能感兴趣的:(数据结构与算法之美)

《数据结构与算法之美》01～05笔记太阳骑士索拉尔
关于我的仓库这篇文章是我为面试准备的学习总结中的一篇我将准备面试中找到的所有学习资料，写的Demo，写的博客都放在了这个仓库里iOS-Engineer-Interview欢迎star其中的博客在，CSDN都有发布博客中提到的相关的代码Demo可以在仓库里相应的文件夹里找到前言该系列为学习《数据结构与算法之美》的系列学习笔记总结规律为一周一更，内容包括其中的重要知识带你，以及课后题的解答算法的学习学
数据结构与算法之美学习笔记：50 | 索引：如何在海量数据中快速查找某个数据？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言为什么需要索引？索引的需求定义构建索引常用的数据结构有哪些？总结引申前言本节课程思维导图：在第48节中，我们讲了MySQL数据库索引的实现原理。MySQL底层依赖的是B+树这种数据结构。留言里有同学问我，那类似Redis这样的Key-Value数据库中的索引，又是怎么实现的呢？底层依赖的又是什么数据结构呢？今天，我就来讲一下索引这种常用的技术解决思路，底层往往会依赖哪些数据结构。同时，通过
数据结构与算法之美学习笔记：51 | 并行算法：如何利用并行处理提高算法的执行效率？浊酒南街数据结构与算法之美学习笔记算法数据结构
目录前言并行排序并行查找并行字符串匹配并行搜索总结引申前言本节课程思维导图：时间复杂度是衡量算法执行效率的一种标准。但是，时间复杂度并不能跟性能划等号。在真实的软件开发中，即便在不降低时间复杂度的情况下，也可以通过一些优化手段，提升代码的执行效率。毕竟，对于实际的软件开发来说，即便是像10%、20%这样微小的性能提升，也是非常可观的。算法的目的就是为了提高代码执行的效率。那当算法无法再继续优化的情
务实基础，从这开始 y0000c
写在前面文章的内容学习自【极客时间的付费专栏课程--数据结构与算法之美】，老师是王争。购买该专栏的原因有三：（1）个人希望巩固好数据结构与算法基础，提升个人能力（2）该专栏热度很高，好评如潮（怎么有种五星好评返现2元的感觉）（3）老师对学生的回复【迈不过数据结构与算法这个坎，你找我退钱】（ps：非原话）没人会找一个小白打广告，仅为总结，复盘一、目前个人情况1、咸鱼中的一员很遗憾，本人正是老师口中【
字符串匹配算法--数据结构与算法之美--CH32 csdn_SUSAN 数据结构和算法字符串匹配 RK算法 BF算法
文章目录1.什么是字符串匹配2.如何实现字符串匹配2.1BF算法2.2.1BF算法常用原因2.2RK算法2.2.1hash算法的设计2.2.2散列冲突处理3.其他算法简介4.思考总结1.什么是字符串匹配 “字符串匹配”就是在一个长字符串A中搜索一个短的字符串B，此时A称为主串，B称为模式串。把主串A的长度记作n，模式串B的长度记作m，因为在主串中查找模式串，所以n>m。2.如何实现字符串匹配
《数据结构与算法之美》22——递归树大杂草
前言在排序那一节里，讲到排序时，利用递推公式推导时间复杂度来求解归并排序、快速排序的时间复杂度，但有些情况，例如快速排序的平均时间复杂度，利用递推公式，会涉及很复杂的数据推导。今天学习一种特殊的树来分析递归算法的时间复杂度，那就是递归树。递归树与时间复杂度递归算法的思路是把大问题分成小问题来解决，一层一层的分解，直到问题规模足够小，不需要再递归为止。把这个一层一层的分解过程画成图，它其实是一颗树。
《数据结构与算法之美》笔记四数组大叔爱学习. 数据结构与算法之美数据结构算法链表
文章目录前言如何实现随机访问？低效的“插入”和“删除”警惕数组的访问越界问题容器能否完全替代数组？解答开篇内容小结思考题：前言是的，在每一种编程语言中，基本都会有数组这种数据类型。不过，它不仅仅是一种编程语言中的数据类型，还是一种最基础的数据结构。尽管数组看起来非常基础、简单，但是我估计很多人都并没有理解这个基础数据结构的精髓。在大部分编程语言中，数组都是从0开始编号的，但你是否下意识地想过，为什
数据结构与算法之美总结（数组、链表、栈、队列、递归、排序及二分） Fan 数据结构与算法数据结构
title:数据结构与算法之美总结（数组、链表、栈、队列、递归、排序及二分）date:2023-04-1501:41:26tags:数据结构算法categories:数据结构与算法cover:https://cover.pngfeature:false1.前言1、什么是数据结构？什么是算法？从广义上讲，数据结构就是指一组数据的存储结构。算法就是操作数据的一组方法从狭义上讲，是指某些著名的数据结构和
数据结构与算法之美-08讲栈：如何实现浏览器的前进和后退功能蒋斌文
特别备注本系列非原创，文章原文摘自极客时间-数据结构算法之美，用于平常学习记录。如有侵权，请联系我删除，谢谢！浏览器的前进、后退功能，我想你肯定很熟悉吧？当你依次访问完一串页面a-b-c之后，点击浏览器的后退按钮，就可以查看之前浏览过的页面b和a。当你后退到页面a，点击前进按钮，就可以重新查看页面b和c。但是，如果你后退到页面b后，点击了新的页面d，那就无法再通过前进、后退功能查看页面c了。假设你
数据结构与算法之美学习笔记：48 | B+树：MySQL数据库索引是如何实现的？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言算法解析总结引申前言本节课程思维导图：作为一个软件开发工程师，你对数据库肯定再熟悉不过了。作为主流的数据存储系统，它在我们的业务开发中，有着举足轻重的地位。在工作中，为了加速数据库中数据的查找速度，我们常用的处理思路是，对表中数据创建索引。那你是否思考过，数据库索引是如何实现的呢？底层使用的是什么数据结构和算法呢？算法解析思考的过程比结论更重要。今天的讲解，我会尽量还原这个解决方案的思考过
数据结构与算法之美笔记——基础篇（中）：树，二叉树，二叉查找树，平衡二叉查找树，红黑树，递归树，堆三角形代表重生数据结构与算法数据结构算法 java
树：A节点就是B节点的父节点，B节点是A节点的子节点。B、C、D这三个节点的父节点是同一个节点，所以它们之间互称为兄弟节点。我们把没有父节点的节点叫作根节点，也就是图中的节点E。我们把没有子节点的节点叫作叶子节点或者叶节点，比如图中的G、H、I、J、K、L都是叶子节点。二叉树（BinaryTree）二叉树，顾名思义，每个节点最多有两个“叉”，也就是两个子节点，分别是左子节点和右子节点。不过，二叉树
数据结构与算法之美学习笔记：47 | 向量空间：如何实现一个简单的音乐推荐系统？浊酒南街数据结构与算法之美学习笔记数据结构算法
这里写自定义目录标题前言算法解析总结引申前言本节课程思维导图：很多人都喜爱听歌，以前我们用MP3听歌，现在直接通过音乐App在线就能听歌。而且，各种音乐App的功能越来越强大，不仅可以自己选歌听，还可以根据你听歌的口味偏好，给你推荐可能会喜爱的音乐，而且有时候，推荐的音乐还非常适合你的口味，甚至会惊艳到你！如此智能的一个功能，你知道它是怎么实现的吗？算法解析实际上，要解决这个问题，并不需要特别高深
数据结构与算法之美学习笔记：46 | 概率统计：如何利用朴素贝叶斯算法过滤垃圾短信？浊酒南街数据结构与算法之美学习笔记算法数据结构
目录前言算法解析总结引申前言本节课程思维导图：上一节我们讲到，如何用位图、布隆过滤器，来过滤重复的数据。今天，我们再讲一个跟过滤相关的问题，如何过滤垃圾短信？垃圾短信和骚扰电话，我想每个人都收到过吧？买房、贷款、投资理财、开发票，各种垃圾短信和骚扰电话，不胜其扰。如果你是一名手机应用开发工程师，让你实现一个简单的垃圾短信过滤功能以及骚扰电话拦截功能，该用什么样的数据结构和算法实现呢？算法解析实际上
数据结构与算法之美学习笔记：45 | 位图：如何实现网页爬虫中的URL去重功能？浊酒南街数据结构与算法之美学习笔记爬虫数据结构算法
目录前言算法解析总结引申前言本节课程思维导图：网页爬虫是搜索引擎中的非常重要的系统，负责爬取几十亿、上百亿的网页。爬虫的工作原理是，通过解析已经爬取页面中的网页链接，然后再爬取这些链接对应的网页。而同一个网页链接有可能被包含在多个页面中，这就会导致爬虫在爬取的过程中，重复爬取相同的网页。如果你是一名负责爬虫的工程师，你会如何避免这些重复的爬取呢？最容易想到的方法就是，我们记录已经爬取的网页链接（也
数据结构与算法之美-26讲红黑树（下）蒋斌文
数据结构与算法之美-26讲红黑树（下）特别备注本系列非原创，文章原文摘自极客时间-数据结构算法之美，用于平常学习记录。如有侵权，请联系我删除，谢谢！红黑树是一个让我又爱又恨的数据结构，“爱”是因为它稳定、高效的性能，“恨”是因为实现起来实在太难了。我今天讲的红黑树的实现，对于基础不太好的同学，理解起来可能会有些困难。但是，我觉得没必要去死磕它。我为什么这么说呢？因为，即便你将左右旋背得滚瓜烂熟，我
数据结构与算法之美学习笔记：43 | 拓扑排序：如何确定代码源文件的编译依赖关系？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言算法解析1.Kahn算法2.DFS算法总结引申前言本节课程思维导图现在，我们就进入高级篇的第一节，如何确定代码源文件的编译依赖关系？我们知道，一个完整的项目往往会包含很多代码源文件。编译器在编译整个项目的时候，需要按照依赖关系，依次编译每个源文件。比如，A.cpp依赖B.cpp，那在编译的时候，编译器需要先编译B.cpp，才能编译A.cpp。编译器通过分析源文件或者程序员事先写好的编译配置
数据结构与算法之美学习笔记：44 | 最短路径：地图软件是如何计算出最优出行路径的？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言算法解析总结引申前言本节课程思维导图：我们学习了图的两种搜索算法，深度优先搜索和广度优先搜索。这两种算法主要是针对无权图的搜索算法。针对有权图，也就是图中的每条边都有一个权重，我们该如何计算两点之间的最短路径（经过的边的权重和最小）呢？今天，我就从地图软件的路线规划问题讲起，带你看看常用的最短路径算法（ShortestPathAlgorithm）。像Google地图、百度地图、高德地图这样
笔记：数据结构与算法之美 06 | 链表（上）：如何实现LRU缓存淘汰算法? 金陵砍柴人链表数据结构算法
LRU缓存淘汰算法优先淘汰最近最少使用的数据Least最少Recently最近Used使用链表和数组底层存储结构不同数组需要一块连续的内存空间来存储链表不需要，他通过指针将一组零散的内存块串联起来使用五花八门的链表结构单链表双向链表循环链表单链表每一组零散的内存块称之为结点记录下个结点地址的指针叫作后继指针next有两个特殊结点第一个结点头结点，记录链表的基地址最后一个结点尾结点，指针不是指向下一
笔记：数据结构与算法之美 05 | 数组：为什么很多编程语言中数组都从0开始编号？金陵砍柴人数据结构算法链表
数组一种线性表数据结构一组连续的内存空间存储一组具有相同类型的数据线性表（LinearList）数据排成一条线一样的结构数据最多只有前和后两个方向tips：除了数组，链表、队列、栈等也是线性表结构非线性表数据之间并不是简单的前后关系tips：比如二叉树、堆、图等连续的内存空间和相同类型的数据正因如此，才有了“随机访问”的特性数组如何实现根据下标随机访问数组元素？通过如下寻址公式，计算出该元素存储的
[44]最短路径：地图软件是如何计算出最优出行路径的？ _魔佃_
GeekTime数据结构与算法之美(ఠൠఠ)ﾉ真心推荐极客时间我们本科都学习过图的两种搜索算法，深度优先搜索和广度优先搜索。这两种算法主要是针对无权图的搜索算法。针对有权图，也就是图中的每条边都有一个权重，我们该如何计算两点之间的最短路径（经过的边的权重和最小）呢？今天，我就从地图软件的路线规划问题讲起，带你看看常用的最短路径算法。像Google地图、百度地图、高德地图这样的地图软件，我想你应该经
数据结构与算法之美学习笔记：42 | 动态规划实战：如何实现搜索引擎中的拼写纠错功能？浊酒南街数据结构与算法之美学习笔记动态规划数据结构算法
目录前言如何量化两个字符串的相似度？如何编程计算莱文斯坦距离？如何编程计算最长公共子串长度？解答开篇前言本节课程思维导图：利用Trie树，可以实现搜索引擎的关键词提示功能，这样可以节省用户输入搜索关键词的时间。实际上，搜索引擎在用户体验方面的优化还有很多，比如你可能经常会用的拼写纠错功能。当你在搜索框中，一不小心输错单词时，搜索引擎会非常智能地检测出你的拼写错误，并且用对应的正确单词来进行搜索。作
数据结构与算法之美学习笔记：41 | 动态规划理论：一篇文章带你彻底搞懂最优子结构、无后效性和重复子问题浊酒南街数据结构与算法之美学习笔记动态规划算法数据结构
目录前言“一个模型三个特征”理论讲解“一个模型三个特征”实例剖析两种动态规划解题思路总结四种算法思想比较分析内容小结前言本节课程思维导图：今天，我主要讲动态规划的一些理论知识。学完这节内容，可以帮你解决这样几个问题：什么样的问题可以用动态规划解决？解决动态规划问题的一般思考过程是什么样的？贪心、分治、回溯、动态规划这四种算法思想又有什么区别和联系？“一个模型三个特征”理论讲解什么样的问题适合用动态
数据结构与算法之美学习笔记：40 | 初识动态规划：如何巧妙解决“双十一”购物时的凑单问题？浊酒南街数据结构与算法之美学习笔记动态规划算法数据结构
这里写自定义目录标题前言动态规划学习路线0-1背包问题0-1背包问题升级版解答开篇内容小结前言本节课程思维导图：淘宝的“双十一”购物节有各种促销活动，比如“满200元减50元”。假设你女朋友的购物车中有n个（n>100）想买的商品，她希望从里面选几个，在凑够满减条件的前提下，让选出来的商品价格总和最大程度地接近满减条件（200元），这样就可以极大限度地“薅羊毛”。作为程序员的你，能不能编个代码来帮
数据结构与算法之美-09讲队列蒋斌文
数据结构与算法之美-09讲队列特别备注本系列非原创，文章原文摘自极客时间-数据结构算法之美，用于平常学习记录。如有侵权，请联系我删除，谢谢！我们知道，CPU资源是有限的，任务的处理速度与线程个数并不是线性正相关。相反，过多的线程反而会导致CPU频繁切换，处理性能下降。所以，线程池的大小一般都是综合考虑要处理任务的特点和硬件环境，来事先设置的。当我们向固定大小的线程池中请求一个线程时，如果线程池中没
数据结构与算法之美学习笔记：39 | 回溯算法：从电影《蝴蝶效应》中学习回溯算法的核心思想浊酒南街数据结构与算法之美学习笔记算法数据结构
目录前言如何理解“回溯算法”？两个回溯算法的经典应用内容小结前言本节课程思维导图：我们在前面深度优先搜索算法利用的是回溯算法思想。这个算法思想非常简单，但是应用却非常广泛。它除了用来指导像深度优先搜索这种经典的算法设计之外，还可以用在很多实际的软件开发场景中，比如正则表达式匹配、编译原理中的语法分析等。除此之外，很多经典的数学问题都可以用回溯算法解决，比如数独、八皇后、0-1背包、图的着色、旅行商
数据结构与算法之美学习笔记：38 | 分治算法：谈一谈大规模计算框架MapReduce中的分治思想浊酒南街数据结构与算法之美学习笔记算法数据结构
目录前言如何理解分治算法？分治算法应用举例分析分治思想在海量数据处理中的应用解答开篇内容小结前言本节课程思维导图：MapReduce是Google大数据处理的三驾马车之一，另外两个是GFS（hdfs）和Bigtable(hbase)。它在倒排索引、PageRank计算、网页分析等搜索引擎相关的技术中都有大量的应用。MapReduce的本质就是我们今天要学的这种算法思想，分治算法。如何理解分治算法？
数据结构与算法之美学习笔记：37 | 贪心算法：如何用贪心算法实现Huffman压缩编码？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言如何理解“贪心算法”？贪心算法实战分析解答开篇内容小结前言本节课程思维导图：接下来几节，我会讲几种更加基本的算法。它们分别是贪心算法、分治算法、回溯算法、动态规划。更加确切地说，它们应该是算法思想，并不是具体的算法，常用来指导我们设计具体的算法和编码等。贪心、分治、回溯、动态规划这4个算法思想，原理解释起来都很简单，但是要真正掌握且灵活应用，并不是件容易的事情。今天，我们先来学习一下贪心算
数据结构与算法之美学习笔记：36 | AC自动机：如何用多模式串匹配实现敏感词过滤功能？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言基于单模式串和Trie树实现的敏感词过滤经典的多模式串匹配算法：AC自动机解答开篇内容小结前言本节课程思维导图：很多支持用户发表文本内容的网站，比如BBS，大都会有敏感词过滤功能，用来过滤掉用户输入的一些淫秽、反动、谩骂等内容。你有没有想过，这个功能是怎么实现的呢？实际上，这些功能最基本的原理就是字符串匹配算法，也就是通过维护一个敏感词的字典，当用户输入一段文字内容之后，通过字符串匹配算法
数据结构与算法之美笔记——基础篇（下）：图、字符串匹配算法（BF 算法和 RK 算法、BM 算法和 KMP 算法、Trie 树和 AC 自动机）三角形代表重生数据结构与算法数据结构算法
图如何存储微博、微信等社交网络中的好友关系？图。实际上，涉及图的算法有很多，也非常复杂，比如图的搜索、最短路径、最小生成树、二分图等等。我们今天聚焦在图存储这一方面，后面会分好几节来依次讲解图相关的算法。如何理解“图”？我们前面讲过了树这种非线性表数据结构，今天我们要讲另一种非线性表数据结构，图（Graph）。和树比起来，这是一种更加复杂的非线性表结构。图中的元素我们就叫作顶点（vertex）。图
数据结构与算法之美学习笔记：35 | Trie树：如何实现搜索引擎的搜索关键词提示功能？浊酒南街数据结构与算法之美学习笔记数据结构算法
目录前言什么是“Trie树”？如何实现一棵Trie树？Trie树真的很耗内存吗？Trie树与散列表、红黑树的比较解答开篇内容小结前言本节课程思维导图：搜索引擎的搜索关键词提示功能，我想你应该不陌生吧？为了方便快速输入，当你在搜索引擎的搜索框中，输入要搜索的文字的某一部分的时候，搜索引擎就会自动弹出下拉框，里面是各种关键词提示。你是否思考过，它是怎么实现的呢？它底层使用的是哪种数据结构和算法呢？其底
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他