every__day

剖析搜索引擎背后的经典数据结构和算法

------ 本文是学习算法的笔记，《数据结构与算法之美》，极客时间的课程 ------

像百度、Google这样的搜索引擎，在我们平时工作中学习中，几乎天天遇到。如果我们把搜索引擎当作一个互联网产品的话，那它跟社交、电商这些类型的产品相比，有一个非常大的区别，那就是，它是一个技术驱动的产品。所谓技术驱动是指，搜索引擎实现起来，技术难度非常大，技术的好坏直接决定了这个产品的核心竞争力

今天借助搜索引擎，这样一个非常有技术含量的产品，来展示下，数据结构和算法是如何应用在其中的

整体系统介绍

你Google这样大型商用搜索引擎，有成千上万的工程师，十年如一日地对它进行优化改进，所以，它所包含的技术细节非常多。我很难、也没有能力，通过一篇文章把所有细节都讲清楚。

所以，接下来的讲解，我主要展示，如何在一台机器上（假设这台机器的内存是8GB，硬盘是100多GB），通过少量的代码，实现一个小型搜索引擎。不过，麻雀虽小，五脏俱全。跟大型搜索引擎相比，实现这样一个小型搜索引擎的理论是相通的。

搜索引擎大致可以分为四个部分：搜集、分析、索引、查询。其中，搜索，就是我们常说的利用爬虫爬取网页。分析，负责网页内容抽取、分词，构建临时索引，计算PageRank值这几部分工作。索引，主要负责通过分析阶段得到的临时索引，计算网页排名，返回查询结果给用户。

接下来，我就按照网页处理的生命周期，从这四个阶段，依次来给你讲解，一个网页从被爬取到最终展示给用户，这样一个完整的过程。与此同时，会穿插讲解，这个过程中需要用到哪些数据结构和算法。

搜集

现在，互联网越来越发达，网站越来越多，对应的网页也就越来越多。对于搜索引擎来说，它事先并不知道网页都在哪里。打个比方来说就是，我们只知道海里有很多钽，但却并不知道鱼在哪里在。那搜索引擎是如何爬取网页的呢？

搜索引擎把整个互联网看作数据结构中的有向图，把每个页面看作一个顶点。如果某个页面中包含另外一个页面的链接，那我们就在两个顶点之间连一条有向边。我们可以利用图的遍历搜索算法，来遍历整个互联网中的网页。

在前面我们介绍过图的遍历方法，深度优先和广度优先。搜索引擎采用的是广度优先搜索策略。具体点讲，就是我们先找一些比较知名的网页（专业的叫法是权重比较高）的链接（比如新浪主页网址、腾讯主页网址），作为种子网页链接，放入到队列中。爬虫按照广度优先的策略，不停地从队列中取出链接，然后爬取对应网页，解析网页里包含的其他网页链接，再将其解析出来的链接添加到队列中。

基本原理就是这么简单。但落实到实现层面，还有很多技术细节。我正面借助搜集阶段涉及的几个重要文件，来解释下搜索工程有哪些关键技术细节。

1、待爬取网页链接文件：links.bin

在广度优先搜索爬取页面的过程中，爬虫会不停地解析页面链接，将其放到队列中。于是，队列中的链接就会越来越多，可能多到内存放不下。所以，我们用一个存储在磁盘中的文件（links.bin）来作为广度优先搜索中的队列。爬虫从links.bin文件中，取出链接去爬取对应的页面。等爬取到网页后，将解析出来的链接，直接存储到links.bin文件中。

这样用文件来存储网页链接的方式，还有其他好处。比如，支持断点续爬。也就是说，当机器断电之后，网页链接就不会丢失；当机器重启之后，还可以从之前爬取到的位置继续爬取。

关于如何解析页面获取链接，我们可以把整个页面看作一个大的字符串，我们可以利用字符串匹配算法，在这个大字符串中，搜索这样一个网页标签，然后顺序读取之间的字符串。这其实就是网页链接。

2、网页判重文件：bloom_filter.bin

如何避免重复爬取相同的网页呢？这个问题我们在位图那一节已经讲过了。使用布隆过滤器，我们就可以快速且非常节省内存地实现网页的判重。

不过，还是刚刚那个问题，如果我们把布隆过滤器存储在内存中，那机器宕机重启之后，布隆过滤器就被清空了。这样就可能导致大量已经爬取的网页会重复爬取。

解决这个问题可以定期的（每间隔半小时）将布隆过滤器持久化到磁盘中，存储在 bloom_filter.bin文件中。这样，即便出现机器宕机，也只会丢失布隆过滤器中的部分数据。当机器重启后，我们就可以重新读取磁盘中的bloom_filter.bin文件，将其恢复到内存中。

3.原始网页存储文件：doc_raw.bin

爬取到网页之后，我们需要将其存储下来，以备后面离线分析、索引之用。那如何存储海量的原始网页数据呢？

如果我们把每个网页都存储为一个独立的文件，那磁盘中的文件就会非常多，数量可能会有几千万、甚至上亿。常用的文件系统显然不适合存储如此多的文件。所以，我们可以把多个网页存储在一个文件中。每个网页之间通过一定的标识进行分隔，方便后续读取。具体存储格式如下。其中，doc_id 这个字段是网页的编号，我们待会儿再解释。

当然，这样的一个文件也不能太大，因为文件系统对文件的大小也有一定的限制。所以，我们可以设置每个文件的大小不能超过一定的值（比如1GB）。随着越来越多的网页被添加到文件中，文件的大小就会越来越大，当超过1GB的时候，我们就创建一个新文件，用来存储新爬取的网页。

假设一台机器的硬盘大小是100GB左右，一个网页的平均大小是64KB。那在一台机器上，我们可以存储100万到200万左右的网页。假设我们的机器的带宽是10MB，那下载100GB网页，大约需要10000秒。也就是说，爬取100多万的网页，也就是只需要花费几小时的时间。

4、网页链接及其编号的对应文件：doc_id.bin

刚刚我们提到了网页编号这个概念，它实际上就是给每个网页分配一个唯一的ID，方便我们后续对网页进行分析、索引。那如何给网页编号呢？

我们可以按照网页被爬取的先后顺序，从小到大依次编号。具体是这样的：我们维护一个中心计数器，每爬取到一个网页之后，就从计数器中拿一个号码，分配给这个网页，然后计数器加一。在存储网页的同时，我们将网页链接跟编号之间的对应关系，存储在另一个doc_id.bin 文件中。

爬虫在爬取网页的过程中，涉及的四个重要文件，就介绍完了。其中，links.bin和bloom_filter.bin这两个文件是爬虫自身所用的。另外两个（doc_raw.bin doc_id.bin）是作为搜集阶段的成果，供后面分析、索引、查询用的。

分析

网页爬取下来之后，我们需要对网页进行离线分析。分析阶段主要包括两个步骤，第一个是网页文本信息，第二个是分词并创建临时索引。

1、抽取网页文本信息

网页是半结构化数据，里面夹杂着各种标签、JavaScript 代码、CSS样式。对于搜索引擎来产，它只关心网页中的文本信息，也就是，网页显示在浏览器中时，能被用户肉眼看到的那部分信息。我们如何从半结构化的网页中，抽取出搜索引擎的文本信息呢？

网页是遵循HTML语法规范的，依靠HTML标签来抽取网页中的文本信息。这个过程，大体可以分为两步。

第一步是去掉JavaScript代码、CSS格式以及下拉框中的内容（因为下拉框在用户不操作的情况下，也是看不到的）也就是）为止。而这期间遍历到的字符串连带着标签就应该从网页中删除。

第二步是去掉所有的HTML标签。这一步也是通过字符串匹配算法来实现的。

2.分词并创建临时索引

经过上面的处理之后，我们就从网页中抽取出了我们关心的文本信息。接下来，我们要对文本信息进行分词，并且创建临时索引。

对于英文网页来说，分词非常简单。我们只需要通过空格、标点符号等分隔符，将每个单词分割开来就可以了。但是，对于中文来说，分词就复杂太多了。这里介绍一种比较简单的思路，基于字典和规则的分词方法。

其中，字典也叫词库，里包含大量常用的词语（我们可以直接从网上下载别人整理好的）。借助词库并采用最长匹配规则，来对文本进行分词。所谓最长匹配，也就是匹配尽可能长的词语。我举个例子解释一下。

比如要分词的文本是“中国人民解放了”，我们词库中有“中国”、“中国人”、“中国人民”、“中国人民解放军”这几个词，那我们就取最长匹配，也就是“中国人民”划为一个词，而不是把“中国”、“中国人”划为一个词。具体实现层面，我们可以将词库中的单词，构建成 Trie 树结构，然后拿网页文本在 Trie 树中匹配。

每个网页的文本信息在分词完成之后，我们都得到一组单词列表。我们把单词与网页之间的对应关系，写入到一个临时索引文件中（tmp_Index.bin），这个临时索引文件用来构建倒排索引文件。临时索引文件的格式如下：

在临时索引文件中，我们存储的是单词编号，也就是图中 term_id，而非单词本身。这样做的目的主要是为了节省存储空间。那些单词的编号是怎么来的呢？

给单词编号的方式，跟网页编号类似。我们维护一个计数器，每当从网页文本信息中分割出一个新单词的时候，我们就从计数器中取一个编号，分配给它，然后计数器加一。

在这个过程中，我们还需要使用散列表，记录已经编过号的单词。在对网页文本信息分词的过程中，我们拿分割出来的单词，先到散列表中查找，如果找到，那就直接用已有的编号；如果没有找到，我们再去计数器中拿号码，并且将这个新单词以及编号添加到散列表中。

当所有的网页处理（分词及写入临时索引）完成之后，我们再将这个单词跟编号之间的对应关系，写入到磁盘文件中，并命名为 term_id.bin。

经过分析阶段，我们得到了两个重要的文件。它们分别是临时索引文件（tmp_index.bin）和单词编号文件（term_id.bin）。

索引

索引阶段主要负责将分析阶段产生的临时索引，构建成倒排索引。倒排索引（Inverted index）中记录了每个单词以及包含它的网页列表。文字描述比较难理解，我画了一张倒排索引的结构图。

我刚刚讲到，在临时索引文件中，记录的是单词跟每个包含它的文档之间的对应关系。那如何通过临时索引文件，构建出倒排索引文件呢？这是一个非常典型的算法问题，考虑到临时索引文件很大，无法一次性加载到内存中，搜索引擎一般会选择使用多路归并排序的方法来实现。

我们先对临时索引文件，按照单词编号的大小进行排序。因为临时索引很大，所以一般基于内存的排序算法就没法处理这个问题了。我们可以用之前讲到的归并排序思想，将其分割成多个小文件，先对每个小文件独立排序，最后再合并在一起。当然实际的软件开发中，我们其实可以直接利用 MapReduce来处理。

临时索引文件排序完成后，相同的单词就被排列到一起。再顺序遍历排好序的临时索引文件，就能将每个单词对应的网页编号列表找出来，然后把它们存储在倒排索引文件中，如下图。
除了倒排文件之外，我们还需要一个文件，来记录每个单词编号在倒排索引文件中的偏移位置。我们把这个文件命名为 term_offset.bin。这个文件的作用是，帮助我们快速地查找某个单词编号在倒排索引中存储的位置，进而快速地从倒排索引中读取单词编号对应的网页编号列表。
经过索引阶段处理，我们得到了两个有价值的文件，它们分别是倒排索引文件（index.bin）和记录单词编号在索引文件中偏移位置的文件（term_offset.bin）。

查询

前面三个阶段的处理，只是为了最后的查询做铺垫。因此，现在我们就利用之前产生的几个文件，来实现最终的用户搜索功能。

doc_id.bin：记录网页链接和编号之间的对应关系。
term_id.bin：记录单词和编号之间的对应关系。
index.bin：倒排索引文件，记录每个单词编号以及对应包含它的网页编号列表。
term_offset.bin：记录每个单词编号在倒排索引文件中偏移的位置。

这四个文件中，除了倒排索引文件（index.bin）比较大之外，其他的都比较小。为了方便快速查找数据，我们将其他三个文件都加载到内存中，并且组织成散列表这种数据结构。、

当用户在搜索框中，输入某个查询文本的时候，我们先对用户输入的文本进行分词处理。假设分词之后，我们得到k个单词。

我们拿这 k 个单词，去 term_id.bin对应的散列表中，查找对应的单词编号。经过这个查询之后，我们得到了这 k 个单词对应的单词编号。

我们拿这 k 个单词编号，去term_offset.bin 对应的散列表中，查找每个单词编号在倒排索引文件中的偏移位置。经过这个查询之后，我们得到了 k 个偏移位置。

我们拿到 k 个偏移位置，去倒排索引（index.bin）中，查找 k 个单词对应包含它的网页编号列表。经过这一步查询之后，我们得到 k 个网页编号列表。

我们针对这 k 个网页编号列表，统计每个网页编号出现的次数。具体到实现层面，我们可以借助散列表进行统计。统计得到的结果，我们按照出现次数的多少，从小到大排序。出现次数越多，说明包含越多的用户查询单词（用户输入的搜索文本，经过分词之后的单词）。

经过一系列的查询，我们就得到了一组排好序的网页编号，我们拿着编号，去 doc_id.bin 文件中查找对应的网页链接，分布显示给用户就可以了。

总结引申

今天，我给你展示了一个小型搜索引擎的设计思路。这只是一个搜索引擎设计的基本原理，有很多优化、细节我们并未涉及，比如计算网页权重的 PageRank 算法、计算查询结果排名的 tf-idf模型等等。

在讲解的过程中，我们涉及的数据结构和算法有：图、散列表、Trie树、布隆过滤器、单模式字符串匹配算法、AC自动机、广度优先遍历、归并排序等。

CTF 竞赛密码学方向学习路径规划 David Max CTF 学习笔记密码学 ctf 信息安全
目录计算机科学基础计算机科学概念的引入、兴趣的引导开发环境的配置与常用工具的安装WattToolkit（Steam++）、机场代理Scoop（Windows用户可选）常用Python库SageMathLinux小工具yafuOpenSSLMarkdown编程基础Python其他编程语言、算法与数据结构（可选）数学基础离散数学与抽象代数复杂性分析密码学的正式学习兴趣的培养做题小技巧系统学习需要了解并
C++算法与数据结构闻缺陷则喜何志丹 #算法基础算法数据结构 c++动态规划图论背包问题贪心
求职的感想学历、证书、名气都是敲门砖，大大提高面试机会。能否入职主要取决于：a，项目（行业）经验。b，编程语言的熟练程度。c，算法水平。对于某个具体公司，a>b>c，对于所有公司ab>c，长期而言a
350页前端校招面试题直击大厂：前端基础、前端核心、计算机基础、项目、Hr面 2401_86400095 前端
**1.HTML2.CSS3.前端基础4.前端核心5.前端进阶6.移动端开发7.计算机基础8.算法与数据结构9.设计模式10.项目11.职业发展12.Hr面**正文HTML1.浏览器页面有哪三层构成，分别是什么，作用是什么?2.HTML5的优点与缺点？3.Doctype作用?严格模式与混杂模式如何区分？它们有何意义?4.HTML5有哪些新特性、移除了哪些元素？5.你做的网页在哪些浏览器测试过,这些
计算机专业考研书目（中科大） FQLSY
考研408计算机学科专业基础综合一、数据结构1.教材：《数据结构》严蔚敏清华大学出版社清华大学严蔚敏的这本数据结构的教材是国内数据结构教材的权威。也是国内使用最广，其广度远远超越其他同类教材，计算机考研专业课命题必定以它为蓝本。这一本数据结构是2007年的最新版本，完全适合任何学校的考研数据结构的复习之用，是数据结构学习最权威的教材。2.辅导书：《算法与数据结构考研试题精析（第二版）》机械工业出版
Java实现家谱家族管理系统，图形化家谱家族树，单机应用程序 violet_ever_garden java javafx 家谱树 JAVA 图形用户界面设计源代码
背景算法与数据结构实验内容，使用Java+JavaFX，花了两个星期独自完成。功能（1）普通用户、超级管理员不同角色，不同角色登录后的权限各不相同，普通用户可以进行查询；超级管理员有对所有成员增加、删除和修改的权限。现在的初始超级管理员：admin123456初始普通用户：user555123123（2）家谱中成员的信息中包含姓名、出生日期、婚否、地址、健在否、死亡日期（若其已死亡）等（3）数据以
面试算法LeetCode刷题班—BAT面试官带你刷真题、过笔试 Dan Boneh 高级程序设计算法
课程名称:《面试算法LeetCode刷题班》——BAT面试官带你刷真题、过笔试主讲老师:林老师BAT资深研发工程师(T7/P8级)，致力于搜索引擎及其子系统的研发、迭代与优化，数据分析与挖掘领域专家，多年担任校园招聘、社会招聘面试官，丰富的面试候选人经验。课程简介:掌握算法与数据结构是成为优秀程序员的必经之路，众多国内外知名互联网企业都将算法面试作为程序员招聘的重要和必需途径，只有高效应对各类题目
【算法与数据结构】算法与数据结构知识点晚安66 算法算法
文章目录一、算法和数据结构和LeetCode介绍二、算法和数据结构入门2.1时间复杂度2.2空间复杂度2.3基础排序算法2.3.1选择排序算法2.3.2冒泡排序算法三、数组3.1二分法查找法3.2双指针法四、链表理论五、哈希表理论五、栈和队列理论5.1单调栈六、二叉树理论6.1树的定义6.2二叉树的存储方式6.3二叉树的遍历方式6.4高度和深度七、回溯算法八、贪心算法九、动态规划9.1背包问题9.
【算法与数据结构】42、LeetCode接雨水晚安66 算法算法
文章目录一、题目二、解法三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、题目二、解法思路分析：程序如下：复杂度分析：时间复杂度：O()O()O()。空间复杂度：O()O()O()。三、完整代码end
【算法与数据结构】496、503、LeetCode下一个更大元素I II 晚安66 算法算法
文章目录一、496、下一个更大元素I二、503、下一个更大元素II三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、496、下一个更大元素I 思路分析：本题思路和【算法与数据结构】739、LeetCode每日温度类似。如果用暴力破解法时间复杂度需要O(m∗n)O(m*n)O(m∗n)，其中mmm和nnn分别是两个数组的长度。单调栈只需要O(
【算法】【数据结构】算法与数据结构的关系琛：D 算法数据结构算法数据结构
程序=算法+数据结构+语言工具和环境但在算法学习过程中，我认识到算法和数据结构是密不可分的，脱离数据结构谈论算法是空架子。算法：解决问题的步骤和方法。对数据进行操作和处理的方法。数据结构：用来存储数据的方式。数据结构和算法之间的关系可以看作是一种相互依赖的关系。在解决问题时，首先需要选择适当的数据结构来存储和组织数据，然后再设计合适的算法对这些数据进行操作和处理。数据结构的选择可以影响算法的效率和
Leetcode64. 最小路径和（C语言） jeanlu 数据结构&算法算法动态规划 c语言
Leetcode64.最小路径和（C语言）算法-动态规划（矩阵路径）：算法与数据结构参考题目：给定一个包含非负整数的mxn网格，请找出一条从左上角到右下角的路径，使得路径上的数字总和为最小。每次只能向下或者向右一步，例：输入:[[1,3,1],[1,5,1],[4,2,1]]输出:7思路：动态规划。每个位置存储起点到当前位置的路径和最小值。注意行列下标代码：#definemin(a,b)(a
算法与数据结构--简析红黑树云逸Dean
1.为什么要使用红黑树：可以保证在O（logN）的时间复杂度下做查找删除添加2.性质：（来自于维基百科Red–blacktree条目）节点是红色或者黑色的（Eachnodeiseitherredorblack）根是黑色的,有时会被省略，由于根是黑色和红色对规范并没有其他影响(Therootisblack.Thisruleissometimesomitted.Sincetherootcanalway
【算法与数据结构】583、72、LeetCode两个字符串的删除操作+编辑距离晚安66 算法算法
文章目录一、583、两个字符串的删除操作二、72、编辑距离三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、583、两个字符串的删除操作思路分析：本题的思路和115、不同的子序列差不多，只是变成了两个字符串都能删除字符。第一步，动态数组的含义。dp[i][j]dp[i][j]dp[i][j]代表使得word1[0,i−1]word1[0,
【算法与数据结构】647、516、LeetCode回文子串+最长回文子序列晚安66 算法算法
文章目录一、647、回文子串二、516、最长回文子序列三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、647、回文子串思路分析：判断一个字符串是否为回文串那么必须确定回文串的所在区间，而一维数组无法描述区间，因此我们需要用一个二维的dp数组来表示。我们只需要统计dp数组中回文串的个数即可。第一步，动态数组的含义。dp[i][j]dp[i
【算法与数据结构】718、1143、1035、392、115、LeetCode最长重复子数组+最长公共子序列+不相交的线+判断子序列+不同的子序列晚安66 算法算法
文章目录一、718、最长重复子数组二、1143、最长公共子序列三、1035、不相交的线四、392、判断子序列五、115、不同的子序列六、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、718、最长重复子数组思路分析：第一步，动态数组的含义。dp[i][j]dp[i][j]dp[i][j]代表以下标i−1i-1i−1为结尾的nums1，和以下
【算法与数据结构】739、LeetCode每日温度晚安66 算法算法
文章目录一、题目二、解法三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、题目二、解法思路分析：程序如下：复杂度分析：时间复杂度：O()O()O()。空间复杂度：O()O()O()。三、完整代码end
python算法与数据结构（搜索算法和拓扑排序算法）---广度优先搜索和拓扑排序他是只猫算法 python 数据结构 BFS 广度优先
广度优先搜索BFS定义&基本内容广度优先是按照层次由近及远的进行搜索，在当前层次所有可及节点都搜索完毕后才会继续往下搜索，其本质就是寻找从起点到终点的最短路程。树的广度优先搜索树的广度优先遍历，可以看成是层序遍历。访问顺序如图：图的广度优先搜索有向图：边存在方向的图；有向图中度分为入度（in-degree）和出度（out-degree）入度：表示有多少条边指向这个顶点；出度：表示有多少条边是以这个
python算法与数据结构---动态规划他是只猫算法 python 数据结构动态规划
动态规划记不住过去的人，注定要重蹈覆辙。定义对于一个模型为n的问题，将其分解为k个规模较小的子问题（阶段），按顺序求解子问题，前一子问题的解，为后一子问题提供有用的信息。在求解任一子问题时，通过决策求得局部最优解，依次解决各子问题。最后通过简单的判断，得到原问题的解。经典案例—斐波那契数列斐波那契数列又称黄金分割数列。因数学家莱昂纳多-斐波那契以兔子繁殖为例引入，故又称兔子数列。1,1,2,3,5
【考研408】算法与数据结构笔记 newcih 408 算法与数据结构考研
文章目录绪论数据结构的基本概念算法和算法评价线性表线性表的定义和基本操作线性表的顺序表示线性表的链式表示栈和队列栈基本操作栈的顺序存储结构栈的链式存储队列队列常见的基本操作队列的顺序存储结构队列的链式存储结构双端队列栈和队列的应用栈在括号匹配中的应用栈在表达式求值中的应用栈在递归中的应用队列在层次遍历中的应用队列在计算机系统中的应用特殊矩阵的压缩存储数组的定义数组的存储结构矩阵的压缩存储串串的定义
第十五章 Caché 算法与数据结构堆排序 Cache技术分享
第十五章Caché算法与数据结构堆排序二叉堆特性最大堆的堆顶是整个堆中的最大元素。最小堆的堆顶是整个堆中的最小元素。调整以最大堆为例，如果删除一个最大堆的堆顶（并不是完全删除，而是跟末尾的节点交换位置），经过自我调整，第2大的元素就会被交换上来，成为最大堆的新堆顶。image.png如上图所示，在删除值为10的堆顶节点后，经过调整，值为9的新节点就会顶替上来；在删除值为9的堆顶节点后，经过调整，值
有事没事，研究研究算法乌龟的慢生活
图片发自App图片发自App有点意思，算法很有意思的。学习经典算法与数据结构。看图说话，然后代码实现！然后解答实际问题。有意思的。利用好这些软件。
南京邮电大学算法与数据结构设计：文本的加密与解密、校园导航系统一直是我呀课程设计开源算法数据结构 qt c++课程设计
作者：由于文件数量过多，逐个上传较为繁琐，所以文章中上传的代码只是部分主要的结构，需要源码的小伙伴可以去我的Github上搜索，地址为：GitHub-xxz1314520/Algorithm-and-Program-Design-of-NJUPT:这是我在南京邮电大学计算机学院所开设的课程《算法与数据结构设计》写的项目A.文本的加密和解密一、课题内容和要求设计要求：设计对已知文本进行加密和解密程序
【算法与数据结构】121、122、123、188、309、714、LeetCode买卖股票的最佳时机I II III IV+含冷冻期+含手续费晚安66 算法算法
文章目录一、121、LeetCode买卖股票的最佳时机1.1动态规划1.2动态规划-滚动数组二、122、买卖股票的最佳时机II三、123、买卖股票的最佳时机III四、188、买卖股票的最佳时机IV五、309、买卖股票的最佳时机含冷冻期六、714、买卖股票的最佳时机含手续费七、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、121、LeetCod
【算法与数据结构】300、LeetCode最长递增子序列晚安66 算法算法
文章目录一、题目二、解法三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、题目二、解法思路分析：程序如下：classSolution{public:intlengthOfLIS(vector&nums){vectordp(nums.size(),1);intresult=1;for(inti=1;inums[j])dp[i]=max(
算法考试复习 FakeCSer爱去网吧
引论算法与数据结构与程序的区别算法是求解问题的过程描述：从蛮力到策略数据结构是数据的组织与存储：从杂乱无章到井然有序程序=算法+数据结构算法描述自然语言伪代码流程图三种不同的计算机问题判断问题（yes,no）例如输入的数是否大于60优化问题（求最优解）例如从A到B的最短路径是什么数值计算常见的计算机问题排序查找串处理图问题组合问题几何问题数值问题概念什么是算法：算法是一系列解决问题的清晰指令，也就
【Leetcode】算法与数据结构 C语言造夢先森算法与数据结构 C语言进阶 string 函数 leetcode math stack
字符串：https://leetcode-cn.com/problems/reverse-string/voidswap(char*a,char*b){chart=*a;*a=*b,*b=t;}voidreverseString(char*s,intsSize){for(intleft=0,right=sSize-1;left=m||y=n||grid[x][y]=='0')//遇到边界或‘0’直
【算法与数据结构】198、213、337LeetCode打家劫舍I, II, III 晚安66 算法算法
文章目录一、198、打家劫舍二、213、打家劫舍II三、337、打家劫舍III三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、198、打家劫舍思路分析：打家劫舍是动态规划的的经典题目。本题的难点在于递归公式和初始化。第一步，dp[j]dp[j]dp[j]的含义。dp[j]dp[j]dp[j]代表到第jjj家的时候，偷窃到的最高金额。第二
「干货」编程语言十大经典算法，你知道几个？蓝桥云课算法数据结构推荐算法
算法与数据结构是计算机学习路上的内功心法，也是学好编程语言的重要基础。今天给大家介绍一下十大经典算法。十大经典算法分别是：冒泡排序，插入排序，选择排序，希尔排序，快速排序，归并排序，桶排序，堆排序，计数排序，基数排序。预备知识：算法稳定性如果a==b，排序前a在b的前面，排序后a在b的后面，只要会出现这种现象，我们则说这个算法不稳定（即使两个相等的数，在排序的过程中不断交换，有可能将后面的b交换到
【算法与数据结构】139、LeetCode单词拆分晚安66 算法算法
文章目录一、题目二、解法三、完整代码所有的LeetCode题解索引，可以看这篇文章——【算法和数据结构】LeetCode题解。一、题目二、解法思路分析：本题可以看做一个动态规划问题。其中，字符串s是背包，而字典中的单词就是物品。题目问的是单词能否组成字符串s，就是问物品能不能把背包装满。字典中的单词可以重复使用，因此是一个完全背包问题。第一步，dp[j]dp[j]dp[j]的含义。dp[j]d
python算法与数据结构---排序和归并排序茨球是只猫算法数据结构 python 排序算法
学习目标掌握归并排序的基本原理使用python语言解答归并排序题目归并排序原理及过程将两个有序的数组合并成一个有序数组称为从上往下分解：把当前区间一分为二，直至分解为若干个长度为1的子数组从上往下的合并：两个有序的子区域两两向上合并；体现了分治思想，稳定排序复杂度平均时间复杂度：O(NlogN)最坏时间复杂度：O(NlogN)归并排序合并过程temp数组用于存储合并结果，合并后拷贝回原数组；双指针
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

剖析搜索引擎背后的经典数据结构和算法

整体系统介绍

搜集

分析

索引

查询

总结引申

你可能感兴趣的:(算法与数据结构)