JXH_123

搜索引擎的基本原理及构成

【说明】：本文转自 http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=23480159&id=2421718

引言

首先，所谓“搜索引擎”，说到底是一个网络应用软件系统。从网络用户的角度看，它根据用户提交的类自然语言查询词或者短语，返回一系列很可能与该查询相关的网页信息，供用户进一步判断和选取。为了有效地做到这一点，它大致上被分成三个功能模块，或者三个子系统；即网页搜集，预处理和查询服务，这三个部分是相对独立的，它们的工作形成了搜索引擎工作的三个阶段。

基本要求

如前述，搜索引擎是一个网络应用软件系统，对它有如下基本要求：

能够接受用户通过浏览器提交的查询词或者短语，记作q，例如“非典”，“伊拉克战争”，“床前明月光”等等。在一个 可以接受的时间内 返回一个和该用户查询匹配的网页信息列表，记作L。这个列表的每一条目至少包含三个元素（标题，网址链接，摘要）。

这里有三个问题需要注意，分别对应以上的黑体字：

“可以接受的时间”，也就是响应时间。对于在Web上面向广大用户提供服务的软件来说，这个时间不能太长。这是衡量搜索引擎可用性的一个基本指标，也是和传统信息检索系统的一个差别。更进一步的，这样的响应时间要求不仅要能满足单个用户查询，而且要能在系统设计负载的情况下满足所有的用户。也就是说，系统应该在额定吞吐率的情况下保证秒级响应时间。

“匹配”，指的是网页中以某种形式包含有q的内容，其中最简单、最常见的形式就是q在其中直接出现。不过如果一个搜索引擎就是以百分之百满足这种简单的包含关系为目标，即使实现了也并不就达到了最好的效果。

“列表”这蕴含着一种“序”（rank）。在绝大多数情况下，L是相当长的，例如超过一万个条目（这是和图书馆全文检索系统的又一个不同，那里返回的列表通常较短，例如几十个条目）。这不仅是由于Web上的信息量大，也由于搜索引擎的查询方式简单。简单，意味着抽象；抽象，意味着有更多的具体事物可能是它的体现。对于一个长长的列表，很少有用户有耐心都审视一遍（不仅是因为长，还因为大多数使用搜索引擎的用户通常都是“找到为止”，而不是“不全部找到不罢休”，加上这个列表中和一个用户关心的其实只占很少的比例）。有分析统计表明，用户平均察看返回结果不超过2页。

现代大规模高质量搜索引擎一般采用如下图所示的称之为三段式的工作流程，即：网页搜集、预处理和查询服务。

网页采集

搜索引擎这样一个软件系统应该是以何种方式工作？如果说软件系统是工作在某个数据集合上的程序的话，这个软件系统操作的数据不仅包括内容不可预测的用户查询，还要包括在数量上动态变化的海量网页，并且这些网页不会主动送到系统来，而是需要由系统去抓取。

首先，我们考虑抓取的时机：事先还是即时。我们都有经验，在网络比较畅通的情况下，从网上下载一篇网页大约需要1秒钟左右，因此如果在用户查询的时候即时去网上抓来成千上万的网页，一个个分析处理，和用户的查询匹配，不可能满足搜索引擎的响应时间要求。不仅如此，这样做的系统效益也不高（会重复抓取太多的网页）；面对大量的用户查询，不可能想象每来一个查询，系统就到网上“搜索”一次。因此我们看到，大规模搜索引擎服务端基础应该是一批预先搜集好的网页（直接或间接）。这一批网页如何维护？可以有两种基本的考虑。

定期搜集，每次搜集替换上一次的内容，我们称之为“批量搜集”。由于每次都是重新来一次，对于大规模搜索引擎来说，每次搜集的时间通常会花几周。而由于这样做开销较大，通常两次搜集的间隔时间也不会很短（例如早期天网的版本大约每3个月来一次，Google在一段时间曾是每隔28天来一次）。这样做的好处是系统实现比较简单，主要缺点是“时新性”（freshness）不高，还有重复搜集所带来的额外带宽的消耗。

增量搜集，开始时搜集一批，往后只是（1）搜集新出现的网页，（2）搜集那些在上次搜集后有过改变的网页，（3）发现自从上次搜集后已经不再存在了的网页，并从库中删除。由于除新闻网站外，许多网页的内容变化并不是很经常的（有研究指出50%网页的平均生命周期大约为50天），这样做每次搜集的网页量不会很大，于是可以经常启动搜集过程（例如每天）。30万网页，一台PC机，在一般的网络条件下，半天也就搜集完了。这样的系统表现出来的信息时新性就会比较高，主要缺点是系统实现比较复杂；这种复杂还不仅在于搜集过程，而是还在于下面要谈到的建索引的过程。

上面讲的是系统网页数据库维护的基本策略。在这两种极端的情况之间也可能有一些折中的方案，J. Cho博士在这方面做过深入的研究，根据一种网页变化模型和系统所含内容时新性的定义，提出了相应优化的网页搜集策略。其中一个有趣的结论是：在系统搜集能力一定的情况下，若有两类网页（例如“商业”和“教育”），它们的更新周期差别很大（例如“商业”类网页平均更新周期是“天”，而“教育”类网页平均更新周期是“月”），则系统应该将注意力放在更新慢的网页上，以使系统整体的时新性达到比较高的取值。

在具体搜集过程中，如何抓取一篇篇的网页，也可以有不同的考虑。最常见的一种是所谓“爬取”：将Web上的网页集合看成是一个有向图，搜集过程从给定起始URL集合S（或者说“种子”）开始，沿着网页中的链接，按照先深、先宽、或者某种别的策略遍历，不停的从S中移除URL，下载相应的网页，解析出网页中的超链接URL，看是否已经被访问过，将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个蜘蛛（spider）在蜘蛛网（Web）上爬行（crawl）。后面我们会看到，真正的系统其实是多个“蜘蛛”同时在爬。

这种方式的好处除了概念很漂亮，一般实现起来也不困难外，还有很重要的一条是容易通过一定的策略，使搜集到的网页相对比较“重要”。前面提过，任何搜索引擎是不可能将Web上的网页搜集完全的，通常都是在其他条件的限制下决定搜集过程的结束（例如磁盘满，或者搜集时间已经太长了）。因此就有一个尽量使搜到的网页比较重要的问题，这对于那些并不追求很大的数量覆盖率的搜索引擎特别重要。研究表明，按照先宽搜索方式得到的网页集合要比先深搜索得到的集合重要（这里当然有一个重要性的指标问题）。这种方式的一个困难是要从每一篇网页中提取出所含的URL。由于HTML的灵活性，其中出现URL 的方式各种各样，将这个环节做得彻底不容易（例如我们现在还没有很好的简单办法从JavaScript脚本中提取URL）。同时，由于Web的“蝴蝶结” 形状这种方式搜集到的网页不大会超过所有目标网页数量2的2/3。

另外一种可能的方式是在第一次全面网页搜集后，系统维护相应的URL集合S，往后的搜集直接基于这个集合。每搜到一个网页，如果它发生变化并含有新的URL，则将它们对应的网页也抓回来，并将这些新URL也放到集合S中；如果S中某个url对应的网页不存在了，则将它从S中删除。这种方式也可以看成是一种极端的先宽搜索，即第一层是一个很大的集合，往下最多只延伸一层。还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址（为了宣传自己，通常会有这种积极性），系统在一定时间内（2天到数月不等）定向向那些网站派出 “蜘蛛”程序，扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。

预处理

得到海量的原始网页集合，距离面向网络用户的检索服务之间还有相当的距离。宏观地看，服务子系统是一个程序。采用Wirth关于“程序 = 算法+数据结构”的观点来考察这个程序，一个合适的数据结构是查询子系统工作的核心和关键。这里只是指出：现行最有效的数据结构是“倒排文件” （inverted file）；倒排文件是用文档中所含关键词作为索引，文档作为索引目标的一种结构（类似于普通书籍中，索引是关键词，书的页面是索引目标）。下面以 常规全文搜索引擎 为例讨论从网页集合形成这样的倒排文件过程中的几个主要问题，即我们所说的 “预处理”。主要包括四个方面，关键词的提取，“镜像网页”（网页的内容完全相同，未加任何修改）或“转载网页”（near-replicas，主题内容基本相同但可能有一些额外的编辑信息等，转载网页也称为“近似镜像网页”）的消除，链接分析和网页重要程度的计算。

关键词的提取

随便取一篇网页的源文件（例如通过浏览器的“查看源文件”功能），我们可以看到其中的情况纷乱繁杂。除了我们从浏览器中能够正常看到的文字内容外，还有大量的HTML标记。根据天网统计，网页文档源文件的大小（字节量）通常大约是其中内容大小的4倍。另外，由于HTML文档产生来源的多样性，许多网页在内容上比较随意，不仅文字不讲究规范、完整，而且还可能包含许多和主要内容无关的信息（例如广告，导航条，版权说明等）。这些情况既给有效的信息查询带来了挑战，也带来了一些新的机遇。这里我们只是指出，为了支持后面的查询服务，需要从网页源文件中提取出能够代表它的内容的一些特征。从人们现在的认识和实践来看，所含的关键词即为这种特征最好的代表。于是，作为预处理阶段的一个基本任务，就是要提取出网页源文件的内容部分所含的关键词。对于中文来说，就是要根据一个词典Σ，用一个所谓“切词软件”，从网页文字中切出Σ所含的词语来。在那之后，一篇网页主要就由一组词来近似代表了，p = {t1, t2, …, tn}。一般来讲，我们可能得到很多词，同一个词可能在一篇网页中多次出现。从效果(effectiveness)和效率（efficiency）考虑，不应该让所有的词都出现在网页的表示中，要去掉诸如“的”，“在”等没有内容指示意义的词，称为“停用词”(stop word)。这样，对一篇网页来说，有效的词语数量大约在200个左右。

重复或转载网页的消除

与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利，因此我们看到Web上的信息存在大量的重复现象。天网在2003年的一次大规模统计分析表明，网页的重复率平均大约为4。也就是说，当你通过一个URL在网上看到一篇网页的时候，平均还有另外3个不同的URL也给出相同或者基本相似的内容。这种现象对于广大的网民来说是有正面意义的，因为有了更多的信息访问机会。但对于搜索引擎来说，则主要是负面的；它不仅在搜集网页时要消耗机器时间和网络带宽资源，而且如果在查询结果中出现，无意义地消耗了计算机显示屏资源，也会引来用户的抱怨，“这么多重复的，给我一个就够了”。因此，消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。

链接分析

前面提到，大量的HTML标记既给网页的预处理造成了一些麻烦，也带来了一些新的机遇。从信息检索的角度讲，如果系统面对的仅仅是内容的文字，我们能依据的就是“共有词汇假设”（shared bag of words），即内容所包含的关键词集合，最多加上词频（term frequency 或tf、TF）和词在文档集合中出现的文档频率（document frequency 或df、DF）之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性，这是有意义的。有了 HTML标记后，情况还可能进一步改善，例如在同一篇文档中，<H1>和</H1>之间的信息很可能就比在<H4> 和</H4>之间之间的信息更重要。特别地，HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象，认为它们不仅给出了网页之间的关系，而且还对判断网页的内容有很重要的作用。例如“北大学报”这几个字在北京大学学报社会科学版的主页上是没有的，因此一个仅靠内容文字分析的搜索引擎就不可能返回该主页作为结果。但是北京大学主页上是用“北大学报（社）”作为链接信息指向了北京大学学报社会科学版的主页。因此在很好利用链接信息的搜索引擎中应该能返回北京大学学报社会科学版的主页。

网页重要程度的计算

搜索引擎返回给用户的，是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。由于面对各种各样的用户，加之查询的自然语言风格，对同样的q0返回相同的列表肯定是不能使所有提交q0的用户都满意的（或者都达到最高的满意度）。因此搜索引擎实际上追求的是一种统计意义上的满意。人们认为Google目前比天网好，是因为在多数情况下前者返回的内容要更符合用户的需要，而不是所有情况下都如此。如何对查询结果进行排序有很多因素需要考虑，这里只是概要解释在预处理阶段可能形成的所谓“重要性”因素。顾名思义，既然是在预处理阶段形成的，就是和用户查询无关的。如何讲一篇网页比另外一篇网页重要？人们参照科技文献重要性的评估方式，核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链在网页之间体现得非常好，作为Google创立核心技术的PageRank就是这种思路的成功体现。除此以外，人们还注意到网页和文献的不同特点，即一些网页主要是大量对外的链接，其本身基本没有一个明确的主题内容，而另外有些网页则被大量的其他网页链接。从某种意义上讲，这形成了一种对偶的关系，这种关系使得人们可以在网页上建立另外一种重要性指标。这些指标有的可以在预处理阶段计算，有的则要在查询阶段计算，但都是作为在查询服务阶段最终形成结果排序的部分参数。

查询服务

如上述，从一个原始网页集合S开始，预处理过程得到的是对S的一个子集的元素的某种内部表示，这种表示构成了查询服务的直接基础。对每个元素来说，这种表示至少包含如下几个方面：

原始网页文档
URL和标题
编号
所含的重要关键词的集合（以及它们在文档中出现的位置信息）
其他一些指标（例如重要程度，分类代码等）

而系统关键词总体的集合和文档的编号一起构成了一个倒排文件结构，使得一旦得到一个关键词输入，系统能迅速给出相关文档编号的集合输出。然而，如同我们在之前提到的，用户通过搜索引擎看到的不是一个“集合”，而是一个“列表”。如何从集合生成一个列表，是服务子系统的主要工作。从搜索引擎系统功能划分的角度，有时候将倒排文件的生成也作为服务子系统的一部分功能，但我们这里将它划分到预处理阶段中觉得更方便些。换句话讲，服务子系统是在服务进行的过程中涉及的相关软件程序，而为这些软件程序事先准备数据的程序都算在预处理子系统中。下面来看对服务子系统的要求和其工作原理，主要有三个方面。

查询方式和匹配

查询方式指的是系统允许用户提交查询的形式。考虑到各种用户的不同背景和不同的信息需求，不可能有一种普适的方式。一般认为，对于普通网络用户来说，最自然的方式就是“要什么就输入什么”。但这是一种相当模糊的说法。例如用户输入“北京大学”，可能是他想了解北京大学目前有些什么信息向外发布，想看看今年的招生政策（于是希望看的是北大网站上的内容），也可能是他想了解外界目前对北京大学有些什么评价（于是希望看到的是其他权威网站上关于北大的消息）。这是两种相当不同的需求。在其他一些情况下，用户可能关心的是间接信息，例如“喜马拉雅山的高度”，8848米应该是他需要的，但不可能包含在这短语中。而用户输入“惊起一滩鸥鹭”则很可能是想知道该词的作者是谁，或者希望能提醒前面几句是什么。尽管如此，用一个词或者短语来直接表达信息需求，希望网页中含有该词或者该短语中的词，依然是主流的搜索引擎查询模式。这不仅是因为它的确代表了大多数的情况，还因为它比较容易实现。这样，一般来讲，系统面对的是查询短语。就英文来说，它是一个词的序列；就中文来说，它是包含若干个词的一段文字。一般地，我们用q0表示用户提交的原始查询，例如，q0 =“网络与分布式系统实验室”。它首先需要被“切词”（segment）或称“分词”，即把它分成一个词的序列。如上例，则为“网络与分布式系统实验室”（注意，不同的分词软件可能得出不同的结果，这里用的是北大计算语言所的在线分词软件）。然后需要删除那些没有查询意义或者几乎在每篇文档中都会出现的词（例如“的”），在本例中即为“与”。最后形成一个用于参加匹配的查询词表，q = {t1, t2, …, tm}，在本例中就是q = {网络，分布式，系统，实验室}。前面讲过，倒排文件就是用词来作为索引的一个数据结构，显然，q中的词必须是包含在倒排文件词表中才有意义。有了这样的 q，它的每一个元素都对应倒排文件中的一个倒排表（文档编号的集合），记作L(ti)，它们的交集即为对应查询的结果文档集合，从而实现了查询和文档的匹配。上述过程的基本假设是：用户是希望网页包含所输入查询文字的。

结果排序

上面，我们了解了得到和用户查询相关的文档集合的过程。这个集合的元素需要以一定的形式通过计算机显示屏呈现给用户。就目前的技术情况看，列表是最常见的形式（但人们也在探求新的形式，如Vivisimo 引擎将结果页面以类别的形式呈现）。给定一个查询结果集合，R={r1, r2, …, rn}，所谓列表，就是按照某种评价方式，确定出R中元素的一个顺序，让这些元素以这种顺序呈现出来。笼统地讲，ri和q的相关性（relevance）是形成这种顺序的基本因素。但是，有效地定义相关性本身是很困难的，从原理上讲它不仅和查询词有关，而且还和用户的背景，以及用户的查询历史有关。不同需求的用户可能输入同一个查询，同一个用户在不同的时间输入的相同的查询可能是针对不同的信息需求。为了形成一个合适的顺序，在搜索引擎出现的早期人们采用了传统信息检索领域很成熟的基于词汇出现频度的方法。大致上讲就是一篇文档中包含的查询（q）中的那些词越多，则该文档就应该排在越前面；再精细一些的考虑则是若一个词在越多的文档中有出现，则该词用于区分文档相关性的作用就越小。这样一种思路不仅有一定直觉上的道理，而且在倒排文件数据结构上很容易实现。因为，当我们通过前述关键词的提取过程，形成一篇文档的关键词集合，p = {t1, t2, …, tn}的时候，很容易同时得到每一个ti在该文档中出现的次数，即词频，而倒排文件中每个倒排表的长度则对应着一个词所涉及的文档的篇数，即文档频率。然而，由于网页编写的自发性、随意性较强，仅仅针对词的出现来决定文档的顺序，在Web上做信息检索表现出明显的缺点，需要有其他技术的补充。这方面最重要的成果就是前面提到过的PageRank。通过在预处理阶段为每篇网页形成一个独立于查询词（也就和网页内容无关）的重要性指标，将它和查询过程中形成的相关性指标结合形成一个最终的排序，是目前搜索引擎给出查询结果排序的主要方法。

文档摘要

搜索引擎给出的结果是一个有序的条目列表，每一个条目有三个基本的元素：标题，网址和摘要。其中的摘要需要从网页正文中生成。一般来讲，从一篇文字中生成一个恰当的摘要是自然语言理解领域的一个重要课题，人们已经做了多年的工作并取得了一些成果。但相关的技术用到网络搜索引擎来有两个基本困难。一是网页的写作通常不规范，文字比较随意，因此从语言理解的角度难以做好；二是复杂的语言理解算法耗时太多，不适应搜索引擎要高效处理海量网页信息的需求。因此搜索引擎在生成摘要时要简便许多，基本上可以归纳为两种方式，一是静态方式，即独立于查询，按照某种规则，事先在预处理阶段从网页内容提取出一些文字，例如截取网页正文的开头512个字节（对应256个汉字），或者将每一个段落的第一个句子拼起来，等等。这样形成的摘要存放在查询子系统中，一旦相关文档被选中与查询项匹配，就读出返回给用户。显然，这种方式对查询子系统来说是最轻松的，不需要做另外的处理工作。但这种方式的一个最大的缺点是摘要和查询无关。一篇网页有可能是多个不同查询的结果，例如当用户分别查询“北大计算机网络”和“北大分布式系统”，"北大天网"在两种情况下应该都作为结果返回。当用户输入某个查询，他一般是希望摘要中能够突出显示和查询直接对应的文字，希望摘要中出现和他关心的文字相关的句子。因此，我们有了“动态摘要”方式，即在响应查询的时候，根据查询词在文档中的位置，提取出周围的文字来，在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。为了保证查询的效率，需要在预处理阶段分词的时候记住每个关键词在文档中出现的位置。除上述外，查询服务返回的内容还有一些细节的支持。例如，对应一个查询往往会有成千上万的结果，返回给用户的内容通常都是按页组织的，一般每页显示 10个结果。统计表明，网络用户一般没有耐心一页页看下去，平均翻页数小于2。这告诉我们将第一页的内容组织好非常重要。如果希望用户多用搜索引擎，就要让第一页的内容尽量有吸引力。

体系结构

在上述工作原理的基础上，作为一个网络应用软件，我们可以勾画出搜索引擎的体系结构，其中的大部分模块和前面的原理描述有直接的对应。这里需要特别讨论的是还没有专门提及的“控制器”模块。网页的搜集，如果只是为了做些简单的实验，不过上万篇网页的话，许多矛盾都不会出现，可以用最简单的工具（例如wget）完成。但如果是为了向大规模搜索引擎稳定地提供网页数据，通常需要每天搜集上百万网页，而且是持续进行，情况则要复杂许多，核心是要综合解决效率、质量和“礼貌”的问题。这就是“控制器”的作用。

所谓效率，在这里就是如何利用尽量少的资源（计算机设备、网络带宽、时间）来完成预定的网页搜集量。在批量搜集的场合，我们通常考虑半个月左右能搜集到的网页，自然是越多越好。由于网页之间存在的独立性，利用许多台计算机同时来做这项工作是一个吸引人的想法。这里需要指出三点：第一，即使是用一台计算机来搜集网页，也应该注意并发性的开发和利用。由于从网上抓取一篇网页通常需要秒量级的等待网络通信时间，同时启动多个抓取进程/线程，或者利用操作系统提供的异步通信机制，让多个网络通信时间重叠起来，让网络通信时间和存放网页的磁盘访问时间重叠起来是很有意义的。同时启动抓取进程的数量取决于硬件条件和搜集软件的设计，一般情况下可以上百个，做得好也可能上千个（即上千个进程也不会造成CPU成为瓶颈）。

影响搜集效率的另一点发生在网络的另一端，即服务器方，它可能来不及提供所需的网页。这除了有些Web服务器所处的网络条件比较差，或者有太多其他人访问外，搜索引擎太频繁对它们发出网页请求也是一个重要原因。落实到技术上，就是要有一个访问策略或者URL规划，不要让搜集器启动的抓取进程都集中在少数几个网站上。

将搜集活动的关注过分集中在几个网站上，或者在一小段时间里从一个网站抓取太多的网页还可能引起其他的严重后果，即所谓“礼貌”问题。一般来讲，网站的管理人员都很愿意让自己的网页被搜索引擎索引，从而有可能得到更多的访问流量；但这只是问题的一方面。问题的另一方面是网站绝不希望由于搜索引擎的“密集”抓取活动阻碍了普通用户通过浏览器的访问，使那些用户得到这个网站访问起来很困难的印象，从而不再光顾。不加控制的网页抓取，给网站造成的现象有时候和制造拒绝服务（Denial of Servide, DoS）攻击的黑客造成的现象一样。因此，管理良好的网站常常会有一个监视器运行，监视是否有来源于单个IP地址的过分密集的访问。一旦出现这种情况，要么会通告该IP地址的拥有者注意行为，或者会干脆屏蔽来自它的访问，更有甚者还可能直接将该IP地址拉入黑名单。因此，适当地规划网页的抓取，限制单位时间内对一个网站抓取网页的数量（例如每天不超过2万个，或者至少每隔30秒才对同一个网站发出下一个网页请求，等等），是大规模搜索引擎必须要认真对待的问题。总之，搜索引擎需要和网站“和睦相处”，它们是相互依存的。

所谓质量问题，指的是在有限的时间，搜集有限的网页，希望它们尽量是比较“重要”的网页，或者说不要漏掉那些很重要的网页。哪些网页是比较重要的？也是仁者见仁，智者见智的，不可能有一个统一认可的标准。如果让重要性和流行度等同起来，即越多人看过的网页越重要，至少是直觉上有一定道理的。这样，我们可以考虑一个网站从主页开始向下，按照链接的深度将网页组织成一层层的，上层中的网页统计上会比下层的网页重要些。这样一种认识通过 PageRank得到了加强，即较靠近主页的网页通常PageRank值较高。这样，首先得到尽量多的主页，然后从主页开始的先宽搜索就应该是一个较好的策略。

网页搜集过程中还有一个基本的问题是要保证每个网页不被重复抓取。由于一篇网页可能被多篇网页链接，在spider爬取过程中就可能多次得到该网页的url。于是如果不加检查和控制，网页就会被多次抓取。遇到循环链接的情况，还会使爬取器陷死。解决这个问题的有效方法是使用两个表，unvisited_table和visited_table。前者包含尚未访问的url，后者记录已访问的url。系统首先将要搜集的种子url放入unvisited_table，然后 spider从其中获取要搜集网页的url，搜集过的网页url放入visited_table中，新解析出的并且不在visited_table中的 url加入unvisited_table。此方法简单明了，适合在单个节点上实现。但是当搜集子系统涉及到多个节点的时候，如何避免各个节点之间的重复工作就复杂了，还要考虑网络的通信量、负载平衡、以及单个节点性能瓶颈等问题。

一般性指标

搜索引擎可以归结为信息检索问题，即在由网页组成的文档集合中检索出与用户查询相关的文档。因此，可用衡量传统信息检索系统的性能参数—召回率（查全率／Recall）和精度（查准率／Precision）来衡量搜索引擎的性能。

召回率指检索出的相关文档数与文档集中所有的相关文档数的比率，它衡量检索系统(搜索引擎)的查全率。精度指检索出的相关文档数与检索出的文档总数的比率，它衡量检索系统(搜索引擎)的查准率。对于任一个检索系统，召回率和精度都不可能两全其美。召回率高，精度低。精度高，召回率低。对于搜索引擎系统，由于一个查询总能返回很多信息，所以召回率一般不成问题。目前，搜索引擎系统更关心精度，即是否为用户提供了相关度很高的、高质量的导航信息。

搜索引擎系统其它的性能衡量指标还包括响应时间、支持峰值查询能力、易用性、返回结果的有效性(是否为死链、重复、过时信息)等。影响一个搜索引擎系统性能的因素很多，主要集中在信息搜集策略和检索模型，包括索引库的更新频率和策略、文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制等。

你可能感兴趣的:(搜索引擎的基本原理及构成)

uniapp小程序项目从0到1开发扶园 uni-app 小程序
一、在HBuilderX新建项目,然后可以先把可能用到的文件夹建好二、引入UI框架,根据npm方式配置文档uView2地址:https://uviewui.com/components/install.htmlcmd执行[email protected]引入并使用uView的JS库，注意这两行要放在importVue之后。//main.jsimportuViewfrom"uview
固件测试工具选型需要考察的功能点汇总 daopuyun 安全测试测试工具固件测试
通过专业的固件测试工具可以帮助我们提高测试效率、提升测试的覆盖度、确保测试的准确性，保障产品的安全和质量。本文我们讲固件测试工具的功能点进行梳理和汇总，方便大家在采购固件测试工具时进行选型比对。一、固件测试工具·漏洞扫描功能：使用自动化固件测试工具最基本的功能就是针对固件进行扫描，找到固件中的安全漏洞，如缓冲区溢出、权限提升、格式字符串等。在固件测试领域，基于二进制的自动化扫描工具能够更好地对代码
Ceisum无人机巡检直播视频投射白嫖叫上我 Cesium 无人机 cesium webgis
接上次的视频投影，Leader告诉我这个视频投影要用在两个地方，一个是我原先写的轨迹回放那里，另一个在无人机起飞后的地图回显，要实时播放无人机拍摄的视频，还要能转镜头，让我把这个也接一下。我的天！告诉我的时候人都傻了，这是一个功能嘛？一个是拿到了全部的轨迹数据进行回显，播放的视频也是完整的资源，视频要求投射在地面上。另一个是接收实时的轨迹数据进行回显，播放的是实时的直播，视频居然还要求跟着镜头一起
Cesium 无人机航线规划（航点航线）白嫖叫上我 Cesium 无人机 cesium
航线规划实现定制航线，一键巡检功能小镜头模拟的是此方向的拍照效果，觉得合适可以打个拍照印记设置里可调控参数------------------------------------------------------2025-01-10--------------------------------------------------------改进了一下，加入多个动作组，可设置每个航点的动作动作组
mockito+junit 单元测试测试私有方法利用反射去调用提升覆盖率反射调用时传入参数为 null aq_money junit 单元测试 java
今天公司安排我写单元测试因为要通过三级认证公司要求是覆盖率必须达到100%而在写单元测试的时候对于是否要测试私有方法一直是一个争议公司规范对私有方法也进行测试代码如下：privatevoidpostGpInfo(GpAlertInfoDOgpAlertInfoDO){if(JudgeUtils.isNull(gpAlertInfoDO)){BusinessException.throwBusine
【dbt】数据加工大师浅谈一盘胡椒鱼 dbt 数据库数据仓库 etl 数据分析 sql
dbt是dbtlabs公司在2016年推出的一款基于Python的开源数据加工工具。从2019年开始，dbt的用户数量增涨十分迅速。dbtlabs凭借此工具，在2022年估值达到了42亿美金。dbt的价值dbt是面向分析工程师提供服务。【分析工程师】是dbt新定义的岗位，是基于DataOps思想，综合了数据工程师和数据分析师两者。即分析师也应该会代码开发（实际上，现在很多的数据分析师就是在做sql
Vue+Element-plus搭建 a3337779 vue.js 前端 javascript
一.下载node看这篇博客：http://t.csdn.cn/kTeRL二.安装vue的脚手架(vue-cli)如果没有切换node的下载镜像，使用这条命令切换淘宝镜像：npmconfigsetregistryhttps://registry.npm.taobao.org然后直接下载npminstallvue-cli-g//（vue-lcli2)npminstall-g@vue/cli//(vue
uniapp 小程序目录搭建以及 pages.json 配置 YZRHANYU uniapp+微信小程序 json uni-app 小程序
uniapp小程序目录搭建1.分包结构├──api各个模块接口文件夹├──login.js登录模块接口文件├──common公共模块，包含公共基础css等├──base.css公共基础css├──components主包当中使用的组件或者复用率较高的组件作为全局组件├──node_modulesnodejs相关依赖包文件目录├──pages主包:业务页面文件存放的目录├──common├──sys
webrtc 源码阅读 make_ref_counted模板函数用法 wu_qz webrtc 笔记
目录1.模板参数解析1.1typenameT1.2typename...Args1.3typenamestd::enable_if::value,T>::type*=nullptr2.scoped_refptr3.newRefCountedObject(std::forward(args)...);4.综合说明5.在webrtc中的用法5.1peerConnectionFactory对象的构建过程
h264之多视点mvc编码及解码过程(JMVC平台举例） wu_qz 视频编解码 mvc
h264标准参考平台JMVC是针对MVC标准的，JMVC支持多视点编码、合流、多视点解码操作。可以利用JMVC生成h264mvc码流和解码。JMVC的下载地址是：jvet/JMVC·GitLabH.264/AVCmulti-viewcoding(MVC)extensionJMVCreferencesoftwarehttps://vcgit.hhi.fraunhofer.de/jvet/jmvcwi
webrtc代码走读之rtc::ArrayView＜const uint8_t＞ wu_qz webrtc
rtc::ArrayView是WebRTC（或其他基于rtc命名空间的库）中常见的一个类型，它通常用于表示一块只读的内存区域，该内存区域由一系列uint8_t类型（无符号8位整数）元素组成。1.rtc::ArrayView的含义rtc::ArrayView是一种轻量级的容器，主要用于包装一个已知大小的数组或内存区域，以便能够安全地访问其中的元素。它不像std::vector那样拥有自己的内存管理功
读后感：《The Missing README: A Guide for the New Software Engineer》 rongqing2019 读后感软件工程
最近在读一本书，中文版的书名叫《程序员的README》，我觉得非常有收获，但是觉得标题翻译的不好，原名就见名知意，这本书是在阿里云开发者公众号上看到了一篇读书笔记让我觉得这本书的内容真好（读书笔记｜程序员的README），自己正在实习，这个“README文档”帮助我慢慢解开了一直以来的疑惑，完整的介绍了现代软件工程的细节，边工作边看，具象了许多。先简单介绍一下作者ChrisRiccomini（详细
代码工艺：实践《修改代码的艺术》中如何安全地在现有代码库中修改代码的方法 rongqing2019 代码工艺代码规范
《修改代码的艺术》一书中，对如何安全地在现有代码库中修改代码提出了以下步骤：1.定义变更点；2.寻找测试点；3.打破依赖关系；4.编写测试；5.进行修改和重构。场景描述已有一段代码逻辑更新用户信息，但它的代码存在以下问题：缺乏单元测试，无法验证修改是否正确。存在硬编码和强耦合，导致难以扩展和测试。方法过于复杂，多个逻辑混在一起，影响可读性。原始代码（待修改）以下是现有的代码逻辑：@Servicep
代码工艺：Spring Boot 防御式编程实践 rongqing2019 代码工艺 spring boot 后端
防御式编程是一种编程实践，其核心理念是编写代码时要假设可能会发生错误、异常或非法输入，并通过各种手段防止这些问题引发系统崩溃、错误行为或安全漏洞。该编程方法的目的是让程序在面对不可预测的情况（如输入数据异常、硬件故障、意外的用户行为等）时仍然能够安全、稳定地运行。防御式编程特别强调在开发阶段尽可能地考虑各种边界情况、异常处理和系统的健壮性。在使用SpringBoot开发Java后端时，结合《代码大
代码工艺：写代码的好习惯 rongqing2019 代码工艺个人开发
1.充分校验入参有一句话叫“Allinputisevil”，即一切的输入都可能是恶意的。因此，经验丰富的工程师会对接口的入参进行严格的校验，从最基础的非空、长度校验，到复杂的业务逻辑校验都不应忽略。例如，在典型的电商下单场景中，我们需要校验用户状态是否正常、商品是否上架、库存是否充足、优惠券是否可用等。请记住，入参校验是防止低级错误的第一道防线，养成这个习惯至关重要。2.完整记录日志我们总希望自己
代码工艺：高并发解决方案介绍 rongqing2019 代码工艺 1024程序员节
扩容方案：横向扩展“横向扩展”就是增加更多的服务器来解决性能瓶颈问题。例如，如果应用服务器是瓶颈，就添加更多应用服务器；如果数据库服务器是瓶颈，就添加更多的从库。这种做法虽然看似简单粗暴，但在50%以上的场景中，尤其是读多写少的场景下，这种方案非常有效。举例：当系统处理1000QPS时，使用三台应用服务器和一台数据库服务器就足够了；当处理2000QPS时，则增加到六台应用服务器和两台数据库服务器（
LNMP——搭建论坛（Linux、Nginx、Mysql、PHP） ML908 Web服务器群集 LNMP discuz
LNMP指的是一个基于CentOS/Debian编写的Nginx、Linux、MySQL、PHP,可以在独立主机上轻松的安装LNMP生产环境。此次我们使用LNMP框架部署Discuz!社区论坛应用。Nginx安装Nginx作为Web服务器。相比Apache,Nginx使用更少的资源，支持更多的并发连接，体现更高的效率。Nginx作为负载均衡服务器:Nginx既可以在内部直接支持Rails和PHP,
HAProxy集群与常见的Web集群软件调度器对比 EsDeath_99 java 服务器 linux
一、Web集群调度器1.常见的Web集群调度器常用的Web集群调度器分为软件和硬件,负载均衡性能（硬件负载均衡器F5>LVS>Haproxy>Nginx）软件调度器（开源）1.LVS：性能最好，搭建复杂2.Nginx：性能较好，但集群节点健康检查功能不强，高并发性能较弱3.Haproxy：高并发性能好硬件调度器1.F52.梭子鱼、绿盟、F5、Array等2.常见集群调度器的优缺点（LVS、Ngin
Spring Boot编程训练系统：测试驱动开发（TDD）实践原机小子 spring boot tdd 后端
摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了编程训练系统的开发全过程。通过分析编程训练系统管理的不足，创建了一个计算机管理编程训练系统的方案。文章介绍了编程训练系统的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本编程训练系统管理员功能有管理员和用户。管理员功能有个人中心，用户管理，题库资源管理，用户交流，试卷管
【超详细】深入解析Kali Linux：常见指令大全，助你成为安全专家 wit_@ chrome 前端 linux kail 网络安全
深入解析KaliLinux：常见指令大全，助你成为安全专家KaliLinux是网络安全领域最受欢迎的操作系统之一，专为渗透测试、数字取证和网络安全研究而设计。无论你是网络安全新手，还是经验丰富的安全专家，掌握KaliLinux的常见指令都是必不可少的。本文将详细介绍KaliLinux中的一些常见指令，帮助你更好地利用这个强大的工具。1.基本系统指令1.1apt-get包管理KaliLinux基于D
Java网络编程逆风局？ java 网络服务器
基本的通信架构1.CS架构（Client客户端/Server服务端）Client客户端：需要程序员开发客户端软件需要用户下载安装客户端软件Server服务端：需要程序员开发服务端程序BS架构（Browser浏览器/Server服务端）。Browser浏览器不需要程序员开发需要用户下载安装浏览器Server服务端需要程序员开发服务端程序网络通信三要素IP地址设备在网络中的地址，是设备在网络中的唯一标
前端——Html+CSS 逆风局？ css 前端 html5
目录CSS引入方式颜色表达方式CSS选择器去掉超链接的下划线路径表示行高和首行缩进常见标签布局标签flex布局表单标签表单项标签改变鼠标指针的样式表格标签div{box-sizing:border-box;}CSS引入方式具体有3种引入方式，语法如下表格所示：名称语法描述示例行内样式在标签内使用style属性，属性值是css属性键值对。中国新闻网内部样式定义标签，在标签内部定义css样式。h1{.
数据结构——算法基础小禾苗_ 数据结构
1、概念算法(Algorithm)用来描述对特定问题的求解步骤，它是指令的有限序列，其中每一条指令代表一个或多个操作算法的概念在计算机科学领域中几乎无处不在，在各种计算机系统的实现中，算法的设计往往处于核心的位置。计算机的问世是20世纪算法是计算机科学的重要基础，就像算盘一样，人们需要为计算机编制各种各样的“口诀”即算法，才能使其工作软件(项目)=程序+文档程序=数据结构+算法软件(项目)=数据结
Vue.js 深度剖析：2024 前端高频面试题详解跟着小郑学前端前端 vue.js javascript
Vue.js深度剖析：2024前端高频面试题详解1.Vue的响应式原理是什么？2.Vue组件通信方式有哪些？3.Vue的生命周期是什么？4.如何优化Vue应用性能？5.什么是Vue的CompositionAPI？6.什么是Vue的VirtualDOM？7.Vuex与Pinia的区别是什么？1.Vue的响应式原理是什么？答：Vue的响应式系统基于数据劫持和发布-订阅模式。数据劫持：Vue2使用Obj
掌握 JavaScript：从基础到高级，全面提升编程技能跟着小郑学前端 javascript 开发语言 ecmascript
JavaScript是一种广泛应用于网页开发的编程语言，它使网页具有动态交互的能力。作为Web开发的核心技术之一，掌握JavaScript基础是每位开发者的必备技能。本文将介绍JavaScript的基础知识，包括数据类型、运算符、控制结构、函数等内容，并通过代码示例帮助大家理解。1.JavaScript数据类型JavaScript主要有以下几种数据类型：数据类型描述示例String字符串类型，用于
Python 实现 RGB 和 HSV 相互转换算法传说里的故事 python 算法开发语言
Python实现RGB和HSV相互转换算法在图像处理领域，RGB和HSV是两种最常用的颜色空间。RGB是红绿蓝三原色的组合，HSV是色调、饱和度和亮度的组合。在不同应用场景下，需要将RGB和HSV进行相互转换。下面给出Python实现RGB和HSV相互转换的算法，并附上完整的源码。首先，我们需要导入colorsys库。这个库提供了许多颜色空间的转换函数。接下来，我们定义RGBToHSV和HSVTo
Vue-Router路由动态缓存组件(keep-alive)，vue2/vue3不同写法码喽的自我修养 vue2/3 从基础到起飞 vue.js 前端 javascript 缓存 vue 前端框架 AI编程
个人简介：某大型国企资深软件开发工程师，信息系统项目管理师、CSDN优质创作者、阿里云专家博主、华为云云享专家，分享前端后端相关技术与工作常见问题~作者：码喽的自我修养❣️专栏：vue2/3从基础到起飞若有帮助，还请关注➕点赞➕收藏，不行的话我再努努力文章目录一、简介它的主要作用是缓存不活动的组件实例，而不是销毁它们。基本用法生命周期钩子二、定义是否缓存组件三、缓存组件相关配置1.通过:inclu
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
python 实现RGB和HSV相互转换算法 luthane python 算法开发语言
RGB和HSV相互转换算法介绍RGB和HSV之间的相互转换算法可以通过一系列的数学计算来实现。以下是对这两种色彩空间之间转换的基本算法的概述：RGB到HSV的转换1、归一化RGB值：首先，将RGB值从范围[0,255]归一化到[0,1]。这可以通过将每个颜色分量除以255来实现。2、计算明度V：明度V可以通过取RGB三个分量中的最大值来计算。即：[V=max⁡(R,G,B)][V=\max(R,G
使用 JUnit 和 SuiteRunner 测试私有方法肉三 Java junit log4j java
我第一次使用JUnit是为了为ServiceUIAPI构建一个一致性测试工具包[1]。一致性测试工具包的目的是帮助确保同一API的替代实现与API的规范兼容。由于API规范仅定义API的公共接口，而不是API的实现，因此一致性测试仅测试公共接口。换句话说，一致性测试是一种“黑盒”测试。它将测试中的API视为黑盒，可以看到其外部接口，但看不到其内部实现。因此，JavaAPI的一致性测试只需要访问测试
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam