fengshizty

搜索引擎技术

搜索引擎技术之概要预览

前言

近些天在学校静心复习功课与梳理思路（找工作的事情暂缓），趁闲暇之际，常看有关搜索引擎相关技术类的文章，接触到不少此前未曾触碰到的诸多概念与技术，如爬虫，网页抓取，分词，索引，查询，排序等等，更惊叹于每一幅精彩的架构图，特此，便有记录下来的冲动，以作备忘。

本文从最基本的搜索引擎的概念谈起，到全文检索的概念，由网络蜘蛛，分词技术，系统架构，排序的讲解（结合google搜索引擎的技术原理），而后到图片搜索的原理，最终以几个开源搜索引擎软件的介绍结束全文。

由于本文初次接触此类有关搜索引擎的技术，参考和借鉴了互联网上诸多牛人的文章与作品，有不妥之处，还望诸君海涵。再者因本人见识浅薄，才疏学浅，有任何问题或错误，欢迎不吝指正。同时，正式进军搜索引擎领域的学习与研究。谢谢。

1、什么是搜索引擎

搜索引擎指自动从因特网搜集信息，经过一定整理以后，提供给用户进行查询的系统。因特网上的信息浩瀚万千，而且毫无秩序，所有的信息像汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为用户绘制一幅一目了然的信息地图，供用户随时查阅。

搜索引擎的工作原理以最简单的语言描述，即是：

搜集信息：首先通过一个称为网络蜘蛛的机器人程序来追踪互联网上每一个网页的超链接，由于互联网上每一个网页都不是单独存在的（必存在到其它网页的链接），然后这个机器人程序便由原始网页链接到其它网页，一链十，十链百，至此，网络蜘蛛便爬满了绝大多数网页。
整理信息：搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。这样，搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
接受查询：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询，它按照每个用户的要求检查自己的索引，在极短时间内找到用户需要的资料，并返回给用户。

整理信息及接受查询的过程，大量应用了文本信息检索技术，并根据网络超文本的特点，引入了更多的信息。接下来，下文便由网络蜘蛛，分词技术，到系统架构，排序一一介绍。

2、网络蜘蛛

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先（如下图所示）。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。至于两种策略的区别，下图的说明会更加明确。

由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层，I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

3、中文分词

下图是我无聊之际，在百度，谷歌，有道，搜狗，搜搜，雅虎中搜索：结构之法的搜索结果比较（读者可以永久在百度或谷歌中搜索：结构之法4个字，即可进入本博客）：

从上图可以看出，百度，谷歌，搜狗，搜搜，雅虎都在第一个选项链接到了本博客--结构之法算法之道，从上面的搜索结果来看，百度给的结果是最令我满意的（几个月前，谷歌的搜索结果是最好的），其次是雅虎英文搜索，谷歌，而有道的搜索结果则差强人意。是什么影响了这些搜索引擎搜索的质量与相关性的程度呢?答曰：中文分词。下面，咱们来具体了解什么是中文分词技术。

中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。
现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：
1）正向最大匹配法（由左到右的方向）；
2）逆向最大匹配法（由右到左的方向）；
3）最少切分（使每一句中切出的词数最小）。

还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法
从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。

这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高，目前并无定论。对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。个人了解，海量科技的分词算法就采用“复方分词法”，所谓复方，相当于用中药中的复方概念，即用不同的药才综合起来去医治疾病，同样，对于中文词的识别，需要多种算法来处理不同的问题。

4、系统架构

全文检索

全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引，检索时将词分解为字的组合。对于各种不同的语言而言，字有不同的含义，比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指对文章中的词，即语义单位建立索引，检索时按词检索，并且可以处理同义项等。英文等西方文字由于按照空白切分词，因此实现上与按字处理类似，添加同义处理也很容易。中文等东方文字则需要切分字词，以达到按词索引的目的，关于这方面的问题，是当前全文检索技术尤其是中文全文检索技术中的难点，在此不做详述。

全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说，全文检索需要具备建立索引和提供查询的基本功能，此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上，全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能，外围则由各种不同应用具有的功能组成。结构上，全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等，加上各种外围应用系统等等共同构成了全文检索系统。图1.1展示了上述全文检索系统的结构与功能。

在上图中，我们看到：全文检索系统中最为关键的部分是全文检索引擎，各种应用程序都需要建立在这个引擎之上。一个全文检索应用的优异程度，根本上由全文检索引擎来决定。因此提升全文检索引擎的效率即是我们提升全文检索应用的根本。

搜索引擎与全文检索的区别

搜索引擎的门槛到底有多高？搜索引擎的门槛主要是技术门槛，包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等，这些都是搜索引擎的门槛。对于一个复杂的系统来说，各方面的技术固然重要，但整个系统的架构设计也同样不可忽视，搜索引擎也不例外。

搜索引擎的技术基础是全文检索技术，从20世纪60年代，国外对全文检索技术就开始有研究。全文检索通常指文本全文检索，包括信息的存储、组织、表现、查询、存取等各个方面，其核心为文本信息的索引和检索，一般用于企事业单位。随着互联网信息的发展，搜索引擎在全文检索技术上逐渐发展起来，并得到广泛的应用，但搜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文检索主要区别有以下几点：
　　1、数据量
　　传统全文检索系统面向的是企业本身的数据或者和企业相关的数据，一般索引库规模多在GB级，数据量大的也只有几百万条；但互联网网页搜索需要处理几十亿的网页，搜索引擎的策略都是采用服务器群集和分布式计算技术。
　　2、内容相关性
　　信息太多，查准和排序就特别重要，Google等搜索引擎采用网页链接分析技术，根据互联网上网页被链接次数作为重要性评判的依据；但全文检索的数据源中相互链接的程度并不高，不能作为判别重要性的依据，只能基于内容的相关性排序。
　　3、安全性
　　互联网搜索引擎的数据来源都是互联网上公开的信息，而且除了文本正文以外，其它信息都不太重要；但企业全文检索的数据源都是企业内部的信息，有等级、权限等限制，对查询方式也有更严格的要求，因此其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。
　　4、个性化和智能化

　　搜索引擎面向的是互联网访问者，由于其数据量和客户数量的限制，自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用，这也是目前搜索引擎技术努力的方向；而全文检索数据量小，检索需求明确，客户量少，在智能化和个性可走得更远。

搜索引擎的系统架构

这里主要针对全文检索搜索引擎的系统架构进行说明，下文中提到的搜索引擎如果没有特殊说明也是指全文检索搜索引擎。搜索引擎的实现原理，可以看作四步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索→对搜索结果进行处理和排序。　　
　　1、从互联网上抓取网页
　　利用能够从互联网上自动收集网页的网络蜘蛛程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集到服务器中。

　　2、建立索引数据库
　　由索引系统程序对收集回来的网页进行分析，提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性)，然后用这些相关信息建立网页索引数据库。

　　3、在索引数据库中搜索
　　当用户输入关键词搜索后，分解搜索请求，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

　　4、对搜索结果进行处理排序
　　所有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

　　下图是一个典型的搜索引擎系统架构图，搜索引擎的各部分都会相互交错相互依赖。其处理流程按照如下描述：

　　“网络蜘蛛”从互联网上抓取网页，把网页送入“网页数据库”，从网页中“提取URL”，把URL送入“URL数据库”，“蜘蛛控制”得到网页的URL，控制“网络蜘蛛”抓取其它网页，反复循环直到把所有的网页抓取完成。

　　系统从“网页数据库”中得到文本信息，送入“文本索引”模块建立索引，形成“索引数据库”。同时进行“链接信息提取”，把链接信息(包括锚文本、链接本身等信息)送入“链接数据库”，为“网页评级”提供依据。

　　“用户”通过提交查询请求给“查询服务器”，服务器在“索引数据库”中进行相关网页的查找，同时“网页评级”把查询请求和链接信息结合起来对搜索结果进行相关度的评价，通过“查询服务器”按照相关度进行排序，并提取关键词的内容摘要，组织最后的页面返回给“用户”。

搜索引擎的索引和搜索

下面咱们以Google搜索引擎为例主要介绍搜索引擎的数据索引和搜索过程。

　　数据的索引分为三个步骤：网页内容的提取、词的识别、标引库的建立。

　　互联网上大部分信息都是以HTML格式存在，对于索引来说，只处理文本信息。因此需要把网页中文本内容提取出来，过滤掉一些脚本标示符和一些无用的广告信息，同时记录文本的版面格式信息。词的识别是搜索引擎中非常关键的一部分，通过字典文件对网页内的词进行识别。对于西文信息来说，需要识别词的不同形式，例如：单复数、过去式、组合词、词根等，对于一些亚洲语言(中文、日文、韩文等)需要进行分词处理。识别出网页中的每个词，并分配唯一的wordID号，用于为数据索引中的标引模块服务。

　　标引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种标引：文档标引和关键词标引。文档标引分配每个网页一个唯一的docID号，根据docID标引出在这个网页中出现过多少过wordID，每个wordID出现的次数、位置、大小写格式等，形成docID对应wordID的数据列表；关键词标引其实是对文档标引的逆标引，根据wordID标引出这个词出现在那些网页(用wordID表示)，出现在每个网页的次数、位置、大小写格式等，形成wordID对应docID的列表。

　　搜索的处理过程是对用户的搜索请求进行满足的过程，通过用户输入搜索关键字，搜索服务器对应关键词字典，把搜索关键词转化为wordID，然后在标引库中得到docID列表，对docID列表进行扫描和wordID的匹配，提取满足条件的网页，然后计算网页和关键词的相关度，根据相关度的数值返回前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户。如果用户查看的第二页或者第多少页，重新进行搜索，把排序结果中在第K+1到2*K的网页组织返回给用户。其处理流程如下图所示：

5、排序技术

Google成功的秘密

到2004年为止，Google（ http://www.google.com ）已经连续两年被评为全球第一品牌，Google成立仅五年时间，最初只是两个斯坦福大学学生的研究项目。这不能不说是一个奇迹，就像比尔?盖茨创制奇迹一样。比尔?盖茨能创造奇迹，是因为他看准了个人计算机软件市场的趋势，所以创建的公司叫Microsoft（微软）：Micro（小）Soft（软件）。那么Google呢？在Google出来之前已经有一些很有成就的搜索引擎公司，其实力也很强，看来不只是Google看见了搜索的趋势。Google究竟成功的秘密在哪儿？

Google的成功有许多因素，最重要的是Google对搜索结果的排序比其它搜索引擎都要好。Google保证让绝大部分用搜索的人，都能在搜索结果的第一页找到他想要的结果。客户得到了满足，下一次还过来，而且会向其他人介绍，这一来一往，使用的人就多了。所以Google在没有做任何广告的前提下，让自己成为了全球最大的品牌。Google究竟采用了哪种排序技术？PageRank，即网页级别。

Google有一个创始人叫Larry Page，据说PageRank的专利是他申请的，于是依据他的名字就有了Page Rank。国内也有一家很成功的搜索引擎公司，叫百度（ http://www.baidu.com ）。百度的创始人李彦宏说，早在1996年他就申请了名为超链分析的专利，PageRank的原理和超链分析的原理是一样的，而且PageRank目前还在Paten-pending（专利申请中）。言下之意是这里面存在专利所有权的问题。这里不讨论专利所有权，只是从中可看出，成功搜索引擎的排序技术，就其原理上来说都差不多，那就是链接分析。超链分析和PageRank都属于链接分析。

链接分析到底为何物？由于李彦宏的超链分析没有具体的介绍，笔者唯一看过的就是在美国专利局网站上关于李彦宏的专利介绍。PageRank的介绍倒是不少，而且目前Google毕竟是全球最大的搜索引擎，这里以PageRank为代表，详细介绍链接分析的原理。

PageRank揭秘

PageRank的原理类似于科技论文中的引用机制：谁的论文被引用次数多，谁就是权威。说的更白话一点：张三在谈话中提到了张曼玉，李四在谈话中也提到张曼玉，王五在谈话中还提到张曼玉，这就说明张曼玉一定是很有名的人。在互联网上，链接就相当于“引用”，在B网页中链接了A，相当于B在谈话时提到了A，如果在C、D、E、F中都链接了A，那么说明A网页是最重要的，A网页的PageRank值也就最高。

如何计算PageRank值有一个简单的公式：

其中：系数为一个大于0，小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。

由以上公式可以看出三点：

链接指向A的网页越多，A的级别越高。即A的级别和指向A的网页个数成正比，在公式中表示，N越大， A的级别越高；
链接指向A的网页，其网页级别越高， A的级别也越高。即A的级别和指向A的网页自己的网页级别成正比，在公式中表示，网页N级别越高， A的级别也越高；
链接指向A的网页，其链出的个数越多，A的级别越低。即A的级别和指向A的网页自己的网页链出个数成反比，在公式中现实，网页N链出个数越多，A的级别越低。

每个网页有一个PageRank值，这样形成一个巨大的方程组，对这个方程组求解，就能得到每个网页的PageRank值。互联网上有上百亿个网页，那么这个方程组就有上百亿个未知数，这个方程虽然是有解，但计算毕竟太复杂了，不可能把这所有的页面放在一起去求解的。对具体的计算方法有兴趣的朋友可以去参考一些数值计算方面的书。

总之，PageRank有效地利用了互联网所拥有的庞大链接构造的特性。从网页A导向网页B的链接，用Google创始人的话讲，是页面A对页面B的支持投票，Google根据这个投票数来判断页面的重要性，但Google除了看投票数（链接数）以外，对投票者（链接的页面）也进行分析。「重要性」高的页面所投的票的评价会更高，因为接受这个投票页面会被理解为「重要的物品」。

6、图片搜索原理

早有网友阮一峰介绍了一个简单的图片搜索原理，可分为下面几步：

缩小尺寸。将图片缩小到8x8的尺寸，总共64个像素。这一步的作用是去除图片的细节，只保留结构、明暗等基本信息，摒弃不同尺寸、比例带来的图片差异。
简化色彩。将缩小后的图片，转为64级灰度。也就是说，所有像素点总共只有64种颜色。
计算平均值。计算所有64个像素的灰度平均值。
比较像素的灰度。将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0。
计算哈希值。将上一步的比较结果，组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。组合的次序并不重要，只要保证所有图片都采用同样次序就行了。

这种方法对于寻找一模一样的图片是有效的，但并不能够去搜索“相似”的照片，也不能局部搜索，比如从一个人的单人照找到这个人与别人的合影。这些Google Images都能做到。

其实早在2008年，Google公布了一篇图片搜索的论文（PDF版），和文本搜索的思路是一样的：

对于每张图片，抽取其特征。这和文本搜索对于网页进行分词类似。
对于两张图片，其相关性定义为其特征的相似度。这和文本搜索里的文本相关性也是差不多的。
图片一样有image rank。文本搜索中的page rank依靠文本之间的超链接。图片之间并不存在这样的超链接，image rank主要依靠图片之间的相似性（两张图片相似，便认为它们之间存在超链接）。具有更多相似图片的图片，其image rank更高一些。

7、开源搜索引擎

全文检索引擎 Sphinx

关注本博客的读者不知是否还记得曾经出现在这篇文章从几幅架构图中偷得半点海量数据处理经验中的两幅图，如下所示：

上图出自俄罗斯的开源全文搜索引擎软件Sphinx，单一索引最大可包含1亿条记录，在1千万条记录情况下的查询速度为0.x秒（毫秒级）。Sphinx创建索引的速度为：创建100万条记录的索引只需3～4分钟，创建1000万条记录的索引可以在50分钟内完成，而只包含最新10万条记录的增量索引，重建一次只需几十秒。

基于以上几点，一网友 回忆未来-张宴设计出了这套搜索引擎架构。在生产环境运行了一周，效果非常不错。有时间我会专为配合Sphinx搜索引擎，开发一个逻辑简单、速度快、占用内存低、非表锁的MySQL存储引擎插件，用来代替MyISAM引擎，以解决MyISAM存储引擎在频繁更新操作时的锁表延迟问题。另外，分布式搜索技术上已无任何题。

Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL,PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP,Python,Perl,Ruby等，同时为MySQL也设计了一个存储引擎插件。

C++检索引擎 Xapian

Xapian 是一个用C++编写的全文检索程序，他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序，但是C/C++世界并没有相应的工具，而 Xapian 则填补了这个缺憾。
Xapian 的api和检索原理和lucene在很多方面都很相似，但是也有一些地方存在不同，具体请看 Xapian 自己的文档:http://www. xapian .org/docs/
Xapian 除了提供原生的C++编程接口之外，还提供了Perl，PHP，Python和Ruby编程接口和相应的类库，所以你可以直接从自己喜欢的脚本编程语言当中使用 Xapian 进行全文检索了。

Java搜索引擎 Lucene

Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单确强大的应用程式接口，能够做全文索引和搜寻，在Java开发环境里Lucene是一个成熟的免费开放源代码工具;就其本身而论，Lucene是现在并且是这几年，最受欢迎的免费java资讯检索程式库。人们经常提到资讯检索程式库，就像是搜寻引擎，但是不应该将资讯检索程式库与网搜索引擎相混淆。

Lucene最初是由Doug Cutting所撰写的，是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎的主要开发者，后来在Excite担任高级系统架构设计师，目前从事于一些INTERNET底层架构的研究。他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。

C++搜索引擎 CLucene

CLucene是Lucene的一个C++端口，Lucene即是上面所讲到的一个基于java的高性能的全文搜索引擎。CLucene因为使用C++编写，所以理论上要比lucene快。

搜索引擎 Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

每个月取几十亿网页
为这些网页维护一个索引
对索引文件进行每秒上千次的搜索
提供高质量的搜索结果
以最小的成本运作

写博客是一种学习的过程，即便只是参考他人文章的整理总结，也能借鉴他人的经验，一举两得，有何不敢。ok，后续会研究开源搜索引擎的架构设计与源码学习。搜索引擎技术交流群：172114338。本文完。

你可能感兴趣的:(搜索引擎技术)

Elasticsearch 中的相关性和得分知知之之 Elasticsearch elasticsearch 大数据搜索引擎
在Elasticsearch中，相关性（Relevance）和得分（Score）是搜索引擎技术中非常重要的概念，它们直接影响搜索结果的排序。相关性（Relevance）相关性是指搜索结果与用户查询的相关程度。对于用户而言，他们希望搜索结果尽可能与输入的查询意图相关。在Elasticsearch中，相关性是一个动态的概念，依据查询的内容和上下文的不同而变化。得分（Score）得分是Elasticse
SEO之搜索引擎的工作原理（一） luckyboy0077 搜索引擎经验分享
初创企业需要建站的朋友看这篇文章，谢谢支持：我给不会敲代码又想搭建网站的人建议搜索引擎工作过程非常复杂，接下来的几节我们简单介绍搜索引擎是怎样实现网页排名的。下面介绍的内容相对于真正的搜索引擎技术来说只是皮毛，不过对SEO人员已经足够用了。搜索引擎的工作过程大体上可以分成三个阶段：(1)爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。(2)预处理：索引程序对抓取来的页
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
CPP项目：Boost搜索引擎函数指针搜索引擎
1.项目背景对于Boost库来说，它是没有搜索功能的，所以我们可以实现一个Boost搜索引擎来实现一个简单的搜索功能，可以更快速的实现Boost库的查找，在这里，我们实现的是站内搜索，而不是全网搜索。2.对于搜索引擎的相关宏观理解3.搜索引擎技术栈及项目环境技术栈：c/c++,c++11,STL,Boost准标准库，Jsoncpp，cppjieba，cpp-httplib,html5,css,js
Solr的原理及使用传而习乎
1.Solr的简介Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过HttpGet操作提出查找请求，并得到XML格式的返回结果。2.工作原理solr是基于Lucence开发的企业级搜索引擎技术，而lucence的原理是倒排索引。那么什么是倒排索引呢？接下来我们就介绍一
企业官网万词霸屏推广系统源码，实现关键词推广排名带完整的搭建教程罗峰源码源码分享企业官网万词霸屏推广系统源码企业官网万词霸屏推广系统企业官网万词霸屏推广企业官网万词霸屏系统
随着搜索引擎技术的不断进步，关键词的排名对于企业的网络营销至关重要。然而，传统的SEO优化需要耗费大量时间和人力，且效果不稳定。为了解决这一问题，万词霸屏推广系统应运而生。该系统通过先进的关键词匹配和搜索引擎优化技术，帮助企业快速提升官网在搜索引擎中的排名，提高曝光率和流量。以下是部分代码示例：系统特色功能一览：1.多关键词优化：万词霸屏推广系统支持多个关键词的优化，可根据企业需求定制关键词库，实
DT浏览器是否需要开发一个文件加密的功能？悠然而为之小程序软件工程
DT浏览器是否需要开发一个文件加密的功能？最近使用DT浏览器的使用人数上升了30%，为什么人们又开始使用浏览器了么，可能与各类平台的管理有关，由于平台的信息量不能满足用户更多的需求，从而增加了浏览器使用量，DT浏览器使用了微软的搜索引擎技术，在搜索内容上有国内和国外两种选项，广告少，是用户搜索信息的又一个选项，此外，我们也在考虑用户的需要，在网络上搜集一下用户的意见和建议，来觉得DT浏览器需要开发
最近使用浏览器的人数上升了30% 悠然而为之软件工程
DT浏览器的数据显示，最近使用浏览器的人数上升了30%，为什么人们又开始使用浏览器了么，可能与各类平台的管理有关，许多信息在平台上发布不了，由于平台的信息量不能满足用户更多的需求，从而增加了浏览器使用量，DT浏览器使用了微软的搜索引擎技术，在搜索内容上有国内和国外两种选项，广告少，是用户搜索信息的又一个选项
2024年1月16日Arxiv热门NLP大模型论文：Improved Learned Sparse Retrieval with Corpus-Specific Vocabularies 夕小瑶自然语言处理人工智能语言模型神经网络深度学习大模型论文阅读
亚马逊颠覆搜索技术：自定义词汇库提升检索性能，效率提高50%，准确度飙升12%！引言：搜索引擎中的词汇选择与检索效率在搜索引擎的世界中，词汇的选择对于检索效率至关重要。传统的搜索引擎技术，如BM25，依赖于对文档中词汇的频率统计来估计词汇的重要性。然而，随着预训练语言模型（如BERT）的兴起，我们现在可以通过直接优化检索任务来学习文档中词汇的重要性。这些学习到的词汇重要性分数是许多学习型稀疏检索技
计算机毕业论文内容参考|基于智能搜索引擎的图书管理系统的设计与实现奶糖肥晨计算机毕业论文内容参考搜索引擎
文章目录摘要前言绪论课题背景国内外现状与趋势课题内容相关技术与方法介绍系统分析系统设计系统实现系统测试总结与展望摘要本文介绍了基于智能搜索引擎的图书管理系统的设计与实现。该系统旨在提供一个高效、智能化的图书管理平台，帮助用户更快、更准确地找到所需的图书资源。文章从课题背景、国内外现状与趋势以及课题内容入手，阐述了该系统的重要性和研究意义。接着，文章介绍了相关的技术与方法，包括搜索引擎技术、数据存储
自己动手写搜索引擎系列【目录】 luyee2010 自己动手写搜索引擎自己动手写搜索引擎
第1章遍历搜索引擎技术11.130分钟实现的搜索引擎11.1.1准备工作环境（10分钟）11.1.2编写代码（15分钟）31.1.3发布运行（5分钟）51.2Google神话91.3体验搜索引擎91.4搜索语法101.5你也可以做搜索引擎131.6搜索引擎基本技术141.6.1网络蜘蛛141.6.2全文索引结构141.6.3Lucene全文检索引擎151.6.4Nutch网络搜索软件161.6.5
Python爬虫入门二（网络数据采集） step-forward
一、网络数据采集1.什么是网络数据采集“网络数据采集”是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取，并按照一定规则和筛选标准进行数据归类，并形成数据库文件的一个过程。2.网络数据采集的特点支持自定义表单。支持自适应采集。支持集群采集。支持各种报表导出。支持仿人工式的随机采集数据。支持自定义阅读模板。支持登陆、代理采集。支持各种列表分页采集。支持各种内容分页采集。支持各种排重过滤
机票、酒店、搜索引擎 weixin_33890526
机票、酒店、搜索引擎Qunar是互联网的新生力量，是将有资质的酒店、机票代理机构、旅行社提供的旅游服务信息汇集于互联网平台，供用户查阅的互联网信息服务提供商，并将用户带往相关旅游服务提供商，但它不提供相应的旅游产品预订服务。去哪儿(Qunar.com)的开发人员从美国带回最新的搜索引擎技术，在国内用了6个月时间进行了机票和酒店的产品化，并且首先推出中文版本。去哪儿是把有资质的酒店、机票代理机构、旅
【原创】全文搜索引擎技术原理入门黑夜路人算法/机器学习/数据挖掘 go 搜索引擎云搜索 lucene elasticsearch
【原创】全文搜索引擎技术原理入门作者：黑夜路人（heiyeluren/Black）时间：2021/11文档：《全文搜索引擎技术原理入门》-黑夜路人信息检索（InformationRetrieval）的含义可以是非常广泛的，作为一个学术研究领域，信息检索可能如此定义：信息检索（IR）是从集合（通常存储在计算机中）中找到满足信息需求的非结构化性质（通常是文本）的材料（通常是文档），信息检索是解决信息存
【得物技术】搜索引擎技术简介得物技术算法搜索引擎排序
导读搜索引擎是一种结合自然语言处理，信息检索，网页架构，分布式数据处理为一体的帮助用户准确解释信息获取信息的一种技术。目前业界在网页端与手机端的主流门户搜索份额基本被各类巨头(图1.1)(SEO,2020)所分割。当然，随着时代的发展，搜索越来越向以细分业务为主导的精细化门户搜索的方向发展。比如你会选择在知乎搜索专栏知识，在得物搜索潮流爆品，在美团点评搜索吃喝玩乐等等。THENO.1信息检索搜索引
HarmonyOS之数据管理·融合搜索的应用 ╰つ栺尖篴夢ゞ HarmonyOS 融合搜索的概念和运作机制分析融合搜索的权限分配和使用限制融合搜索的API说明融合搜索的使用开流程
一、简介①基本概念HarmonyOS融合搜索为开发者提供搜索引擎级的全文搜索能力，可支持应用内搜索和系统全局搜索，为用户提供更加准确、高效的搜索体验。全文索引：记录字或词的位置和次数等属性，建立的倒排索引。全文搜索：通过全文索引进行匹配查找结果的一种搜索引擎技术。全局搜索：可以在系统全局统一的入口进行的搜索行为。全局搜索应用：HarmonyOS上提供全局搜索入口的应用，一般为桌面下拉框或悬浮搜索框
seo从入门到精通_SEO入门书籍推荐：从入门到精通，新人必看的3本书 weixin_39640414 seo从入门到精通 seo入门到精通
在这个网上学习泛滥的年代，很多人都习惯在网络上找教程学习，无论上视频教程，学习论坛，或是网上课堂等等。但也有些人还是更习惯看书学习的，很多人问我有没有好的学习SEO的书籍，那么接下来就给大家推荐几本适合刚入门的小白看的书籍。一、《搜索引擎技术基础》作者:刘弈群、马少平、洪涛、刘子正适合人群：seo培训人员、SEO从业人员、团体站长、网络营销人员、网站设计人员、程序员。内容简介：《搜索引擎技术基础》
ES性能优化最佳实践- 检索性能提升30倍！水的精神 Elasticsearch ES搜索优化 elasticsearch 大数据搜索引擎检索性能优化
Elasticsearch是被广泛使用的搜索引擎技术，它的应用领域远不止搜索引擎，还包括日志分析、实时数据监控、内容推荐、电子商务平台、企业级搜索解决方案以及许多其他领域。其强大的全文搜索、实时索引、分布式性能和丰富的插件生态系统使其成为了许多不同行业和领域的首选技术。虽然Elasticsearch是一款强大的搜索引擎技术，但在超大规模数据检索中，尤其是在处理大量检索关键词（150个以上）、对多个
抖音seo,抖音搜索排名系统，短视频混剪系统，源码搭建，源头开发搜索引擎技术搭建沐策科技技术总监搜索引擎矩阵线性代数
抖音seo，抖音搜索排名系统，开发之前是什么技术逻辑呢？首先seo是搜索引擎优化，提升排名，抖音里也有搜索点击关键词，抖音seo就是搜索短视频行业的关键词，在搜索的时候可以搜到相关的内容，提升抖音作品排名，从而提升更多的流量。该函数本身不提供转换功能，只是起到“转发”作用，将传入的对象转发给对应具体的转换函数就行了；用户通过上传简单图文，视频素材，实现音视频原声配等自动化生成剪辑，当然功能很齐全的
Boost搜索引擎的实现汐风项目笔记搜索引擎 c++STL linux 正排/倒排索引
目录Boost搜索引擎项目1.项目的相关背景2.搜索引擎的相关宏观原理3.搜索引擎技术栈和项目环境4.正排索引vs倒排索引-搜索引擎具体原理正排索引：就是从文档ID找到文档内容(文档内的关键字)倒排索引：根据文档内容，分词，整理不重复的各个关键字，对应联系到文档ID的方案5.编写数据去标签与数据清洗的模块Parser(分析器)理解什么是标签，以及去标签的目标编写Parserboost开发库的安装E
boost搜索引擎 (保姆级制作,包看包会) yuyulovespicy 搜索引擎 c++c语言 http 数据结构
目录0.观前提醒:1.项目背景介绍2.搜索引擎宏观原理3.搜索引擎技术栈与项目环境4.正排索引&&倒排索引-搜索引擎基本原理4.1正排索引4.2文档分词4.3倒排索引5.编写数据去标签与数据清理的模块Parser5.1获取相关boost资源5.2去标签化思路构建5.3去标签化代码实现5.3.1网页文件去标签化代码的基本框架:5.3.2网页文件解析接口的分别实现#1.GetFiles接口的实现:#2
搜索引擎面面观 husn 搜索引擎研究搜索引擎语言文档自然语言处理网络分布式计算
搜索引擎面面观技术系列之一因特网的迅猛发展、WEB信息的增加，用户要在信息海洋里查找信息，就像大海捞针一样，搜索引擎技术恰好解决了这一难题，它可以为用户提供信息检索服务。目前，搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎（SearchEngine）是随着WEB信息的迅速增加，从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》
亚马逊卖家如何打造新品排名?amazon论坛提升搜索流量全攻略 Amazon121
亚马逊卖家在选择换季产品时，如何更好的推广新品？在亚马逊论坛卖家论坛学到的经验终究还是别人的作为借鉴还是可以的，不建议完全照搬论坛卖家的经验。亚马逊平台对买家的消费体验很重视，这在卖家心理有数，那么亚马逊卖家在推广新品时是否可以买家为主，将推广效果进行提升。亚马逊1）亚马逊的SEO亚马逊站内搜索排序的影响因素，一直以来都是卖家关心的问题。Amazon使用了A9搜索引擎技术，同Google等其他搜索
全文检索技术 Lucene SingleXu
1.搜索技术理论基础1.1.为什么要学习Lucene原来的方式实现搜索功能，我们的搜索流程如下图：图片.png上图就是原始搜索引擎技术，如果用户比较少而且数据库的数据量比较小，那么这种方式实现搜索功能在企业中是比较常见的。但是数据量过多时，数据库的压力就会变得很大，查询速度会变得非常慢。我们需要使用更好的解决方案来分担数据库的压力。现在的方案（使用Lucene），如下图图片.png为了解决数据库压
基于Java的新闻全文搜索引擎的设计与实现阿坨后端 java 搜索引擎
中文摘要本文以学术研究为目的，针对新闻行业迫切需求和全文搜索引擎技术的优越性，设计并实现了一个针对新闻领域的全文搜索引擎。该搜索引擎通过Scrapy网络爬虫工具获取新闻页面，将新闻内容存储在分布式存储系统HBase中，并利用倒排索引及轮排索引等索引技术对新闻内容进行索引，实现了常用的新闻搜索功能，如短语查询、布尔查询、通配符查询等。同时为了获得更快的检索速度，该系统使用了B+树来构建索引树；为了提
巨人互动|Google海外户&Google与Google Chrome的区别 hahachuhai chrome 前端
Google和GoogleChrome是两个不同的实体，所以它们之间会有所不同。下面小编将详细介绍一下它们的区别。首先，Google是一家全球知名的互联网科技公司，成立于1998年。该公司提供了许多互联网相关的产品和服务，包括搜索引擎、在线广告、云计算、电子邮件等。Google以其强大的搜索引擎技术而闻名，每天处理数十亿次的搜索请求。而GoogleChrome是Google开发的一款网络浏览器。它
HA3搜索引擎梳理与分析 WanderingScorpion 检索技术
HA3搜索引擎梳理与分析一、HA3技术体系梳理HA3搜索引擎技术体系图1.1内核网络访问存储：通过网络访问盘古系统（集中式存储）实现存储与计算分离，支持独立扩展，降低运维成本，提高稳定性热数据cache：支持使用mmap（lock/非lock方式）、blockcache对数据进行加载，实现对热数据的memcache自适应bitmap：支持根据检索热度自动将部分token转换为bitmap倒排分层存
HarmonyOS学习路之开发篇—数据管理（融合搜索）爱吃土豆丝的打工人 HarmonyOS 学习（java开发篇）学习搜索融合会话管理 harmonyos Network
融合搜索概述HarmonyOS融合搜索为开发者提供搜索引擎级的全文搜索能力，可支持应用内搜索和系统全局搜索，为用户提供更加准确、高效的搜索体验。基本概念全文索引记录字或词的位置和次数等属性，建立的倒排索引。全文搜索通过全文索引进行匹配查找结果的一种搜索引擎技术。全局搜索可以在系统全局统一的入口进行的搜索行为。全局搜索应用HarmonyOS上提供全局搜索入口的应用，一般为桌面下拉框或悬浮搜索框。索引
【boost搜索引擎】桑榆非晚ᴷ 实战项目搜索引擎
实战项目：Boost搜索引擎博主主页：桑榆非晚ᴷ博主能力有限，如果有出错的地方希望大家不吝赐教给自己打气：成功没有快车道，幸福没有高速路。所有的成功，都来自不倦地努力和奔跑，所有的幸福都来自平凡的奋斗和坚持✨Boost搜索引擎实战项目：Boost搜索引擎1.项目背景及项目目标2.搜索引擎的相关宏观原理3.搜索引擎技术栈和项目环境4.正排索引&&倒排索引-搜索引擎基本原理5.编写数据去标签与数据清理
快如 Everything 准如搜索引擎，支持全文搜索的桌面搜索工具桑甚
市面上有很多桌面搜索工具，Windows、macOS系统也自带全文搜索，可是能把全文搜索（划重点：能所搜文件内容文字）真正做好的，且对中文资料友好的不多。搜索引擎大家都用过，搜索网页又快又准又智能，可是桌面搜索呢？有没有一款又快又准又智能的桌面搜索工具？小编今天为大叫介绍一款号称“快如Everything准如搜索引擎”的桌面搜索工具：归海数据。四大亮点它是一个基于搜索引擎技术的桌面资料搜索软件，有
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n