浅谈---刘挺老师的信息检索系统导论

花了很长的时间看这本书,这本书也比较的难。从一开始老师推荐的时候就去图书馆借到了这本书,然后就开始看这本书了,只是当时确实看不太懂很多的章节,老师也说只是叫我浏览一下,就现在的我来说也是有很多的章节看不懂,不是说看不懂,里面涉及到的很多很细节的问题我就不知道了。所以有的直接跳过去的,有些在论文的帮助下勉强还能看懂一部分,说实话,论文给我的帮助很大,本科时为了最后的毕业设计,我看了大概几十篇硕博论文,自己看的最后还是对自己有好处的,自己理解了才是最好的,论文给我一个很大的好处在于论文都是有结构的,全文组织的很有条理,看着就很舒服。我这个人看书还是看论文,就是说在学习一个新的知识点的时候,都会先建立一个相对大的模型,就像数据结构里面的树形结构一样,先建立起大的树枝,至于其余的树叶什么的,在后期的进一步学习中会获取的。

今天是第二次写总结,也是相当于文献的二次综述,这本书看过了好几遍,现在能通过大概前面8章左右,到后面有点不太熟悉了。还需要花点时间来进行好好的认真的学习,这次的六级考试过了,现在在英语方面感觉自己还行,不管是阅读还是听力,至于听力要花一段时间在上面就不会落下了。现在每两个星期把雅思或者说是托福的词汇背一遍,现在的词汇量好像到达一个临界点了。不过相信还是早晚会突破的,加油!

近期又看了几篇硕士论文,里面的文字写的确实不错,有思路,有框架,每个章节的连接也是很有道理的。就我平时比如现在写的总结,虽然是按照我们的书本进行总结的,但是确实有很多地方达不到要求的,理由很简单,很多的知识点不是很清楚,所以组织起来也就不是那么的顺利。往往是想到哪里就写到哪里的。但是我相信通过平时的慢慢练习,相信会有达到标准的那一天。言归正传,开始第一章节的总结与个人的理解或是自己的一些想法。和一般书本上描述的那样,第一章讲述的是信息检索的基本概念和处理的对象。其中还有信息检索的基本流程,我现在知道了信息检索的对象是网页上的非结构化的数据,一般现实生活中的数据要么是结构化的就像数据库里面存储的数据就是结构化的数据,而我们大多数其他数据确实非结构化的数据。信息检索里面还包括很多东西要自己理解的,比如信息采集,信息加工、处理。下面讲一下概念,信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。

近期我还看过一些和书相关的视频,讲的是信息检索方面的知识。主要是SEO方面的知识点,对我的视野开阔还是蛮有帮助的。但是没有专门讲述信息检索的资料,这个还是有点可惜的。此外第一章节还介绍与信息检索相关的课程,比如自然语言处理、分布式计算、数据库、数据挖掘、情报学、社会学、统计学等等。首先第一个自然语言处理也是很热门的研究方向,我上网查了一下百度百科了解到一些概念性的知识。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部分。用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。

实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理解研究得较多,而对自然语言生成研究得较少。但这种状况近年来已有所改变。

无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等。

自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。

一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串。由字可组成词,由词可组成词组,由词组可组成句子,进而由一些句子组成段、节、章、篇。无论在上述的各种层次:字(符)、词、词组、句子、段,……还是在下一层次向上一层次转变中都存在着歧义和多义现象,即形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。一般情况下,它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说,从总体上说,并不存在歧义。这也就是我们平时并不感到自然语言歧义,和能用自然语言进行正确交流的原因。但是一方面,我们也看到,为了消解歧义,是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式,将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义,都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的,还有待长期的、系统的工作。

以上说的是,一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来,一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示。

因此,自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义,而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。

歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。

这个研究方向涉及到的学科门类还是很多的,要我去学习的知识还有很多很多。信息检索要解决的问题或是它本身研究的内容有:处理海量的数据、评价检索、处理多源信息。另外信息检索的关键技术有:信息抽取、文本分类与聚类、自动文摘、链接分析、web信息检索。信息检索领域还有很多的应用研究,有话题检测与跟踪、信息过滤、垃圾信息过滤、对抗式信息检索、企业检索、数字图书馆、跨语言检索、基于内容的多媒体检索、基因信息检索。信息检索的历史、现状和未来,在本章中也有体现。我个人比较感兴趣的有信息融合,问答系统、数据挖掘等等,这些都是比较难的或是很难的领域问题,但是还是比较有趣的。有了兴趣后很多的事情做起来就比较有动力了。

下面讲一下第二章的内容,第二章对信息检索的模型进行了介绍。首先介绍了三个经典的模型:布尔模型、向量空间模型、概率模型。接着由于这三个模型的前两个模型有各自的缺点和优点,所以这一章对其进行了结合,把布尔模型和向量空间模型结合起来形成扩展布尔模型。在很多实际应用中也是多个模型一起使用的,这样能取得很好的使用效果,比单一的使用某个模型来得好,据此本章对此进行了详细的介绍,然后还对预计与语言模型的信息检索加以重点介绍,这部分我没怎么看明白。在本章节的最后比较热门的隐性语义索引模型与基于本体论的信息检索模型,将语义的知识运用与信息检索是未来的发展趋势。虽然这部分只是很难,或是很难被我们一般人所理解,但是确实是我们未来信息检索取得突破的关键或是重要方向。至于具体的介绍还要再看几遍这个章节。看书的重复是很有必要的,第一次看书也许只是看懂一部分,然后接下来的几遍就是更好的理解与消化自己所懂的知识点。

下面是第三章信息检索系统的评价,信息检索评价对信息检索研究来说具体非常重要的作用,本章主要介绍了在信息检索领域中的各种评价方法以及比较有影响力的评测会议。这章还介绍在国际信息检索领域方面,介绍了好几种方法,感觉像是规定一样。评价一般是评价某个系统或是某个产品的性能或是质量什么的好坏。对于我们的信息检索系统来说,除了系统的处理时间和空间因素,还要求各种排序算法或是相关度的计算尽量的好,尽量的能及时满足用户的检索需要。一般的性能评价指标有准确率和召回率,本章中也给出了相应的计算公式,当然还有其他很多种的评价方法。包括国内的和国外的评价方法。我感觉这一部分还有好多的地方可以研究创新一下,然后发表论文,就是计算准确率的方法上应该可能改进一下,什么召回率还有涉及到相关度的计算方法也是可能改进的,国内也已经有很多的研究者们已经基于相关的方法进行了改进。在这一部分我也会花一定的时间在上面,多看一些文献,总结一下自己的想法,多看看其他人的改进方法,以便以后自己设计一套方法出来,在信息检索评价方法有自己的独特的一套方法,不管是国际上的还是国内现有的方法中,有很多的前辈已经给我们打好路子,让我们在他们的基础之上进一步的改进以便使得我们的信息评价算法更加的完善。今后研究发展的趋势和问题有很多,网络上的信息越来越多,各种评测方法也是越来越多,人工的相关判断已经是不能满足日益增加的信息要求,越来越不能很好的满足用户的检索需求。

其实评测很大一部分是基于返回的网页的内容是否和用户所需求的一样或是相似的,这里就又涉及到网页内容上的抽取、整理、加工与处理。在和用户的相关反馈进行交流以后就能更好的满足需求。听师哥说他就是搞信息评价这一块内容的,他好像也做过相关的实验,这一部分只有在试验中才能知道什么评测方法是好的,在什么领域内是好的。里面可能深入很多,以后还有很多的东西要学,说实话,就我现在的总结来说,其实只是我的自己的想法或是看完书后的表面一层最基本的总结,远远没有一般论文的结构或是构思,当然这方面我也会注意的,尽量写出来的是有自己的一个顺序或是思路在上面,按照每章每节的内容详细的总结出来。现在的一点点积累为了以后写大论文打下坚实的基础。一开始进入研究生阶段的我可能是浮躁的,静不下心来写点东西,写出来的也是一些只是一些初次看过什么资料后的不再那么深入思考的话语。当然不是说现在的总结多么的好还是怎么的。每个人经历过一点的事情或是经过一段时间后总会思考点什么,想到或是想通点什么。

第四章介绍的是一些文本处理的技术。可以说这一部分是自然语言处理这一块比较难的地方,也是个重点。目前的方法不多,基于词典或是统计学的方法是我看得到比较多的。除此之外当然还有其他比较好的方法。下面来详细的介绍一下,中文不像英语有那么明显的断词的地方或是标记。中文需要进行切分,现在就是关于切分就有很多的难点,怎么个切法才能更好地体现出用户的想要查询的意思。当然首先要做的还是网页内容的抽取,将网页上的内容抽取整理出来。抽取的方法还是有很多的,就光是信息的抽取,里面涉及到的知识点就非常的多。

第四章具体的后期可以再总结一下,现在的感悟不是很多,也有许多不懂的地方,今天在开始看lucene的源代码,其实是我在图书馆借的一本关于搜索引擎开源代码的讲解类似的书籍,一共借了两本,感觉代码好多,这是第一感觉,我会耐下性子看下去,相信自己会有所收获的。下面就这本书的第五章开始总结一下自己的观点和想法,第五章讲的是文本索引和搜索,索引是搜索引擎重要的一环。文本索引一般有三种方法:倒排索引、后缀数组、签名文档。这三种类型我在很多的参考书中见到过。对于第一种倒排索引理解的差不多,当然也有很的变种版本,后两个接触的比较少,只是听说过而已。我先描述一下什么是后缀数组,在后缀数组中可以将文本看作是一个很长的字符串,文本中的每一个位置都被看做是文本的一个后缀,所以索引的位置可以是每个字符的位置、或是每个单词的位置。后缀数组就是对文本的所有后缀按照字典序存放每个后缀对应的起始位置的一个列表。在使用后缀数组前先构造后缀数组,构建结束后使用与分析,其实后缀数组对于大量数据的检索是有一定的局限性的,因为构造出来的后缀数组需要大量的存储空间,通常是原文本的1.7倍,所以说当文本比较大的时候我们通常使用倒排索引来存储我们的数据。接下来是签名文件的使用,签名文件是基于散列技术的面向单词的索引结构,索引占用的空间大约是原始文档的30%--40%。但是因为采用这个技术需要顺序比较,时间复杂度为线性,所以这种技术只适合于小规模的文本,在大多数应用中其性能不如倒排索引文件。

在文本的索引技术中我介绍三种比较常见的匹配技术算法:BF、KMP、BM

其中BF算法最为简单,就是一个字一个字的比较,下面的KMP算法我们在数据结构中学到过,还是一种不错的查找匹配算法,可以说是BF的改进版本。BM算法确是和KMP截然不同的算法。BM算法在实际匹配中跳过了很多无用的字符,这些是在前面两个算法中无法实现的关键之处。当然书中介绍的这些算法之所以提出来肯定有他们各种使用的场合,一般情况下,如果规模很小可以使用BF算法,因为其相当的简单,实现起来也不会很麻烦,而且不需要额外构造跳转表,如果字母表很大可以选择KMP算法因为模式中含有的重复的情况较少,对于长文本来说,BM算法是最佳的选择。这些都是研究者们在实践生活中总结出来的方法,我们后续的学习者可以借鉴使用,达到高效率的办公、学习、科研。这些算法我感觉还得自己使用下,在实践中才能获取更多的感悟,实践出真知还是有一定的道理的。每一次一本书的总结总是感觉蛮不错,起码完本后有一种成就感,虽然现在总结或是每周汇报的内容,都只是理论的内容,在下面的学习中内容是基础,不会放下了,在这基础之上,学习实际的代码部分,开始找个开源的搜索引擎,开始看看,最后改一下源代码实现自己的搜索引擎。然后开始写小论文,发表,继而大论文的材料也就有了。听师哥师姐们说发表一篇论文不是件容易的事情,这是个日积月累的过程,也是量变达到质变的过程,需要我们有耐心的年复一年,日复一日的学习与总结,不断的完善自己的学习方法,改进自己的学习方法,不断的提高自己的科研水平与自己读研的动力。

第六章讲的是查询处理技术,用户查询时可以自己选择查询词,不同的查询词所搜索到的结果是不一样的,所以选择适合的关键词才能查询到我们用户想要的信息。下面说一下我所理解到的查询构造方法,通常有单一词查询,顾名思义,就是由单一的一个单词或是词语组成的查询词,这个根据生活中或是网页上词的频率来搜索关键词的。还有一组词的查询,我在其他书中见到过一般的通用的比较好的方法是布尔模型和向量空间模型里面的查询,上下文查询,类似于我们人类的思想来查找自己所需要的信息。里面还涉及到很多的公式,比如布尔模型最为简单,但是也是最为重要的模型之一。很多的查询都是基于布尔模型的,一般的搜索引擎利用的查询系统就是几个比较好的模型联合在一起进行查询,这样的查询才是高效的,能最好最接近的反应用户的需求。、

我在一般的搜索引擎,比如百度上进行信息的检索时,或有一个很好的方法,有时自己想要查询一个东西,但是又不太好表达自己的查询,于是输入一个相关的查询词进行信息的查询。然后在搜索引擎返回到搜索结果中在最下面的导航栏里或是不是导航栏,会出现一个类似用户的相关性反馈的界面,里面还有很多的关键词和自己想查询的相类似。真的这个方法就是不错,我们在不知道怎么表达自己寻找的那个关键词的时候,给与我们几个相类似的关键词。我们可以从中选择自己表到类似的。这种相关性的反馈,也有评价机制,有些相关性反馈是很好的,当然也有很多的是不怎么样的。在这里就和信息的评价差不多,利用或是根据准确率、召回率、或是文档的相关度来进行评价。

还有一种和相关性反馈差不多的叫做自动搜索扩展技术,也是在同一个地方根据用户的关键词,联想到想要表达什么意思,根据意思产生相同的扩展来达到用户查询的目的。这一章的知识点不是很多,但是也是后续章节的基础,里面利用到很多的方法,也是前面提到过的,像什么布尔模型、向量空间模型,这些经典的模型,在搜索引擎或是信息检索领域没都是非常出名的。也是很关键的技术之一。关于查询,合适搜索引擎唯一一个在线处理的模块,其余大多数时间都是在离线计算网页上的信息,各种抽取信息,然后建立索引什么的,为的就是后续的用户的查询,能满足用户的查询需求就是最好的搜索引擎,也是最好的查询搜索算法所实现的目标。离这一步还很远。在搜索引擎这个领域内,很多的研究者们花费很长的时间来优化我们的搜索引擎,从一开始网络爬虫,怎么样来从互联网上进行网页的爬取,怎么样高效的利用相关的算法进行网页信息的爬取,爬取下来后怎么样高效的存储又变成一个至关重要的问题,其中当然也有很多的牛人提出很多的算法,来进行存储,利用缓存,当然这个是为了用户查询时,能够在更短的时间内把用户所需要的信息反馈给他,所有才采用这样的减少时间的技术,在建立索引的时候就有很多的方法来进行时间和空间上的,或是硬件上的改进来满足用户的需求,不仅是算法的改良就可以的,大多数情况下的确是这样的。

搜索引擎的各个构件上的的每一个都是高效的话,那么到最后的查询阶段也就是非常高效的。这个是理想的情况下的说法。

第七章讲的是WEB检索技术。介绍了基本的概念以及一些相关的算法,web检索技术与一般的检索技术不一样的地方是,web检索技术是针对互联网上的文本数据的检索技术,一开始早期的搜索引擎有一种是目录式搜索引擎,为的就是满足用户的文本搜索需求。下面简单的讲一下web搜索或是叫做web检索的工作流程和系统结构,首先是web数据的采集,从互联网上面采集信息下来,然后对网页进行预处理,建立网页正文的数据库,通过建立索引然后方便以后用户的查询,在建立索引的时候还涉及到相关性排序的问题,这个是由相关性排序系统完成的。前面几个部分和一般的搜索引擎的原理一样,也是离线部分完成的,接一下的是和用户的互动环节,也叫做在线查询部分,这一模块比较重要,也是最关键的部分。

除此之外有一个专门处理用户的行为的分析器,分析出用户对那些信息比较感兴趣,用户在网上进行信息的检索的时候通过用户的行为也可以适当的分析出用户的需求,当然可能只是一部分的需求,整个系统结构的架构是采用分布式的搜索引擎结构,和它极其类似。用户的数量非常的多,实际的生活中的用户在同一时间内或是同一时刻的查询就非常的多,所以一般来说搜索引擎也好,web检索技术也罢,由前面的讲述可知,搜索引擎是个大的内容,web检索只是其中的一小部分,也是信息检索领域内的一部分。但是我感觉搜索引擎的原理好像和web检索技术的原理差不多,我在之前的搜一些与信息检索的论文的时候当时只是觉得很奇怪,检索技术和web检索技术有区别吗,还是有其他的检索技术。这个问题一直高不太清楚,看过一些论文上也是讲了一些和搜索引擎技术上差不多的东西。

在本章中我还了解到web上的数据采集就分为很多的种类,就像之前讲述的网络爬虫怎么获取互联网上的信息资源差不多,有很多的方法,最为常见的方法是基于整个网络的数据采集、增量式数据采集、还有的就是基于主题的数据采集、迁移的数据采集。基于元搜索引擎的数据采集。和网络爬虫相当的类似。写到这里我好像有点迷糊了,第七章本来就是信息检索系统的一部分,当然会和搜索引擎的架构和原理差不多,搜索引擎中利用到的原理技术都是web技术的体现,网页排序算法的研究在本章中也写了出来,很常见的排序算法比如pagerank、hits、多数据融合算法的研究。

下面想自己研究一下每个排序算法的过程。

结合搜索引擎实践这本书来总结在一起,说实话,这本书看了好几遍都是看不懂的,虽然说这本书是搜索引擎方面的入门书籍,我还是感觉这本书讲得比较详细,里面涉及到的知识点太多了,短期内很难吃透,所以一般平时我都是看这本书的,当然也攻克了许多难点,从梁斌的那本走进搜索引擎书中学到的比较简单的东西或是方法,然后运用到这本书上时感觉顿时明白了许多。下面就一点一点的总结一下自己看过的内容,或是看了过后有些感触的知识点。全书共分为11章,不算多,大部分内容一般的信息检索书中也有讲到,搜索引擎的参考书中也会介绍部分。这本书叫做实践,说明要求我们参与实践的环节,书中介绍了一种开源的搜索引擎,我也上网找过一些,看了相关的代码,不是看的很懂,或是看不懂。从我目前的研究方向来看,主要是在看懂搜索引擎的源代码后进行自己的改装,以至于满足实际的生活中用户检索的需求,我最近在看lucene和nutch搜索引擎,总的来说,lucene不能算作是搜索引擎,最多只是个全文检索系统的软件压缩包,或是api。

我研究了两天左右,lucene的索引建立和检索自己差不多懂了,那个网络爬虫不是lucnene中的一部分,需要自己通过heritrix爬虫去互联网上自己去爬取网页,然后建立索引库,以便于后期的用户的检索。现在简要地讲述一下本书的主要内容,以及自己感兴趣的方向,这当然是自己的小方向,本书从信息检索的起源开始讲起的,一开始的还是概念性的东西。信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统 相继研制成功并商业化,早期的信息检索是图书领域的相关术语,和计算机不是很有关系。到20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。 在第二章的搜索引擎的架构中,对于其主要的体系结构已经基本上懂了大概,在具体的应用中能体会出来,几个主要的步骤:文本的采集,建立索引数据库,在这两个之间还有很多的工作需要完成。文本的转换,文本内容的抽取,涉及到的算法也是比较多的,国外大部分的算法研究的比较的成熟,但是在中文分词这块,在国内还是比较成熟的,里面涉及到很多关键的技术还是需要时间才能完成攻克。就目前的水平来说是一件很不容易的事情。

从图书馆的情报学专业来看,和我们计算机专业在信息检索的方向上有很多相似的地方。下面从定义来讲一下,信息检索有一些类别。信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户的需求。由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。

(一)按存储与检索对象划分,信息检索可以分为:

  文献检索

  数据检索

  事实检索

  以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。(二)按存储的载体和实现查找的技术手段为标准划分:

  手工检索

  机械检索

  计算机检索

  其中现在发展比较迅速的计算机检索是“网络信息检索”,

计算机信息检索概述

也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。

(三)按检索途径划分:

  直接检索

  间接检索 

信息内容分析与编码,产生信息记录及检索标识。组织存贮,将全部记录按文件、数据库等形式组成有序的信息集合。用户提问处理和检索输出。关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。它按对象分为文献检索、数据检索和事实检索;按设备分为手工检索、机械检索和计算机检索。由一定的设备和信息集合构成的服务设施称为信息检索系统,如穿孔卡片系统、联机检索系统、光盘检索系统、多媒体检索系统等。信息检索最初应用于图书馆和科技信息机构,后来逐渐扩大到其他领域,并与各种管理信息系统结合在一起。与信息检索有关的理论、技术和服务构成了一个相对独立的知识领域,是信息学的一个重要分支,并与计算机应用技术相互交叉。 这些内容来自于网上的百科知识,和书本上的有所区别,更多的讲的是来源之类的信息,没有涉及到原理那一块。并不是说这一部分内容没什么作用,对这一方向的了解就是来自于网络或是图书情报学的理解。

智能检索或知识检索

  传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索

虚拟图书馆与网上信息检索

效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。

知识挖掘

  主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。

  自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。

异构信息整合检索和全息检索

  在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

  另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。

  随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

检索原因

  1.信息检索是获取知识的捷径

  美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。

  二十世纪七十年代,美国核专家泰勒收到一份题为《制造核弹的方法》的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。

信息检索系统的体系结构

告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。

  2 .信息检索是科学研究的向导

  美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;中国的重复率则更高。专业研究的程序

  3.信息检索是终身教育的基础

  学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。

  UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。

四个要素

  1 信息检索的前提----信息意识

  所谓信息意识,是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力,从而判断该信息是否能为自己或某一团体所利用,是否能解决现实生活实践中某一特定问题等一系列的思维过程。信息意识含有信息认知、信息情感和信息行为倾向三个层面。

  信息素养(素质)(Information Literacy)一词最早是由美国信息产业协会主席Paul Zurkowski在1974年给美国政府的报告中提出来的。他认为:信息素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。

  2.信息检索的基础----信息源

  信息源的构成

  按文献载体分----印刷型、缩微型、机读型、声像型

  按文献内容和加工程度分--一次信息、二次信息、三次信息

  按出版形式分----图书、报刊、研究报告、会议信息、专利信 息、统计数据、政府出版物、档案、学位论文、标准信息(它们被认为是十大信息源,其中后8种被称为特种文献。教育信息资源主要分布在教育类图书、专业期刊、学位论文等不同类型的出版物中)

  3.信息检索的核心----信息获取能力

  1.了解各种信息来源

  2.掌握检索语言

  3. 熟练使用检索工具

  4.能对检索效果进行判断和评价

  判断检索效果的两个指标:

  查全率=被检出相关信息量/相关信息总量(%)

  查准率=被检出相关信息量/被检出信息总量(%)

  4.信息检索的关键:信息利用

  社会进步的过程就是一个知识不断的生产—流通—再生产的过程。

  为了全面、有效地利用现有知识和信息,在学习、科学研究和生

简单的信息检索搜索

活过程中,信息检索的时间比例逐渐增高。

  获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,根据自己学习、研究过程中的思考和思路,将各种信息进行重组,船造出新的知识和信息,从而达到信息激活和增值的目的。

检索方法

  信息检索方法包括:普通法、追溯法和分段法。1.普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。普通法又可分为顺检法和倒检法。顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性

相关书籍

强,效果较好。

  2.追溯法是利用已有文献所附的参考文献不断追踪查找的方法,在没有检索工具或检索工具不全时,此法可获得针对性很强的资料,查准率较高,查全率较差。

  3.分段法是追溯法和普通法的综合,它将两种方法分期、分段交替使用,直至查到所需资料为止。

最后的总结有点乱,来自于网上的资料摘抄的,自己读过几篇,也同时修改了一下,对于简单的介绍,没什么实质性的内容,也就看看,一开始写的不错的,可以体会到很深的东西,没几年的功底是写不出来滴。

你可能感兴趣的:(浅谈---刘挺老师的信息检索系统导论)