【829】【06 信息检索策略和方法】

  1. 1 计算机信息检索的含义和特点
    6.1.1计算机信息检索的含义
    指人们根据特定的信息需求,按照一定的方法,利用计算机从相关的信息检索系统中识别并获取所需的信息。计算机信息检索的过程包括信息存储过程和信息检索过程,其本质是信息用户的提问标识和信息集合数据库特征标识匹配的过程。
    6.1.2计算机信息检索发展简史
    计算机信息检索是计算机技术、通信技术、数据传输技术不断发展的产物,同时也是为了满足文献快速增长、信息需求日益增长的需要。经历了脱机批处理检索、联机检索、光盘检索和网络化联机检索等阶段。
    1.脱机批处理检索
    20世纪五六十年代是脱机检索的试验和实用化阶段,其特征是检索时利用计算机作批处理。由用户向计算机操作人员提问,操作人员对提问内容进行主题分析,编写提问并将结果及时通知用户。这种检索方法,用户不与检索系统发生直接联系,只需要把检索要求送往检索中心,由检索人员在计算机主机旁进行文献检索。这一阶段开始利用计算机编辑出版检索性刊物。
    2.联机检索阶段
    20世纪60至80年代是联机检索试验和实用化阶段。1965年以后,第三集成电路计算机进入实用化阶段,存储介质发展为磁盘和磁盘机,存储容量大幅增加,数据库管理和通信技术都有深入发展,信息检索从脱机批处理检索阶段进入联机检索阶段。
    3.光盘检索阶段
    20世纪80年代以来,一种新型的信息载体激光光盘在信息检索系统中得到越来越广泛的应用。光盘检索以其操作方便,不受通信线路的影响等特点异军突起,大有与联机检索平分秋色之势。
    4.网络化联机检索阶段
    进入80年代,随着TCP/IP通信协议的普通采用,以及美国国家科学基金会的介入,计算机检索发展成了今天的互联网。由于互联网的广泛性、方便性等特征,许多联机系统纷纷上网,把自己的系统安装在互联网的服务器上,成为互联网的一个组成部分,大大增加了用户的人数。而且以搜索引擎为核心的网上搜索技术也日益发展,成为网络时代最具有普遍意义的信息检索形式,互联网集成了多种信息检索方式,已成为用户进行信息检索的一个广阔平台。
    6.1.3计算机信息检索的分类

  2. 根据所检索数据库的形式
    (1)书目检索
    指查出某一主题的文献条目的检索。
    (2)数据检索
    利用相关的检索系统查询有关数据,以获得某一问题量化的准确数值。
    (3)事实检索
    指在计算机检索系统中查询有关事物或实在情报,以求得对某一问题的解答。
    (4)全文检索
    指直接利用原始文献建库进行的检索。
    2.根据计算机检索服务方式
    (1)定题检索
    指根据用户检索课题的内容,定期地从新到资料数据中为特定用户提问进行计算机情报检索的服务方法。
    (2)回溯检索
    指追溯查找过去的信息。可以查找最新的信息,取胜适应多数用户的查询需求。可用于申请专利进的新颖性查询,科研课题的立项和鉴定时的查新等。
    (3)日常检索
    指用户根据自己的信息需求,直接利用终端检索,检索系统即时提供用户所需的文献信息。
    3.根据检索方法
    (1)脱机检索
    是成批处理检索提问的计算机检索方法,计算机信息检索的初期类型。
    (2)联机检索
    是指检索者通过检索终端和通信线路,直接查询检索系统数据库的机检方式。
    (3)光盘检索
    是指以光盘数据库为基础的一种独立的计算机检索。
    (4)网络检索
    是利用E-mail, FTP, Telnet, Archie, WWW等检索工具,在互联网等网络上进行信息存取的行为,目前主要利用的信息检索系统是搜索引擎。
    6.1.4计算机信息检索的特点

  3. 手工检索的优缺点:
    手工检索是人们长期以来采用的文献信息检索的传统方法,人们直接凭头脑进行判断,借助简单的机械工具,对记录在普通载体上的资料来进行相应的检索。检索过程是人的手工操作完成的,其匹配主要依赖人脑的思考、比较和判断。
    (1)手工检索的优点:直观性强、灵活性高、费用较低等。
    (2)手工检索的不足:检索速度慢、时空的限制强、更新周期长、新颖性和时效性低、检索途径少等。

  4. 计算机机检索的特点
    (1)检索范围大
    由于计算机的运算速度高和数据库存储量大,计算机信息检索系统收录了数量巨大、内容全面的信息。能提供成百上千个数据库的检索,涵盖主题十分广泛,几乎覆盖了人类社会生活的各个领域。
    (2)检索速度快
    计算机的快速运算能力保证了计算机检索系统的检索速度,手工检索需要数日甚至数周的课题,计算机检索只需要数分钟甚至几秒就可以完成,大大提高了检索文献信息的检索速度,节约了读者的检索时间,提高了检索效率。
    (3)检索功能强,组配灵活
    计算机信息检索系统一般都提供布尔逻辑检索、截词检索、词组检索等,各类检索词之间可以灵活组配,还可对检索词之间的位置关系和短语进行全文查找。这是传统的手工检索所无法做到的。
    (4)检索途径多
    计算机检索系统除具有手工检索中采用的途径外,还能满足多途径交叉检索的需要,尤其适用于综合性课题的检索。
    (5)数据更新及时、时效性强
    利用计算机检索的文献信息更新周期短,计算机检索根据自身的特点更新周期不同。手工检索工具的更新周期则比较长。
    (6)检索结果输出形式多样
    检索结果可以选择直接浏览、打印、存盘或E-mail传送检索结果,部分计算机检索系统还提供不同字段的输出形式,或者选择简单格式和详细格式两种检索结果显示形式。

  5. 计算机检索的不足
    计算机检索系统所收录的数据的回溯时间有限,也就是说计算机检索不能够满足所有的信息查询需求。同时,计算机检索需要检索者具有一定的计算机知识,需要有计算机的环境,因而这种检索方式并不是适合每一个信息需求者。

  6. 2 计算机信息检索策略
    6.2.1检索策略的含义和作用
    1.检索策略的含义
    即在分析检索课题内容实质基础上,选择检索系统、检索途径,确定检索词及其相互间的逻辑关系等的信息检索方案。信息检索策略的实质是对检索过程的科学规划。关键在于构造能够确切表达信息需求的检索式。
    2.检索策略的作用
    正确的检索策略会优化检索过程,有助于提高查全率和查准率,节约检索时间与费用,取得最佳的检索效果。反之,则会降低检索效率。
    6.2.2检索表达式
    1.检索表达式的含义
    是检索策略的具体体现。检索式一般由检索词和各种逻辑运算符组成,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。检索表达式的构造关系到检索策略的成败。
    2.检索表达式的种类
    逻辑表达式、加权表达式、位置检索表达式、截词检索表达式、限制检索表达式、
    6.2.2.1逻辑表达式
    1.逻辑表达式的定义
    是指利用布尔算符,对检索词的关系进行表达,又称布尔逻辑表达式。
    2.布尔逻辑运算符的种类
    (1)逻辑与“AND”
    表示它所连接的两个检索词必须同时出现在结果中;
    (2)逻辑或“OR”
    表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件;
    (3)逻辑非“NOT”
    表示它所连接的两个检索词中应从第一个概念中排除第二个概念。
    3.逻辑表达式的运用
    根据不同的信息需求、不同的检索策略,其检索式构造也不一致。一般来说对于以查全为目标的检索课题,在检索式的构造过程中,用“与”连接的概念组面不能太多,应增加用“或”连接的相关检索词。对于以查准为目标的检索课题,其检索式的构造一般可增加逻辑与的使用。
    4.逻辑表达式的优缺点
    (1)优点:可以表达与用户思维习惯相一致的查询要求,与计算机逻辑运算功能一致,表达意义比较明显直观。
    (2)缺陷:不能实现检索结果的相关性排序;不能反映表达式中检索词的重要性;如果用户的检索课题中涉及的检索词较多时,可能要写出一个相当复杂的逻辑表达式。
    6.2.2.2加权表达式
    1.加权表达式的含义
    加权检索是指在检索提问中,根据每个检索词在检索要求中的重要程度,分别给予一定的数值加以区别,即赋权,这个数值称权值,然后对含有这些检索词的文献进行加权计算,其和在规定的阈值以上的,即确认为命中文献。采用这种方法表达信息需求的称为加权表达式。
    2.加权表达式的应用与局限性
    实质上,网络检索工具的加权检索也仅能控制某个词语是否一定要在检索结果中被包含或被排除,尚不能根据用户的需求来确定某一个具体语词的权值大小,从而确定它对检索结果的影响程度。
    加权检索可明确各检索词在检索中的重要程度,检索结果按照切题顺序排列,在提高查全率和查准率方面均有一定的作用。在具体应用上,加权表达式的使用远不及布尔逻辑表达式广泛。
    6.2.2.3位置检索表达式
    1.位置检索表达式的含义
    两个检索词在文献中相隔的距离不同,可能会在一定程度上带来检索结果的差异,单纯依靠布尔逻辑表达式,不能满足多种检索需求。因而,人们又引进了位置检索表达式,也称邻近检索。通过位置算符来表示两个检索词或短语之间的距离和位置关系。
    2.位置检索表达式的位置算符
    (W):表示连接的两个检索词相邻,并且先后顺序不能颠倒,是WITH的缩写。
    (nW):表示连接的两个检索词之间最多可以插入n个词,而且前后顺序不能颠倒。
    (N):表示连接的两个检索词相邻,先后顺序可以颠倒,是NEAR的缩写。
    (nN):表示连接的两个检索词之间最多可以插入n个词,前后顺序可以颠倒。
    6.2.2.4截词检索表达式
    1.截词表达式的含义
    是指在检索中用专门符号(截词符号)表示检索词的某一部分允许有一定的词汇变化,也就是说,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。
    2.截词表达式的作用
    采用截词检索表达式,既能防止漏检,又能节省机时,是提高检索效率的有力措施。
    3.截词的种类
    按截断的位置来分,截词分为前截断、中间截断、后截断等。按截断的字符数量来分,可分为有限截断和无限截断两种。
    4.截词表达式的使用
    截词表达式一定要合理使用,截断部分要适当,不要截得太短,以免增加检索噪音,查出很多无关的文献。
    6.2.2.5限制检索表达式
    指用限制符限定检索词出现范围的检索式。常用的字段限定代码有:标题(TI)、作者(AU)、主题词(SU)、年代(PY)等。一些网络检索工具也允许用户采用限制检索表达式,把检索范围限制在标题(TITLE)、统一资源定位地址(URL)或超链等部分。
    6.2.3检索策略的构造步骤
    6.2.3.1分析信息需求(检索课题),明确检索要求
    这是人们进行信息检索的出发点,不同类型的检索课题,信息需求的范围和程度也不尽相同。在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。在分析课题的基础上,要清楚检索信息的类型,以及要求查找文献信息的时间范围、学科范围等,通过以上分析,对检索需求作出全面的认识。操作中应尽可能掌握检索课题的研究背景,了解检索课题所属的学科领域,学术发展史和现状,借助有关工具书来进一步开拓背景材料,以便于选择正确的检索标识和检索范围。
    6.2.3.2选择检索系统
    依据对信息需求的分析,选择和检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统收录的信息所涉及的学科领域,信息类型,时间范围,检索途径和检索方法,检索费用等等。
    6.2.3.3选择检索途径和检索方法,确定检索词或检索式
    检索词的确定是建立在检索课题概念分析的基础上,有时,检索课题会包含复杂的主题内容,应明确组成课题内容的直接概念和相关概念,通过一定的逻辑组配或其它方式形成一定的复合概念或概念关系来表达用户的信息需求。在确定检索词时,应考虑它表达概念的确切性及其与系统存储标识的一致性。
    6.2.3.4处理检索结果
    在实施检索的过程中,根据检索结果的实际情况,可以调整检索词、检索式、检索途径和检索方法等,也可以充分利用信息检索系统提供的缩检和扩检功能,完善检索结果,直到达到满意的效果。最后,将所获得的检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,辨认文献类型、文种、著者等项记录内容,输出检索结果。
    6.2.3.5获取原始文献
    使用的信息检索系统不同,原始文献的获取方式也不尽相同。
    6.2.4检索策略的反馈与调节
    6.2.4.1影响查全率与查准率的主要因素
    1.主题分析是否准确、全面。
    对检索课题进行主题分析,是正确选择主题词和构建检索表达式的先决条件,也是提高检索的查全率和查准率的前提。
    2.检索词选择是否准确
    选用的检索词的专指度如何,如果检索词过于专指或者过于泛指,都会不恰当地缩小或扩大检索范围。
    3.检索词之间逻辑关系的配置是否合适
    逻辑与的使用有助于提高查准率,逻辑或的使用有助于提高查全率,截词检索的使用可以提升查全率,限制检索可以将检索词限定在某一范围内,有利于查准率。
    6.2.4.2提高查全率和查准率的方法
    1.提高查全率的方法
    1)降低检索词的专指度
    选用的检索词范围面要广一些,泛指性要强一些。除选择恰当的主题词外,还应该选择比恰当的主题词内容范围更广的上位词。
    2)增加同义词、近义词或相关词的逻辑或运算
    不仅要选择较为规范的主题词,而且要考虑与该主题词相关的同义词或近义词。对于一些表示整体的概念,如果想提高查全率,可以将整体概念进行拆分,并用逻辑或连接。
    3)选用截词检索
    可以利用截断的词的一个局部进行检索,利用一组相关词词首一致的特性,进行相关扩检。从而简化检索过程,节约用户的时间,提高检索速度。
    4)增加和调整检索途径
    如可将主题检索和分析检索结合起来。
    5)准确把握检索对象及目的,选择合适的数据库(补充)
    2.提高查准率的方法
    1)提高检索词的专指度,增加或换用下位词和专指性较强的关键词进行检索。
    2)用AND连接一些进一步限定主题概念的相关检索项,增加相互的制约。
    3)用NOT来排除一些无关的检索项。
    4)采用限定检索,缩小检索范围,提高查准率。
    5)减少或不采用逻辑“或”及截词检索技术的使用;(补充)
    6)不选“全文检索”(补充)
    7)准确把握检索对象及目的,选择合适的数据库(补充)

  7. 3 信息检索技术
    6.3.1全文检索技术
    1.全文检索技术的概念
    Full Text Retrieval,是以各类数据(文字、声音、图像等)为主要处理对象,根据数据资料的内容来实现的信息检索技术。
    2.全文检索技术的特点
    与其他检索技术相比,新颖在可使用原文中任意一个有实际意义的词作为检索入口,且得到的结果是源文献而不是信息线索。其显著特点是提供对海量信息数据的管理和快速查询。
    3.全文检索技术的应用
    网络搜索引擎是以全文检索技术为核心支撑技术的
    4.全文检索技术的代表
    中文全文检索技术最有影响的是TRS全文信息检索系统
    5.全文检索技术的不足
    用孤立词和词汇术语作为检索入口,缺乏意义的内在关联,在查准方面难以保证,检索效果不太理想。
    6.全文检索技术的趋势
    针对不足,全文检索技术开始于人工智能结合,增加对内容的分析理解、内容表达、知识学习、推理机制。
    6.3.2基于内容的多媒体检索技术
    1.基于内容的多媒体检索技术概述
    多媒体检索技术指对多媒体信息专有的检索技术,重点是基于内容的多媒体新检索技术。多媒体检索技术与传统数据库技术结合,可方便地实现海量多媒体数据的存储和管理;它与网络搜索引擎技术结合,可用来检索互联网中丰富的的媒体信息。
    2.基于内容的多媒体检索技术原理
    直接对图像、视频、声音内容(图像的颜色、纹理、形状,视频的镜头、场景、镜头的运动,声音的音调、响度、音色等)进行分析,利用媒体对象的语义、媒体的视觉和听觉特征来进行检索。
    3.基于内容的多媒体检索技术技术:
    模式识别、计算机视觉、图像理解等检索,是多种技术的结合。
    4.基于内容的多媒体检索技术与传统文本检索相比的不同特征
    实施的是一种相似性检索,不是传统的精确匹配,采用近似匹配或局部匹配的方法和技术逐步求精,来获得查询和检索的结果。利用媒体自身的替代进行标引和检索,很大程度避免了对影像的主观描述。
    5.基于内容的多媒体检索技术分类
    基于内容的图像检索技术、基于内容的视频检索技术、基于内容的音频检索技术
    6.3.2.1基于内容的图像检索技术
    1.基于内容的图像检索技术概述
    CBIR(Content-based Image Retrival)主要依据图像固有的特征来标引和检索。这些图像特征包括:图像的内容特征(colour comtribution、texture、outline),图像的描述对象(person、object、scene),图像的相关信息(author、time、site&other physical features),图像的移动和组合特征的个。
    2.基于内容的图像检索技术关键技术:
    颜色(colour)特征的提取、纹理(texture)特征提取、形状(shape)特征提取、相关反馈(relative feedback)等
    3.基于内容的图像检索技术检索方式类型

  1. 选择颜色的比例、轮廓形状以及纹理图案的图样进行查询;
  2. 草图查询;
  3. 实例查询。
    4.基于内容的图像检索技术代表
    IBM公司的QBIC系统、MIT的Photobook系统,新加坡国立大学的CORE系统、美国哥伦比亚大学的VisualSEEK系统
    6.3.2.2基于内容的视频检索技术
    1.基于内容的视频检索技术
    实际上是对动态图像进行检索,视频检索的实质就是在大量的视频数据中找到所需要的视频片段。
    2.基于内容的视频检索技术步骤
    动态视频检索需要对视频信息进行视频分割和处理,包括视频结构的分析和视频数据的自动索引。
    3.基于内容的视频检索技术的作用和意义
    这种新型的基于内容的视频检索技术,彻底改变了传统的通过快进或快退等顺序的方法进行人工查找的视频检索方式,满足了用户对大量视频多角度检索的需求。
    4.基于内容的视频检索技术检索方法
    基于内容的视频检索的方法主要有基于关键帧的检索,基于运动的检索与浏览等。
    6.3.2.3基于内容的音频检索技术
    1.基于内容的音频检索技术的含义
    音频是对声音进行数字化处理得到的结果。基于内容的音频检索技术就是将输入的字符序列和音频数据库中的字符序列相匹配。
    2.常用的音频检索方法
    赋值查询、示例查询和分类浏览
    3.基于内容的音频检索技术研究领域
    最简单的音频检索是用准确的序号查找出一段声音,较高级别的是匹配任何给定样值的声音的检索,最高级别的查询中可以包含声音的概念特性。基于内容的音频检索主要关心的是声学和主观特性的查询。
    4.基于内容的音频检索技术的代表
    有代表性的音频检索系统有美国加利福尼亚有限责任公司开发的Muscle Fish系统。

你可能感兴趣的:(信息检索教程)