依据信息的运动状态(自在、自为和再生)
自在信息指没有进入人的认识领域
,未把握自然信息。
自为信息指人感知的信息,是已被把握的自在信息
。
再生信息指主体对自为加工
制作后向外界输出的信息,是主体反映客体而形成的观念性信息和思维信息
按照信息的加工处理程度(零次、一次、二次和三次)
零次信息指在人际交流
中口头携带和传播的信息
。
直接接触方式
形成的信息。由于零次信息的出现和传递都带有很大的偶然性,而且未经记录和加工,不便于积累和检验,因而增加了获取难度
。一次信息指未经过加工
或粗加工的原始信息资源
,也称原始信息,是人们在社会实践活动中直接产生或得到的各种数据
、概念、知识、经验及总结。
著作、报纸、期刊、会议资料、研究报告、政府出版物、专利说明书、产品样本、标准文献、学位论文
等等。二次信息是以一次信息为依据
进行加工整理而形成的信息,是对一次信息浓缩或有序化的产物
。
三次信息是在对零次信息、一次信息、二次信息
进行分析研究、加工提炼和概括综合而形成的信息。
综述、述评、进展报告、学科年度总结
等。其中,综述和述评是三次信息最基本的两种形式。(3)依据信息内容(经济、科技、政务、文化、教育、军事)
经济信息包含一切经济活动中
产生的信息。
科技信息指与科学技术有关
的信息。
政务信息指一切产生于政府活动中
的信息。
文化信息主要来自文化领域
,包括文学、艺术、出版等。
教育信息从教育活动中形成
。
军事信息指与国防军事相关
的信息。
(4)按信息的出版发行特点(正式和非正式)
正式出版信息指公开出版发行
的信息,主要包括图书、期刊、报纸
等。
非正式出版信息,也称特种文献或灰色文献
,指不经过公开出版物流通渠道、不大量发行、为一部分用户使用的内部文献信息资料
。具有信息量大、形式多样、载体不固定等特点。包括会议文献、学位论文、政府出版物、研究报告、档案、专利文献、标准文献等。
第一,图书。据联合国教科文组织的规定,49页以上装订成册
的印刷品称为图书。凡正式出版的图书均有国际标准书号ISBN
,由10位数字分为四个部分组成。图书的内容相对比较成熟、全面,是一种重要的信息。
第二,期刊。又名杂志,是一种有固定的名称,统一的版面形式,按期出版,标有刊期等序号的连续出版物。正式出版的期刊均有国际连续出版物标准刊号ISSN
,由8位数字分两个部分组成。期刊具有数量大、出版及时、内容新颖等显著特点,对于科学研究具有重要的参考价值。
第三,报纸。属于连续出版物,具有出版周期短、时效性强的特点。报纸类的信息非常丰富,涉及经济、文化、社会、生活各个方面,能够动态地反映出最新的信息。
(1)互联网引发了信息新的出版形式——网络出版,形成了新型的网络信息资源
(2)互联网使人类传统的信息交流方式发生了根本性的变化:具体表现为两个方面。一方面,互联网的信息交流呈现出明显的开放性和广泛性
。另一方面,信息交流方式显现出较强的交互性和实时性
。
(3)互联网推动了信息技术的发展:互联网使计算机信息处理技术
(数字技术为核心)得到了长足的发展。对多重信息形式进行综合处理的多媒体技术。
(1)信息类型多样化:印刷型信息、磁光介质型信息和网络型信息
(2)信息的数量和内容都得到了极大的丰富:信息发布的自由性和任意性导致了网络信息的激增,现代信息技术
为信息内容的展现提供了坚实的技术支持,信息内容更加深入和丰富。
(3)信息在分布上呈现出明显的分散性:纸本文献信息主要集中在图书馆、情报所、档案馆、书店、出版社等场所。网络信息资源无论在地理上还是在组织形式上都呈现出分散分布
的特点,互联网中任何一个资源服务器
上都存储有提供给用户利用的信息。
(4)信息共享程度提高:信息网络给人类带来了方便的信息获取渠道
和信息资源更大程度的共享
,为人类提供了一个全新的信息环境。
从广义的角度讲,信息检索包含信息存储和信息获取
两个过程。
信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程
。
获取是存储的逆过程,其实质是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。
存储是获取的前提和基础,没有存储就没有获取,而获取是存储的目的,二者密切联系,互为依存,缺一不可。
狭义的信息检索是指广义的信息检索的后一个过程,即信息获取的过程。具体来说,指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程
。
信息检索的基本原理可以概括为:对信息资源集合与信息需求集合的匹配与选择
。
(1)按检索对象和内容划分(文献、数据、事实)
①文献检索:信息检索的主体部分
,以特定的文献
为检索对象(全文、文摘、题录)。是一种相关性检索
,它不直接回答用户所提技术问题的本身,只提供有关的文献供参考。
②数据检索:以特定的数据
为检索对象(统计数字、工程数据、图表、计算公式、化学结构式)。是一种确定性检索
,它能够提供确切的数据,直接回答用户所提问题的本身。
③事实检索:以特定的事实
为检索对象,如有关某一事件发生的时间、地点、人物和过程等。是一种确定性检索
,一般能够直接提供用户所需的确定的事实。但有时需要对所得到的事实进行必要的分析和推理,才能得到最终的答案。
新的三分方法(文本、数值、音频与视频)
①文本检索。它是指以各种自然语言符号系统所表示的信息
作为主要检索对象的信息检索活动。
②数值检索。主要针对数值型数据的查询
而发展起来的一类较有特色的信息检索活动。在此基础上提供一定的数据运算与推导能力,以及制表、绘图功能。
③音频与视频检索。主要针对各种数字化音频与视频信息
而进行查询的一类新型的信息检索操作。
(2)按检索系统中信息的组织方式划分(全文、多媒体、超媒体)
①全文检索。对检索系统中存储的整篇文章乃至整本书按照自己的需要获取有关的章、段、句、节等信息,还可以进行各种频率统计和内容分析。
②多媒体检索。查找含有特定信息的多媒体文献
的检索,其结果是以多媒体形式反映特定信息的文献或片段,如图形、图像、声音、动画、影片等。
③超媒体检索。包括对超文本和多媒体
进行的检索。系统中存储的对象不仅有文本,还有图形、图像、声音、视频等多媒体信息。这些信息在组织结构上以超级链接的方式存在,因而检索的结果是逻辑连接链
。
(3)按检索要求划分(强相关、弱相关)
①强相关检索。强调的是查准率
。
②弱相关检索。强调的是查全率
。查全率与查准率往往是成反比的
。
(4)按检索性质划分(定期、回溯)
①定期检索。又称为SDI检索,是查找有关特定主题最新信息
的检索。
②回溯检索。也称为追溯检索,是查找一段时期内
有关特定主题
信息的检索。
(5)按检索方式划分(手工、机械、计算机)
①手工检索。是以手工方式、利用印刷型工具书
查找文献信息的过程
②机械信息检索:机械信息检索系统是各种机械装置
进行信息检索的机械系统,是手工检索向现代信息检索的过渡阶段。
主要包括两种基本类型:机电信息检索系统
和光电信息检索
系统。
③计算机检索:是通过计算机及网络设备,利用光、磁
等媒介存储检索文献信息的过程。按信息组织方式的不同,计算机检索分为文本检索、超文本检索和超媒体检索
。
信息检索是有效获取
人类智力资源
的重要手段,是连接信息生产者
和信息需求者
的通道和接口。
其主要作用表现在以下方面
(1)信息检索是有效利用信息资源、实现其最大价值的科学方法
包括检索策略的制定、检索工具的选择、检索手段的选择等
(2)信息检索是再学习的工具,是获取知识的有效途径
信息检索已成为人们获取知识、提高自我的最重要最普遍的形式。人们通过各种途径获取信息,完成知识更新,适应社会的发展,而信息检索正是人们获取知识的有效途径。
(3)信息检索能有效地提高科研工作的效率,节省人力物力及时间
信息检索的发展与人们信息需求的增长以及现代信息技术的进程紧密相关
(1)手工检索:手工检索直接发源于图书馆的参考咨询工作和文献索引工作
。纸本工具书是这一时期信息检索的主要工具。
(2)计算机检索阶段:美国海军兵器中心首先在IBM701型电子计算机上成功建立了世界第一个计算机文献检索系统
,标志着人类开始步入利用计算机进行信息检索的新的历史时期。计算机检索经历了脱机检索、联机检索、光盘检索和网络检索
四个阶段。
信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息检索服务
。
信息检索系统有多重形式,如工具书、数据库或搜索引擎等。
信息检索系统包括信息的存储和获取
两个部分,分别对应信息的输入和输出过程。
信息检索系统的输入端是针对信息
,使信息能够易于识别和理解,便于回答用户的各种提问。
信息检索系统的输出端是针对用户的提问
,用户自己直接对信息检索系统进行提问,编制检索策略。
信息检索系统具有对信息的输入功能、存储功能、处理功能、输出功能及控制功能
。
①信息选择子系统:搜集相关的信息资源,为系统提供数据来源
。
②信息索引子系统:根据具体的词表和名词规范,来选择准确的信息标识
。
③词表管理子系统:输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。
④检索子系统:承担接收用户提问、提问校验和进行检索等功能。
⑤用户同系统之间交互子系统:与用户进行交流,以便真正明确用户的真实信息需求,明确检索提问,并准确表述等功能。
⑥匹配子系统:将信息标识
与检索提问
进行相符性比较
的子系统。
①手工检索系统:是以印刷型检索工具为基础
的检索系统,它可以直接进行利用,不需要依赖任何计算机或其他设备。
手工检索系统主要是经过大脑的判断来实施和完成检索
,面对的是印刷型载体,符合人们长期以来形成的阅读习惯,而且,可以根据需要及时调整检索策略,达到满意的效果。
但是手工检索系统收录的范围有限,更新速度慢,检索效率远不及计算机检索系统
。
目录、索引、文摘、百科全书、年鉴和手册
等等;
②计算机检索系统:指依赖于计算机进行信息检索的系统,主要由三个部分构成,即硬件部分、软件部分和信息数据库
。
硬件以计算机为中心的一系列机器设备。
软件又称计算机程序,是指挥和控制计算机各部分协调工作并完成各项功能的程序和各种数据。
数据库是依照某种数据模型组织起来并存放于计算机存储设备中的数据集合,是计算机信息检索系统最重要的组成部分。
对用户而言,计算机检索系统主要是数据库的使用
。国际上一般把数据库分为参考数据库和源数据库两种。
参考数据库(Reference Databases)是指为用户提供信息线索
的数据库(书目数据库和指南数据库)
书目数据库/二次信息数据库。书目数据库中的数据来源于各种不同的一次信息
,是经过加工和提炼的数据。包含文摘、目录、题录等书目数据
。
在联机检索和光盘检索中,有许多书目数据库,可以满足用户回溯检索和定题检索的需要。
指南数据库。是有关机构、人物等相关信息的简要描述
。包括各种机构名录数据库、人物传记数据库、产品信息数据库、软件数据库、技术标准数据库、基金数据库等。
源数据库(Soure Databases)指能直接提供原始资料或具体数据
的数据库。
包括数值数据库、文本—数值数据库、全文数据库、术语数据库、图像数据库和多媒体数据库等。
目前,计算机检索系统是检索系统的主流,主要包括光盘检索系统、联机检索系统和网络检索系统。
信息检索的效率与具体的信息检索方法有很大的关系
(1)直接浏览法:也称直接查找法,指检索者不依靠任何检索工具
或检索系统,从本专业最新核心期刊或其它文献
中直接阅读原文或浏览最新目次而获取文献的方法。
直接浏览则可以及时获得最新文献。
但利用这种方法查找的信息不全面,不系统且局限性较大。
(2)常用法:指利用检索系统
来查找信息的方法。常用法包括顺查法、倒查法和抽查法
。
由远及近的顺时间
查找。利用顺查法,一般需要了解检索课题的背景和发生简况
,从而选择比较适宜的检索工具及检索系统,从问题产生的时间开始查起,直到最新的文献信息。这种方法查全率较高
。由近及远地逆时间
查找。倒查法的重点是放在近期信息资源
上,检索效率较高。但不如顺查法查全率高
,对检索课题的来龙去脉不易掌握。写作论文做资料准备时常采用这种办法。抽取其中某段时间查找
。抽查法关注有关课题的文献信息最可能出现或最多出现的时间段
。用这种方法能获得相对集中、具有代表性
且能反映该课题发展水平的文献信息(3)追溯法:指从已有的文献信息后所列的参考文献入手
,逐一追查原文,从这些新查到的原文后面所附的参考文献再逐一追查,不断扩大检索范围的检索方法。
美国的《科学引文索引 就是按照这一原理而编制的一种检索工具。比如,它可以从作者途径去检索引用该作者著作的有关文献,它不仅反映出某个作者历来发表了哪些文献,而且也反映出其他作者引用该文献从而发表新的著作的情况。它揭示了科技文献中引用与被引用的客观状况
(4)综合法:也称分段查找法、循环法或交替法
。先利用检索工具查出一定时期内的一批有用的文献,然后依据这些文献后所附的参考文献,利用追溯法查出前一时期的文献,如此分期分段地交替使用常用法和追溯法两种查找方法,直到满足要求为止。这种方法兼有上述两种方法的优点,可以查得全面而准确的信息,适合于查阅那些过去文献量较小的专业资料,并可弥补因检索工具不全而造成的漏检,检索效果较好。
衡量了检索结果对用户需求的满足程度
,是检索系统性能的直接反映。
信息检索效果评价是指运用科学的方法,按照设定的指标体系,对信息检索效果进行评价的过程
信息检索效果评价的核心问题是建立一套切实可行的评价指标
。
目前,主要从三个方面进行评价:
①检索结果有效性评价
:主要以查全率和查准率为评价标准;
②检索系统实用性的评价
:包括系统对用户是否需要,是否实用,有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法;
③检索费用—效率评价
:即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。
美国著名情报学家兰卡斯特提出,用户可以从质量、费用和时间
三方面来评价检索系统。
质量标准主要通过数据库覆盖范围、查全率、查准率、数据的完整性和准确性
来反映。
费用标准即检索费用,是指用户为检索课题所投入的费用。
时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。
其中,查全率和查准率是判定检索效果的主要标准
。
据美国学者克莱弗登的研究,评价信息检索效果的指标主要有六个:收录范围、查全率、查准率、响应时间、用户负担和输出形式
。
(1)查全率和查准率
查全率和查准率现已成为评价检索效果最常用的两项关键指标。确定查全率和查准率最常用的方法是有名的2×2表。2×2表反映了检索系统在某一次检索时所得到的结果状况。
③查全率和查准率的局限性:首先,在计算查全率时,一个检索系统中总共有多少相关文献(a + c)难以确切计算,而只能是大概估算;其次,在计算查准率时,用户对文献的相关性估计与系统的相关性判断不一定是完全吻合的,而且,不同的用户对相关文献的认识也可能不一致,存在着太多的主观成分和一些模糊概念。因此,用上述方法求得的查全率与查准率并不是绝对的,而只能是相对近似地描述检索效果。
④查全率与查准率的关系:传统的情报检索理论认为,查全率与查准率具有互逆相关关系,如果提高检索的查准率,就会降低检索的查全率。目前,一些学者对查全率和查准率的关系进行了深入研究,提出这两个指标之间不仅存在互逆关系,而且还可以存在互顺关系。
查全率与查准率之间的关系与检索提问式的结构有关,不同的检索条件下,两者之间将呈现不同的关系。
(4)其他与检索效果相关的指标
收录范围又称数据覆盖率,用以揭示数据库的涵盖范围。
输出形式是系统检索出文献信息的展示形式,可能是文献号、题录、文摘或全文等。输出的信息越多且便于浏览,用户越容易做出相关性判断。
系统的易用性也称可存取性,反映了信息检索系统的易用程度。
用户负担是用户在检索过程中所消耗的物力、财力乃至精力的总和
。结果的重复链接率指检索结果中内容重复的结果数占全部检索结果数的比例。死链接率指检索结果中死链接的结果数占全部检索结果数的比例。
(1)标引的质量:信息标引的正确性对信息检索的查全率和查准率有着直接影响。
正确的标引可以使同一主题的信息准确而全面地被检索出来。标引误差主要来自主题分析误差、标引深度误差(查全率)等。
(2)检索语言的性能:检索语言是将信息标引和检索提问联系起来的重要桥梁,是沟通信息存储和信息检索的纽带,对于特定信息需求和信息检索系统中信息集合的准确匹配具有直接的影响。
检索语言用于标引信息内容及其外表特征,可以对内容相同及相关信息加以集中或者揭示其相关性;
将信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;
便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同信息内容的一致性
,以及检索人员与标引人员对相同信息内容表述的一致性。
(3)检索途径的数量:也称检索入口,主要依据信息的内容特征和外部特征来确定。
检索信息内容特征的有分类、主题和全文途径
,检索信息外部特征的有题名、著者、文献编号途径等
。
该系统能够提供的检索途径越多,越便于检索人员对信息的查找和获取。
(4)检索策略的优劣:检索策略是进行检索的规划和方案,是影响检索效果的重要因素。
(5)检索人员的素质:检索人员应该具备一定的信息检索知识,能够正确地分析检索课题,准确地表达信息需求,掌握信息检索的基本方法,了解计算机操作的基础知识,熟悉有关的信息检索工具和检索系统。
信息检索途径是信息检索系统和检索工具所提供的检索入口。常用的检索途径包括分类途径、主题词/关键词途径、题名途径、代码途径、任意词途径、时间途径、出处途径等。
(1)分类途径:是按文献内容的学科分类体系
查找文献的途径。它是以分类语言
编制的检索系统所提供的一种文献查询方式。
分类目录和分类索引是检索系统常用的检索途径。
(2)主题词/关键词途径:主题词及其派生出的关键词为标识查找文献的途径。
主题目录和主题索引一般是手工检索系统提供的辅助检索途径。
(3)题名途径:也称书名途径、篇名途径。如果知道文献的题名,即可通过题名途径查到所需文献。
(4)著者途径:著者目录和著者索引是检索系统常用的检索途径,如图书馆的卡片著者目录。
(5)代码途径:专用代号查找文献的途径。(国际标准书号(ISBN),国际连续出版物号(ISSN)以及专利号、合同号)International Standard Book Number
(6)出处途径:输入原文献的刊载处,如报刊名、出版单位名,可检索到该刊载处出版、发表的有关文献。
(7)时间途径:是以文献的时间范围查找文献的途径。一般和其他检索途径配合使用,不单独使用。
(8)任意词途径:也称自由词途径。它是以自然语言编制的全文检索系统所提供的一种文献查询方式。输入字、字符、数字、词或词组等任意字或词,可检出所有在任一处出现该字、字符、数字、词或词组的文献。
不同信息检索系统获取信息的方式与途径不同,但它们的基本原理是相同的:即检索系统对用户信息需求与系统存储的信息资源
所进行的匹配。
检索模型,就是对信息检索任务的数学抽象
信息集、用户提问集、信息集与用户提问集的相似性匹配
是信息检索模型的三要素。
信息检索模型的类型主要有集合论模型、代数论模型、概率论模型等。
集合论模型、代数论模型和概率论模型的一个共同点是:它们都建立在对信息内容特征的标引与匹配
上。下面介绍几种主要的信息检索模型:
(1)布尔逻辑检索模型(BRM):采通过对文献标识与提问式的逻辑运算
来检索文献。该模型具有逻辑运算符较少、提问式构造简单且易修改等优点
(2)向量空间检索模型(VSM):既有布尔检索模型的简介形式化特点,又有有效的匹配算法设计以及合理的结果排序处理方式,在文本检索、文本分类、文本过滤等领域都有典型的应用。
(3)概率检索模型(简称PRM):主要研究表示文档的随机向量在相关文档集和无关文档集中的概率分布
。概率模型具有一种内在的相关反馈机制,它把检索处理过程看做是一个不断逼近并最终确认命中文档集合特征的过程
(4)模糊检索模型(FRM):基于模糊集合理论,其出发点是用“隶属函数”的概念来描述差异的中间过渡,并通过隶属函数对经典集合论加以推广。模糊检索模型与经典布尔模型关系密切,它基本保留了布尔检索功能,但更为灵活,对那些既想利用布尔检索长处、又想避免其二值相关性判断局限性的人们来说,能够较好地满足需求。
(1)信息素养的概念:信息素养是指个体成员有目的
地搜集、选择、整理、加工、评价与利用信息的过程中所具备的一种复合品质。
信息素养包含两个核心能力,即信息意识和信息获取
。
所谓信息意识,是对信息知识的价值、功能和作用的认识和理解,是自觉地获取有关信息知识、并加以及时分析与利用的内在动力。
信息能力即人们获取信息、处理信息、利用信息和创造信息的能力,是一种了解和获取信息的过程。
信息意识是信息能力的基础和前提,并渗透于信息能力的全过程,只有强烈的信息意识才能推动信息能力的提高。
(2)信息素养的培养:其中信息检索能力
是培养提高信息素质的重要途径。
①信息检索能够促进信息意识的增强
文献信息具有满足人们某种需求的价值。但人们能否及时有效地获取所需的信息,则取决于信息意识的强与弱。因为,对文献信息的获取和利用的行为是收到信息意识支配的。
但信息意识的增强是在信息检索的实践中实现的,它需要人们有意识地在信息获取与利用的过程中自觉地去培养。
信息意识与信息检索是相辅相成的。信息意识能促进信息检索能力的提高和完善,而信息检索又是培养、增强信息意识的重要途径。
②信息检索能够促进信息能力的提高:掌握信息检索只是并在信息实践中培养信息检索能力,就能逐步提高自己的信息能力。