《计算机信息检索》复习资料
第一章:互联网信息资源
1.1互联网上的信息资源
互联网已发展成为当今世界最大的平台。(2019.4判断题)
1.1.1网络上的信息内容?P1
(简述因特网上的主要信息内容包括哪些种类?)
答:政府信息、科研信息、教育信息、媒体信息、商务信息、休闲娱乐信息。
(1)政府信息:网上最具有价值的一部分信息,由于出自官方,所以具备权威性,可靠性等特点。(2019.4判断题)
(2)科研信息:专业学术机构设立。
(3)教育信息:互联网已经发展成为一种重要的教育手段、学习环境。
(4)媒体信息:网络媒体受众广泛、关注度高、交互性强、价格低廉。
(5)商务信息:各种市场调查、市场研究与分析预测信息。(2019.10判断题)
(6)休闲娱乐信息:网上“最成功”并具有占比优势的领域。(2016.4选择题)
1.1.2网上不太可能有的信息:如有关企业公司的战略、发展规划,商业、贸易秘密;商业性库和大多数有版权的印刷资料等。
1.2互联网信息资源的特点及局限性P3-P4
1.2.1互联网信息资源的特点(2018.10选择题,2019.10简答题)
答:广泛性、多样性、共享性,新颖性、互动性、经济性。
1.2.2互联网信息资源的局限性(简答题)
答:分散、无序、多变、信息质量难以控制、信息安全难以保障。
1.3互联网上信息资源的种类P5-P6(重点)
1.3.1Web信息资源(名词解释)(选择题)
答:又称world wide web,简称WWW,中文译为“全球信息网”“万维网”,是因特网信息资源主要,最常见的形式。是建立在超文本,超媒体技术的基础,集文本、图像、图形、声音为一体,并以直观的图形用户界面(GUI)展示和提供信息的网络资源形式。
1.超文本传输协议HTTP(名词解释)
答:HTTP是浏览器与Web服务器之间相互通信、传输、响应用户请求的协议。Web服务器根据客户提出的HTTP请求,为用户提供信息浏览、数据查询、安全验证等方面的服务。
2.超文本标记语言HTML(名词解释)
答:HTML是一种专门的编程语言,具体规定和描述了文件显示的具体格式。
3.通用资源定位程序URL(2016.10判断题,2018.10选择题)
答:通用资源定位程序又称网络资源的统一定位格式或统一资源定位器。实际上就是一种以标记文档类型及其所在网络地址的字符串。
4.主页Home Page
答:主页是浏览器访问某个Web服务器上的信息时第一个链接到的文档。
5链接Link(2019.10名词解释)
答:链接是web网页的元素,是指向其他信息资源的指针,把web页捆绑在一起。跟随链接可以从一个文档跳转到另一个相关文档。
6.浏览器
答:浏览器是web服务客户端的浏览程序,是显示网页服务器或档案系统内文件,并让用户与这些文件互动的一种软件。
WWW是互联网上最流行的信息传播方式,Web资源成为互联网上最具优势的主流信息资源。(判断题)
1.3.2Telnet资源P6-P7
Telnet协议是互联网远程登录服务的标准协议和主要方式。(判断题)
Telnet资源的功能
答:通过在远程计算机上登录,使用户正在使用的计算机暂时成为它所登录的某一远程主机的仿真远程终端,进而实时访问、共享、使用到远程计算机系统中对用户开放的相应资源。
Telnet资源的一般步骤
1)在Telnet命令中输入远程计算机的域名或IP地址,在本地机与远程主机间建立一个TCP连接。
2)连接成功后,在本地终端上输入用户名和口令以获得系统认证或访问权。
3)获得访问权后,按给定的访问权限,访问权限允许的相关资源或使用该系统提供的各种互联网服务,如E-mail、FTP、Archie等。
4)访问结束,本地终端还要与远程主机撤销连接。
1.3.3简述FTP获取文件的一般步骤。(简答题)P7-P8
答:ftp是互联网使用的专门用来传输文件的协议,该协议的主要功能是完成一个系统到另一个系统完整的文件拷贝,即在联网计算机之间传输文件。ftp是获取各种计算机文件、共享软件资源不可缺少的工具。
通过FTP获取文件的一-般步骤包括以下几点:
(1)登录,通过用户名及口令匿名登录到远程ftp服务器。
(2)浏览目标,找到所需文件。
(3)设置文件传输参数,选择文件的传输模式。如:ASCII 模式- - -用于传输文本文件:二进制模式--用于传输非文本文件。
(4)下载所需文件。
1.3.4用户组信息资源(2019.10名词解释,简答题)P8
答:网上各种各样的用户新闻组、邮件群曾经是互联网上很流行的信息交流形式,包括:新闻组、电子邮件群、专题讨论组、兴趣组、论坛。虽名称各异,但实质上都是由一组对某一特定主题事物有共同兴趣的网络用户组成的邮件组或电子论坛,是一种有组织的电子邮件系统。
尽管由于近年来随着互联网的发展、宽带的普及,出现了更多快速、便捷的 实时交流方式,如RSS、Blog、Twitter等,使用户组的风头逐渐削弱。
1.4互联网信息资源的评价P10
1.4.1评价的意义
答:对网络信息资源进行质量评价,从信息海洋中经过甄别、筛选出学术价值或利用价值的精华部分,推荐给网络用户使用,可以较好的屏蔽一些信息污染或噪音,大大地提高用户利用互联网信息资源的效率。
1.4.2评价的标准(2019.4论述题)P10-P11
(论述互联网资源的评价标准)
答:对互联网资源的评价一般是以网站或网页为评价单位,借鉴了传统的对印刷型文献评价的标准并结合网络信息的特点,主要着眼于网页所提供的信息内容质量和信息存取方式等综合而成的。
评价标准分为以下方面:
目的:即该网站是否有明确说明其目的、对象。
范围:即该网站所覆盖的主要领域,所提供信息的广度、深度,时间范围以及所包含的网络资源类型和服务范围。
内容:该网站所提供的信息是事实性的,评价性的,是否包括原始信息还是仅提供链接。
费用:为接受该网站服务所花费的连通时间或流量计费,为访问、获取、使用该网站中的知识内容所必须付出的费用。
评论:关注有关的网络资源评价服务。
1.4.3评价方法P12
网络信息资源质量的评价方法。(判断题)
答:(1)定性评价:按照一定的评价标准对被评估站点的各方面特征、质量做出主观评判。
(2)定量评价:利用数量分析方法,对相关数据进行调查采集、统计分析,进行做出较系统、客观的评判。
网络信息资源的一般评价方法(简答题)
答:(1)从URL中得到信息:看出信息所在的服务器网域(2017.4选择题)。
(2)查看网站描述和版权说明。
(3)从链接中获得信息。
(4)参考他人的评价。
第二章:互联网信息检索概论
2.1互联网信息资源的类型和特点
2.1.1互联网信息检索的类型P15
1、“顺链而行”的浏览;(基于“超链接”的技术特点)
2、基于目录型检索工具的互联网信息检索;
(2019.10判断黄页是目录型检索工具,2019.4判断Yahoo是目录型...)
(黄页,Yahoo雅虎:最具代表性的互联网目录型检索工具,搜狗“网址导航”、百度的“hao123”、南开大学数学图书馆维护的“数学学科网络资源导航”)
以关键词为基础的查询模式,属于特性检索。
Gooleg谷歌:全球最大的网络搜索引擎(判断题)
2.1.2信息检索的特点P20(简答题)
答:1)无限的检索范围,动态的检验对象。
2)丰富的检索内容,新兴的检索领域。
3)强大的检索工具,低廉的检索费用。
2.2互联网信息检索原理之一信息组织P21-P27
基于索引的互联网信息检索工具的功能在于信息组织和信息查询。
信息组织(2019.10名词解释)
答:信息组织就是把数据按照一定的结构、顺序、排列方式组织起来,或者说是按照信息查询的需要,对数据根据其特征进行组织:信息组织的目的是服务于信息查询。
信息查询
答:就是通过搜索、定位以及取得数据的过程,也就是说从大量数据集合中获取用户需要的相关信息,信息查询的效果和成败极大地依赖于信息组织的水平。
2.2.1文档分析
文档分析的主要功能是过滤文件系统信息,为文件系统的表达提供一种满意的索引输出。
2.2.2建立索引P24
答:为了快速响应检索,在组织信息时就必须建立索引。索引是一种将关键词词目映射到相应文档的数据结构。
2.2.3归类和聚类(2019.10选择题)
自动分类方法又可分为(归类)和(聚类)两种。P26
自动归类
答:是分析网页的内容特征,并与实现拟定的各种类别中的特征描述进行比较,然后将对象归入为特征最接近的一类,并赋予相应的分类号。
自动聚类
答:从待分类网页提取特征,然后将提出的特征进行比较再根据一定的原则或需要,将具有相同或相近特征的对象定义为一类,这个类目未必是事先拟定好的。
2.2.4元数据P28
答:描述数据的数据。编制目录的目的在于描述数据的内容或特色,进而达成辅助信息检索的目的。而元数据就是用来揭示各类型电子文档的内容和其他特征的有力工具,其典型的作业环境是互联网。
2.3互联网信息检索原理之一信息查询
2.3.1布尔检索模型P30
答:最简单的模型,也是其他检索模型的基础。(2019.4选择题)
2.3.3向量空间检索模型P32
答:基本思想是文档和检索提问都可以用向量表示,利用线性代数理论,检索过程就是计算文档向量与检索提问向量之间的相似度,可以根据相似度值的不同,对检索结果进行排序;还可以根据检索结果,做进一步的相关检索。P32
2.3.4概率检索模型P36
答:概率模型有严格的数学理论基础,采用了相关反馈原理客服不确定性推理的缺点(2019.10判断题),他的缺点是参数估计的难度比较大,文件和检索的表达也比较困难。
2.4简述互联网检索工具的性能评价P36-P38(简答题)
答:互联网信息检索工具的比较研究主要集中在系统功能设置、用户界面、数据库内结构与更新。主要指标包括:(收录范围,检索功能,检索效率)
2.4.1收录范围
2.4.2检索功能:是评价与选择互联网信息检索工具的核心指标(2016.4判断题,选择题)
检索功的指标包括检索方式、检索技术、检索限定
检索限定:可否对不同的数据库,文档及可检验字段进行选择与限定(2017.4选择题)
2.4.3检索效率
查全率(名词解释):对于一项检索,实际检出的文件数目与所有应该被检出的文件数目的比率。
检准率:对于一项检索,实际检出的文件之中有多少比率是真 正应该被检出的文件。较高的检准率可以节省用户从检出的所有文档中过滤掉无关信息的时间。)
第三章:互联网检索工具(一)搜索引擎
3.1搜索引擎概述(名词解释)P40
答:是一种能够通过互联网接受用户的查询指令,帮助用户迅速地从网上查找所需要的信息,冰箱用户提供符合其查询要求的搜索结果列表及相关信息的检索系统。
Archie:是第一个互联网信息检索工具。P40(选择题)
搜索引擎的三个阶段P42
答:(1)第一代搜索引擎是以文档分类导航为特征,是基于文档内容的搜索引擎,以Yahoo为代表。
(2)第二代搜索引擎产生于20世纪90年代中期,以关键词匹配为特征,并基于超链接分析技术,从而实现网页的自动抓取、排序等。(2019.4判断题)
(3)第三代搜索引擎目前尚未形成统一的界定标准,开发也处于探索阶段。
3.1.2搜索引擎的一般工作流程
答:首先对互联网上的网页进行搜集,其次对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。
1.搜索引擎的工作原理P42-P44(简答题)
答:(1)抓取,从互联网上抓取网页:搜索引擎的信息搜集基本上是自动的。
(2)索引,建立索引数据库:此过程即为搜索引擎对搜集到的网页信息进行系统整理的过程。
(3)搜索、排序,在索引数据库中搜索排序:用于输入关键词进行检索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
(4)显示,对搜索结果进行处理排序:搜索引擎定期对网页进行重新访问,更新数据库信息,同时根据网页文字和链接关系的改变重新进行排序。
2搜索引擎的关键技术P44-46(论述题搜索引擎的关键技术和发展趋势12分)
答:(1)信息搜集和存储技术,一般分为人工和自动两种方式。(1分)
(2)信息预处理技术,含关键提取技术,垃圾信息消除技术,链接分析技术,网页重要性技术技术。(1分)
(3)信息索引技术(2019.4简答题),含信息词语切分和词语语法分析,进行词语标注及相关的自然语言处理,建立检索项索引,检索结果处理技术。(1分)
搜索引擎确定相关性的方法P45:
概率方法:根据关键词在文中出现的频率来判断文件的相关性。
位置方法:根据关键词在文中出现的位置来判定文件的相关性。
摘要方法:搜索引擎自动地为每个文件生成一份摘要,让用户自主判断结果的相关性。
分类或聚类方法:搜索引擎采用分类或聚类技术,自动把查询结果归入到不同类别中。
(2017.10选择题)
3.搜索引擎技术的发展趋势P46-47
答(1)自然语言检索技术(1分)
(2)目录导航检索与关键词检索相结合(1分)
(3)智能化和个性话检索技术(1分)
(4)多媒体检索技术(1分)
(5)3G移动搜索(1分)
(6)交叉语言检索技术(1分)
3.2网络检索工具的分类P47-P48(2018.10选择题,2019.10简答题)
1.按检索对象划分
(1)web资源检索工具(2)非web资源检索工具
2.按检索机制划分
(1)目录型Yahoo(2)索引型Google(3)混合型
3.按检索领域划分
(1)综合型网络检索工具(2)专业型网络检索工具(3)特殊型网络检索工具
4.按集成检索工具数量划分
(1)独立型网络检索工具(2)集合型网络检索工具
5.按运行环境划分
(1)互联网检索工具(2)网站内搜索工具(3)桌面搜索工具
Eg:将网络检索工具分类成综合型,专业型和特殊型的标准(B)
检索对象 B.检索领域 C.运行环境 D.检索机制
3.2.2搜索引擎的主要类型P49-P102
(1)通用搜索引擎,(2)垂直搜索引擎,(3)元搜索引擎
3.3通用搜索引擎P49-P76(2019.10选择题)
国外:(1)Google,(2)Bing,(3)Ask.com,(4)Lycos,Excite,(5)AOL Search,(6)AllThe Web
Google:全球第一大搜索引擎;
Bing:(http://www.bing.com/)创建者。Bing是微软公司于2009年5月发布的一-款用以取代Live Search搜索引擎;(2018.10选择题)
Ask Jeeves:因采用“自然语言搜索”而一举成名;(2019.10选择题)
Lycos:(ttp://ww.1ycos. com)创建者。Lycos 是第-个在搜索结果中使用了网页自动摘要,曾远胜过其他搜索引擎的数据量著称。
国内:(1)百度,(2)搜狗,(3)有道
百度:世界上最大的中文搜索引擎;(2018.10选择题)
搜狗:通用搜索引擎,中国最大综合性门户网站,全球最大的中文门户网站之一。(选择题)
3.4垂直搜索引擎P76-P89
3.4.1垂直搜索引擎概述(名词解释)
答:垂直搜索是针对某一特定领域(2019.4选择题)、 某一特定人群或某一特定需求提供的信息搜索和有一定价值的相关信息服务,其特点就是:专、精、深,具有行业色彩。
3.4.2垂直搜索引擎的关键技术
1.“主题爬虫”技术
与通用搜索引擎不同,“主题爬虫”技术是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的网页URL,并重复上述过程,直到达系统的某一条件时才停止。
Web信息提取技术通过“包装”现有html信息数据源,将网页中的数据提取并以更结构化、语义更加清晰的方式发布出来,为应用程序利用Web中数据提供了可能。
3.4.3垂直搜索引擎的特征。
(1)信息采集,(2)信息加工,(3)信息检索
信息加工也即是说通用搜索引擎进行检索的最小单位为网页,而垂直搜索引擎的最小单位是结构化的数据(2019.10选择题)。
3.4.4垂直搜索引擎常用工具介绍
国外:(1)Linked,(2)Retrevo
国内:酷讯旅游网,智联招聘,搜房网,优酷网,购物搜索。
酷讯:是国内第一个全旅游搜索引擎(2019.4选择题)。
智联招聘:国内最早的专业人力资源服务商
搜房网:中国第一个反应国内房地产微观市场的科学工具
优酷网:是垂直搜索引擎,中国网络视频行业的第一品牌。
购物搜索:百度有啊,淘宝网(亚洲最大的网络零售商圈)
3.5元搜索引擎简介P89-P102
3.5.1元搜索引擎概述
1.元搜索引擎概念与发展(名词解释)
答:元搜索引擎又称集合式搜索引擎、并行搜索引擎之搜索引擎。他是将多个搜索引擎集成在一起,并提供一个统一的检索界面。
2.元搜索引擎的分类
(1)按检索机制划分:1)搜索引擎目录,2)元搜索引擎
元搜索引擎又可称为统一入口式、并发式搜索引擎。(2019.4判断题)
(2)运行方式:1)在线式元搜索引擎,2)桌面式元搜索引擎(飓风搜索通,网际狂搜)
(3)工作方式:1)并发式元搜索引擎(Dogpile,MetaCrawler,搜魅),2)串行式元搜索引擎.
3.5.3元搜索引擎与普通搜索引擎的区别(简答题)
(1)元搜索引擎可以将一次提问提交给多个数据库
(2)元搜索引擎没有自己独立的资源库
(3)元搜索引擎的结果是基于独立搜索引擎结果的二次加工
(4)元搜索引擎标明结果记录的来源搜索引擎及相关度
3.5.4元搜索引擎的优缺点(论述题)P92-P93
1.元搜索引擎的优点
(1)信息覆盖面大,检索效率高。
(2)检索工具扩展性能强。
(3)服务多样化
(4)无需考虑网页索引数据库的建立和维护。
2.元搜索引擎的缺点(简答题)
(1)检索结果全面性和可靠性差
(2)不能灵活控制结果的输出。
(3)检索结果排序不够理想。
(4)信息搜索覆盖面存在局限性。
(5)检索式处理较复杂。
3.5.5常用的元搜索引擎:
1.搜索引擎目录:ITools
2.并发式元搜索引擎:Dogpile(2018.10选择题),MetaCrawler,搜魅(www.someta.cn)
桌面元搜索引擎:飓风搜索通(www.renliang.com),网际狂搜(Hot Search)(2017.4选择题Renliang属于桌面元搜索引擎)
第四章:互联网检索工具(二)-目录型网络检索工具
4.1目录型网络检索工具概述(名词解释)P104
目录型网络检索工具一般采用人工或半人工方式采集和存储网络信息,由专业人员对网络资源进行调查收集,并遵循某种分类进行分类,存储和组织。
4.1.1目录型网络检索工具的发展
互联网黄页是目录型,Yahoo是最早的目录型网络检索系统之一(2018.10选择题)。
4.1.2目录型检索工具的特点P105
(1)面向用户的易用性
(2)提供准确性较高的信息内容
(3)提供导航作用良好的检索体系结构
(4)以明确的主题和对象为中心设置确定目录
(5)有兼容性强的多元类目
4.1.3目录型网络检索工具的分类法与类型
1.目录型网络检索工具的分类法P106
(1)主题分类法:对交叉学科的主题揭示非常有利(2019.4选择题)
(2)学科分类法
(3)图书分类法
(4)分面组配法
2.目录型网络检索工具的类型P107(简答题)
(1)网络资源目录(Yahoo)
以整个互联网资源为检索对象,将一些重要、优质的网络资源组织成分类目录,提供给用户查询检索。(名词解释)
(2)学科信息门户:只以某一领域或科学门类的网络资源为检索对象的目录型网络检索工具。
(3)搜索工具门户(hao123):以信息检索工具、查询网站为检索对象,专门为人们了解、选择适用得信息查询工具提供推荐。引导服务。
4.1.4目录型网络检索工具的结构和使用方法P107-P109
第一级有10~20层,第二层一般到第四级。
2目录型网络检索工具的使用方法(2019.4简答题)
(3)掌握各目录型检索工具的分类体系。
(4)关注热门主题和常用目录。
(5)关注开放目录型检索工具。
4.1.5目录型网络检索工具与搜索引擎的比较
目录型网络检索工具优点是;其收录的网站经过专家的人工精选,故内容丰富、学术性强、信息质量较为稳定。(判断题)
4.2.2.学科信息门户(名词解释)
学科信息门户是经过人工处理、专家排选、定期检查处理的学科信息导航系统,其主要功能是:提供学科信息浏览检索和对有效资源的链接。
1.BUBL LINK是一个覆盖了所有学术领域的互联网资源目录。(2019.4选择题)
Virtual Library(http://vlib.org)
CSDL:中国科学院国家科学数字图书馆(www.csdl.ac.cn)的学科信息门户
NSTL:国家科技图书文献中心(www.nstl.gov.cn)
SOSIG:是社会科学信息检索工具(2016.4选择题)
4.2.3搜索工具门户(名词解释)
将主要的搜索引擎集中起来,并按检索对象或检索功能的不同进行分类、编排组织成目录,提供目录既向用户全面展示网络检索工具的分布,又帮助用户根据各自需求选择适用的信息查询工具,为用户提供网络检索工具方面的服务。
第五章:多媒体信息检索
5.1图像检索
5.1.1图像检索的原理与技术
1.图像检索(名词解释)
图像检索是通过检索图像的文本表示或视觉特征,为用户提供互联网上相关图像资料检索服务的专业搜索引擎系统。
1.基于文本的图像搜索(TBIR)(2019.10论述题)
基于文本的图像检索技术简称TBIR,从图像名词、图像尺寸、压缩类型、作者、年代等方面标引图像,忽视了图像的底层特征,如颜色、纹理、布局等对正确识别图像有着重要意义的元素。TBIR技术在互联网图像信息检索系统中依然占据主导地位。
借助网络图像的文本上下文环境可以一定程度上为图像分析、标引提供依据。可以用来帮助图像分析、标引的Web文档内容包括以下几方面:
(1)图像文件名及网址。
(2)图像的替代文字。
(3)图像周围的文字。
(4)图像所在页面的标题。
(5)图像的超链接。
(6)图像所在网页彼此间的链接。
2.基于内容的图像搜索(CBIR)(名词解释,2016.10选择题)
对图像的媒体视觉特征、内容语义,如图像的颜色、形状、纹理和空间布局等可视化内容进行分析和检索的图像检索技术。
主要特征包括以下几点:
(1)颜色:基于内容图像检索中最广泛使用的可视化特征。(2016.4选择题)
(2)纹理;
(3)形状:
5.1.2基于文本的图像搜索引擎简介
1、谷歌图像(Google Images)。
(1)概况:世界上最好用的图像搜索工具。(2018.10选择题)
(2)检索功能:一般检索和高级检索两种模式。
(3)结果显示:检索结果以缩略图的方式显示。
(4)评价:无愧无“最佳图像搜索引擎”的称号,它提供给用户最精准的搜索。
2、Flickr
被认为是分众分类法的典范,也是第一个使用标签云的网站。(2019.10选择题)
Picsearch
Smugmug
Yippy
百度图片:号称是世界上最大的中文图片搜索引擎。(选择题)
5.1.3基于内容的图像搜索引擎。
1.查询模式有以下3种:
(1)按例查询:用户提供一个查询图片,在数据库中搜索相似图片。(2019.4选择题)
(2)按绘查询:用户在类似画板的接口上面进行简答的绘画,以此为标准进行查询。
(3)按描述查询。
1、QBIC:第一个商业的基于内容图像检索系统。(2017.10选择题)
2、TinEye:第一个使用网络识别技术的网络搜索引擎。
3、搜狗识图。
4、百度识图。
5、淘淘搜:全球第一个大规模商业运营的图像搜索产品。
5.2音频文件的搜索
5.2.1音频文件检索的原理与技术
1、基于文本的音频检索
2、基于内容的音频检索
5.2.2基于文本的音频搜索引擎
1、Allmusic:基于文本的音频搜索引擎。
2、MP3.com。
3、Last.fm:世界上最大的音乐交流平台(2018.10选择题)
4、MUSICA:全球合唱曲目数据库。
5、OPERABASE:专门用来查找歌剧信息的网站(2019.4选择题)
5.2.3基于内容的音频搜索引擎
Themefinder。
Midomi。
5.3视频文件检索P56
2、视频检索的方法。
(1)基于关键帧的检索
(2)基于运动的检索:这是镜头和视频对象的时间特征进行的检索。(2019.4判断题)
(3)基于故事单元的浏览检索。
5.3.2基于文本的视频搜索引擎
1、YouTube:世界上最大的视频分享网站。
2、优酷:中国第一个视频网站。
5.3.3基于内容的视频检索
Informedia。
VisualLSEEk.
第六章:学术信息的网上检索与获取
6.1图书信息的网上检索
6.1.1世界个地图书馆的馆藏目录系统(OPAC)
世界各地图书馆在开发、建设数据图书馆系统的进程中,已将传统的图书馆目录发展“联机图书馆公共可检索目录”OPAC,即一个基于网络的开放式书目检索系统。
1、简述图书馆馆藏目录检索系统的检索途径。
(1)题名检索
(2)责任者检索
(3)分类检索
(4)主题/关键词检索
(5)号码检索
(6)出版社名称检索
6.1.2联合目录数据
1.WorldCat
WorldCat是0GLC系统提供的一个在线联合目录数据库,是世界上最庞大、最完整、收录图书馆最多的联合目录。(2016.10,2019.10选择题)
2、CALIS OPAC系统(opac.calis.edu.cn)
通过CALIS OPAC系统,科研人员可以了解所查询图书在全国高校图书馆系统的收藏概况。
6.1.3网上书店
1、亚马逊网上书店:互联网上最大、最著名的图书及音像制品销售公司。(2018.10选择题)
2、Barnes&Noble :美国最大的老牌连锁书店
3、当当网上书店:全球最大的中文网上书店
6.1.4电子图书数据库和服务提供站点
1、Apabi数字资源平台(http://ebook.lib.apabi.com)
方正Apabi数字图书馆是北京大学方正公司开发的数字图书系统。(2019.4选择题)
2、古腾堡计划(http://promo.net/pg/)
是互联网上最早的免费电子图书生产者,现在它几乎平均每一天都生产一部电子书。
6.2学术期刊的网上检索
6.2.1期刊出版信息的网上检索
1、MediaFinder:美国和加拿大最大的连续出版物和目录数据库。
2、JournalSeek:Genamics JournalSeek是互联网上最大的全科免费期刊信息数据库。
6.2.2期刊收藏信息的检索
6.2.3期刊内容信息的检索
1、国内学术期刊检索系统
中国学术期刊网又称国家知识基础设施------CNKI(http://dlib.cnki.net/kns50)(选择题)
1、JSTOR:是一个对西方过期期刊进行数字化的非盈利机构
2、Elsevier SDOS:荷兰爱思唯尔(Elsevier)出版集团是全球最大的科技与医学文献出版商之一。(2018.10选择题)
3、IEE/IEE. 简称IEL,是一套由IEEE和IEE出版的全文数据库,是当今世界信息量最大的电子、工程类信息源之一。(2019.4选择题)
6.2.4开发获取期刊
1、High wire :(http://higheirt.stanford.edu)是全球最大的提供免费全交学术文献的出版商。
6.3会议信息及会议文献的网上检索
学术会议(名词解释):是科学工作者进行学术交流、沟通学术思想、发布研究成果、提高学术水平的重要场所。
会议文献:是在各种学术会议上所发表的论文、报告、演讲等的统称。
6.3.1会议信息检索
6.3.2会议文献的检索
学位论文:指高等院校或学术研究机构的学术为获得某种学位而撰写的科学论文,包括学士论文、硕士论文、博士论文等(名词解释)。
6.5、专利的网上检索
6.5.1国外专利网上检索
1、Espacenet欧洲专利局专利检索网站(2017.4选择题)
2、Delphions
3、WIPO GOLD
4、USPTO:(www.uspto.gov)美国国家专利与商标局的网上专利服务平台,可用户检索授权专利和专利申请。(2017.10选择题)
6.5.2中国专利信息的网上检索
4、中国期刊网的中国专利数据库(www.cnki.net/index.htm)
6.6、标准信息的网上检索
标准(名词解释):指按规定程序制订,经公认权威机构或主管机关批准的一整套在特定领域内必须执行的规格、规则、技术要求等规范性文献。(2019.10判断题)
6.6.1国外标准信息网上检索
1、ISO Online(www.iso.org):国际标准化组织ISO是世界上的非政府标准化专门机构。(2016.10,2018.10选择题)
6.6.2中国标准信息的网上检索
1、中国标准服务网,(www.cssn.net.cm)提供对标准信息的免费查询,目前中国最具权威性的标准服务网站。(2018.4,2019.10选择题)
2、中国标准咨询网,(www.chinastandard.com.cn):中国首家标准全文网站。
6.7国际组织(名词解释)
国际组织亦称国际团体或国际机构,是具有国际性行为特征的组织,是3个或3个以国家(或其他国际法主体)为实现共同的政治经济目的,-句 其地接的条约或其他正式法律文件建立的有一-定 规章制度的常设性机构。
第七章:参考信息的网上检索
7.1参考信息概述
7.1参考信息检索概述(名词解释)
参考信息即指人名、地名、机构、时间、统计数据等- -类数据、事实信息,是人们在工作研究和日常生活中经常要查考、引用的信息。
7.1.2网上参考信息源的主要类型
1、百科全书:“工具书之王”对旅游地点的历史、人文等信息提供全方位查询。(2019.10选择题)
2、白页(名词解释,判断题):主要提供对普通大众的个人信息。网上白页是专用于查找个人信息的特殊工具,这些个人信息包括电话号码、e-mail地址、邮政编码、通讯住址。
黄页(名词解释):国际通用的按企业性质和产品类别编排的工商电话号码簿,相当于一个城市或地区的工商企业的户口本,国际惯例用黄色纸张印刷,故称黄页。
3.年鉴(名词解释):系统汇集一年内各方面发展变化新情况和统计资料,按年度连续出版的资料性参考工具。
7.2.2国内外网络百科全书简介
3、Encyclopedia.com:以美国著名的《哥伦比亚百科全书》为基础的网站。(2017.10选择题)
4、维基百科:是一个语言、内容开放的网络科金热转划ok118.com4、传记资料:记录历史人物或当代著名人物的生平资料等相关信息,这些信息-般包括生卒年、学历、职务、经历、家庭、政治背景、学术观点、团体、著述、评价、通信方式等。
7.3人物信息网上查询
7.3.1传记资料(名词解释):记录历史人物或当代著名人物的生平资料等相关信息,这些信息一般包括学历,职务,经历,家庭,政治背景等。
7.3.2网络传记资料
1.Marquis Who’s who(www.marquiswhoswho.com):收录超过140万位人物的传记资料。(2018.10选择题)
7.3.3白页信息查询
7.4地理信息查询(2019.10判断题)P232
与人民的生活密切相关,用户可以根据自身的查询需求选择适当的地址信息参考源。
7.4.2地名工具书
是地理信息的核心,可以哦用来查找古今中外的地名及所代表的地理、历史、人文等简况。
7.4.4、旅游信息检索
1、Sky Auction:是一个非常流行的拍卖网站,提供有关旅行的拍卖信息(2019.4选择题)。
2、中国旅游网:国家旅游局主办的一个官方网站。(2017.10选择题)
7.5.2、时事、新闻查询
1、百度新闻:世界上最大的中文新闻搜索平台。(2018.10选择题)
7.5.3网络年鉴简介
年鉴(名词解释):是指“每年出版的统计数据和事实的汇编,兼有现期性和回溯性内 容。其包含的地区和学科领域- -般比较广泛,也可能限于某- -特定国家或特定的领域”。
1、Infoplease 是一个集百科全书、字典、 地图集合年鉴与一体的网站。(2019.4选择题)
7.6机构名录(名词解释):又称名录、指南、便览、行名录,是用来查找机构团体相关信息的一-类检索工具。不同于黄页。
7.7汉语信息网上查询
1、词典(名词解释)P257:是根据-一定的编撰目的汇集词语(或词语的某些成分),并加以描述、说明,通常按字顺排列,共人们查找词语信息的工具书。
2、在线新华字典:最大,最全的在线汉语词典。(2018.10选择题)
第八章:互联网信息检索策略、技巧与提高
8.1.1、5W1H:what,who,where,when,why,how(选择题)
8.1.2关键词的选取步骤:(2019.4简答题)P269-P270
(1)抽取基础关键词,排除常用词。
(2)考虑基础关键词的同义词。
(3)考虑上位词和下位词。:上位词,指概念上外延更广的关键词(判断题)
(4)考虑相关词。
(5)总结审视。
8.1.3关键词的组配
下面的清单列出了常见的布尔逻辑操作符和句法解释。
(1) AND用AND操作符连接的两个关键词都必须出现在检索结果中。某些检索工具规定用符号“十”或者直接用空格代替AND。
(2) OR--用OR操作符连接的两个关键词必须有一个出现在检索结果中。某些检索工具规定用符号“”或直接用空格代替OR。
(3) AND NOT 紧跟在AND NOT操作符后面的关键词不能出现在检索结果 中。某些检索工具规定用NOT或者符号“”代替AND NOT。
(4)NEAR-A功能与AND操作符类似,但用NEAR连接的两个关键词在检索结果中的位置距离还必须在一定范围之内。
(5) BEFORE功能与NEAR操作符类似,但BEFORE前面的关键词在检索结果中必须出现在BEFORE后面的关键词之前。
(6) AFTER-功能与NEAR操作符类似,但AFTER前面的关键词在检索结果中必须出现在AFTER后面的关键词之后。
(7)圆括号(-类似于四则运算中的圆括号,用来改变布尔运算的优先级。
(8)引号“”用于词组检索,用双引号标注的关键词不允许拆分,也不允许改变先后顺序。
(9)星号*和问号?一通配符,用于截词检索(2019选择题)
8.2选择检索工具:搜索引擎、元搜索引擎、网络资源目
8.3.13字段检索
通用字段检索语法的意义和功能如下:
1、anchor:txt
查询网页中包含特定字或词组的超链接。
例如,anchor:“click here to visit gardon. com”,可以找出有提供超级链接到 gardon. com的所有网页。利用此功能可以知道有多少网页链接到某个网站。
2、applet: class
限定查询含特定Javaapplet的网页。
例如,pplet:morph,可以找到有利用变形技术morph applet的所有网页。
3、domain:domainname限定查询特定领域名称的网页。
服务器战名后缓 domain:edu. cn可以找中国大陆教育网的网页。
domain:edu可以限定只查询美国教育领域的网站,在查询课程或人学相关信息时非常有用。
4、host: name
限定查询特定计算机主机的网页。
例如,host:www. bnu. edu. cn只找北京师范大学主服务器上的信息。
5、mage: f1lename
限定查询特定的影像文件。
image:teddybear可以找到有小熊泰迪图片的网页
6、like: url
查询与指定的url相似或相关的网页。
例如,like:www. amazon. com,可以找到和亚马逊一样的网络书店。
例如,like:www.lib.bnu.edu.cn可以找到和北京师范大学图书馆一样的大学图书馆网站。
7、link:url
查询连接到指定url的网页
例如,link:www. lib. bnu. edu. cn,可以找到所有连接到北京师范大学图书馆网站的网页。
8、text: text
限定查询含有特定词汇的网页,除去影像文件的说明、连接或url中出现该特定词汇。
例如,text: knowledge management,可以找到有出现knowledge management这个词的网页
9、title:text
限定查询文章标题中含有特定词汇的网页。
例如,title: knowledge management,可以找到文章标题有出现knowledge 和management的网页。
例如,text:“knowledge management”, 可以找到文章标题有出现knowledgemanagement词组的网页。
10、url:text
限定查询url中含有特定字词的网页。
例如urk:knownledge,可以找到完整的url 中有出现knownledge的网页,换句话 说: 可能是主机名称路径名称或是文件名称中有出现knowlede 的都符合。
第九章:网络信息检索的未来发展趋势
1、搜索引擎的“瓶颈”:
(1)搜索引擎的索引能力,搜索引擎的索引量或覆盖率对搜索结果的相关性、时效性和查全率等都具有深远的影响:搜索引擎并不一-定能提供比索引量小的搜索引擎更好的搜索结果:搜索引擎抓取和索引大量级网页需要时间,因此本身就存在一定的滞后性。
(2)迎战“深网”。深网也称暗网,主要指哪些通过搜索引擎难以发现、索引、检索到信息内容的网页。
(3)搜索结果的排序与输出。
①链接分析法,即基于超链分析的排序算法,其出发点是人文,一个网页被链接的次数越多说明此网页的质量越高,并且从更重要、更权威的页面发出的链接有更大的权重。
②词频统计法,即以索引项的词频和位置作为相关度的判定标准,采用词频加权方法来计算相关度。
2、网络信息检索中的法律风险。(2019.4论述题)
Eg:试述网络信息检索中的法律风险。
答:网络检索工具和网络检索行为所面临的法律风险如下:
a.版权风险,在搜索引擎强大的搜索能力之下,大量拥有版权的网站、网页、书籍等被纳入到搜索范围中,版权成为搜索引擎面临的主要法律风险之中。搜索引擎的“网页快照”功能由于保存网页在自身的服务器中,可能会影响内容网站本身的流量,甚至侵犯版权(2 分)。
b.侵犯隐私风险,搜索已经成为人们信息生活中的重要内容,各种新的搜索机制随之出现,譬如“人肉搜索”等,当“人肉搜索”被用来搜索某个人的相关信息时会引 起很大的社会反响和争议,会严重侵犯当事人的个人隐私(2 分)。
C.搜索引擎营销的法律风险,搜索引擎营销中的竞价排名、关键词广告等作为搜索引擎商业化和盈利的重要举措,但是也引发了很多的涉嫌侵权事件,包括虑假信息、商标侵权和不正当竞争等(2分)。
d.避风港原则,为了支持互联网业的发展,现在都实施了避风港原则,但是如果互联网企业没有依法诚信经营,滥用该原则能够造成更多的法律风险(2分)。
3、网络信息检索技术
(1)智能检索
(2)语义检索
(3)垂直搜索
(4)基于内容的多媒体信息检索
(5)跨语言检索
(6)信息检索可视化
4、网络信息检索服务
(1)个性化
(2)多样化
(3)社会化