第一张
- Web信息检索的特点是什么?
答: - 规模大。人类生产40亿网页[Google,2004],而书才1亿本;中国有3亿网页[天网,2004]。
2.内容不稳定。50%网页的平均生命周期约为50天[Cho and Garcia-Molina,2000, Cho,2002]。
3.与生俱来的数字化、网络化。蜂拥而至、鱼目混珠。
4.要求高并发(1000次/s)、响应快(1s)。 - 简述获取网页标题最简单的办法。
答:从网页中的标题标签< title >< /title >中提取。 - 简述“网页快照”或“历史网页“的作用。
答:1,网页快照能保留网页修改前的内容信息。
2,网页快照能体现蜘蛛爬行网站的频率。
3,网页快照能作为现有网站内容和蜘蛛抓取内容的参照。
4,网页快照能体现网站阶段性的内容更新状况。
5,网页快照能体现阶段搜索引擎信任度。 - Archie是搜索引擎鼻祖,简述Archie具备的搜索引擎相关功能。
答:1.定期搜集,并分析FTP系统中存在的文件信息
2.大型数据库 + 检索方法
3.通过文件名,检索所在FTP服务器的地址 - 搜索引擎鼻祖:自动搜集信息、建立索引,提供检索服务
- 叙述搜索引擎的发展趋势。
答:1.文本自动分类技术
2.人工分类 + 自动爬取 - 互联网信息:网页和文件、新闻组、论坛、专业数据库等
4通用搜索引擎无法全覆盖
5.主题搜索引擎:个性化搜索引擎、问答式搜索引擎等
6.通用搜索引擎:出现分工协作,如搜索引擎技术和搜索数据库服务提供商
7.搜索引擎优化空间似乎变大,但是难度不减。
8.搜索引擎推广正在向网络推广转变,
9.线上推广渠道和线下推广渠道加速融合。
10.垂直搜索引擎领域的崛起。
11.文本文档搜索领域、多媒体搜索引擎的崛起。
第二章 - 用户向搜索引擎提交查询词,搜索引擎在“可以接受的时间”内返回和该用户查询匹配的网页信息列表。请简述网页信息列表的组成?“可以接受的时间”应满足什么要求
答: (1)在“可以接受的时间”内返回和该用户查询匹配的网页信息列表,记作L。包括:标题、URL和摘要。
(2)“可以接受的时间”即响应时间。系统应该在额定吞吐率的情况下保证秒级响应时间。不仅满足单个查询,且在系统设计负载的情况下满足所有查询。 - 简述现代大规模高质量搜索引擎的工作流程。
答:网页搜集、预处理和查询服务。 - 形成倒排文件即“预处理”,请简述其流程。
答: 形成倒排文件即“预处理”,流程如下:- 关键词的提取;
- 重复或转载网页的消除;
- 链接分析;
- 网页重要程度的计算。
- 系统网页数据库维护的基本策略包括增量搜集。请简述增量搜集的过程、优点、缺点。
答:(1)开始搜集一批,往后1)搜集新网页,2)搜集改变过的网页,3)删除不存在的网页;
(2)50%网页的平均生命周期约为50天[Cho and Garcia-Molina,2000];
(3)优点:时新性高,例:30万网页,1台PC,0.5天搜集完;
(4)缺点:系统实现比较复杂,包括:搜集过程、建索引过程. - 爬取属于抓取网页的一种策略。如果将网页集合看成有向图,请说明爬取的过程。
答: 搜集过程:
(1) 从给定起始URL集合S(“种子”)开始;
(2) 沿着网页中的链接,按照先深、先宽、或者某种策略遍历;
(3)不停的从S中移除URL,下载网页并解析其中的超链接URL,将未访问过的URL加入集合S。
(4)搜集过程想象为:一只或多只蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)。
第三章 - 作为一个小型搜索引擎系统,TSE的特点是什么?
答:特点如下:
(1)适合教学
(2)很小:可用普通台式机搭建
(3)简单:具有程序设计基础即可理解
(4)功能相对完整:反映一个大规模搜索引擎的主要成分 - 对于搜索引擎而且,如何首先搜集重要的网页,好的搜集策略是什么?经验特征是什么?
答:搜索引擎不可能搜集所有网页
[Lawrence and Giles,1998]
好的搜集策略:
分布并行工作
优先搜集重要网页
经验特征:
- 网页的入度大,被其他网页引用次数多
- 某网页的父网页入度大
- 网页的镜像度高,热门
- 网页的目录深度小,易于浏览
请描述网页搜集的流程。
答:网页搜集的流程如下:
从URL库(起始种子)解析Web服务器地址
建立连接、发送请求和接收数据
网页 -> 原始网页库,链接信息 -> 网页结构库
待抓取的URL放入URL库请简述spider与gatherer的区别。
答:spider
网页搜集子系统
可用C/C++、Java,Python等编写
gatherer
爬取器
spider启动多个gatherer(进程或线程)完成一篇网页抓取请简述网页重复搜集的定义和原因。
答:定义:网页没有更新,被搜集程序重复访问
原因:搜集程序没有清楚记录已经访问过的URL,域名与IP多重对应关系
第四章
1、简述天网格式的优点和缺点。
答:优点:容错性好,局部性数据损坏不会扩散
缺点:不能按照网页url,随机存取其所指向的网页“回溯”能改进正向减字最大匹配法的性能,请说明“回溯”的流程。
答: 1. 从左到右切分一遍句子从右到左切分一遍句子
对两遍切分结果不同的字符串,用回溯法重新处理
分析网页的结果是什么?
答:形成文档编号到索引词的对应关系表
记录组成
文档编号
索引词号
索引词在文档中的位置
索引词载体信息(索引词的字体、大小写等,用于查询结果的排序)针对基于统计的分词方法,请简述实际应用的策略?并分析这些策略的优点。
答:使用一部基本的分词词典(常用词词典)进行串匹配分词
使用统计方法识别新的词,即将串频统计和串匹配结合起来
匹配分词:切分速度快、效率高
无词典分词:结合上下文识别生词、自动消除歧义请简述基于字符串匹配的分词方法的基本思想。
答:按照某种策略,将待分析汉字串与充分大词典中的词条进行匹配,若在词典中找到某个汉字串,则匹配成功(识别词)针对天网格式缺点,请简述预处理流程。
答:第一步:为原始网页建立索引,实现索引网页库,索引可用于网页快照
第二步:网页切分,将每一篇网页转化为一组词的集合
第三步:将网页到索引词的映射,转化为索引词到网页的映射,形成倒排文件
第五章TSE系统为提高响应时间,采取了哪些措施?取得什么效果?
答: (1)索引词表、用户近期查询结果驻留在内存中
(2)如果内存足够大,所有倒排表项也可以驻留在内存中
(3)大数据量和大访问量(如1000个查询/秒),实现秒级响应在TSE系统中,用户界面主要负责和用户直接接触的事件,具体包含哪些工作?
答: (1) 获取用户的查询请求,提交给查询代理;通过HTML语言的相对于天网1.0,天网2.0进行了哪些较大的改进?
答:
主要改进如下:
天网1.0:采用集中式系统结构,搜索量为百万级
天网2.0:
(1)重新设计系统结构、修改实现方法
(2)包括搜集子系统、索引子系统、检索子系统三个部分
(3)可扩展Web信息搜集子系统是核心,由N个独立自主的集中式系统和协调模块组合而成天网2.0搜集系统的主控结构由哪些进程组成?
答:(1)主进程
(2)robots存取分析进程
(3)URL过期检查进程
(4)数据库
(5)结果插入进程
(6)NewUrl处理进程在负载平衡的条件下,保证系统具有动态调度性,可采用哪些方法?
答: (1)第一种方法
散列函数动态调度url
(2)第二种方法
结合第一种方法,每个节点记录着一张www主机表
表在各个节点是相同的,记录包含一个www主机对应的节点
(3)第三种方法
逻辑上二级映射
第七章请比较网页净化和消重的相同点与不同点。
答: 相同点:
1、大规模搜索引擎系统预处理的重要环节
2、建索引一般在消重后的网页集上进行
不同点:
网页净化:
1,识别和消除网页内的噪音内容(如广告、版权信息等)
2、提取网页的主题、主题相关的内容
消重:去除网页集合中主题内容重复的网页网页表示有哪几种方法?并举例说明。
答: 1、抽象表示:从网页制作范围(如HTML)出发,构造能体现网页内容结构、内容重要性等的表示模型,最常用的抽象方法表示,是构造网页的标签树
2、量化表示:从计算机处理出发,挖掘网页中的隐含信息,生成用于计算的表示模型,如向量空间模型请简述DocView模型由哪些数据组成?
答: 1、网页的元数据
a. 网页标识:使用网页的URL作为网页唯一性标识
b. 网页类型:主题网页(topic)、Hub网页(hub)、图片网页(pic)
c. 内容类别:从语义上对网页的内容进行分类
d.标题、关键词、摘要:概括描述Web文档内容
2、网页的内容数据
a. 正文:原始网页中真正描述主题的部分
b. 相关链接:在本文网页中只想与正文内容相关的网页的链接,而非广告等噪音链接在网页量化表示的过程中,存在“高频无关词”,请说明“高频无关词”的定义、特点和处理方式。
答:1、定义:在文档中词频很高,但没有主题描述能力和区别能力。如:“中国”、“可以”
2、特征:在大量的文档中都可以高频词的角色出现
3、处理:通过词频和文档频率,确定某个集合的“高频无关词”集
第八章请简述索引剪枝的目的。
答:从减少倒排索引的大小、查询处理时尽量少的处理数据,这两方面来提升查询的处理速度。请简述倒排索引压缩的优点和缺点。
答:优点:减小倒排项数据长度、内存和I/O带宽的使用
缺点:对压缩数据解码,增加CPU时间
第九章检索评估的基础是测试集,请简述测试集的概念及组成。
答:概念:一种在规范化环境中测试系统效能的机制。
组成:测试文档集、查询问题、相关判断结果三个部分。一般而言,技术评估有哪几个层次?
答:
系统表现:
(1)评估中用户关心若干事情,记做F={f1, f2,…, fn}
(2)其中的元素可以是相关性、新颖性、完整性、速度等
测试指标:
(1)测试一些指标,记做G={g1, g2,…, gn}
(2)希望对G的测试结果和F有好的对应
设计指标:在设计系统的时候,用P={p1, p2,…, pn}表示实现程度对G贡献的关系
非主观题
判断题
1、 信息检索系统返回结果的排序,称为“检索排序”,隐含其中各条目的顺序,反映结果和查询的相关程度。√
2、斯坦福Google小组的PageRank技术和IBM公司Clever小组的HITS技术都同时才用网页的“入度”和“出度”两个指标。√
3、持续收集并长期保存Web页,具有重要的史料价值和社会意义。√
4、Minerva是美国最早保存Web信息的机构之一。×
5、假设n为并行收集系统的节点数,则节点间URL的划分策略可抽象为将目标设定在n上,形成一个“优化的”URLs-划分。√
6、 在分布式Web搜集系统结构中,调度模块用于维护协调进程的IP地址和端口号。√
7、在提出的5种网页消重算法中,算法3是对算法4的放松。×
8、 在提出的5种网页消重算法中,算法5比算法2严格。×
9、天网的检索系统设计原则,一是追求系统的快速响应;二是通过集成框架,有效地把各种有利于改善检索效果的技术集成。√
10、现代搜索引擎普遍使用全文索引技术,即网页中所有词都参与索引。√
11、如何讲一篇网页比另外一篇网页重要?基本思想是参照科技文献重要性的评估方式,即被引用多的就是重要的。√
12、全面网页搜集 + 局部更新”属于一种搜索引擎采用的抓取网页策略,其特点是每次抓取都进行全面网页搜集。×
13、在与服务器建立连接时,Socket必须绑定到一个本地端口和本地地址上。√
14、 搜索引擎有可能搜集所有网页。×
15、由于具有词与词无分隔符、词汇由多个汉字组成、语句连续书写等特点,中文较英文更难分词。×
16、 在基于字符串匹配的分词方法中,字与字相邻共现的频率或概率能够较好的反映成词的可信度。√
17、 在形成查询结果集合时,需要用索引替代排序,即先搜集到的网页以小的网页编码,索引项自动保持顺序。√
18、在形成查询结果集合时,第一步是执行检索算法。×
单项选择题
1、中国Web信息博物馆Web InfoMall提供了4种视图,其中,可用于历史网页挖掘与检索挖掘的是
答:属性视图
2、根据Web InfoMall需要,将存储数据分为多种形式,关于索引及中间数据的描述,正确的是
答:是动态数据,包含:URL索引、倒排索 引、链接图等,难使用同一种方法来存储。
3、从事信息检索评估的中国机构是
答:CWIRF
4、关于TREC的错误描述是
答:以大规模案例集为基础,推动信息检索的研究。
5、在HTML Tree结构中,每个结点(内容块)都有相应的描述信息,下列选项中不属于这些描述信息的是
答:结果集
6、在设计适于查询的网页索引结构时,采用了缓存技术,关于缓存的错误描述是
答:二分查找很好利用缓存,缓存缺失率低。
7、混合索引的本质是
答:建立倒排索引过程中的一种索引词选择方法与技术。
8、不属于小搜索引擎程序的是
答:OPnet
9、下列选项中,最适合TSE的高性能并行计算机系统种类是
答:机群
10、下列关于可扩展搜集子系统的描述,错误的是
答:加速比即n个节点协同工作搜集的网页数与单节点在同样时间段搜集网页数之比。
11、大型商业搜索引擎一般都提供“主动提交”的网页抓取功能,关于“主动提交”,下列说法错误的是
答:视为极端的先宽搜索。
12、原始网页集合S经过预处理后,形成对S的一个子集的元素的某种内部表示,下列选项中,不属于元素的是
答:索引号
13、一个URL由6个部分组成,其中,Scheme表示
答:协议名称
14、在天网存储格式中,原始网页库由若干记录组成,下列选项中不属于记录的是
答:尾部
15、对于现代汉语来说,如果选择ASM(d,a,m)模型,则最佳选择是
答:m=+
16、引入倒排索引的根本原因是
答:一般的数据库系统不能快速响应大量的用户请求。
多项选择题
1、对搜索引擎的评估可以分为6个级别,属于以用户为中心的级别包括:
答:输出级
应用级
社会级
2、关于动态索引剪枝方法,下列说法正确的是
答:在处理查询的过程中,尽量少的读取或处理査询词对应倒排链的数据。
剪枝过程发生在査询处理阶段,知道的查询信息较多,更容易计算信息的重要度。
一般不会影响最终查询的效果。
依赖于倒排索引的结构与排序函数。
3、现有的剪枝方法,可从多个方面来提升查询的处理速度,包括
答:提前结束查询处理
倒排链内数据的跳跃处理
去除查询词
尽早结束文档打分
4、“权值传递规则”有两个性质,这两个属性的作用是
答:保证规则正确
权值结果一一对应
5、在网页净化与消重时,可将网页分为主题网页、图片网页和Hub网页,关于Hub网页的正确说法包括
答:提供指向相关网页的超链,超链密集。
网页中间区域hub内容块包含的词项数,与网页中间区域词项数的比值,判断是否hub类型。
6、因为无法搜集所有的网页,所以优先搜集用户感兴趣、或重要性较高的信息,下列属于解决方案的是
答:加权的启发式搜索算法
为系统配置导向词
域名解析
7、在天网分布式搜集系统P_Arthur体系结构中,URL调度模块包括
答:King
queen
Mosquito
8、理想状态下,高效率搜索引擎用最少的资源完成网页搜集,下列选项中,属资源的是
答:设备
带宽
时间
9、域名与IP的对应关系存在4种情况,下列情况中,可能导致重复搜集的是
答:一对一
一对多
多对一
多对多
10、首先搜集重要的网页可以采用经验特征,下列经验特征,在搜索引擎开始工作时是无法确定的
答:网页的入度大,被其他网页引用次数多。
某网页的父网页入度大。
网页的镜像度高,热门。
11、针对汉语的分词,下列说法正确的是
答:正向最小匹配和逆向最小匹配很少用。
逆向匹配的切分精度,略高于正向匹配,歧义较少。
填空题
1、可用随机 冲浪 模型来作为PageRank的理论基础,该模型描述网络用户对网页的访问行为。
2、链接分析可以有效地计算网页的重要程度,但是带有明显的偏向,即不重视新出现的网页;因此,需要补偿这个问题,从两个方面考虑: 用户行为 和新词的产生。
3、Web InfoMall 2.0是一个大规模的Web 历史网页 仓储系统。
4、索引词的 倒排链 用于保存出现这个词的文档号列表、词的统计信息,如:次数、位置等。
5、倒排项是一个三元组,包括: 文档号 、词在文档内的词频和词在文档中的出现位置。
6、在分布式Web搜集系统结构中, 协调 进程之间两两建立起连接,形成逻辑全互连关系,直接传递它们之间的交叉URL。
7、在评估海量网页搜集系统的性能是,涉及四个主要参数,其中,B 表示网络连接的 系统和internet之间 带宽。
8、消重算法的基础是:搜集并分析一篇网页时,提取关键词,并赋予每个关键词一个权值,权值构成一个 向量空 间,用来表示网页。
9、DocView模型在网页自动分类中的应用及实验分析中,对分类效果的评价,采用传统的查准率、 查全率 和F1值。
10、索引网页库 的任务是:给定一个URL,在原始网页库中定位到该URL所指向的记录。
11、网页分析是将一个文档表示为特征项, 中文自动切词而是分析网页的前提。
12、搜索引擎是一个 网络应用 软件系统。
13、现行最有效的数据结构是 倒排文件 ,即用文档中关键词作为索引,文档作为索引目标。
14、在与服务器建立连接时, 通信 由消息组成,消息在两个“进程的Socket”间传递。
15、用户输入的 搜索 是词组或自然语句,而不是词汇。
16、提取关键词的方式,先从 搜索 输入中提取关键词,接着提取关键词后再扩充。