第一章
1.Web信息检索的特点是什么?
答:(1)规模大。人类生产40亿网页[Google,2004],而书才1亿本;中国有3亿网页[天网,2004]。
(2)内容不稳定。50%网页的平均生命周期约为50天[Cho and Garcia-Molina,2000, Cho,2002]。
(3)与生俱来的数字化、网络化。蜂拥而至、鱼目混珠。
(4)要求高并发(1000次/s)、响应快(1s)。
2. 简述获取网页标题最简单的办法。
答:从网页中的标题标签< title >< /title >中提取。
3. 简述“网页快照”或“历史网页“的作用。
答:(1)网页快照能保留网页修改前的内容信息。
(2)网页快照能体现蜘蛛爬行网站的频率。
(3)网页快照能作为现有网站内容和蜘蛛抓取内容的参照。
(4)网页快照能体现网站阶段性的内容更新状况。
(5)网页快照能体现阶段搜索引擎信任度。
4. Archie是搜索引擎鼻祖,简述Archie具备的搜索引擎相关功能。
答:(1)定期搜集,并分析FTP系统中存在的文件信息
(2)大型数据库 + 检索方法
(3)通过文件名,检索所在FTP服务器的地址
(4)搜索引擎鼻祖:自动搜集信息、建立索引,提供检索服务
5.叙述搜索引擎的发展趋势。
答:(1)文本自动分类技术
(2)人工分类 + 自动爬取
(3) 互联网信息:网页和文件、新闻组、论坛、专业数据库等
(4)通用搜索引擎无法全覆盖
(5)主题搜索引擎:个性化搜索引擎、问答式搜索引擎等
(6)通用搜索引擎:出现分工协作,如搜索引擎技术和搜索数据库服务提供商
(7)搜索引擎优化空间似乎变大,但是难度不减。
(8)搜索引擎推广正在向网络推广转变,
(9)线上推广渠道和线下推广渠道加速融合。
(10)垂直搜索引擎领域的崛起。
(11)文本文档搜索领域、多媒体搜索引擎的崛起。
第二章
1. 用户向搜索引擎提交查询词,搜索引擎在“可以接受的时间”内返回和该用户查询匹配的网页信息列表。请简述网页信息列表的组成?“可以接受的时间”应满足什么要求?
答:(1)在“可以接受的时间”内返回和该用户查询匹配的网页信息列表,记作L。包括:标题、URL和摘要。
(2)“可以接受的时间”即响应时间。系统应该在额定吞吐率的情况下保证秒级响应时间。不仅满足单个查询,且在系统设计负载的情况下满足所有查询。
2. 简述现代大规模高质量搜索引擎的工作流程。
答:网页搜集、预处理和查询服务。
3. 形成倒排文件即“预处理”,请简述其流程。
答: 形成倒排文件即“预处理”,流程如下:
(1)关键词的提取;
(2)重复或转载网页的消除;
(3)链接分析;
(4)网页重要程度的计算。
4. 系统网页数据库维护的基本策略包括增量搜集。简述增量搜集的过程优点缺点
答:(1)开始搜集一批,往后1)搜集新网页,2)搜集改变过的网页,3)删除不存在的网页;
(2)50%网页的平均生命周期约为50天[Cho and Garcia-Molina,2000];
(3)优点:时新性高,例:30万网页,1台PC,0.5天搜集完;
(4)缺点:系统实现比较复杂,包括:搜集过程、建索引过程.
5. 爬取属于抓取网页的一种策略。如果将网页集合看成有向图,请说明爬取的过程。
答: 搜集过程:
(1) 从给定起始URL集合S(“种子”)开始;
(2) 沿着网页中的链接,按照先深、先宽、或者某种策略遍历;
(3)不停的从S中移除URL,下载网页并解析其中的超链接URL,将未访问过的URL加入集合S。
(4)搜集过程想象为:一只或多只蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl)。
第三章
1. 作为一个小型搜索引擎系统,TSE的特点是什么?
答:特点如下:
(1)适合教学
(2)很小:可用普通台式机搭建
(3)简单:具有程序设计基础即可理解
(4)功能相对完整:反映一个大规模搜索引擎的主要成分
2. 对于搜索引擎而且,如何首先搜集重要的网页,好的搜集策略是什么?经验特征是什么?
答:搜索引擎不可能搜集所有网页
[Lawrence and Giles,1998]
好的搜集策略:
分布并行工作
优先搜集重要网页
经验特征:
(1) 网页的入度大,被其他网页引用次数多
(2) 某网页的父网页入度大
(3) 网页的镜像度高,热门
(4) 网页的目录深度小,易于浏览
3. 请描述网页搜集的流程。
答:网页搜集的流程如下:
从URL库(起始种子)解析Web服务器地址
建立连接、发送请求和接收数据
网页 -> 原始网页库,链接信息 -> 网页结构库
待抓取的URL放入URL库
4. 请简述spider与gatherer的区别。
答:spider
网页搜集子系统
可用C/C++、Java,Python等编写
gatherer
爬取器
spider启动多个gatherer(进程或线程)完成一篇网页抓取
5. 请简述网页重复搜集的定义和原因。
答:定义:网页没有更新,被搜集程序重复访问
原因:搜集程序没有清楚记录已经访问过的URL,域名与IP多重对应关系
第四章
1、简述天网格式的优点和缺点。
答:优点:容错性好,局部性数据损坏不会扩散
缺点:不能按照网页url,随机存取其所指向的网页
2. “回溯”能改进正向减字最大匹配法的性能,请说明“回溯”的流程。
答:(1)从左到右切分一遍句子
(2)从右到左切分一遍句子
(3)对两遍切分结果不同的字符串,用回溯法重新处理
3.分析网页的结果是什么?
答:形成文档编号到索引词的对应关系表
记录组成
文档编号
索引词号
索引词在文档中的位置
索引词载体信息(索引词的字体、大小写等,用于查询结果的排序)
4. 针对基于统计的分词方法,请简述实际应用的策略?并分析这些策略的优点。
答:使用一部基本的分词词典(常用词词典)进行串匹配分词
使用统计方法识别新的词,即将串频统计和串匹配结合起来
匹配分词:切分速度快、效率高
无词典分词:结合上下文识别生词、自动消除歧义
5. 请简述基于字符串匹配的分词方法的基本思想。
答:按照某种策略,将待分析汉字串与充分大词典中的词条进行匹配,若在词典中找到某个汉字串,则匹配成功(识别词)
6. 针对天网格式缺点,请简述预处理流程。
答:第一步:为原始网页建立索引,实现索引网页库,索引可用于网页快照
第二步:网页切分,将每一篇网页转化为一组词的集合
第三步:将网页到索引词的映射,转化为索引词到网页的映射,形成倒排文件
第五章
1. TSE系统为提高响应时间,采取了哪些措施?取得什么效果?
答: (1)索引词表、用户近期查询结果驻留在内存中
(2)如果内存足够大,所有倒排表项也可以驻留在内存中
(3)大数据量和大访问量(如1000个查询/秒),实现秒级响应
2. 在TSE系统中,用户界面主要负责和用户直接接触的事件,具体包含哪些工作?
答: (1) 获取用户的查询请求,提交给查询代理;通过HTML语言的