山东大学软件学院信息检索(考试)——期末考试回忆版

2020-2021年度山东大学软件学院信息检索考试
开学的时候上这门课时老师说很多同学都觉得这门课程难(范围广且多,不过这倒是符合信息检索的定义“融合了~~~的综合学科”,哈哈哈),最终期末考试是“贝多芬(背多分)”,纯记忆力考试。写这个回忆版也耗费了我巨大的记忆力,我如何记得住这么多题(无它,答完后还剩50分钟,背就完了),如果我考前不喝红牛或许还记不住这么多题。复习的时候获得了学长的回忆版,可惜没有填空题,传承“传统”也就有了这个回忆版,话不多说,开始我的回忆……
考试时间:2020年12月22日 14:00-16:00

保证所有题目顺序的正确性

去年题(2019-2020):https://download.csdn.net/download/qq_40422851/12054761

一、填空题(每空1分,共38分)

  1. 信息检索实质上融合了文本及多媒体检索、数据挖掘、_____ 和 ______ 的综合学科。
  2. 信息检索技术可以解决互联网上的 _____ 问题。
  3. 爬虫是一种 _____ 程序。
  4. 爬虫从一个或若干个网页的URL开始,抽取URL放入 _____ 中。
  5. 爬虫可以采用 _____ 判重。
  6. 爬虫的搜索策略有 _____ 和 _____ 。
  7. 爬虫礼貌性体现在 _____ 。
  8. 使用python语言中的Pandas模块里的 _____ 函数,可以直接提取网页中的表格。
  9. 搜索引擎的主要组成部分为:爬虫和爬取、_____ 、搜索词处理、排序。搜索引擎的核心数据结构为 _____ 。
  10. 消除停用词的方法: _____ 和 _____。
  11. _____ 在一般情况下,将多个派生词合并在一起。
  12. 基于词典的分词方法,也叫“ _____ ” 法,根据扫描方向,匹配策略有 _____ 和 _____ 。
  13. 布尔模型建立在 _____ 和 _____ 的基础上。
  14. 精确的Top K搜索的加速方法有(1)_____ ; (2) _____ ;(3)_____ 。
  15. L2R中的文档方法损失函数评估 _____ 。
  16. PageRank是基于 _____ 的回归关系来判定所有网页的重要性。
  17. HITS算法中,每个网页计算两个值:_____ 和 _____ 。
  18. SVD也就是 _____ ,可以用于 _____ 。
  19. BM25由三个部分组成: _____ 、_____ 和 _____ 。
  20. 词的向量表示有 _____ 和 _____ 。
  21. 用于大量文档查重的局部敏感哈希算法有 _____ 和 _____ 。
  22. 形状的描述符大体可以分为两大类,基于 _____ 的和基于 _____ 的。

二、名词解释(每个6分,共30分)

  1. 正则表达式
  2. 图像BoW
  3. 统计语言模型
  4. pLSA
  5. LBR

三、简答题(每个8分,共32分)

  1. 简述向量空间模型及其特点
  2. 什么是HMM?简述HMM用于中文分词的方法
  3. 简述信息检索评价的主要指标
  4. 网站反爬虫的方法有哪些?应对策略是什么?

你可能感兴趣的:(信息检索,考试,山东大学,软件学院,信息检索,期末考试回忆版,2020)