信息检索技术入门介绍

个人学习<<An Introduction to Information Retrieval>>的笔记
先贴个目录出来。

本书的一章可以在75-90分钟内讲完。前8章是基础概念,构成搜索引擎的基本技术。
基础篇
第一章介绍反转索引,以及它如何用来处理boolean查询。
第二章基于前一章的内容,详细说明创建“反转索引”前对文档的预处理方法,以及如何扩展“反转索引”以便获得更多的功能和更快的处理速度。
第三章讨论字典的“搜索结构”,以及如何处理有拼写错误的查询和其他不同于被查询文档词汇的查询错误。
第四章描述一些创建“反转索引”的算法,并特别介绍高可扩展性以及分布式算法,以便处理“数量非常巨大”的文档集合。
第五章是讨论如何压缩字典和索引的技术。这些技术对大规模搜索引擎获得1秒以下的查询响应时间非常关键。
第一章到第五章讨论的索引和查询技术都是“Boolean retrieval"也就是说一个文档要么满足查询要么不满足。为了衡量文档匹配查询的程度(extent),
第六、七章发展出了Term Weighting和”得分score“计算技术,得到了一个想法:查询的结果是一列按照分值排列的文档(rank-ordered)。
第八章集中在如何评估一个信息检索系统。评估的基础是看检索出的文档的关联性(relevance),这样就可以用“评测用文档集合和查询”相对地评估不同信息检索系统的性能。

高级篇
第九章讨论增强检索(retrieval)的方法,比如 relevance feedback (关联反馈)和 query expansion(查询展开),目的都是为了增加取回相关文档的可能性。
第十章讨论如何从结构化的文档如xml,html中检索信息,我们把结构化文档检索规约到第六章得到的“vector space scoring"方法去处理。
第十一、十二章召唤概率理论来计算文档对查询的得分(score).
第十一章发展传统的概率论信息检索技术,他成为一个计算给定查询Terms时文档相关性概率值的框架。这个概率值可以作为得分(score)在ranking(排序)时使用。
第十二章演示了另外一种方法,该方法中为集合中的每一个文档建立一个“语言”模型,用这个模型可以估计产生某个查询的可能性。这个概率值也是一种可以用来rank-order(排序)文档的数。

第十三到十八章讨论几种信息检索中用到的机器学习技术和数值计算方法。
第十三章到十五章是处理文档分类(classifying)问题,就是给定一组训练用的文档和他们所属的类别,把其他文档划分到一组已知的类别中去。
第十三章引发出“统计分类法”,它是一个成功的搜索引擎所需要的关键技术之一。介绍了Naive Bayes分类方法,他是一个简单又有效的分类方法。并且勾画了用来评估不同分类器的标准方法论(methodology,就是一组相关概念、理论的集合)。
第十四章使用了第六章的向量空间模型,介绍了两种分类方法:Rocchio和kNN,他们都操作于文档的向量。同时提出了bias-variance(偏离差异)权衡,它是学习问题的一个重要特征,可以作为标准来选择合适的文本分类方法去解决问题。
第十五章介绍了支撑向量机,被很多研究者认为是最有效率(effective)的文本分类方法。同时发展出分类问题和好像无关的问题之间的联系,比如从一组训练用例中推导出评分方法的问题。

第十六到十八章讨论聚类问题,就是把一组关联的文档规约(inducing)为一些簇(cluster)。
第十六章先总览一些聚类方法在信息检索中的重要应用,然后介绍两个flat(平坦)聚类(clustering)方法:K-means和Expectation-Maximization算法。
第十七章引出很多信息检索应用对于“分层的结构化的集群”的需求。并介绍一些产生集群层级(hierarchy of clustering)的算法。也涉及了自动计算集群标签的困难问题。
第十八章从线性代数中发展出构造集群扩展的方法,并且提供了令人感兴趣的对信息检索中的代数方法应用的探索,代数方法已经在latent semantic indexing(隐藏语义索引)中有所尝试。

第十九到二十一章对付web搜索问题。
第十九章给出一个web搜索所面临挑战的总体介绍,然后给出一组web搜索中常用的技术。
第二十章描述了一个基本的网页爬虫的架构和需求。
第二十一章考虑了链接分析的强大作用,以及用于处理过程的几个线性代数和高级概率的理论。

你可能感兴趣的:(Web,算法,框架,搜索引擎)