第二章 XML信息检索基础

2.1 信息检索系统

数据检索系统可分为四个部分:
1、数据预处理:
从多种格式的数据中提取正文和其他所需的信息。
2、索引生成:
索引是索引项的集合,一个索引项是由一个节点的关键码和该节点的存储位置组成的关联。
目前主流的方法是以词为单位构造倒排索引表。
3、查询处理
用户输入的查询条件可以有多种形式,很多系统采用查询扩展克服这一问题,很多人还采用相关反馈、关联矩阵等方法对查询条件进行深入挖掘。
4、检索
对结果进行重排序,一般的信息检索系统采用基于内容的计算技术来分析结果和查询的相关性。

2.2 信息检索模型

信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。

2.2.1 布尔模型

一个文档被表示为关键词的集合,查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括号指示优先次序。

2.2.2 向量空间模型

1、查询和文档都被看成是由若干特征词组成的向量,每一个文档都被看成向量空间中的一个点,也就是有若干特征词描述的向量。文档与查询的相似性问题被描述成向量空间中的两个向量之间的相似度。按相似度大小将文档排序后提交给用户。相似度值的大小反映了文档与用户查询要求的相关程度。
2、术语:
1)文档d(Document):泛指各种及其可读的记录。
2)特征项t(Term):也称为索引项,是指出现在文档d中而且能够代表该文档内容的基本语言单位。
3)特征项权重 Wik (Term Weight):对应t在文献中的重要程度,

Wiktfik

你可能感兴趣的:(XML,智能信息检索技术,读书笔记,xml)