信息检索导论(第一章) 布尔检索

第一章 布尔检索

信息检索(IR):是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程,其中根据用户需求进行的文本聚类,分类也属于信息检索的范畴;

传统线性扫描的检索方式弊端:大规模数据集背景下的检索性能可能较低;不能满足更灵活的信息匹配要求;不能对满足匹配的文件进行排序得到最佳列表;

非线性扫描:构建文档关联矩阵,事先记录每篇文档是否包含某些词项,其中,每行代表每个词项出现过的文档,每列代表每篇文档包含的词项;

布尔检索:利用文档关联矩阵通过AND,OR,NOT实现词项的逻辑查询;

ad hoc检索(ad hoc retrieval)任务:在这个任务中,任意一个用户的信息需求通过一次性的、由用户提交的查询传递给系统,系统从文档集中返回与之相关的文档;

过滤(filtering):与ad hoc检索不同的是,ad hoc检索中信息需求动态变化,数据库内的文档内容相对静止,而在过滤问题中,信息需求在一段时间内是保持不变的,数据库中的文献是动态变化的,这类问题相似于推送服务;

信息检索系统效果的两个评价指标:①正确率;②召回率

倒排索引(inverted index):通过词项映射到文档的一种检索方式,每个词项构成一个单链表,每个节点中保存着词项出现的文档编号,除此之外还保存着例如词项在文档中的出现次数与位置等信息,这样的单链表也被称为倒排记录表(posting),所有词项的倒排记录表称为全体倒排记录表(postings),其中,所有词项组成一个词典,词典中可能包含每个词项出现的频率等信息,尤其对于ad hod检索,倒排索引是其他数据结构无法替代的高效索引结构;

构建倒排索引:

① 收集需要建立索引的文档;

② 将每篇文档内容进行词条化(token);

③ 对词条化后的每个词项进行归一化处理,作为最终的词项;

④ 对所有文档按照其出现过的词项建立倒排索引;

 

布尔查询处理:处理两个有序单链表的问题;

布尔查询优化:先处理其中较短的倒排记录表,因为所有的中间结果大小都不会超过最短的倒排记录表;

你可能感兴趣的:(机器学习,数据建模)