现代信息检索的考点整理

博客已迁移到:https://arabelatso.github.io/ 这里啦~欢迎大家去新博客一起学习,讨论~
方向:形式化验证、模型检测、机器学习
语言:python、murphi

现代信息检索的考点整理
教材:《信息检索导论》王斌 译 (话说早知道选王斌老师的课了,但是wuli笨笨哥的课也很好的(支持一下班主任)~尽管碎碎念了一点 。。。)
PS. 马上就要考试了好想哭。。。整理一下,希望学弟学妹们以后可以用到。。。

考点整理
一、 布尔检索
• 信息检索概念
• 倒排记录表
• 布尔检索:用and,or,not表示的查询
二、词汇表和倒排记录表
• 停用词的优缺点:倾向于不去除,因为去除可能会造成问题。且现在的信息检索系统有良好的压缩技术和查询优化技术,基本不会增加空间和时间开销。
• Bm25要去掉停用词
三、词典及容错式检索
• 编辑距离的算法:左上:如果不相等,则+1. 右上:上面的直接+1。左下:左边的直接+1。右下:前三个的最小值
• 编辑距离找寻依据:看最小值从哪里来。然后就知道怎么改了
四、索引构建
• bsbi:term-termid的全局表,倒排记录表要排序
• spimi:没有term-termid的表,倒排表不用排序,直接按照先后出现的顺序
• Map reduce:分布式-1. term-doc id 2. 排序
五、索引压缩
• 要求:随机访问+无损压缩
• heaps定律:(估计词典大小)M = kTb
• Zipf(估计倒排记录表大小)cfi和1/i成正比
• 词典压缩:单一字符串 - 分块压缩-前端编码压缩
• 倒排记录表压缩:(压缩间隔)vb编码,gamma编码
• 注意:间距从0开始,因此如果相差为1,则编码为0
六、tf、idf、vsm
• 用于文档评分,排序
• df:出现某个词项的文档总数
• tf:某个词项在某篇文档中出现的次数
• idf:所有文档中含有某词项次数的倒数*n(再log一下) - 因为出现次数与信息量成反比
• vsm:(用于计算相似度)步骤:tf - idf -归一化(原因:使得长短文档的向量权重都处于同一数量级)
八、检索评价
• 缓冲池方法:准确度高,召回率低
• f值作为p,r的调和平均
• bpref: (在相关性判断信息较少的情况下,可靠)计算在进行了相关性判断的文档集合中,在判断到相关文档前,需要判断的不相关文档的篇数
• 未插值ap,插值ap的公式
• ndcg公式
九、相关反馈及查询扩展
• 相关反馈(局部)、查询扩展(全局)-旨在提高召回率
• 相关反馈-rocchio算法-向质心靠拢
• 查询扩展:同义词词典、共现统计信息(两个词常常一起出现)、外部词典
十一、概率检索模型
• 两种分布的计算差别:多元贝努利、多项式分布(注意计算方式即可,类比硬币和筛子)
• 逻辑回归:实验中效果一般
• bim二值分布:服从多元贝努利分布-不考虑tf和文档长度,只考虑是否出现在doc中
• Bm25分布:服从多元泊松分布-考虑tf,df,文档长度
• 两种分布要会算,主要是bm25
• Bm25要去除停用词!
十二、基于语言建模的ir模型
• 数据平滑(比如add one方法) - 为了处理矩阵稀疏和概率为0的情况
• 语言模型是基于多项式分布的假设 - 考虑tf,cf,没有考虑idf,但是效果一样
• slmir与vsm的异同:都用了tf,都要归一化。基于不同理论基础。slmir的理论基础比vsm好。
十九、web搜索
• 重复检验算法shingle:计算在不同哈希函数下的最小值-计算jaccard即相似度(最小值相等,则相似)-取某个阈值内的文档们作为相似文档
二十、采集器
• 判断题:robots协议是否要遵守-是
二十一、链接分析
• 两种基于链接分析的排序算法:pagerank, hits
• pagerank:和查询无关,可以线下计算,全局 - 改进:随机游走
• hits:(hubs,authority)动态计算,与查询相关,线上计算,基于web搜索的页面进行-根集,基本集

你可能感兴趣的:(基础知识整理)