搜索引擎常识

1 搜索引擎的历史

(1)人工手动分类

(2)文本检索分析

(3)链接分析

(4)用户为中心的用户行为分析

2垂直搜索与通用搜索

类似美团,阿里做的就是垂直搜索。百度谷歌为全文搜索

3 搜索引擎的3个核心问题

(1)用户需求是什么,这是搜索匹配的先决条件,只有知道需求精确匹配才有意义

(2)匹配过程,哪些内容与用户需求相关

(3)去除无用信息,使搜索数据可靠

4 爬虫抓取的策略

(1)宽度优先 即将下载的网页的url直接添加到待下载队列中

(2)非完全pagerank策略(parital pagerank)将已经下载的网页以及待下载url队列中的url运用pagerank计算优先级 ,然后对url队列中的url进行排序

(3)ocip策略(在线页面重要性计算) 每个网页用于相同的权重,将权重均分到本网页的所有链接,根据url的权重进行排序

(4)大站优先策略 优先下载大站下面所有的链接

5 网页更新策略

(1)历史参考策略 过去频繁更新的网站 将来也可能再次更新

(2)用户体验策略 保存多个版本根据内容变化对搜索质量影响进行评估

(3)聚类抽样策略 同类型网站使用相似的更新策略

6 暗网爬虫 爬去垂直网站数据库中的数据 携程美团等

7 分布式爬虫

(1)主从模式 主机复制url队列的分发 从机只负责网页下载

(2)对等式  每个主机任务相同即负责url队列,又负责下载,对每个url进行哈希取模将不同值的url发送到相应机器进行维护和下载

8 单词文档模型为索引的概念模型 可以有不同的实现倒排索引就是其中一种实现方式

通过倒排索引可以快速找到某个单词包含的文档的集合

(1)倒排索引主要由单词列表 以及倒排列表组成,而倒排列表存储中倒排文件中

(2)单词词典的实现一般有两种1哈希加链表。2 b树 b树叶子结点有指向具体单词的指针

9 建立索引的方式

(1)两遍遍历 第一次估计所需要是内存 第二次根据申请的内存存放索引列表

(2)排序法 单词列表一直存在内存中 每次讲排完序的三元组导入磁盘,最后合并排完序的索引列表

(3)归并法 每次在内存中建立完整的索引结构 将单词列表和倒排列表存入磁盘,合并的适合重新建立整个索引结构

10 索引更新策略

(1)完全更新策略 重新建立新索引替换老的索引

(2)再合并策略   将老索引放入新的索引中

(3)原地更新策略 在老索引中预留部分空间。存放新添加的索引

11 查询的策略

(1)一次一文档 先纵向计算文档的相关性再横向移动计算其他文档

(2)一次一单词 先横向计算每个单词文档的相关性 再计算另一个单词文档的相关性

(3)跳跃指针。类似于跳表的数据结构 减少解压缩的数据量 提高查询速度

12 多字段查询

(1)多索引方式

(2)倒排列表方式 在列表项结尾添加字端信息

(3)扩展列表方式 额外存储字端信息

13 短语查询

(1)位置信息索引

(2)双词索引

(3)短语索引

14 分布式索引两种划分方式

(1)按文档方式切割到多台机器

(2)按单词方式

 

15 索引压缩从两个方面考虑

(1)单词的压缩

(2)索引列表的压缩:一元编码。二进制编码

 

16 网页排序两个关键因子

(1)网页链接分析

(2)用户查询与网页的相关性

检索模型:在用户需求已经明确的情况下,计算查询与文档的相关性

17链接分许算法

所有的链接分析算法几乎符合两种模型的任一个:随机游走模型,子集传播模型

pagerank和hits是最重要的链接分析计算算法

你可能感兴趣的:(c/c++/vc,搜索,广告)