李亚涛:搜索引擎工作流程

搜索引擎工作流程大概会涉及以下几个部分:

1、信息爬虫(蜘蛛)

2、内容处理

3、分词

4、去重

5、索引

6、内容相关性

7、链接分析

8、判断页面用户体验

9、反作弊

10、人工干预

11、缓存机制

12、用户需求分析

搜索引擎工作原理图如下:

李亚涛:搜索引擎工作流程_第1张图片

搜索引擎原理整体分为三步:网页收集、预处理、查询服务

一、网页收集与预处理的流程大致如下:

第1步: 搜索引擎派出爬虫(spider蜘蛛),按照一样的策略把网页抓回到服务器

第2步:对抓取回来的网页进行链接抽离、内容处理、消除噪音版块、提取网页主题文本内容等

第3步:对网页文本内容进行中文分词、去除停止词(无意义的词,如的,啊,哦,是)

第4步:对网页内容进行分词后判断该页面内容与已索引网页是否重复,剔除重复页面,对剩余的网页进行倒排索引,然后等待用户的查询

二、当用户查询后,搜索引擎的工作流程大致如下:

第1步:先对用户所查询的关键词进行分词处理,然后根据用户的地理位置和历史搜索特征进行用户需求分析,然后个性化的展示用户最需要的信息

第2步:查询缓存中是否有该关键词的查询结果,如查有直接呈现查询结果,有时根据实际情况搜索引擎也会对缓存中的结果进行微调

第3步:如果用户查询的关键词在缓存中不存在,那就在索引库中的网页进行调取排名呈现给用户,并且将关键词与对应的搜索结果加入到缓存中,这样用户第2次搜索就直接调取缓存中的数据,效率更高

第4步:网页不仅是对索引库中的网页进行相关性、重要性进行排序,还有一个用户体验数据,也就是用户搜索后的点击和其他一些搜索操作,反过来也会影响到网页的排名

好了,今天就分享到这里

我是李亚涛,每天更新一篇原创文章,有1人看了有收获我就会非常开心!

你可能感兴趣的:(李亚涛:搜索引擎工作流程)