搜索引擎的发展

这片文章整理了搜索引擎的发展历史。
1995 成立了一大批搜索公司
yahoo 人工编辑导航目录,将重要站点份门别类整理,满足查询需要
大多数公司基于传统的信息检索服务。

1998Google
引入PageRank

搜索解决信息过载问题
垂直搜索和通用搜索的竞争

搜索引擎发展历程
分类目录->文本检索->连接分析->用户中心

导航时代
分类目录: 人工整理 特点查询慢 准确度高 不适合大量数据
文本检索: 采用布尔模型 向量空间模型 概率模型 来计算用户查询关键词和网页文本内容相关程度
链接分析: 利用网页流行性和推荐程度
用户中心: 同样的查询词 在不同时间场合有不同 来试图理解用户的真正需要

搜索引擎3个目标: 更全 更快 更准

常用的技术:
索引
索引压缩
排序
链接分析
作弊性
用户研究
云存储
爬虫
网页去重
缓存

搜索引擎3个核心问题
1.用户的真正需要是什么?
2.哪些信息是用户真正相关的?
3.那些信息是用户可以依赖的?

搜索引擎的技术架构
要求:从架构层面 能够对海量页面抓取 存储 处理能力

搜索引擎架构图
信息来源于互联网网页,通过爬虫获取到本地,网页去重 ,网页解析,通过倒排索引保存 并且保存链接关系 通过链接分析 判断相对重要性 (针对于准确性)最后返回给用户。
搜索引擎的发展_第1张图片
这张来自网络的图片

云平台和计算平台提供基础支持
反作弊 为了发现作弊网页(比如广告)并处罚。

但是百度搜索引擎好像没有反作弊模块。。。。。。。。

你可能感兴趣的:(es)