百度、谷歌等搜索引擎的实现原理

原理介绍-百度、谷歌等搜索引擎的实现思路

  • 引言
  • 第一步分词
  • 第二步匹配关键词
  • 第三步清洗获得的文章
  • 第四步排序输出
  • 重点说明

引言

本文只是介绍实现思路针对使用技术进行介绍,无相关代码。
推荐技术solr ,hadoop ,lucene/ElasticSearch,nutch一条龙服务

第一步分词

推荐使用IKanalyze或者mmseg4j,对中英文良好的支持,作用为将一句话拆成多个词汇。
亦可使用多个分词技术

第二步匹配关键词

将获得的关键词逐一进入数据库进行匹配(当然实际是去缓存)
匹配结束后会获得每个词汇的一些文章

第三步清洗获得的文章

对获得的文章进行清洗,留下包含多个关键词的文章,去掉只含少量关键词的文章

第四步排序输出

推荐三种算法模型
1.贝叶斯概率模型
2.向量空间模型
3.词频概率模型

重点说明

因为本身涉及算法和缓存不涉及业务
1.有能力的话算法层面调用python
2.缓存使用一致性算法的分布式缓存注意缓存雪崩即可
3.前端方面采用AJAXRPC让相应更加迅速

你可能感兴趣的:(随笔)