Python编写简单搜索引擎之搜索引擎搭建篇代码(以pagerank值排名)

仅作为一个项目的学习记录

       爬取电玩巴士部分文章作为后台数据。
       具体是学习Mooc网bobby老师的课程,个人总结教程之后再写。(多么鲜艳的Flag)
        爬虫项目指路

没什么必要的目录

    • 技术栈
    • 运行
    • 不足

技术栈

  • Python3
    • virtualenv、virtualenvwrapper(不必要,但建议使用, 安装教程
  • 搜索引擎支撑elasticsearch:
    • jdk8+
    • elasticsearch-rtf:大神开发的适用于中文的版本
    • elasticsearch-head:可视化数据
    • kibana:运行不必要,学习ES建议安装
  • 编写框架django:pip install django

运行

  • 项目地址
  • 运行项目即可:python manage.py runserver 8000
    • 在localhost:8000打开页面
    • like this……
      Python编写简单搜索引擎之搜索引擎搭建篇代码(以pagerank值排名)_第1张图片
      Python编写简单搜索引擎之搜索引擎搭建篇代码(以pagerank值排名)_第2张图片
      Python编写简单搜索引擎之搜索引擎搭建篇代码(以pagerank值排名)_第3张图片

不足

分词太细致导致搜索结果反而不太匹配搜索词,比如:
Python编写简单搜索引擎之搜索引擎搭建篇代码(以pagerank值排名)_第4张图片

  • 解决方案:
    • 设置搜索模式,指定搜索使用term不对搜索词进行处理,粗略搜索延续match。
    • 选用ik_smart等划分相对粗略的分析器。

欢迎指正与讨论!

你可能感兴趣的:(Python,前端)