【Boost】:searcher的建立(四)

searcher的建立

  • 一.初始化
  • 二.搜索功能
  • 三.完整源代码

sercher主要分为两部分:初始化和查找。

【Boost】:searcher的建立(四)_第1张图片

【Boost】:searcher的建立(四)_第2张图片

一.初始化

初始化分为两步:1.创建Index对象;2.建立索引

【Boost】:searcher的建立(四)_第3张图片

二.搜索功能

搜索分为四个步骤

  1. 分词;
  2. 触发:根据分词找到对应的文档;
  3. 合并排序:按照权重降序排列;
  4. 构建:根据查找出的结构,拼接成新的网页。

1.分词

因为之前已经写好了分词函数,这里直接使用即可。

【Boost】:searcher的建立(四)_第4张图片

2.触发

跟据分词,获取该分词的所有倒排拉链。

【Boost】:searcher的建立(四)_第5张图片

3.合并排序

汇总查找结果,对查找内容按照相关性进行排序。这里使用了lambda表达式(如果不了解的可以看看我的博客C++11新特性)

在这里插入图片描述
当然也可以使用仿函数。

【Boost】:searcher的建立(四)_第6张图片

4.构建

对内容进行正排查找。把查找出来的内容构成一个json串,以方便我们进行序列化和反序列化。

首先安装jesoncpp(如果不会使用的,限于篇幅,可以去百度)

【Boost】:searcher的建立(四)_第7张图片

【Boost】:searcher的建立(四)_第8张图片

三.完整源代码

searcher.hpp

#include "index.hpp"
#include 
#include 

namespace ns_searcher
{
  class Searcher
  {
  private:
    ns_index::Index *index; // 供系统查找的接口
  public:
    Searcher()
    {
    }
    ~Searcher()
    {
    }

  public:
    // 初始化
    void InitSearcher(const std::string &input)
    {
      // 1.创建Index对象
      index = ns_index::Index::GetInstance();
      std::cout << "获取index单例成功....." << std::endl;

      // 2.创建索引
      index->BuildIndex(input);
      std::cout << "建立正排和倒排索引成功....." << std::endl;
    }
    // 查找
    void Search(const std::string &query, std::string *json_string)
    {
      // 1.分词
      std::vector<std::string> words; // 存放词
      ns_util::JiebaUtil::CutString(query, &words);

      // 2.触发:根据分词找到对应倒排拉链(注意:要忽略大小写)
      // 为了方便,这里经过了typedef,把倒排hash的second(vector)重命名成了InvertedList
      ns_index::InvertedList inverted_list_all; // 存放所有找到的文档的倒排拉链
      for (auto &s : words)
      {
        boost::to_lower(s);                                                // 忽略大小写
        ns_index::InvertedList *inverted_list = index->GetInvertedList(s); // 根据string获取倒排拉链
        if (nullptr == inverted_list)
          continue;
        inverted_list_all.insert(inverted_list_all.end(), inverted_list->begin(), inverted_list->end());
      }

      // 3.进行汇总排序
      class Less
      {
      public:
        bool operator()(const ns_index::InvertedElem &e1, const ns_index::InvertedElem &e2)
        {
          return e1.weight > e2.weight;
        }
      };
      std::sort(inverted_list_all.begin(), inverted_list_all.end(), Less());
      // std::sort(inverted_list_all.begin(), inverted_list_all.end(), [](const ns_index::InvertedElem &e1, const ns_index::InvertedElem &e2)
      //          { e1.weight > e2.weight; });

      // 4.构建jsoncpp串
      Json::Value root;
      for (auto &item : inverted_list_all)
      {
        ns_index::DocInfo *doc = index->GetForwardIndex(item.id); // 通过正排索引获取文档
        if (nullptr == doc)
          continue;
        Json::Value elem;
        elem["title"] = doc->title;
        elem["desc"] = doc->content; // 我们只需要展示一部分内容即可,这里以后会改
        elem["url"] = doc->url;

        root.append(elem);
      }
      Json::StyledWriter writer;
      *json_string = writer.write(root); // 写入目标文件
    }
  };
}

你可能感兴趣的:(boost搜索引擎,开发语言,服务器,linux)