m0_62180986

Boost搜索引擎项目

文章目录

- Boost搜索引擎项目
- - 1.项目的相关背景
  - - 写在前面
    - Boost库简介
    - 期望结果
  - 2.搜索引擎的宏观原理
  - 3.搜索引擎的技术栈和项目环境
  - 4.正排索引和倒排索引--->搜索引擎原理
  - - 样例
    - 正排索引
    - 文档分词
    - 倒排索引
    - 模拟一次查找过程
  - 5.数据的去标签与数据清洗
  - - 模块作用
    - 获取boost资源
    - 安装boost库
    - 编写思路
    - parser.cpp的基本框架
    - EnumFile接口的实现
    - ParseHtml接口实现
    - SaveHtml接口实现
    - 结果
  - 6.建立索引
  - - 引入分词工具cppjieba
    - index.cpp的基本框架
    - 建立正排索引
    - 建立倒排索引
  - 7.搜索列表
  - - 安装jsoncpp
    - 编写思路
    - searcher.cpp的基本框架
    - Search函数接口实现
    - 获取摘要
  - 8.本地测试
  - - 测试代码
    - 结果
  - 9.服务器
  - - 升级gcc/g++
    - 安装cpp-httplib
    - 服务器代码实现
  - 10.网页设计
  - - 网络资源存储
    - 网页代码实现
  - 11.项目部署至云服务器
  - 12.项目展示
  - 13.项目源码

Boost搜索引擎项目

1.项目的相关背景

写在前面

在如今的信息时代下,检索信息成为几乎人人的"必需品",在此大背景下,出现了诸如百度,360,搜狗等大型的搜索引擎。

而我们想做一个和百度，360这样的搜索引擎是不切实际的。

我们无法抓取全网信息并且保存，还要建立模型。

我们的服务器是云服务器，没有这么高的性能。

基于此我们可以通过做一个微型的搜索引擎达到"管中窥豹"的效果,明晰搜索引擎的运行原理。

由于我们的服务器是很普通的，没有那么好的性能。所以我们选择做一个站内搜索，而我们选择的是c++中的boost库。因为boost的官方网站中是没有站内搜索的。这样我们就达到了明晰搜索引擎的运行原理的目的也达到了方便我们自己后续进行boost学习的目的。

Boost库简介

Boost库是为C++语言标准库提供扩展的一些C++程序库的总称，由Boost社区组织开发、维护。Boost库可以与C++标准库完美共同工作，并且为其提供扩展功能。

Boost库由Boost社区组织开发、维护。其目的是为C++程序员提供免费、同行审查的、可移植的程序库。Boost库可以与C++标准库完美共同工作，并且为其提供扩展功能。Boost库使用Boost License来授权使用，根据该协议，商业的非商业的使用都是允许并鼓励的。

期望结果

我们可以看看一些主流搜索引擎搜索布局(我们也将仿照编程实现)

2.搜索引擎的宏观原理

3.搜索引擎的技术栈和项目环境

技术栈：
	后端:C/C++,C++11,STL,boost准标准库,Jsoncpp,cppjieba,cpp-httplib
	前端:HTML5,CSS,JS,jQuery,Ajax

项目环境:
	Centos7云服务器,vim/gcc(g++)/Makefile, vs2019/Vscode

4.正排索引和倒排索引—>搜索引擎原理

样例

我们先举几个例子方便说明

文档一: 张三拿到了录取通知书。
文档二: 张三拿到了录取通知书，被奖励手机。

正排索引

正排索引就是根据文档ID找到文档内容(文档关键字)

文档ID 文档内容

1 张三拿到了录取通知书。

2 张三拿到了录取通知书，被奖励手机。

文档ID	文档内容
1	张三拿到了录取通知书。
2	张三拿到了录取通知书，被奖励手机。

文档分词

为什么要进行分词呢？比如说我们搜索清华大学，页面不仅仅会显示清华大学还会显示和清华大学相关的内容。

文档分词目的: 方便查找与方便建立倒排索引

文档一: [张三拿到了录取通知书] —> 张三/拿到/录取/通知书张三/拿到/录取通知书

文档二: [张三拿到了录取通知书，被奖励手机] —> 张三/拿到/录取/通知书/奖励/手机

张三/拿到/录取通知书/奖励/手机

这里会发现我们进行分词时是省略了一些词的，我们省略的词是:暂停词/停止词

了的啊哦哟吗…

倒排索引

倒排索引就是根据文档内容进行分词，整理出文档不重复的所有关键字，最后对应到文档ID

文档关键字文档ID (为了严谨我们还会根据权重(weight)进行最终拍板,这里先写出)

张三文档1 文档2

拿到文档1 文档2

录取文档1 文档2

通知书文档1 文档2

录取通知书文档1 文档2

奖励文档1

手机文档1

文档关键字	文档ID (为了严谨我们还会根据权重(weight)进行最终拍板,这里先写出)
张三	文档1 文档2
拿到	文档1 文档2
录取	文档1 文档2
通知书	文档1 文档2
录取通知书	文档1 文档2
奖励	文档1
手机	文档1

模拟一次查找过程

用户输入: 录取通知书 —> 在倒排索引中查找 —> 找到了文档1 文档2 —> 根据正排索引查找 —> 找到相应文档内容 —> 文档结果摘要[title content url] —> 响应结果

5.数据的去标签与数据清洗

模块作用

该模块是我们将下载好的boost库文档原始文件按照需求进行提取并对提取的文件的标题,内容,网址进行处理

获取boost资源

进入官网 https://www.boost.org/

下载资源

在boost_1_81_0中不是所有文件我们都要，我们只要/boost_1_81_0/doc/html/*，所以要开始构建项目环境了

// 将下载好的boost库导入云服务器
rz -E
// 解包
unzip xzf boost_1_81_0.tar.tgz
// 在你安装的boost_1_81_0的目录下进行操作
mkdir -p data/SourceData      // 我们将我们所需要的文件拷贝放入进SourceData下
拷贝操作
cp -rf boost_1_81_0/doc/html/* data/SourceData (后面的符号是与前面形成了注释,复制前面的就可以了)*/ 
// 删除已经安装的boost_1_81_0.tar.tgz
rm -rf boost_1_81_0.tar.tgz

安装boost库

// 我们要用到boost库，所以我们要先安装
sudo yum install -y boost-devel
// 要引入的头文件
#include

编写思路

所以我们最终只要[ 网页标题title + 网页内容content + 网址url ]，其它的我们都不要

//上述我们将需要的文件放入进了data/SourceData 中  ---> 这是原始的，没有经过我们处理的文件。
// 我们还需要创建目录保存我们处理之后的。
cd data
mkdir parser.html
touch parserdata.txt   // 我们最终处理好的数据就放入parserdata.txt中

// 我们怎样处理数据
在保存网页数据的时候,我们使用 '\3'作为分隔符 这是因为在ASCII表中 , 控制字符是不可显示字符, 即无法打印。在我们获取的文档内容(即data/SourceData中的html网页文件)中,里面基本上都是可打印字符,基本上不会有不可显示的控制字符。如此以来也就不会污染我们的文档内容啦。

parser.cpp的基本框架

// 目录
const std::string src_path = "data/SourceData";
const std::string output = "data/parser.html/parserdata.txt";

typedef struct DocInfo
{
        std::string title;      // 文件的标题
        std::string content;    // 文件内容
        std::string url;        // 文件的路径
}DocInfo_t;

int main()
{
     std::vector files_list;
     // 1: 递归的将每个html(文件名带路径)保存
     EnumFile(src_path,&files_list)
 
        // 2: 对每个文件的内容读取和解析
        std::vector results;
        ParseHtml(files_list,&results)
   
        // 3: 将解析完成的各个文件的内容写入进output
        SaveHtml(results,output)
    
      return 0;
   }

EnumFile接口的实现

bool EnumFile(const std::string& src_path, std::vector* files_list)
{
     namespace fs = boost::filesystem;
     fs::path root_path(src_path);
     // 路径是否存在
     if(!fs::exists(root_path))
     {
         return false;
       }
   
     // 判断递归是否结束
    fs::recursive_directory_iterator end;
     for(fs::recursive_directory_iterator iter(root_path); iter != end; iter++)
     {
         // 判断是否是普通文件
           if(!fs::is_regular_file(*iter))
                 continue;
   
             // 判断文件后缀是否是.html
           if(iter->path().extension() != ".html")
                continue;
   
           files_list->push_back(iter->path().string());
       }
  
       return true;
   }

ParseHtml接口实现

bool ParseHtml(const std::vector& files_list, std::vector* results)
{
    for(const std::string& file : files_list)
    {
        // 1: 读取文件
        std::string result;
        if(!ns_util::FileUtil::ReadFile(file,&result))
            continue;

        // 2: 解析指定的文件,提取title
        DocInfo_t doc;
        if(!ParseTitle(result,&doc.title))
            continue;

        // 3: 解析指定的文件,提取content
        if(!ParseContent(result,&doc.content))
            continue;

        // 4: 解析指定的文件路径,构建url
        if(!ParseUrl(file,&doc.url))
            continue;

        results->push_back(doc);
    }

    return true;
}

// 2: 解析指定的文件,提取title
static bool ParseTitle(const std::string& file, std::string* title)
{
    std::size_t begin = file.find("");
    if(begin == std::string::npos)
      return false;

    std::size_t end = file.find("");
    if(end == std::string::npos)
      return false;

    begin += std::string("").size();

    if(begin > end)
      return false;

    *title = file.substr(begin,end - begin);

    return true;
}

// 3: 解析指定的文件,提取content
static bool ParseContent(const std::string& file, std::string* content)
{
    enum status
    {
      LABLE,
      CONTENT
    };

    enum status s = LABLE;
    for(char c : file)
    {
          switch(s)
          {
              case LABLE:
                  if(c == '>') s = CONTENT;
                  break;
              case CONTENT:
                  if(c == '<') s = LABLE;
                  else
                  {
                      content->push_back(c);
                  }
                  break;
              default:
                  break;
          }
    }

	return true;
}

// 4: 解析指定的文件路径,构建url
static bool ParseUrl(const std::string& file_path, std::string* url)
{
    std::string url_head = "https://www.boost.org/doc/libs/1_81_0/doc/html";
    std::string url_tail = file_path.substr(src_path.size());

    *url = url_head + url_tail;

	return true;
}

// 读取文件
class FileUtil
{
public:
    static bool ReadFile(const std::string& file_path, std::string* out)
    {
          std::ifstream in(file_path,std::ios::in);

          if(!in.is_open())
          {
              std::cerr << "open file " << file_path << " error " << std::endl;
              return false;
          }

          std::string line;
          while(std::getline(in,line))
          {
              *out += line;
          }

          in.close();

          return true;
    }
};
</code></pre> 
  </blockquote> 
  <h5>SaveHtml接口实现</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">bool SaveHtml(const std::vector<DocInfo_t>& resluts, const std::string& output)
{
#define SEP '\3'
     // 二进制的方式进行写入
     std::ofstream out(output, std::ios::out | std::ios::binary);
     if(!out.is_open())
     {
         std::cerr << "open " << output << " failed" << std::endl;
         return false;
     }

     // 对文件内容进行写入
     for(auto& item : resluts)
     {
         std::string out_string;
         out_string = item.title;
         out_string += SEP;
         out_string += item.content;
         out_string += SEP;
         out_string += item.url;
         out_string += '\n';

         out.write(out_string.c_str(),out_string.size());
     }

     out.close();

     return true;
}
</code></pre> 
  </blockquote> 
  <h5>结果</h5> 
  <blockquote> 
   <p><strong>vim parserdata.txt</strong></p> 
   <p><a href="http://img.e-com-net.com/image/info8/556bc4d2bd0145dba03e46a49dcb634e.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/556bc4d2bd0145dba03e46a49dcb634e.jpg" alt="Boost搜索引擎项目_第7张图片" width="650" height="273" style="border:1px solid black;"></a></p> 
  </blockquote> 
  <h4>6.建立索引</h4> 
  <h5>引入分词工具cppjieba</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">// jieba的使用--cppjieba
// 获取链接： git clone https://gitcode.net/mirrors/yanyiwu/cppjieba.git
// 我们需要自己执行： cd cppjieba; cp -rf deps/limonp include/cppjieba/, 不然会编译报错  
</code></pre> 
  </blockquote> 
  <h5>index.cpp的基本框架</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">struct DocInfo
{
    std::string title;      // 文档标题
    std::string content;    // 文档内容
    std::string url;        // 文档url
    uint64_t doc_id;        // 文档ID
};

struct InvertedElem
{
    uint64_t doc_id;
    std::string word;
    int weight;
};

typedef std::vector<InvertedElem> InvertedList;

class Index
{
public:
    Index() {}

    ~Index() {}

    // 根据文档ID(doc_id)找到文档内容
    DocInfo* GetForwardIndex(uint64_t doc_id)
    {
        return nullptr;
    }

    // 根据关键字string找到文档内容
    InvertedList* GetInvertedList(const std::string& word)
    {
        return nullptr;
    }

    // 根据去标签,格式化后的文档构建正排索引和倒排索引
    bool BuildIndex(const std::string& input)
    {
        // 建立正排索引
        DocInfo* doc = BuildForwardIndex(line);
        
        // 建立倒排索引
        BuildInvertedIndex(*doc);
        
        return true;
    }
    
private:
    // 正排索引
    std::vector<DocInfo> forward_index;
    // 倒排索引
    std::unordered_map<std::string, InvertedList> inverted_index;
};
</code></pre> 
  </blockquote> 
  <h5>建立正排索引</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">DocInfo* BuildForwardIndex(const std::string& line)
{
    // 1: 解析line,字符串切分
    // line ---> title content url
    std::vector<std::string> results;
    std::string sep = "\3";
	
    // 切分函数
    Split(line,&results,sep);

    // 2: 字符串填充到DocInfo
    DocInfo doc;
    doc.title = results[0];
    doc.content = results[1];
    doc.url = results[2];
    // 先保存ID再插入,ID与数组下标相对应
    doc.doc_id = forward_index.size();

    // 3: 插入进正排索引
    forward_index.push_back(std::move(doc));

    return &forward_index.back();
}


// 切分函数
void Split(std::string& target, std::vector<std::string>* out, std::string& sep)
{
    boost::split(*out, target, boost::is_any_of(sep), boost::token_compress_on);
}
</code></pre> 
  </blockquote> 
  <h5>建立倒排索引</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">//倒排索引一定是一个关键字对应一个或一组InvertedElem或vector<InvertedElem>

bool BuildInvertedIndex(const DocInfo& doc)
{
    // 统计每个标题,内容出现的次数
    struct word_cnt
    {
        int title_cnt;
        int content_cnt;

        word_cnt() : title_cnt(0), content_cnt(0) {}
    };

    std::unordered_map<std::string, word_cnt> word_map;   // 暂存词频的映射表

    // 对标题进行分词
    std::vector<std::string> title_words;
    // 分词函数
    CutString(doc.title, &title_words);

    // 对标题进行词频统计
    for(auto& s : title_words)
    {
        // 将分词统一转化为小写
        boost::to_lower(s);    
        word_map[s].title_cnt++;
    }

    // 对文档内容进行分词
    std::vector<std::string> content_words;
    // 分词函数
    CutString(doc.content, &content_words);

    // 对内容进行词频统计
    for(auto& s : content_words)
    {
        // 将分词统一转化为小写
        boost::to_lower(s);   
        word_map[s].content_cnt++;
    }

#define X 10
#define Y 1
    for(auto& word_pair : word_map)
    {
        InvertedElem item;
        item.doc_id = doc.doc_id;
        item.word = word_pair.first;
        item.weight= X * word_pair.second.title_cnt + Y*word_pair.second.content_cnt;
        InvertedList& inverted_list = inverted_index[word_pair.first];
        inverted_list.push_back(std::move(item));
    }
    return true;
}

// 分词函数
const char* const DICT_PATH = "./dict/jieba.dict.utf8";
const char* const HMM_PATH = "./dict/hmm_model.utf8";
const char* const USER_DICT_PATH = "./dict/user.dict.utf8";
const char* const IDF_PATH = "./dict/idf.utf8";
const char* const STOP_WORD_PATH = "./dict/stop_words.utf8";

class JiebaUtil
{
private:
    static cppjieba::Jieba jieba;

public:
    void CutString(const std::string& src, std::vector<std::string>* out)
    {
        jieba.CutForSearch(src, *out);
    }
};

cppjieba::Jieba JiebaUtil::jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
</code></pre> 
  </blockquote> 
  <h4>7.搜索列表</h4> 
  <h5>安装jsoncpp</h5> 
  <blockquote> 
   <p><strong>jsoncpp库用于实现json格式的序列化和反序列化，完成多个数据对象组织成为json格式字符串，以 及将json格式字符串解析成得到多个数据对象的数据。</strong></p> 
   <pre><code class="prism language-c++">// 安装jsoncpp
sudo yum install -y jsoncpp-devel
</code></pre> 
  </blockquote> 
  <h5>编写思路</h5> 
  <blockquote> 
   <p><a href="http://img.e-com-net.com/image/info8/ef76f685524d414ba468df97df41382e.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/ef76f685524d414ba468df97df41382e.jpg" alt="Boost搜索引擎项目_第8张图片" width="650" height="413" style="border:1px solid black;"></a></p> 
  </blockquote> 
  <h5>searcher.cpp的基本框架</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">class Searcher
{
private:
    // 供系统进行查找的索引
    Index::Index *index; 

public:
    Searcher()
    {
    }

    ~Searcher()
    {
    }

    void InitSearcher(const std::string &input)
    {
        // 1: 创建index对象
        // 2: 根据index对象建立索引
    }

    void Search(const std::string &query, std::string *json_string)
    {
        // 1: 对query按照searcher的要求进行分词
        // 2: 根据分词的各个"词",进行index查找,建立Index忽略大小写,搜索,关键字也需要
        // 3: 汇总查找结果,按照weight降序排序
        // 4: 根据查找出来的结果,构建json串 - jsoncpp - 通过jsoncpp完成序列化和反序列化
    }

    std::string GetDesc(const std::string &html_content, const std::string &word)
    {
        // 显示摘要(文档的一小部分内容)
        return ;
    }
};
</code></pre> 
  </blockquote> 
  <h5>Search函数接口实现</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">// query: 搜索关键字
// json_string: 返回给用户浏览器的搜索结果
void Search(const std::string &query, std::string *json_string)
{
    // 1: [分词]: 对query按照searcher的要求进行分词
    std::vector<std::string> words;
    CutString(query, &words);

    // 2: [触发]: 根据分词的各个"词",进行index查找,建立Index忽略大小写,搜索,关键字也需要
    Index::InvertedList inverted_list_all;

    for (std::string word : words)
    {
        boost::to_lower(word);

        Index::InvertedList *inverted_list = index->GetInvertedList(word);
        if (inverted_list == nullptr)
            continue;
        
        inverted_list_all.insert(inverted_list_all.end(), inverted_list->begin(), inverted_list->end());
    }
    // 3: [合并排序]: 汇总查找结果,按照weight降序排序
    std::sort(inverted_list_all.begin(), inverted_list_all.end(),
              [](const Index::InvertedElem &e1, const Index::InvertedElem &e2)
              { return e1.weight > e2.weight; });
    // 4: [构建]: 根据查找出来的结果,构建json串 - jsoncpp -- 通过jsoncpp完成序列化和反序列化
    Json::Value root;
    for (auto &item : inverted_list_all)
    {
        Index::DocInfo *doc = index->GetForwardIndex(item.doc_id);
        if (doc == nullptr)
            continue;

        Json::Value elem;
        elem["title"] = doc->title;
        // content是文档的去标签结果,但不是我们想要的,我们要一部分
        elem["desc"] = GetDesc(doc->content, item.word);
        elem["url"] = doc->url;
        
        root.append(elem);
    }

    Json::StyledWriter writer;
    *json_string = writer.write(root);
}
</code></pre> 
  </blockquote> 
  <h5>获取摘要</h5> 
  <blockquote> 
   <pre><code class="prism language-c++"> std::string GetDesc(const std::string &html_content, const std::string &word)
 {
     // 找到word在html_content中的首次出现,然后往前找50字节(如果没有,从begin开始),往后找100字节
     // (如果没有,到end就可以)
     int prev_step = 50;
     int next_step = 100;

     // 1: 找到首次出现
     auto iter = std::search(html_content.begin(), html_content.end(), word.begin(), word.end(), [](int x, int y){ return (std::tolower(x) == std::tolower(y)); });

     int pos = std::distance(html_content.begin(), iter);

     // 2: 获取start,end
     int start = 0;
     int end = html_content.size() - 1;

     // 如果之前有50个字符,开始更新

     if(pos > start + prev_step)
         start = pos - prev_step;
     if((int)pos < (int)(end - next_step))
         end = pos + next_step;
     
     // 3: 截取字串并返回
     if (start >= end)
         return string();

     return html_content.substr(start, end - start);
 }
</code></pre> 
  </blockquote> 
  <h4>8.本地测试</h4> 
  <h5>测试代码</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">const std::string input = "data/parser.html/parserdata.txt";

int main()
{
    Searcher::Searcher* search = new Searcher::Searcher();
    search->InitSearcher(input);

    std::string query;
    std::string json_string;
    while(true)
    {
        std::cout << "Pleasr Enter You Search Query# ";
        std::cin >> query;
        search->Search(query,&json_string);

        std::cout << json_string << std::endl;
    }
    return 0;
}
</code></pre> 
  </blockquote> 
  <h5>结果</h5> 
  <blockquote> 
   <p><a href="http://img.e-com-net.com/image/info8/02e97fba229f4fefa79348ac14a22bbd.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/02e97fba229f4fefa79348ac14a22bbd.jpg" alt="Boost搜索引擎项目_第9张图片" width="650" height="162" style="border:1px solid black;"></a></p> 
   <p><strong>到这里表明我们建立索引模块,搜索引擎模块是没有问题的,可以接着进行后续的操作</strong></p> 
  </blockquote> 
  <h4>9.服务器</h4> 
  <h5>升级gcc/g++</h5> 
  <blockquote> 
   <p><strong>我们接下来要将服务在网络上进行展示,所以我们要用到一个开源的HTTP库cpphttplib</strong></p> 
   <p><strong>cpp-httplib是一个以C++11特性编写的，跨平台HTTP/HTTPS库,要使用这个库我们必须有较高版本的gcc/g++</strong></p> 
   <pre><code class="prism language-c++">// 升级步骤
// 查看gcc/g++版本
gcc/g++ -v
// 安装scl
sudo yum install centos-release-scl scl-utils-build
// 安装新版本
sudo yum install -y devtoolset-7-gcc devtoolset-7-gcc-c++
    
// 每次手动启用较高版本
scl enable devtoolset-7 bash
gcc/g++ -v
    
// 永久启动
vim ~/.bash_profile 然后添加 scl enable devtoolset-7 bash
</code></pre> 
  </blockquote> 
  <h5>安装cpp-httplib</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">// 登录网址下载
https://gitee.com/welldonexing/cpp-httplib/tree/v0.7.15
// 下载完成导入进云服务器进行解包
</code></pre> <a href="http://img.e-com-net.com/image/info8/eab08b509a9d431981fcea54ebc923b1.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/eab08b509a9d431981fcea54ebc923b1.jpg" width="650" height="254" alt="Boost搜索引擎项目_第10张图片" style="border:1px solid black;"></a> 
  </blockquote> 
  <h5>服务器代码实现</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">const std::string input = "data/parser.html/parserdata.txt";
const std::string root_path = "./root";

int main()
{
        Searcher::Searcher search;
        search.InitSearcher(input);

        httplib::Server svr;

        // 设置相对根目录
        svr.set_base_dir(root_path.c_str());
        // 注册请求
        svr.Get("/s", [&search](const httplib::Request& req, httplib::Response& rsp){
  
        // 获取用户要搜索关键字
        std::string word = req.get_param_value("word");
        std::cout << "用户搜索: " << word << std::endl;

        // 响应服务
        std::string json_string;
        search.Search(word,&json_string);
        rsp.set_content(json_string, "application/json"); 
    });

    svr.listen("0.0.0.0",8029);
    
    return 0;
}
</code></pre> 
   <p><strong>本地测试成功这一步一定是没有问题的</strong></p> 
  </blockquote> 
  <h4>10.网页设计</h4> 
  <h5>网络资源存储</h5> 
  <blockquote> 
   <pre><code class="prism language-c++">// 创建根目录存放网络资源(代码，图片......)
mkdir root
cd root
touch index.html
</code></pre> 
  </blockquote> 
  <h5>网页代码实现</h5> 
  <blockquote> 
   <pre><code class="prism language-css"><span class="token selector"><!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <script src="http://code.jquery.com/jquery-2.1.1.min.js"></script>
    <title>Boost 搜索引擎

11.项目部署至云服务器

nohup ./http_server > log/log.txt 2>&1 &

12.项目展示

初始页面

搜索页面

13.项目源码

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Django：Python高级Web框架详解及参数设置零度° python python django 前端
Django是一个高级的PythonWeb框架，它鼓励快速开发和简洁实用的设计。Django遵循MVC设计模式，提供了一套完整的解决方案，用于构建复杂的、数据库驱动的网站。Django的主要特点自动管理数据库：通过ORM（对象关系映射）自动管理数据库。自动生成站点地图：支持搜索引擎优化（SEO）。用户身份认证：内置用户认证系统。中间件支持：强大的中间件支持，可以处理请求和响应。跨站请求伪造（CSR
ES(Elasticsearch)常用的函数遨游在知识的海洋里无法自拔 java
Elasticsearch（简称ES）是一个开源的搜索引擎，广泛用于全文搜索、分析和数据可视化。以下是一些常用的Elasticsearch函数和操作：索引操作创建索引PUT/index_name删除索引DELETE/index_name查看索引GET/index_name文档操作插入文档POST/index_name/_doc/{"field":"value"}获取文档GET/index_name
HTML 图片一壶浊酒.. 前端开发 html 前端
在HTML中，我们可以使用img标签来显示一张图片。对于img标签，我们只需要掌握它的三个属性：src、alt和title。alt属性用于描述图片，这个描述文字是给搜索引擎看的，并且当图片无法显示时，页面会显示alt中的文字。title属性也用于描述图片，不过这个描述文字是给用户看的，并且当鼠标指针移到图片上时，会显示title中的文字。colspan属性body{background-color
生信学习Day-1 GJJDr
1.如何学习2.怎样解决学习中遇到的问题？a.第一步:搜索：首选-谷歌，其次-必应，大神级的搜索引擎：虫部落快搜。专业教程-搜狗微信、搜狗知乎、、githubb.第二步：如果你的问题不知该如何搜索，可在微信群中与小组成员讨论c.第三步：正确的提问3.如何搭建高效的学习平台a.效率软件:（1）浏览器-chrome浏览器简洁高效无广告，可以添加插件，比如”沙拉查词”（自行搜索），可以即时翻译。（2）电
优质素材的六个搜索技巧老李大李和小李
一是要有耐心哦耐心不但是搜索的技巧而且是前提的、必要的。没有耐心进行搜索就不会有大量的好的输入。二是多关键词这个就像我们在搜索引擎中使用的方法，输入关键词反复搜索就会发现好多有用的而且是我们未知的知识。三是多渠道我们要利用各种搜索引擎和各种方式包括读书、和人聊天的方法来搜集资料。四是多维度至少要从三方面着手～文字、图片、视频。五是精准搜索有了前面做的功课，我们要对主题和材料进行凝炼～取其精华去除无
什么是黑链？什么是黑帽？什么是明链？倔强的小蚁云Zt 网络数据库 tcp/ip 运维
什么是黑链？什么是黑帽？什么是明链？黑链有哪几种表示方式！怎样预防黑链？首先我们说下黑链定义:黑链是SEO黑帽手法中相当普遍的一种手段，笼统地说，它就是指一些人用非正常的手段获取的其它网站的反向链接，最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR较高的网站的WEBSHELL，进而在被黑网站上链接自己的网站。黑链的写法黑链文本黑链标签被放在一个隐藏的div中。用户在浏览器中是无法看到的
精准剖析白帽SEO和黑帽SEO的区别 heimaoxuexi 黑帽seo 黑帽 seo 黑帽seo技术
我们都知道，SEO就是搜索引擎优化，是对网站进行内部及外部的不断调整优化，改进网站在搜索引擎中的关键词自然排名，获得更多流量。而SEO又分为白帽SEO和黑帽SEO，SEO中的黑帽SEO技术http://www.heimaolianmeng.com。根据做网站的实战经验，分享一下自己对于白帽SEO和黑帽SEO的见解。一、白帽SEO1、符合用户体验原理就是指我们网站上做的任何内容、任何图片以及任何网站
【程序员必读】如何利用AI高效编程，从容准时下班！ z千鑫 AI领域人工智能 Agent AI工具 AI助手工作流 AI编程 ai
前言：在编程的旅途中，程序员们常常面临各种挑战，尤其是在编写代码时，难题层出不穷。尽管传统搜索引擎提供了海量信息，但往往让我们在无尽的例子和复杂分析中迷失，难以找到真正适合自己的解决方案。正因如此，越来越多的程序员开始借助AI的力量，轻松应对这些难题，让工作变得更高效，从而实现准时下班的目标。问题：那么如何利用AI编写代码呢？一、明确问题的核心在使用AI生成代码之前，首先要明确你所遇到的问题是什么
万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
弹性搜索引擎Elasticsearch：本地部署与远程访问指南猴哥是肖鸿人工智能技术指导专升本 jenkins 运维
在大数据时代，数据搜索和分析成为企业核心竞争力的关键因素。弹性搜索引擎Elasticsearch作为一种分布式、可扩展的搜索和分析引擎，受到广泛欢迎。本文将介绍Elasticsearch的本地部署与远程访问，帮助读者更好地利用这一强大的工具。一、本地部署环境准备在开始部署Elasticsearch之前，需要准备以下环境：操作系统：Elasticsearch支持多种操作系统，如Linux、Windo
程序员如何平衡日常编码工作与提升式学习？--编程之路：平衡与成长的艺术青云交教学 java学习学习高效编码习惯与时间管理技巧提升式学习的策略职业发展与个人成长的和谐共生编程教会你如何思考--比尔盖茨 Java学习方法时间管理
目录引言：正文：方向一：高效编码习惯与时间管理技巧方向二：提升式学习的策略方向三：职业发展与个人成长的和谐共生结束语：引言：在当今科技飞速发展的时代，编程已成为一项至关重要的技能。正如比尔·盖茨所说：“编程教会你如何思考。”对于程序员来说，如何在繁忙的日常编码工作中不断提升自己，实现职业发展与个人成长的双赢，是一个极具挑战性的问题。例如，谷歌的搜索引擎算法就是一个经典的编程案例，它通过高效的算法和
2023-03-15 困的晕_5c43
1.简述引擎有哪些类型，各类搜索引擎的工作原理是什么。.（1）全文索引型（2）目录索引型（3）元数据索引型（4）垂直索引型（5）互动式索引型搜索引擎的原理可以分为：数据收集、建立索引数据库、索引数据库中搜索和排序。2.新媒体内容搜集工具有哪些？尝试使用这些工具搜集一些当前热点话题第一个：爆文素材采集工具做新媒体运营，每天都需要去搜集大量的爆文视频等素材，这里给大家推荐一个自媒体爆文素材采集工具--
云计算技术与应用 - 了解认识云计算 ZuckD 云计算运维
云计算的背景互联网自1960年开始兴起，主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭，随着web网站与电子商务的发展，网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜索引擎会议上提出，成为了互联网的第三次革命。近几年来，云计算也正在成为信息技术产业发展的战略重点，全球的信息技术企业都在纷纷向云计算转型。我们举例来
LlamaIndex 使用 RouterOutputAgentWorkflow hawk2014bj llamaIndex LLM agent
LlamaIndex中提供了一个RouterOutputAgentWorkflow功能，可以集成多个QueryTool，根据用户的输入判断使用那个QueryEngine，在做查询的时候，可以从不同的数据源进行查询，例如确定的数据从数据库查询，如果是语义查询可以从向量数据库进行查询。本文将实现两个搜索引擎，根据不同Query使用不同QueryEngine。安装MySQL依赖pipinstallmys
五类学习技巧之搜索技巧│《学习力》笔记06 翟树纯
在当今信息爆炸的时代，搜索引擎就相当于我们的外接大脑，为了充分发挥搜索引擎的威力，就要提高自己的搜索能力。我们平时用的最多的就是通用搜索引擎，以百度为例，不仅可以用来搜索文字，还可以进行学术搜索、图片搜索、视频搜索、地图搜索。术业有专攻，除了百度之类的通用搜索引擎，还有其他的专业搜索引擎，如网站历史查询、高清图库、学术网站、商业数据库等。01搜索两大原则1．换位思考从搜索引擎的角度思考，用关键词检
NLP面试题（9月4日笔记）好好学习Py 自然语言处理自然语言处理笔记人工智能
常见的分词方法分词是将连续的子序列按照一定的规则进行重新组合形成词序列的过程，是NLP领域内最基础的内容。常见的分词方法有jieba分词，jieba分词支持多种分词模模式：精确模式，全模式，搜索引擎模式。1）精确模式：将句子最精确的进行切分，适合文本分析，在日常工作中最为常用；2）全模式：将句子中所有可以成词的词语都扫描出来，速度非常快，但不能消除歧义。3）搜索引擎模式：在精确模式的基础上，对长词
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

Boost搜索引擎项目

文章目录

Boost搜索引擎项目

1.项目的相关背景

写在前面

Boost库简介

期望结果

2.搜索引擎的宏观原理

3.搜索引擎的技术栈和项目环境

4.正排索引和倒排索引—>搜索引擎原理

样例

正排索引

文档分词

倒排索引

模拟一次查找过程

5.数据的去标签与数据清洗

模块作用

获取boost资源

安装boost库

编写思路

parser.cpp的基本框架

EnumFile接口的实现

ParseHtml接口实现

11.项目部署至云服务器

12.项目展示

13.项目源码

你可能感兴趣的:(搜索引擎)