七月.cc

[C++项目] Boost文档站内搜索引擎(4): 搜索的相关接口的实现、线程安全的单例index接口、cppjieba分词库的使用、综合调试...

有关Boost文档搜索引擎的项目的前三篇文章, 已经分别介绍分析了:

项目背景: [C++项目] Boost文档站内搜索引擎(1): 项目背景介绍、相关技术栈、相关概念介绍…
文档解析、处理模块parser的实现: [C++项目] Boost文档站内搜索引擎(2): 文档文本解析模块parser的实现、如何对文档文件去标签、如何获取文档标题…
文档 正排索引与倒排索引 建立的接口的实现: [C++项目] Boost文档站内搜索引擎(3): 建立文档及其关键字的正排倒排索引、jieba库的安装与使用…
建议先阅读上面三篇文章

已经实现了对文档建立索引的相关接口. 有了接口, 就可以调用并建立文档索引.

建立了索引, 其实就可以根据索引查找文档了. 所以, 本篇文章的内容即为:

查找、搜索相关接口的实现
建立索引接口的相关优化
本地搜索测试

做完上面的内容, 就后面就是加入网络和页面的制作了~

搜索

搜索是通过输入的内容进行搜索的. 并且一定是 先在倒排索引中找到文档id, 再根据文档id去正排索引中找到文档 的内容.

而倒排索引中存储的内容是对文档内容进行分词, 然后根据分词建立的.

那么要实现搜索, 也需要 对搜索的内容进行分词, 然后再根据搜索内容的分词在倒排索引中查找关键词对应的倒排拉链

搜索接口的基本结构

了解了搜索的流程, 那么搜索的相关接口的基本结构实际也就显现出来了:

namespace ns_searcher {
	class searcher {
	private:
		ns_index::index* _index; // 建立索引的类

	public:
        // 初始化接口
        // 在搜索之前需要先建立索引. 这个接口就是建立索引用的
		void initSearcher(const std::string& input) {}

		// 搜索接口
		// 搜索需要实现什么功能?
        // 搜索需要接收字符串, 然后针对字符串进行分词 再根据分词在索引中进行查找
		// 首先参数部分需要怎么实现?
		// 参数部分, 需要接收需要搜索的句子或关键字, 还需要一个输出型参数 用于输出查找结果
		//  查找结果我们使用jsoncpp进行序列化和反序列化
		void search(const std::string& query, std::string* jsonString) {}

基本的结构就这么简单. 只需要对外提供两个接口:

initSearcher() 初始化接口
search() 搜索接口

`initSearcher()`接口实现

initSearcher() 是用来做搜索前的工作的, 实际就是建立索引的接口

但是, 在建立索引之前我们清楚所有的搜索都是在唯一一个倒排索引和唯一一个正排索引中进行的. 也就是说 最终一个程序中只需要建立一次索引. 所以我们可以将索引的相关函数实现为单例.

`index`接口类单例实现

index类的单例实现非常的简单:

namespace ns_index {

	// 用于正排索引中 存储文档内容
	typedef struct docInfo {
		std::string _title;	  // 文档标题
		std::string _content; // 文档去标签之后的内容
		std::string _url;	  // 文档对应官网url
		std::size_t _docId;	  // 文档id
	} docInfo_t;

	// 用于倒排索引中 记录关键字对应的文档id和权重
	typedef struct invertedElem {
		std::size_t _docId;	   // 文档id
		std::string _keyword;  // 关键字
		std::uint64_t _weight; // 搜索此关键字, 此文档id 所占权重

		invertedElem() // 权重初始化为0
			: _weight(0) {}
	} invertedElem_t;

	// 关键字的词频
	typedef struct keywordCnt {
		std::size_t _titleCnt;	 // 关键字在标题中出现的次数
		std::size_t _contentCnt; // 关键字在内容中出现的次数

		keywordCnt()
			: _titleCnt(0)
			, _contentCnt(0) {}
	} keywordCnt_t;

	// 倒排拉链
	typedef std::vector<invertedElem_t> invertedList_t;

	class index {
	private:
		// 正排索引使用vector, 下标天然是 文档id
		std::vector<docInfo_t> forwardIndex;
		// 倒排索引 使用 哈希表, 因为倒排索引 一定是 一个keyword 对应一组 invertedElem拉链
		std::unordered_map<std::string, invertedList_t> invertedIndex;

		// 单例模式设计
		index() {}

		index(const index&) = delete;
		index& operator=(const index&) = delete;

		static index* _instance; // 单例
		static std::mutex _mtx;

	public:
		// 获取单例
		static index* getInstance() {
			if (nullptr == _instance) {
				_mtx.lock();
				if (nullptr == _instance) {
					_instance = new index;
				}
				_mtx.unlock();
			}

			return _instance;
		}
		
        // 通过关键字 检索倒排索引, 获取对应的 倒排拉链
		invertedList_t* getInvertedList(const std::string& keyword) {}

		// 通过倒排拉链中 每个倒排元素中存储的 文档id, 检索正排索引, 获取对应文档内容
		docInfo_t* getForwardIndex(std::size_t docId) {}

		// 根据parser模块处理过的 所有文档的信息
		// 提取文档信息, 建立 正排索引和倒排索引
		// input 为 ./data/output/raw
		bool buildIndex(const std::string& input) {}

	private:
		// 对一个文档建立正排索引
		docInfo_t* buildForwardIndex(const std::string& file) {}
        // 对一个文档建立倒排索引
		bool buildInvertedIndex(const docInfo_t& doc) {}
	};
	// 单例相关
	index* index::_instance = nullptr;
	std::mutex index::_mtx;
}

需要做的工作也就只有:

添加两个成员变量, 并在类外定义:

static index* _instance;

static std::mutex _mtx;
构造函数设置私有, 拷贝构造函数和赋值重载函数删除:

index() {}

index(const index&) = delete;

index& operator=(const index&) = delete;

添加线程安全的获取单例的公开接口:

static index* getInstance() {
    if (nullptr == _instance) {
        _mtx.lock();
        if (nullptr == _instance) {
            _instance = new index;
        }
        _mtx.unlock();
    }

    return _instance;
}

这样就将index类设计为了单例模式

接口实现

initSearcher()接口的实现也是非常的简单, 只需要建立索引就可以了:

void initSearcher(const std::string& input) {
    // 搜索前的初始化操作
    // search类成员 ns_index::index* _index 获取单例
    _index = ns_index::index::getInstance();
    std::cout << "获取单例成功 ..." << std::endl;
    
    // 建立索引
    _index->buildIndex(input);
    std::cout << "构建正排索引、倒排索引成功 ..." << std::endl;
}

`search()`接口实现 **

searcher类中, 初始化接口initSearcher()实现的简单.

但是search()就没有那么简单了, 需要注意非常多的细节

搜索接口需要实现的功能是:

接收字符串, 然后针对字符串进行分词
再根据分词在倒排索引中查找对应的倒排拉链
通过倒排拉链获取相关文档的id
再根据文档id, 查找正排索引查找对应的文档内容信息
最终查找到的文档内容信息是需要输出的, 所以我们接口使用了输出型参数

但这只是功能实现的整体逻辑. 还有许多的细节需要考虑:

倒排索引中的关键词都是小写的, 而搜索输入的内容很可能存在大小写, 如何实现忽略大小写的搜索呢?
查找到倒排拉链之后, 是可以通过遍历拉链获取到文档id等相关信息的

不过, 页面的显示是需要按照相关度排序的, 我们也在倒排索引中使用词频简单地体现出了关键字与对应文档的相关性

那么如何对获取到的文档进行排序呢?
在查找的时候, 一定会有不同的词查找到同一个文档的问题. 那么如果不做处理, 就会出现同一个文档在页面中不同的位置被显示出来的问题, 该怎么解决呢?
获取到文档内容信息之后, 是需要将设置文档需要展示的相关信息的: title description url

如果文档内容过长, 一定不能将文档全部内容展示在搜索页面中, 那么如何获取文章相关的摘要呢?
还有一些其他细节, 结合代码具体分析…

那么, 根据需求 search()接口的实现代码就是这样的:

typedef struct invertedElemOut {
    std::size_t _docId;
    std::uint64_t _weight;
    std::vector<std::string> _keywords;
} invertedElemOut_t;

// 搜索接口
// 首先参数部分需要怎么实现?
// 参数部分, 需要接收需要搜索的句子或关键字, 还需要一个输出型参数 用于输出查找结果
//  查找结果我们使用jsoncpp进行序列化和反序列化
// search() 具体需要实现的功能:
//  1. 对接收的句子或关键词进行分词
//  2. 根据分词, 在倒排索引中查找到所有分词的倒排拉链 并汇总其中的 invertedElem, 然后根据相关性进行排序
//  4. 然后再遍历所有的 invertedElem, 根据 invertedElem中存储的 文档id, 在正排索引中获取到文档内容
//  5. 然后将获取到的文档内容使用jsoncpp 进行序列化, 存储到输出型参数中
// 直到遍历完invertedElem
void search(const std::string& query, std::string* jsonString) {
    // 1. 对需要搜索的句子或关键词进行分词
    std::vector<std::string> keywords;
    ns_util::jiebaUtil::cutString(query, &keywords);

    // 统计文档用, 因为可能存在不同的分词 在倒排索引中指向同一个文档的情况
    // 如果不去重, 会重复展示
    std::unordered_map<std::size_t, invertedElemOut_t> invertedElemOutMap;
    // 2. 根据分词获取倒排索引中的倒排拉链, 并汇总去重 invertedElem
    for (std::string word : keywords) {
        boost::to_lower(word);

        ns_index::invertedList_t* tmpInvertedList = _index->getInvertedList(word);
        if (nullptr == tmpInvertedList) {
            // 没有这个关键词
            continue;
        }

        for (auto& elem : *tmpInvertedList) {
            // 遍历倒排拉链, 根据文档id 对invertedElem 去重
            auto& item = invertedElemOutMap[elem._docId]; // 在map中获取 或 创建对应文档id的 invertedElem
            item._docId = elem._docId;
            item._weight += elem._weight;
            // 权重需要+= 是因为多个关键词指向了同一个文档 那么就说明此文档的与搜索内容的相关性更高
      		// 就可以将多个关键字关于此文档的权重相加, 表示搜索相关性高
            // 最好也将 此文档相关的关键词 也存储起来, 因为在客户端搜索结果中, 可能需要对网页中有的关键字进行高亮
            // 但是 invertedElem 的第三个成员是 单独的一个string对象, 不太合适
            // 所以, 可以定义一个与invertedElem 相似的, 但是第三个成员是一个 vector 的类, 比如 invertedElemOut
            item._keywords.push_back(elem._keyword);
            // 此时就将当前invertedElem 去重到了 invertedElemMap 中
        }
    }
    
    // vector 存储 文档id相关信息, 方便排序
    std::vector<invertedElemOut_t> allInvertedElemOut;
    // 出循环之后, 就将搜索到的 文档的 id、权重和相关关键词 存储到了 invertedElemMap
    // 然后将文档的相关信息 invertedElemOut 都存储到 vector 中
    for (const auto& elemOut : invertedElemOutMap) {
        // map中的second: elemOut, 在执行此操作之后, 就没用了
        // 所以使用移动语义, 防止发生拷贝
        allInvertedElemOut.push_back(std::move(elemOut.second));
    }

    // 执行到这里, 可以搜索到的文档id 权重 和 相关关键词的信息, 已经都在allInvertedElemOut 中了.
    // 但是, 还不能直接 根据文档id 在正排索引中检索
    // 因为, 此时如果直接进行文档内容的索引, 在找到文档内容之后, 就要直接进行序列化并输出了. 而客户端显示的时候, 反序列化出来的文档顺序, 就是显示的文档顺序
    // 但是现在找到的文档还是乱序的. 还需要将allInvertedElemOut中的相关文档, 通过_weight 进行倒序排列
    // 这样, 序列化就是按照倒序排列的, 反序列化也会如此, 显示同样如此
    std::sort(allInvertedElemOut.begin(), allInvertedElemOut.end(),
              [](const invertedElemOut_t& elem1, const invertedElemOut_t& elem2) {
                  return elem1._weight > elem2._weight;
              });

    // 排序之后, allInvertedElemOut中 文档的排序就是降序了
    // 然后 通过遍历此数组, 获取文档id, 根据id获取文档在正排索引中的内容
    // 然后再将 所有内容序列化
    Json::Value root;
    for (auto& elemOut : allInvertedElemOut) {
        // 通过Json::Value 对象, 存储文档内容
        Json::Value elem;
        // 通过elemOut._docId 获取正排索引中 文档的内容信息
        ns_index::docInfo_t* doc = _index->getForwardIndex(elemOut._docId);
        // elem赋值
        elem["url"] = doc->_url;
        elem["title"] = doc->_title;
        // 关于文档的内容, 搜索结果中是不展示文档的全部内容的, 应该只显示包含关键词的摘要, 点进文档才显示相关内容
        // 而docInfo中存储的是文档去除标签之后的所有内容, 所以不能直接将 doc._content 存储到elem对应key:value中
        elem["desc"] = getDesc(doc->_content, elemOut._keywords[0]); // 只根据第一个关键词来获取摘要
        // for Debug
        // 这里有一个bug, jsoncpp 0.10.5.2 是不支持long或long long 相关类型的, 所以需要转换成 double
        // 这里转换成 double不会有什么影响, 因为这两个参数只是本地调试显示用的.
        elem["docId"] = (double)doc->_docId;
        elem["weight"] = (double)elemOut._weight;

        root.append(elem);
    }

    // 序列化完成之后将相关内容写入字符串
    // for Debug 用 styledWriter
    Json::StyledWriter writer;
    *jsonString = writer.write(root);
}

执行搜索, 首先要做的就是 对传入的字符串进行分词

然后根据每个分词, 在倒排索引中查找对应的倒排拉链, 再通过遍历倒排拉链就可以获取到当前关键字对应出现的文档相关信息.

不过, 分词之后-遍历时-正式查找之前要做的首要任务就是, 将分词转换为小写. 因为, 倒排索引中的所有关键词都是小写的状态

并且, 查找到倒排拉链在获取并统计文档信息时, 还会出现不同关键字指向同一文档的情况, 这种情况是需要处理的 不能多次记录同一个文档.

还有就是, 如果一次搜索中 多个关键词指向了同一个文档那么就说明此文档的与搜索内容的相关性更高, 此时是需要将文档的显示权重增加的.

根据这些需求, 实现了第一部分的代码:

第一部分的代码实现了:

对搜索内容分词
遍历分词查找倒排拉链
根据倒排拉链去重获取文档信息

这部分代码, 有三个要点:

需要定义一个unordered_map来实现对搜索到的文档记录并去重
如果单纯地对多个关键词搜到的同一个文档去重, 而不记录相关的关键字, 那么就无法得知此文档是根据那些关键字搜索到的. 那么再去重的同时, 还需要记录对应的关键词

也就是说, unordered_map 存储的元素类型不能是简单的ns_index::invertedElem, 因为invertedElem没有办法很好的记录多个关键词

所以, 定义了一个结构体:
```
typedef struct invertedElemOut {
    std::size_t _docId;
    std::uint64_t _weight;
    std::vector<std::string> _keywords;
} invertedElemOut_t;
```
成员依旧包括文档id和权重, 但是第三个成员变量与invertedElem不同, invertedElemOut的第三个成员变量是vector, 适合存储多个关键字.
第三个要点就是: unordered_map中存储的对应此关键字的元素的权重, 需要+=当前关键字的权重.

因为 多个关键词指向了同一个文档那么就说明此文档的与搜索内容的相关性更高, 所以就可以将多个关键字关于此文档的权重相加, 表示搜索相关性高

第一部分执行完之后, 根据搜索内容查找到的所有的文档的相关信息, 都存储在了invertedElemOutMap中.

接下来要做的, 并不是遍历unordered_map获取文档id, 去正排索引中查找文档的内容. 而是需要先根据文档的显示权重进行排序. 排完序之后, 再进行文档内容的获取.

因为, 获取每到一个文档内容就需要将文档内容输出了, 输出之后就要做处理响应回客户端进行显示了. 这也意味着在正排索引中的查找顺序实际就是搜索结果的显示顺序, 所以在查找之前, 需要先排序:

这里的实现, 先使用vector存储invertedElemOut元素. 为了方便排序

然后通过std::sort()+lambda进行降序排序

这里需要注意一个细节:

在向vector插入元素时, 对invertedElemOutMap中存储的元素执行std::move()

也就是使用移动语义, 防止发生拷贝构造.

可以使用移动语义的原因就是, 构建完vector之后, invertedElemOutMap就没用了, 不需要存储元素.

执行完这一部分代码. 此次搜索到的所有的文档id相关信息就按照显示权重的降序被存储到了 std::vector allInvertedElemOut中.

接下来, 就是根据文档id相关信息在正排索引中查找文档内容信息了

这部分代码, 实际就是搜索的最后一部分代码了.

最后一部分的代码其实相对简单, 只需要在正派索引中找到文档的内容信息, 然后序列化并存储起来就可以了.

等获取到全部的文档内容信息, 再将结果通过输出型参数传递出去就可以了

对内容做序列化处理, 需要用到jsoncpp.

在CentOS平台下, 直接执行sudo yum install -y jsoncpp-devel就可以安装了

关于jsoncpp最基本的使用的相关介绍, 可以看一下这篇文章:

[Linux] 初识应用层协议: 序列化与反序列化、编码与解码、jsoncpp简单食用…

这段代码中, 唯一要注意的就是:

使用Json::Value root存储Json::Value elem的方式, 在root存储不同文档的序列化内容.

在之前的使用中, 只需要通过Json::Value变量序列化一个结构体之后, 就可以将Json::Value的结果写入string了.

而, 这里为什么要套两层Json::Value呢?

因为, 这里传输的不只是一个结构体变量的内容, 而是 有很多个结构体. 很多个同类型结构体的内容都需要序列化并存储起来, 很自然而然就可以想到要使用两层结构. 并且还需要保证序列化, 所以就是用Json::Value嵌套的方式对不同的文档内容序列化并存储.

而 Json::Value也很好的支持了存储Json::Value的接口, 就是Json::Value::append().

源码中关于append()的声明, 参数就是Json::Value&:

Value& Value::append(const Value& value) { return append(Value(value)); }

Value& Value::append(Value&& value) {
JSON_ASSERT_MESSAGE(type() == nullValue || type() == arrayValue,
                   "in Json::Value::append: requires arrayValue");
if (type() == nullValue) {
 *this = Value(arrayValue);
}
return this->value_.map_->emplace(size(), std::move(value)).first->second;
}

还有就是, elem中并不序列化存储文档的完整内容, 而是存储文档的部分内容.

所以就需要实现一个getDesc()接口

`getDesc()`摘要获取接口实现

我们摘要获取的思路非常简单, 就是在正文内容中找到第一个关键词的所在位置. 然后截取此位置的前50字节到此位置的后100字节的内容.

std::string getDesc(const std::string& content, const std::string& keyword) {
    // 如何获取摘要呢?
    // 我们尝试获取正文中 第一个keyword 的前50个字节和后100个字节的内容 作为摘要
    const std::size_t prevStep = 50;
    const std::size_t nextStep = 100;
    
   	// 获取正文中 第一个 keyword 的位置
    std::size_t pos = content.find(keyword);
    if (pos == std::string::npos)
        return "keyword does not exist!";

    std::size_t begin = 0;
    std::size_t end = content.size() - 1;

    // 获取前50字节 和 后100字节的迭代器位置
    if (pos > begin + prevStep)
        begin += (pos - prevStep);
    if (pos + nextStep < end)
        end = pos + nextStep;

    if (begin >= end)
        return "nothing!";

    // 获取摘要
    std::string desc;
	if (content.begin() + begin > content.begin())
		desc = "...";
	desc += content.substr(begin, end - begin);
	if (content.begin() + end < content.end())
		desc += "...";

    return desc;
}

演示及调试

上面已经将所有搜索的相关接口都实现了.

下面我们通过一个简单的代码调试一下:

#include 
#include "util.hpp"
#include "index.hpp"
#include "searcher.hpp"

const std::string& rawPath = "./data/output/raw";

int main() {
	ns_searcher::searcher searcher;
	searcher.initSearcher(rawPath);

	std::string query;
	std::string json_string;

	char buffer[1024];
	while (true) {
		std::cout << "Please Enter You Search Query# ";
		fgets(buffer, sizeof(buffer) - 1, stdin);
		buffer[strlen(buffer) - 1] = 0;
		query = buffer;
		searcher.search(query, &json_string);
		std::cout << json_string << std::endl;
	}

	return 0;
}

这段代码可以把搜索到的内容直接打印出来.

我们演示一下:

首先是建立索引的过程:

然后就是搜索

从大体的结果上来看, 是没什么问题的. 不仅可以搜索到, 而且是按照weight排序的

但是, 为什么desc会是keyword does not exist!?

搜到了文档, 应该就表示文档中有这个关键词. 但为什么会出现keyword does not exist!?

其实原因很简单: 我们通过关键词在倒排索引中搜索, 都是通过全小写来搜索的. 所以可以搜到文档. 但是getDesc()获取摘要的接口, 可并没有实现通过小写来查询关键字. 这时候, 就有可能找不到全小写的关键字, 也就无法获取摘要.

所以, getDesc()接口在正文内容中查找关键字的行为, 不能简单的使用string::find().

`getDesc()`接口优化

不能使用string::find(), 并且 string也并没有提供忽略大小写搜索的接口

而且, 关键词可以改为小写, 但是也不能将正文内容全部转换成小写呀.

那么, 在正文中如何忽略大小写的查找关键词呢?

std::search()接口. 可以通过仿函数来设置字符之间的查找方式:

std::string getDesc(const std::string& content, const std::string& keyword) {
    // 如何获取摘要呢?
    // 我们尝试获取正文中 第一个keyword 的前50个字节和后100个字节的内容 作为摘要
    const std::size_t prevStep = 50;
    const std::size_t nextStep = 100;
    // 获取正文中 第一个 keyword 的位置

    // std::size_t pos = content.find(keyword);
    // if (pos == std::string::npos)
	//     return "keyword does not exist!";
    // 直接这样处理, 会出现一个问题:
    // keyword是有大小写的. 倒排索引中查找 我们实现的是忽略大小写, 所以可以找到文档
    // 而 string::find() 是区分大小写的查找, 可能无法在内容中找到对应的关键词
    // string容器也没有提供不区分大小写的查找方法
    // 此时, 可以用std::search()
    // std::search(it1, it2, it3, it4, pred);
    // 可以在[it1, it2)中 查找第一个[it3, it4)(词语)的出现位置.
    // 并且, 如果使用第5个参数, 就可以传入 带有两个参数的仿函数, 这两个参数就是需要比较的字符
    // 可以在仿函数内设置这两个字符的比较方式
    // 最终会返回找到的找到的单次第一个字符位置的迭代器, 否则返回it2
    auto iter = std::search(content.begin(), content.end(), keyword.begin(), keyword.end(),
                            [](int x, int y) {
                                return std::tolower(x) == std::tolower(y);
                            });
    if (iter == content.end())
        return "keyword does not exist!";
    std::size_t pos = std::distance(content.begin(), iter);

    std::size_t begin = 0;
    std::size_t end = content.size() - 1;

    // 获取前50字节 和 后100字节的迭代器位置
    if (pos > begin + prevStep)
        begin += (pos - prevStep);
    if (pos + nextStep < end)
        end = pos + nextStep;

    if (begin >= end)
        return "nothing!";

    // 获取摘要
    std::string desc;
    if (pos <= begin + prevStep)
        desc = "...";
    desc += content.substr(begin, end - begin);
    if (pos + nextStep < end)
        desc += "...";

    return desc;
}

使用std::search(it1, it2, it3, it4, pred);

可以在[it1, it2)中查找第一个[it3, it4)(词语)的出现位置.

并且, 如果使用第5个参数, 就可以传入 带有两个参数的仿函数, 这两个参数就是需要比较的字符 可以在仿函数内设置这 两个字符的比较方式

最终会返回找到的找到的单次第一个字符位置的迭代器, 否则返回it2

在仿函数内, 将参数字符都以小写的形式比较, 就可以实现忽略大小写比较:

这次, 就可以在文档中找到关键词了.

代码实现到这里, 本地搜索的接口其实已经相对完善了.

但是还并没有结束

停用词的处理 *

在项目中, 我们使用jieba库针对搜索内容和文档内容来分词, 分别用来搜索和建立索引.

但是, 分词时很可能会分出一些非常常见的词, 比如中文的: 了 在 的 它 他 她 你… 还有英文的: a an the you it that this … 还有一些标点符号. 这部分词被称为 停用词 或 停止词 或 暂停词

这些词, 实际对这种文档的搜索是没有什么用的. 而我们在分词的时候并没有去除这些字, 这会导致什么结果呢?

搜索the a an都能搜出文档, 但是我们输入的并不是具有目的的有效内容. 空格都能搜出文档.

而, 我们的目的是防止用户通过停用词查找到了一些无关的文档.

所以, 我们可以将这些 停用词 在分词之后, 去除掉.

怎么去除呢? jieba分词库, 已经提供了统计了常见的停用词的文件:

内容是这样一行一行的:

我们只需要将文件的内容按行以string的类型读取到内存中, 然后在分词之后遍历分词进行查找去除, 就可以实现去除分词中的停用词.

jieba提供的停用词有些不适合被过滤掉, 有兴趣可以自己整理一下

比如 about, 毕竟Boost库文档中的第一个文档名就是about. 如果被当作停用词去掉了, 是不是有点不合适?

博主把 about any move 删除掉. 因为data/input目录下存在以这三个单词为名的文档:

然后可以在util.hpp中的jiebaUtil类中添加一个去除停用词的版本.

由于需要将停用词从文件加载到内存中, 而且只需要加载一次, 所以可以考虑将jiebaUtil设置为单例:

const char* const DICT_PATH = "./cppjiebaDict/jieba.dict.utf8";
const char* const HMM_PATH = "./cppjiebaDict/hmm_model.utf8";
const char* const USER_DICT_PATH = "./cppjiebaDict/user.dict.utf8";
const char* const IDF_PATH = "./cppjiebaDict/idf.utf8";
const char* const STOP_WORD_PATH = "./cppjiebaDict/stop_words.utf8";

class jiebaUtil {
    private:
    cppjieba::Jieba _jieba;
    std::unordered_map<std::string, bool> _stopKeywordMap;

    jiebaUtil()
        : _jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH) {}

    jiebaUtil(const jiebaUtil&) = delete;
    jiebaUtil& operator=(const jiebaUtil&) = delete;

    static jiebaUtil* _instance;

    private:
    // 主要是为了支持 消除停止词的分词
    // 也就是需要将停止词, 写入到 map中
    bool initJiebaUtil() {
        // 首先按行读取文件 const char* const STOP_WORD_PATH = "./cppjiebaDict/stop_words.utf8"
        std::ifstream stopFile(STOP_WORD_PATH, std::ios::in);
        if (!stopFile.is_open()) {
            return false;
        }

        std::string line;
        while (std::getline(stopFile, line)) {
            _stopKeywordMap.insert({line, true});
        }

        stopFile.close();

        return true;
    }
    
    void noStopHelper(const std::string& src, std::vector<std::string>* out) {
        _jieba.CutForSearch(src, *out);
        // 遍历out 查询是否为停止词 是则删除
        // 需要注意迭代器失效的问题
        for (auto iter = out->begin(); iter != out->end();) {
            std::string word = *iter;
            boost::to_lower(word);
            // 这里要注意, 函数的第一个参数 src 传入的一般是文档原文 或 搜索内容的原文
            // 原文内容都是区分大小写的, 也就是说这里的iter指向的分词都是有大小写之分的
            // 而jieba库提供的停用词都是小写的, 也就是说_stopKeywordMap内存储的内容都是小写的
            // 如果拿着有大小写之分的分词, 在停用词表中查找, 是查找不到的. 
            // 所以在查找之前, 要先将iter指向的分词 小写化, 然后再在停用词表中找
            auto stopIt = _stopKeywordMap.find(word);
            if (stopIt != _stopKeywordMap.end())
                // 注意接收erase的返回值 防止出现迭代器失效问题
                iter = out->erase(iter);
            else
                iter++;
        }
    }

    public:
    static jiebaUtil* getInstance() {
        static std::mutex mtx;
        if (nullptr == _instance) {
            mtx.lock();
            if (nullptr == _instance) {
                _instance = new jiebaUtil;
                _instance->initJiebaUtil(); // 初始化单例
            }
            mtx.unlock();
        }

        return _instance;
    }

    // 分词: 不消除停止词的版本
    void cutString(const std::string& src, std::vector<std::string>* out) {
        _jieba.CutForSearch(src, *out);
    }
    // 分词: 消除停止词的版本
    void cutStringNoStop(const std::string& src, std::vector<std::string>* out) {
        noStopHelper(src, out);
    }
};
jiebaUtil* jiebaUtil::_instance;

具体的实现思路是:

添加一个unordered_map成员对象, 用来记录停用词
定义一个initJiebaUtil()接口, 用于初始化jiebaUtil类. 实际做的是将停用词加载到unordered_map中的工作
然后定义一个私有的noStopHelper()接口, 用于以消除暂停词的方式分词
然后提供一个公有的cutStringNoStop()接口, 封装noStopHelper().
然后再实现线程安全的单例模式就好了

特别需要注意的一点是: 实现对分词进行去除停用词的操作时, 在对src分词之后需要遍历分词并在停用词表中查找是否为停用词. 查找此分词在停用词表中查找是否存在时, 必须要先将分词小写化. 因为停用词表中的词都是小写的, 如果拿着有大小写之分的词, 去查全小写的表, 会出现应该找到但是却没有找到的情况.

并且, 将jiebaUtil设置为单例模式. 也就意味着之前调用分词的接口需要修改一下. 不过先不急.

先来分析几个问题:

分词操作要在哪里做?

答: 搜索的时候, 对输入的内容分词以及建立倒排索引的时候, 对文档的内容分词
去除停用词的分词操作, 是否会消耗更长的时间、更多的资源?

答: 肯定会的. 因为去除停用词的步骤, 说到底就是遍历分出来的词并在停用词的unordered_map中查找是否有当前词. 至少是一个O(N)的过程
搜索时和建立索引时, 是否都需要用到去除停用词的分词操作?

答案是, 不需要 都使用去除停用词的分词操作

这两方, 只要有一方去除了停用词. 那么在搜索时, 就不会根据停用词去搜索文档. 那么也就分了两种情况:
1. 搜索时去除了停用词, 建立索引时没有去除停用词
  
  那么, 就只会使用有效词搜索, 索引中是否存在停用词的相关索引也就没有关系
2. 搜索时没有去除停用词, 建立索引时去除了停用词
  
  那么, 索引中就不会存在停用词的相关索引, 就算使用停用词去搜索, 也不会根据停用词搜索到文档.
这两种情况, 有很大的区别. 我们知道, 去除停用词是需要消耗资源的. 分词越多, 用的时间就越久, 那么对于建立索引时的去除停用词操作来说, 那将会是一个非常耗时的工程.

每一篇文档内容都可能分出上千甚至上万的词. 如果对每篇文档的分词在进行去除停用词的操作. 那将会非常的耗时.

那么:
1. 对于第一种情况. 搜索时输入的内容绝大情况下是比文档内容少的. 虽然也会有一定的消耗, 但是没有建立索引时消耗的大
  
  如果只在搜索时, 对搜索分词进行去除停用词. 而建立索引时不去除停用词
  
  那么, 如果从全局的角度来看, 服务器就没有非常巨大的消耗
2. 而对于第二种情况.
  
  如果在建立索引时, 对每篇文章的内容分词去除停用词. 就是一个非常耗时的工程.
  
  从全局的角度来看, 服务器会存在一段非常巨大的消耗
所以, 我们应该选第2种情况吗?

并不是的.

从用户的效率来讲, 最好选用第一种情况, 为什么?

因为我们的搜索引擎是给用户提供服务的, 搜索的速度用户可以感知到. 如果在搜索时进行去除停用词的操作. 某些情况下, 可能会在一定程度上影响搜索的效率

而索引的建立, 是实现在服务器正式启动之前的. 这一部分的开销再大, 用户也是感知不到的.

所以, 我们这里选择第1种实现.

当然, 情况的选择不绝对. 因为网络上数据的传输情况非常的复杂. 可能传输的数据量也会很大程度上影响效率

就像一般的搜索引擎都会限制输入长度.

所以, ns_index::index 和 ns_searcher::searcher两个类中, 关于分词的实现就需要变化一下:

`ns_index::index::buildInvertedIndex()`

// 关于分词 使用 cppjieba 中文分词库
bool buildInvertedIndex(const docInfo_t& doc) {
    // 用来映射关键字 和 关键字的词频
    std::unordered_map<std::string, keywordCnt_t> keywordsMap;
    ns_util::jiebaUtil* jiebaIns = ns_util::jiebaUtil::getInstance();
    
    // 标题分词
    std::vector<std::string> titleKeywords;
    jiebaIns->cutStringNoStop(doc._title, &titleKeywords); // 去除停用词分词
    // ns_util::jiebaUtil::cutString(doc._title, &titleKeywords);
    // 标题词频统计 与 转换 记录
    for (auto keyword : titleKeywords) {
        boost::to_lower(keyword);		  // 关键字转小写
        keywordsMap[keyword]._titleCnt++; // 记录关键字 并统计标题中词频
        // unordered_map 的 [], 是用来通过keyword值 访问value的. 如果keyword值已经存在, 则返回对应的value, 如果keyword值不存在, 则会插入keyword并创建对应的value
    }

    // 内容分词
    std::vector<std::string> contentKeywords;
    jiebaIns->cutStringNoStop(doc._content, &contentKeywords); // 去除停用词分词
    // ns_util::jiebaUtil::cutString(doc._content, &contentKeywords);
    // 内容词频统计 与 转换 记录
    for (auto keyword : contentKeywords) {
        boost::to_lower(keyword);			// 关键字转小写
        keywordsMap[keyword]._contentCnt++; // 记录关键字 并统计内容中词频
    }

    // 这两个const 变量是用来计算 关键字在文档中的权重的.
    // 并且, 关键字出现在标题中  文档与关键字的相关性大概率是要高的, 所以 可以把titleWeight 设置的大一些
    const int titleWeight = 20;
    const int contentWeight = 1;
    // 分词并统计词频之后, keywordsMap 中已经存储的当前文档的所有关键字, 以及对应的在标题 和 内容中 出现的频率
    // 就可以遍历 keywordsMap 获取关键字信息, 构建 invertedElem 并添加到 invertedIndex中 关键词的倒排拉链 invertedList中了
    for (auto& keywordInfo : keywordsMap) {
        invertedElem_t item;
        item._docId = doc._docId;		   // 本文档id
        item._keyword = keywordInfo.first; // 关键字
        item._weight = keywordInfo.second._titleCnt * titleWeight + keywordInfo.second._contentCnt * contentWeight;

        // 上面构建好了 invertedElem, 下面就要将 invertedElem 添加到对应关键字的 倒排拉链中, 构建倒排索引
        invertedList_t& list = invertedIndex[keywordInfo.first]; // 获取关键字对应的倒排拉链
        list.push_back(std::move(item));
    }

    return true;
}

`ns_searcher::searcher::search()`

void search(const std::string& query, std::string* jsonString) {
    // 1. 对需要搜索的句子或关键词进行分词
    std::vector<std::string> keywords;
    ns_util::jiebaUtil* jiebaIns = ns_util::jiebaUtil::getInstance();

    jiebaIns->cutString(query, &keywords); // 不去除停用词分词
    // ns_util::jiebaUtil::cutString(query, &keywords);
    
    // 统计文档用, 因为可能存在不同的分词 在倒排索引中指向同一个文档的情况
    // 如果不去重, 会重复展示
    std::unordered_map<std::size_t, invertedElemOut_t> invertedElemOutMap;
    // 2. 根据分词获取倒排索引中的倒排拉链, 并汇总去重 invertedElem
    for (std::string word : keywords) {
        boost::to_lower(word);

        ns_index::invertedList_t* tmpInvertedList = _index->getInvertedList(word);
        if (nullptr == tmpInvertedList) {
            // 没有这个关键词
            continue;
        }

        for (auto& elem : *tmpInvertedList) {
            // 遍历倒排拉链, 根据文档id 对invertedElem 去重
            auto& item = invertedElemOutMap[elem._docId]; // 在map中获取 或 创建对应文档id的 invertedElem
            item._docId = elem._docId;
            item._weight += elem._weight;
            item._keywords.push_back(elem._keyword);
            // 此时就将当前invertedElem 去重到了 invertedElemMap 中
        }
    }

    // vector 存储 文档相关信息, 方便排序
    std::vector<invertedElemOut_t> allInvertedElemOut;
    // 出循环之后, 就将搜索到的 文档的 id、权重和相关关键词 存储到了 invertedElemMap
    // 然后将文档的相关信息 invertedElemOut 都存储到 vector 中
    for (const auto& elemOut : invertedElemOutMap) {
        // map中的second: elemOut, 在执行此操作之后, 就没用了
        // 所以使用移动语义, 防止发生拷贝
        allInvertedElemOut.push_back(std::move(elemOut.second));
    }

    std::sort(allInvertedElemOut.begin(), allInvertedElemOut.end(),
              [](const invertedElemOut_t& elem1, const invertedElemOut_t& elem2) {
                  return elem1._weight > elem2._weight;
              });

    // 然后 通过遍历此数组, 获取文档id, 根据id获取文档在正排索引中的内容
    // 然后再将 所有内容序列化
    Json::Value root;
    for (auto& elemOut : allInvertedElemOut) {
        // 通过Json::Value 对象, 存储文档内容
        Json::Value elem;
        // 通过elemOut._docId 获取正排索引中 文档的内容信息
        ns_index::docInfo_t* doc = _index->getForwardIndex(elemOut._docId);
        // elem赋值
        elem["url"] = doc->_url;
        elem["title"] = doc->_title;
        // 关于文档的内容, 搜索结果中是不展示文档的全部内容的, 应该只显示包含关键词的摘要, 点进文档才显示相关内容
        // 而docInfo中存储的是文档去除标签之后的所有内容, 所以不能直接将 doc._content 存储到elem对应key:value中
        elem["desc"] = getDesc(doc->_content, elemOut._keywords[0]); // 只根据第一个关键词来获取摘要
        // for Debug
        // 这里有一个bug, jsoncpp 0.10.5.2 是不支持long或long long 相关类型的, 所以需要转换成 double
        // 这里转换成 double不会有什么影响, 因为这两个参数只是本地调试显示用的.
        elem["docId"] = (double)doc->_docId;
        elem["weight"] = (double)elemOut._weight;

        root.append(elem);
    }

    // 序列化完成之后将相关内容写入字符串
    // for Debug 用 styledWriter
    Json::StyledWriter writer;
    *jsonString = writer.write(root);
}

结果演示

我们选择的这种方式, 会将建立索引的时长拉的很长, 最起码比之前要长的多:

然后就可以进行搜索了:

项目当前目录结构

Boost文档搜索引擎库这个项目, 当前已经实现了:

parser文档内容处理模块
index索引建立相关接口
searcher搜索实现相关接口

当前项目目录结构为:

❯ pwd
/home/July/gitCode/gitHub/Boost-Doc-Searcher
❯ tree -L 3
.
├── cppjieba
│   ├── DictTrie.hpp
│   ├── ...(jieba库相关头文件)
│   └── Unicode.hpp
├── cppjiebaDict
│   ├── hmm_model.utf8
│   ├── ...(jieba库提供的分词库)
│   └── user.dict.utf8
├── data
│   ├── input
│   │   ├── about.html
│   │   ├── ...(Boost库文档文件)
│   │   └── yap.html
│   └── output
│       └── raw
├── index.hpp
├── LICENSE
├── makefile
├── parser.cc
├── README.md
├── searcher.hpp
├── serverDebug.cc
└── util.hpp

63 directories, 279 files

索引接口以及搜索接口相关代码整合

当前, util.hpp index.hpp 和 searcher.hpp 的代码:

`util.hpp`:

// util.hpp 一般定义一些通用的宏定义、工具函数等

#pragma once

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include "cppjieba/Jieba.hpp"

namespace ns_util {
    class fileUtil {
    public:
        // readFile 用于读取指定文本文件的内容, 到string输出型参数中
        static bool readFile(const std::string& filePath, std::string* out) {
            // 要读取文件内容, 就要先打开文件
            // 1. 以读取模式打开文件
            std::ifstream in(filePath, std::ios::in);
            if (!in.is_open()) {
                // 打卡文件失败
                std::cerr << "Failed to open " << filePath << "!" << std::endl;
                return false;
            }

            // 走到这里打开文件成功
            // 2. 读取文件内, 并存储到out中
            std::string line;
            while (std::getline(in, line)) {
                *out += line;
            }

            in.close();

            return true;
        }
    };

    class stringUtil {
    public:
        static bool split(const std::string& file, std::vector<std::string>* fileResult, const std::string& sep) {
            // 使用 boost库中的split接口, 可以将 string 以指定的分割符分割, 并存储到vector输出型参数中
            boost::split(*fileResult, file, boost::is_any_of(sep), boost::algorithm::token_compress_on);
            // boost::algorithm::token_compress_on 表示压缩连续的分割符

            if (fileResult->empty()) {
                return false;
            }

            return true;
        }
    };

    const char* const DICT_PATH = "./cppjiebaDict/jieba.dict.utf8";
    const char* const HMM_PATH = "./cppjiebaDict/hmm_model.utf8";
    const char* const USER_DICT_PATH = "./cppjiebaDict/user.dict.utf8";
    const char* const IDF_PATH = "./cppjiebaDict/idf.utf8";
    const char* const STOP_WORD_PATH = "./cppjiebaDict/stop_words.utf8";

    class jiebaUtil {
    private:
        cppjieba::Jieba _jieba;
        std::unordered_map<std::string, bool> _stopKeywordMap;

        jiebaUtil()
            : _jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH) {}

        jiebaUtil(const jiebaUtil&) = delete;
        jiebaUtil& operator=(const jiebaUtil&) = delete;

        static jiebaUtil* _instance;

    private:
        void noStopHelper(const std::string& src, std::vector<std::string>* out) {
            _jieba.CutForSearch(src, *out);
            // 遍历out 查询是否为停止词 是则删除
            // 需要注意迭代器失效的问题
            for (auto iter = out->begin(); iter != out->end();) {
                std::string word = *iter;
                boost::to_lower(word);
                auto stopIt = _stopKeywordMap.find(word);
                // auto stopIt = _stopKeywordMap.find(*iter);
                if (stopIt != _stopKeywordMap.end()) {
                    // 注意接收erase的返回值 防止出现迭代器失效问题
                    iter = out->erase(iter);
                }
                else {
                    iter++;
                }
            }
        }

        // 主要是为了支持 消除停止词的分词
        // 也就是需要将停止词, 写入到 map中
        bool initJiebaUtil() {
            // 首先按行读取文件 const char* const STOP_WORD_PATH = "./cppjiebaDict/stop_words.utf8"
            std::ifstream stopFile(STOP_WORD_PATH, std::ios::in);
            if (!stopFile.is_open()) {
                return false;
            }

            std::string line;
            while (std::getline(stopFile, line)) {
                _stopKeywordMap.insert({line, true});
            }

            stopFile.close();

            return true;
        }

    public:
        static jiebaUtil* getInstance() {
            static std::mutex mtx;
            if (nullptr == _instance) {
                mtx.lock();
                if (nullptr == _instance) {
                    _instance = new jiebaUtil;
                    _instance->initJiebaUtil();
                }
                mtx.unlock();
            }

            return _instance;
        }

        // 分词: 不消除停止词的版本
        void cutString(const std::string& src, std::vector<std::string>* out) {
            _jieba.CutForSearch(src, *out);
        }
        // 分词: 消除停止词的版本
        void cutStringNoStop(const std::string& src, std::vector<std::string>* out) {
            noStopHelper(src, out);
        }
    };
    jiebaUtil* jiebaUtil::_instance;
    // cppjieba::Jieba jiebaUtil::jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
}

`index.hpp`:

// 本代码是 建立索引相关的接口
// 索引 是用来快速搜索的
// parser模块, 已经将所有文档内容处理好, 并存储到了 data/output/raw 中
// 索引的建立, 就是通过获取 已经处理好的文档内容 来建立的
// 项目中, 需要分别建立正排索引和倒排索引
// 正排索引, 是从文档id 找到文件内容的索引
// 倒排索引, 是从关键词 找到关键词所在文档id 的索引

// 首先第一个问题:
// 正排索引中 文件内容该如何表示?
// 其实在parser模块中, 已经有过相关的处理了, 即用结构体(docInfo) 成员为: title、content、url
// 不过, 在建立索引时, 文档在索引中 应该存在一个文档id.

// 正排索引结构
// 正排索引 可以通过文档id找到文件内容. 那么 正排索引可以用 vector 建立, vector 存储docInfo结构体 那么数组下标就天然是 文档id

// 倒排索引结构
// 倒排索引 需要通过关键字 找到包含关键字的文档id, 文档id 对应正排索引中的下标, 所以需要先建立正排索引, 再建立倒排索引
// 由于可能多个文档包含相同的关键字, 倒排索引更适合 keyword:value 结构存储. 所以 可以使用 unordered_map
// 并且, 同样因为关键字可能找到多个文档, value的类型就 可以是存储着文档id的vector, 称为倒排拉链

// 倒排索引中, 通过关键字找到的 倒排拉链中 不应该仅仅是文档id的数据.
// 因为倒排索引的查找结果是关乎到查找结果的显示顺序的. 所以 还需要知道对应文档id 在本次搜索的权重.
// 所以, 最好将文档id和权重结合起来, 构成一个结构体(invertedElem)存储.
// 不过, 不需要 先将所有文档的正排索引建立完成之后 再建立倒排索引. 可以先给 某文档建立正排索引之后, 直接对此文档建立倒排索引

#pragma once

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include "util.hpp"

namespace ns_index {

    // 用于正排索引中 存储文档内容
    typedef struct docInfo {
        std::string _title;   // 文档标题
        std::string _content; // 文档去标签之后的内容
        std::string _url;     // 文档对应官网url
        std::size_t _docId;   // 文档id
    } docInfo_t;

    // 用于倒排索引中 记录关键字对应的文档id和权重
    typedef struct invertedElem {
        std::size_t _docId;    // 文档id
        std::string _keyword;  // 关键字
        std::uint64_t _weight; // 搜索此关键字, 此文档id 所占权重

        invertedElem() // 权重初始化为0
            : _weight(0) {}
    } invertedElem_t;

    // 关键字的词频
    typedef struct keywordCnt {
        std::size_t _titleCnt;   // 关键字在标题中出现的次数
        std::size_t _contentCnt; // 关键字在内容中出现的次数

        keywordCnt()
            : _titleCnt(0)
            , _contentCnt(0) {}
    } keywordCnt_t;

    // 倒排拉链
    typedef std::vector<invertedElem_t> invertedList_t;

    class index {
    private:
        // 正排索引使用vector, 下标天然是 文档id
        std::vector<docInfo_t> forwardIndex;
        // 倒排索引 使用 哈希表, 因为倒排索引 一定是 一个keyword 对应一组 invertedElem拉链
        std::unordered_map<std::string, invertedList_t> invertedIndex;

        // 单例模式设计
        index() {}

        index(const index&) = delete;
        index& operator=(const index&) = delete;

        static index* _instance; // 单例
        static std::mutex _mtx;

    public:
        // 获取单例
        static index* getInstance() {
            if (nullptr == _instance) {
                _mtx.lock();
                if (nullptr == _instance) {
                    _instance = new index;
                }
                _mtx.unlock();
            }

            return _instance;
        }

        // 通过关键字 检索倒排索引, 获取对应的 倒排拉链
        invertedList_t* getInvertedList(const std::string& keyword) {
            // 先找 关键字 所在迭代器
            auto iter = invertedIndex.find(keyword);
            if (iter == invertedIndex.end()) {
                std::cerr << keyword << " have no invertedList!" << std::endl;
                return nullptr;
            }

            // 找到之后
            return &(iter->second);
        }

        // 通过倒排拉链中 每个倒排元素中存储的 文档id, 检索正排索引, 获取对应文档内容
        docInfo_t* getForwardIndex(std::size_t docId) {
            if (docId >= forwardIndex.size()) {
                std::cerr << "docId out range, error!" << std::endl;
                return nullptr;
            }

            return &forwardIndex[docId];
        }

        // 根据parser模块处理过的 所有文档的信息
        // 提取文档信息, 建立 正排索引和倒排索引
        // input 为 ./data/output/raw
        bool buildIndex(const std::string& input) {
            // 先以读取方式打开文件
            std::ifstream in(input, std::ios::in);
            if (!in.is_open()) {
                std::cerr << "Failed to open " << input << std::endl;
                return false;
            }

            std::size_t count = 0;

            std::string line;
            while (std::getline(in, line)) {
                // 按照parser模块的处理, getline 一次读取到的数据, 就是一个文档的: title\3content\3url\n
                docInfo_t* doc = buildForwardIndex(line); // 将一个文档的数据 建立到索引中
                if (nullptr == doc) {
                    std::cerr << "Failed to buildForwardIndex for " << line << std::endl;
                    continue;
                }

                // 文档建立正排索引成功, 接着就通过 doc 建立倒排索引
                if (!buildInvertedIndex(*doc)) {
                    std::cerr << "Failed to buildInvertedIndex for " << line << std::endl;
                    continue;
                }

                count++;
                if (count % 50 == 0)
                    std::cout << "当前已经建立的索引文档: " << count << std::endl;
            }

            return true;
        }

    private:
        // 对一个文档建立正排索引
        docInfo_t* buildForwardIndex(const std::string& file) {
            // 一个文档的 正排索引的建立, 是将 title\3content\3url (file) 中title content url 提取出来
            // 构成一个 docInfo_t doc
            // 然后将 doc 存储到正排索引vector中
            std::vector<std::string> fileResult;
            const std::string sep("\3");
            // stringUtil::split() 字符串通用工具接口, 分割字符串
            ns_util::stringUtil::split(file, &fileResult, sep);

            docInfo_t doc;
            doc._title = fileResult[0];
            doc._content = fileResult[1];
            doc._url = fileResult[2];

            // 因为doc是需要存储到 forwardIndex中的, 存储之前 forwardIndex的size 就是存储之后 doc所在的位置
            doc._docId = forwardIndex.size();

            forwardIndex.push_back(std::move(doc));

            return &forwardIndex.back();
        }

        // 对一个文档建立倒排索引
        // 倒排索引是用来通过关键词定位文档的.
        // 倒排索引的结构是 std::unordered_map invertedIndex;
        // keyword值就是关键字, value值则是关键字所映射到的文档的倒排拉链
        // 对一个文档建立倒排索引的原理是:
        //  1. 首先对文档的标题 和 内容进行分词, 并记录分词
        //  2. 分别统计整理标题分析的词频 和 内容分词的词频
        //     统计词频是为了可以大概表示关键字在文档中的 相关性.
        //     在本项目中, 可以简单的认为关键词在文档中出现的频率, 代表了此文档内容与关键词的相关性. 当然这是非常肤浅的联系, 一般来说相关性的判断都是非常复杂的. 因为涉及到词义 语义等相关分析.
        //     每个关键字 在标题中出现的频率 和 在内容中出现的频率, 可以记录在一个结构体中. 此结构体就表示关键字的词频
        //  3. 使用 unordered_map 记录关键字与其词频
        //  4. 通过遍历记录关键字与词频的 unordered_map, 构建 invertedElem: _docId, _keyword, _weight
        //  5. 构建了关键字的invertedElem 之后, 再将关键词的invertedElem 添加到在 invertedIndex中 关键词的倒排拉链 invertedList中
        // 注意, 搜索引擎一般不区分大小写, 所以可以将分词出来的所有的关键字, 在倒排索引中均以小写的形式映射. 在搜索时 同样将搜索请求分词出的关键字小 写化, 在进行检索. 就可以实现搜索不区分大小写.

        // 关于分词 使用 cppjieba 中文分词库
        bool buildInvertedIndex(const docInfo_t& doc) {
            // 用来映射关键字 和 关键字的词频
            std::unordered_map<std::string, keywordCnt_t> keywordsMap;
            ns_util::jiebaUtil* jiebaIns = ns_util::jiebaUtil::getInstance();

            // 标题分词
            std::vector<std::string> titleKeywords;
            jiebaIns->cutStringNoStop(doc._title, &titleKeywords);
            // jiebaIns->cutString(doc._title, &titleKeywords);
            // 标题词频统计 与 转换 记录
            for (auto keyword : titleKeywords) {
                boost::to_lower(keyword);         // 关键字转小写
                keywordsMap[keyword]._titleCnt++; // 记录关键字 并统计标题中词频
                                                  // unordered_map 的 [], 是用来通过keyword值 访问value的. 如果keyword值已经存在, 则返回对应的value, 如果keyword值不存在, 则会插入keyword并创建对应的value
            }

            // 内容分词
            std::vector<std::string> contentKeywords;
            jiebaIns->cutStringNoStop(doc._content, &contentKeywords);
            // jiebaIns->cutString(doc._content, &contentKeywords);
            // 内容词频统计 与 转换 记录
            for (auto keyword : contentKeywords) {
                boost::to_lower(keyword);           // 关键字转小写
                keywordsMap[keyword]._contentCnt++; // 记录关键字 并统计内容中词频
            }

            // 这两个const 变量是用来计算 关键字在文档中的权重的.
            // 并且, 关键字出现在标题中  文档与关键字的相关性大概率是要高的, 所以 可以把titleWeight 设置的大一些
            const int titleWeight = 20;
            const int contentWeight = 1;
            // 分词并统计词频之后, keywordsMap 中已经存储的当前文档的所有关键字, 以及对应的在标题 和 内容中 出现的频率
            // 就可以遍历 keywordsMap 获取关键字信息, 构建 invertedElem 并添加到 invertedIndex中 关键词的倒排拉链 invertedList中了
            for (auto& keywordInfo : keywordsMap) {
                invertedElem_t item;
                item._docId = doc._docId;          // 本文档id
                item._keyword = keywordInfo.first; // 关键字
                item._weight = keywordInfo.second._titleCnt * titleWeight + keywordInfo.second._contentCnt * contentWeight;

                // 上面构建好了 invertedElem, 下面就要将 invertedElem 添加到对应关键字的 倒排拉链中, 构建倒排索引
                invertedList_t& list = invertedIndex[keywordInfo.first]; // 获取关键字对应的倒排拉链
                list.push_back(std::move(item));
            }

            return true;
        }
    };
    // 单例相关
    index* index::_instance = nullptr;
    std::mutex index::_mtx;
}

`searcher.hpp`:

// 本文件实现 搜索相关接口

// 本项目中的搜索, 是根据输入的关键词:
//  1. 先对关键词进行分词
//  2. 然后通过分词, 在倒排索引中进行检索, 检索到相关的倒排拉链
//  3. 然后再通过倒排拉链中 倒排元素的对应文档id, 在正排索引中获取文件内容

// 不过在正式开始搜索之前, 要先构建索引
// 而索引的构建, 在整个程序中只需要构建一次, 所以可以将索引设计为单例模式
#pragma once

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include "util.hpp"
#include "index.hpp"

namespace ns_searcher {
    typedef struct invertedElemOut {
        std::size_t _docId;
        std::uint64_t _weight;
        std::vector<std::string> _keywords;
    } invertedElemOut_t;

    class searcher {
    private:
        ns_index::index* _index; // 建立索引的类

        ns_util::jiebaUtil* _jiebaIns;

    public:
        void initSearcher(const std::string& input) {
            // 搜索前的初始化操作
            // 获取单例
            _index = ns_index::index::getInstance();
            _jiebaIns = ns_util::jiebaUtil::getInstance();

            std::cout << "获取单例成功 ..." << std::endl;
            // 建立索引
            _index->buildIndex(input);
            std::cout << "构建正排索引、倒排索引成功 ..." << std::endl;
        }

        // 搜索接口
        // 搜索需要实现什么功能?
        // 首先参数部分需要怎么实现?
        // 参数部分, 需要接收需要搜索的句子或关键字, 还需要一个输出型参数 用于输出查找结果
        //  查找结果我们使用jsoncpp进行序列化和反序列化
        // search() 具体需要实现的功能:
        //  1. 对接收的句子或关键词进行分词
        //  2. 根据分词, 在倒排索引中查找到所有分词的倒排拉链 汇总 的 invertedElem, 并根据相关性进行排序
        //  4. 然后再遍历所有的 invertedElem, 根据 invertedElem中存储的 文档id, 在正排索引中获取到文档内容
        //  5. 然后将获取到的文档内容使用jsoncpp 进行序列化, 存储到输出型参数中
        // 直到遍历完invertedElem
        void search(const std::string& query, std::string* jsonString) {
            // 1. 对需要搜索的句子或关键词进行分词
            std::vector<std::string> keywords;

            _jiebaIns->cutString(query, &keywords);
            // _jiebaIns->cutStringNoStop(query, &keywords);
            // ns_util::jiebaUtil::cutString(query, &keywords);

            // std::vector allInvertedElemOut;
            // std::vector allInvertedElem;

            // 统计文档用, 因为可能存在不同的分词 在倒排索引中指向同一个文档的情况
            // 如果不去重, 会重复展示
            // std::unordered_map invertedElemMap;
            std::unordered_map<std::size_t, invertedElemOut_t> invertedElemOutMap;
            // 2. 根据分词获取倒排索引中的倒排拉链, 并汇总去重 invertedElem
            for (std::string word : keywords) {
                boost::to_lower(word);

                ns_index::invertedList_t* tmpInvertedList = _index->getInvertedList(word);
                if (nullptr == tmpInvertedList) {
                    // 没有这个关键词
                    continue;
                }

                for (auto& elem : *tmpInvertedList) {
                    // 遍历倒排拉链, 根据文档id 对invertedElem 去重
                    auto& item = invertedElemOutMap[elem._docId]; // 在map中获取 或 创建对应文档id的 invertedElem
                    item._docId = elem._docId;
                    item._weight += elem._weight;
                    // 权重需要+= 是因为多个关键词指向了同一个文档 那么就说明此文档的与搜索内容的相关性更高
                    // 所以, 就可以将多个关键字关于此文档的权重相加, 表示搜索相关性高
                    // 最好还将 此文档相关的关键词 也存储起来, 因为在客户端搜索结果中, 需要对网页中有的关键字进行高亮
                    // 但是 invertedElem 的第三个成员是 单独的一个string对象, 不太合适
                    // 所以, 可以定义一个与invertedElem 相似的, 但是第三个成员是一个 vector 的类, 比如 invertedElemOut
                    item._keywords.push_back(elem._keyword);
                    // 此时就将当前invertedElem 去重到了 invertedElemMap 中
                }
            }

            // vector 存储 文档相关信息, 方便排序
            std::vector<invertedElemOut_t> allInvertedElemOut;
            // 出循环之后, 就将搜索到的 文档的 id、权重和相关关键词 存储到了 invertedElemMap
            // 然后将文档的相关信息 invertedElemOut 都存储到 vector 中
            for (const auto& elemOut : invertedElemOutMap) {
                // map中的second: elemOut, 在执行此操作之后, 就没用了
                // 所以使用移动语义, 防止发生拷贝
                allInvertedElemOut.push_back(std::move(elemOut.second));
            }

            // 执行到这里, 可以搜索到的文档id 权重 和 相关关键词的信息, 已经都在allInvertedElemOut 中了.
            // 但是, 还不能直接 根据文档id 在正排索引中检索
            // 因为, 此时如果直接进行文档内容的索引, 在找到文档内容之后, 就要直接进行序列化并输出了. 而客户端显示的时候, 反序列化出来的文档顺序, 就是显示的文档顺序
            // 但是现在找到的文档还是乱序的. 还需要将allInvertedElemOut中的相关文档, 通过_weight 进行倒序排列
            // 这样, 序列化就是按照倒序排列的, 反序列化也会如此, 显示同样如此
            std::sort(allInvertedElemOut.begin(), allInvertedElemOut.end(),
                      [](const invertedElemOut_t& elem1, const invertedElemOut_t& elem2) {
                          return elem1._weight > elem2._weight;
                      });

            // 排序之后, allInvertedElemOut 中文档的排序就是倒序了
            // 然后 通过遍历此数组, 获取文档id, 根据id获取文档在正排索引中的内容
            // 然后再将 所有内容序列化
            Json::Value root;
            for (auto& elemOut : allInvertedElemOut) {
                // 通过Json::Value 对象, 存储文档内容
                Json::Value elem;
                // 通过elemOut._docId 获取正排索引中 文档的内容信息
                ns_index::docInfo_t* doc = _index->getForwardIndex(elemOut._docId);
                // elem赋值
                elem["url"] = doc->_url;
                elem["title"] = doc->_title;
                // 关于文档的内容, 搜索结果中是不展示文档的全部内容的, 应该只显示包含关键词的摘要, 点进文档才显示相关内容
                // 而docInfo中存储的是文档去除标签之后的所有内容, 所以不能直接将 doc._content 存储到elem对应key:value中
                elem["desc"] = getDesc(doc->_content, elemOut._keywords[0]); // 只根据第一个关键词来获取摘要
                // for Debug
                // 这里有一个bug, jsoncpp 0.10.5.2 是不支持long或long long 相关类型的, 所以需要转换成 double
                // 这里转换成 double不会有什么影响, 因为这两个参数只是本地调试显示用的.
                elem["docId"] = (double)doc->_docId;
                elem["weight"] = (double)elemOut._weight;

                root.append(elem);
            }

            // 序列化完成之后将相关内容写入字符串
            // for Debug 用 styledWriter
            Json::StyledWriter writer;
            *jsonString = writer.write(root);
        }

        std::string getDesc(const std::string& content, const std::string& keyword) {
            // 如何获取摘要呢?
            // 我们尝试获取正文中 第一个keyword 的前50个字节和后100个字节的内容 作为摘要
            const std::size_t prevStep = 50;
            const std::size_t nextStep = 100;
            // 获取正文中 第一个 keyword 的位置

            // std::size_t pos = content.find(keyword);
            // if (pos == std::string::npos)
            //  return "keyword does not exist!";
            // 直接这样处理, 会出现一个问题:
            // keyword是有大小写的. 倒排索引中查找 我们实现的是忽略大小写, 所以可以找到文档
            // 而 string::find() 是区分大小写的查找, 可能无法在内容中找到对应的关键词
            // string容器也没有提供不区分大小写的查找方法
            // 此时, 可以用std::search()
            // std::search(it1, it2, it3, it4, pred);
            // 可以在[it1, it2)中 查找第一个[it3, it4)(词语)的出现位置.
            // 并且, 如果使用第5个参数, 就可以传入 带有两个参数的仿函数, 这两个参数就是需要比较的字符
            // 可以在仿函数内设置这两个字符的比较方式
            // 最终会返回找到的找到的单次第一个字符位置的迭代器, 否则返回it2

            auto iter = std::search(content.begin(), content.end(), keyword.begin(), keyword.end(),
                                    [](int x, int y) {
                                        return std::tolower(x) == std::tolower(y);
                                    });
            if (iter == content.end())
                return "keyword does not exist!";
            std::size_t pos = std::distance(content.begin(), iter);

            std::size_t begin = 0;
            std::size_t end = content.size() - 1;

            // 获取前50字节 和 后100字节的迭代器位置
            if (pos > begin + prevStep)
                begin += (pos - prevStep);
            if (pos + nextStep < end)
                end = pos + nextStep;

            if (begin >= end)
                return "nothing!";

            // 获取摘要
            std::string desc;
            if (pos <= begin + prevStep)
                desc = "...";
            desc += content.substr(begin, end - begin);
            if (pos + nextStep < end)
                desc += "...";

            return desc;
        }
    };
}

本篇文章到此结束

感谢阅读~

你可能感兴趣的:(c++,搜索引擎,Boost,项目,linux)

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

[C++项目] Boost文档 站内搜索引擎(4): 搜索的相关接口的实现、线程安全的单例index接口、cppjieba分词库的使用、综合调试...

搜索

搜索接口的基本结构

initSearcher()接口 实现

index接口类 单例实现

接口实现

search()接口 实现 **

getDesc()摘要获取接口 实现

演示 及 调试

getDesc()接口 优化