c铁柱同学

基于boost库的搜索引擎

文章目录

一.项目介绍
二.搜索引擎相关的宏观原理
三.搜索引擎技术栈和项目环境
四.正排索引vs倒排索引-搜索引擎的具体原理
五.编写数据去标签与数据清洗的模块Parser
- 1.下载数据源
- 2.建立项目结构
- 3.编写Parser基本结构
- 4.枚举文件名模块的编写
- 5.html文件解析模块的编写
- - (1).html文件读取代码的编写
  - (2).解析title代码的编写
  - (3).去标签代码的编写
  - (4).构建URL代码的编写并测试
- 6.文件写入模块的编写
六.编写建立索引的模块Index
- 1.搭建索引代码基本结构
- 2.建立索引代码的编写
- - (1).正排索引
  - - 字符串切分代码的编写
  - (2).倒排索引
  - - 倒排索引的基本原理
    - - cppjieba的使用
    - 倒排索引代码的编写
七.编写搜索引擎模块Searcher
- 1.index单例与searcher基本代码结构
- 2.Search查找代码的编写
- - (1).获取摘要
八.调试使用的命令行式的搜索
九.编写http_server模块
- 1.引入cpp-httplib库
- 2.http_server代码的编写
十.编写前端模块
- 1.编写html
- 2.编写css样式
- 3.编写js前后端交互
十一.项目的优化
- 1.搜到重复内容问题
- 2.添加日志
十二.项目的扩展方向

下面是我的gitee仓库地址，里面包含了这个项目的所有代码
https://gitee.com/tie-zhuTX/SearchEngineOfBoostLibrary

一.项目介绍

网上的搜索引擎有很多，比如常用的百度，搜狗，360搜索，头条新闻客户端。
这些公司做出来的搜索引擎是一个非常大型的项目，需要很高的技术门槛，所以早期只有百度在做搜索引擎。
这些公司的搜索引擎都属于全网搜索。其高门槛体现在：如何把全网相关网页信息抓取下来并且还要对全网数据进行保存并建立相关的后端的索引模块，这是一个非常大型的工作，并且后期搜索的时候还要对客户的关键字排序、设置显示网页的相关优先级的问题、网页与网页之间关联度的问题等。

所以我们自己实现一个完整的搜索引擎是不可能的，不过我们可以写一个简单的搜索引擎——站内搜索。
站内搜索最典型的代表就是我们使用的cplusplusC++的标准文档。其与全网搜索最大的不同之一就是搜索的数据更垂直。也就意味着数据量更小。

搜索引擎的效果是怎么样的？我们以百度为例，搜索一下腾讯官网后效果如下：

可以发现搜索引擎搜索的结果核心分为3块：
1.网页的title：可以让我们知道网页时干嘛的，并且有一个点击的功能，点击标题，就可以跳转到目标网址
2.网页内容的摘要描述
3.目标网页对应的网址url
我们的搜索引擎就以这三块内容为标准进行展示。

图片，广告？广告时搜索引擎的一种盈利方式，baidu可以出售自己的关键字，谁的钱多，谁的内容就更靠前。搜头疼-》推广，广告

大部分商业公司的盈利方式是采用竞价排名的方式获利的。

为什么要做boost库的搜索引擎？我们可以进入boost库的官网（boost.org）查看一些

可以发现boost库的官网是没有正真意义上的搜索功能的，我们没有办法搜索某个词，虽然官方提供了boost相关的一些方法，标准库中的一些接口，但是我们想看到官方文档成本比较高，所以我们可以自己做一个站内搜索。

二.搜索引擎相关的宏观原理

数据在搜索引擎是如何流动的？
下面就是我们的项目工作的流程

首先从全网爬取到网页，存储在服务器的磁盘中，然后对网页进行处理，建立索引。当客户端对我们发送请求时，我们根据客户的关键字进行检索，然后得到相关网页后构建出一个新的网页返回给用户。因为我们国家对爬虫有相关的法律规定，所以我们获取网页的方式就改为合法的下载网页信息，所以我们的项目要实现的部分就是左边红圈的部分。

三.搜索引擎技术栈和项目环境

该项目需要用到的技术栈：C/C++、C++11、STL、准标准库Boost（文件处理）、jsoncpp（数据交换）、cppjieba（分词）、cpp-httplib（构建http服务器）、html5、css、js、jQuery、Ajax

项目环境：Centos7 云服务器、vim/gcc(g++)/Makefile、vs2022或vs Code。

四.正排索引vs倒排索引-搜索引擎的具体原理

这里是对正排和倒排的原理性的介绍，让我们了解正排倒排的特点以及他们在搜索引擎中承担什么角色？

正排索引：从文档ID找到文档内容（文档内的关键字）
假设有两个文档：

文档ID	文档内容
1	关羽今天吃了一斤大力丸
2	关羽砍死了外星人

我们搜索时是使用关键字搜索的，首先要对目标文档进行分词（目的：为了方便建立倒排索引和查找）

文档1：关羽今天吃了一斤大力丸->关羽 /今天/吃/一斤/大力丸/一斤大力丸

文档2：关羽砍死了外星人->关羽/砍死/外星人

停止词(stopwords)：了、的、吗、a、the…一般我们在分词的时候可以不考虑。因为这些词的出场频率太高了，如果我们把这些词保留下来，那他们在搜索时区分唯一性的价值也不大，并且会增加我们建立索引的成本乃至搜索的成本。

倒排索引：根据文档内容，分词，整理不重复的各个关键字，对应联系到文档ID的方案

关键字（具有唯一性的）	文档ID、weight（权重）
关羽	文档1、文档2
今天	文档1
吃	文档1
一斤	文档1
大力丸	文档1
一斤大力丸	文档1
砍死	文档2
外星人	文档2

模拟一次查找的过程：
用户输入：关羽->在倒排索引中查找->提取出文档ID（1，2）->根据正排索引->找到文档的内容->title+connect(desc)+url文档结果进行摘要->构建响应结果。

我们发现如果用户输入了关羽，那文档1和文档2都有这个关键字，我是先显示文档1还是文档2呢？所以每一个文档都会有一个权值(weight)

五.编写数据去标签与数据清洗的模块Parser

1.下载数据源

boost 官网：https://www.boost.org/

点击DOCUMENTATION可以看到各种boost相关的库

直接选择最新的
这里就是它按照字典序列排序的内容
这是文档的内容，怎么下载？

回到首页，下载哪里就有最新版的

选择boost_1_79_0.tar.gz

2.建立项目结构

1.在云服务器上建立好项目文件夹

2.在文件夹下输入rz命令，把下载好的boost库上传到云服务器（

上传的时候有可能会出现乱码，这是因为我们传的文件太大导致的，可以加一个-E选项

rz -E

传上来以后就相当于我们有了对应的网页信息

上传完成后，进行解包解压

解包解压：tar xzf boost_1_79_0.tar.gz

完成后会有一个boost_1_79_0的目录，里面保存的就是所有的boost内容，这里面就是我们在官网里看到的所有内容

我们在网页上查的手册，是在一个boost版本下的/doc/html文件里面。也就是说我们搜索的时候我们只用boost库html里的文件内容。这就是标准库的各种boost组件对应的手册内容，有些也在别的文件里面，暂时先不考虑

有了数据源，在项目里创建一个data目录，把数据拷贝进data目录下的input目录里。

mkdir -p data/input

input里面放的就是数据源，也就是我们要搜索的html文档，可以拷贝进去

cp -rf boost_1_79_0/doc/html/* data/input/

拷贝完成后，boost库对我们就没用了，input里面就包含了各种各样的需要我们做检索，建立索引的各种网页信息了。后续搜索结果是以data/input作为数据源，建立索引，然后自己拼接一些url，构建一个跳转url就可以。

数据建立好以后，我们就要建立我们的第一个模块，构建索引的模块

在工作目录下

touch parser.cc

编写parser文件对网页信息进行去标签动作（数据清洗）
做数据处理，那一定要有原始数据，然后把它变成去标签之后的数据

去标签

什么是标签？
用nano随便进入一个.html文件





Chapter 45. Boost.YAP










Home
Libraries
People
FAQ
More






Chapter 45. Boost.YAP

Zach Laine

Copyright © 2018 T. Zachary Laine

.........

用<>括起来的就叫做html的标签，标签会被浏览器解释呈现出不同的形态，也就是我们看到的网页信息。但是这个标签对我们进行搜索是没有价值的，所以我们要把他们处理掉。一般标签都是成对出现的。成对出现的标签，比如< head>…< /head>、还有一类是只有<>括起来，这两类我们去标签时都要考虑。

去标签就相当于是一个数据清洗的工作，数据清洗完的结果就可以放在data目录下的raw_html文件

查看我们下载了多少html文件：ls -Rl | grep -E '*.html' | wc -l

一共8000多个文件！

我们的目标是想把每个文档都去标签，然后写入到同一个文件中，每个文档的内容不换行！用特殊字符‘\3’区分不同文档

为什么用\3？下面是一张ACSII码表

可以看到有的字符属于控制字符，是不可显示的，有的字符是打印字符。我们获得的文档内容基本都属于打印字符。3对应^C，是不可显示的，所以也就不会污染我们形成的新文档，用别的控制字符也可以

我们要把处理完的内容放在data目录的raw_html目录下，那我们就要有一个文件存放数据，可以用一个raw.txt文件存放处理的结果

3.编写Parser基本结构

首先，我们一定会涉及到读取文件的操作，读取文件之前必须待先把所有带路径的文件名全部罗列出来，然后一个文件一个文件的读。
所以可以先定义一个source_path，表示所有源html文件的路径，定义一个raw_txt表示最终结果要被写入的文件路径+文件名。

要读取文件，那我就要知道文件名和文件路径，所以第一步，我们可以先根据源文件的目录，列举出所有的文件名+路径——我们用函数EnumFile实现

第二步，我们已经拿到了所有的文件名和对应的地址，就可以一个一个的读取文件，读取文件的目的，就是对文件进行去标签，然后提取出我们需要的内容，那我们就可以定义一个结构体表示每一个文件被解析后的格式，然后把这些被处理过后的文件存在一个vector中组织起来。——我们用函数ParseHtml实现

第三步，文件解析完成，我们就可以把解析好的文件存放到我们指定的raw.txt文件中了，这时就要注意我们自己定义的区分文档的方法。——我们用函数SaveHtml实现

下面是parser代码的基本结构

    1 #include <iostream>
    2 #include <string>
    3 #include <vector>
    4 
    5 //目录下面放的是所以的html网页
    6 const std::string source_path="data/input/";//数据源目录
    7 const std::string raw_txt="data/raw_html/raw.txt";//处理后的文件
    8 
    9 //定义文件被解析的格式
   10 typedef struct Format{
   11     std::string title;    //文档标题
   12     std::string describes;//文档内容介绍
   13     std::string url;      //文裆网页
   14 }Format_t;
   15 
   16 int main()
   17 {
   18     std::vector<std::string> file_name_list;//用来存放所有的文件名和其路径
   19     //第一步
   20     //递归式的把每个html文件名+路径保存到file_name_list中。方便后期对一个一个的文件进行读取  
E> 21     if(!EnumFile(source_path,&file_name_list));
   22     {
   23         std::cout<<"Enum error"<<std::endl;
   24         return 1;
   25     } 
   26     //第二步
   27     //根据file_name_list读取每个文件，并按照内容进行解析
   28     std::vector<Format_t> result;//用来保存解析后的结果
E> 29     if(!ParseHtml(file_name_list,result)){
   30         std::cout<<"parse error"<<std::endl;
   31         return 2;
   32     }
   33     //第三步
   34     //把解析完成的各个文件的内容写入到raw.txt中，按照'\3'作为每个文档的分隔符
E> 35     if(!SaveHtml(result,&raw_txt)){
   36         std::cout<<"save error"<<std::endl;
   37         return 3;
   38     }
   39     return 0;
   40 }

4.枚举文件名模块的编写

枚举文件名我们使用的是EnumFile函数。

因为C++和STL对文件操作的支持不太好，所以要完成这样的动作，需要使用到boost库的file system模块。

boost开发库的安装

sudo yum install -y boost-devel

这就安装完成了

可以上boost官网查看手册了解boost的相关接口怎么用。注意，我们安装的是1.53的版本，所以要查1.53版本的手册。我们重点要找的是Filesystem

点进去后就是一个filesystem的教程，但是这里面只有一部分的函数。如果想要更详细的了解，可以在下面随便点击一个函数，就可以看到file system库相关的接口说明了

头文件：

首先我们要定义一个path对象，然后从这个对象的地方开始遍历，那我就要先判断这个路径是否合法，使用的方法叫做exists。

递归遍历文件，可以定义一个boost库的recursive_directory_iterator对象，可以让我们像用迭代器一样来遍历文件。

遍历拿到的文件可能有各种各样的类型，所以我们对这些文件名进行一下筛选，使用的方法是is_regular_file表示是否是常规文件

常规文件中，我们只要文件路径后缀为html的文件，所以还需要进行一次过滤，可以用迭代器里的path()方法用来提取当前路径字符串，然后用extension()方法提取路径的后缀，判断是否符合要求

拿到所以符合的html文件以后，就要把这些文件push到file_name_list中，因为现在是一个path对象，所以要push就要先用path的string方法把对象转换成一个string。

这系列操作完成后，先不急往下写，先测试一下代码有没有问题，可以把每条即将插入到file_name_list的路径打印一下。
以下是EnumFile方法的实现

因为我们使用的boost库，所以编译时除了要加-std=c++11之外，还要加上以下两条

-lboost_system
-lboost_filesystem

编译完成，就可以查看到我们的文件是依赖boost库的

完成之后，运行parser，如果成功打印了所有的html文件，就说明当前代码是没问题的。

查看打印的文件数量：./parser | wc -l

如果还不放心，可以查看打印了多少文件。

接下来就是解析html的编写

5.html文件解析模块的编写

解析html文件我们使用的函数是ParseHtml

要解析文件，肯定要对文件的内容进行遍历，把内容读出来，然后再解析。我们ParseHtml的功能就是通过我们上上面拿到的文件名+路径，对每个文件进行解析，解析成Format_t的形式存放到叫result的vector中。Format_t包含文档的标题，内容和url。

首先，遍历file_name_list中的文件名+路径。
第一步：读取文件，可以用一个ReadFile函数把读取文件的所有内容

为了方便管理，可以定义一个Tool.hpp作为工具集，在里面定义一个FileTool类，而ReadFile就可以写成该类的静态成员函数。

读取出来的文件可以放在一个string中，那我们就可以再项目目录下创建一个util.hpp文件，里面存放我们使用过的工具

第二步：解析指定的文件，提取title
怎么找到文档的标题？

一般title只有一个，是双标签之间的内容
我们就可以写一个ParseTitle函数从读取的文件中解析出title

第三步：解析指定的文件，提取describes部分

提取文档内容，本质就是去标签，只保留网页内容的部分

第四步：解析指定的文件路径，构建url
下面就是ParseHtml的基本结构

这里向result里push解析结果时，这个结果可能会比较大，而直接push会发生一次拷贝，所以可以使用C++的move，以减少拷贝，那么这句代码就可以这样改写
result->push_back(std::move(fmt));

主要包含4个函数，ReadFile:文件读取、ParseTitle：解析标题、ParseDsecribles：解析内容、ParesUrl：解析并构建url。因为这些函数基本都只在我当前文件使用所以我把它们写成静态的。

下面分别对这四个内容进行实现

(1).html文件读取代码的编写

可以使用C++的文件操作对传入的文件名进行读取。
首先初始化一个ifstream对象，以in的方式打开路径对应的文件。
打开完成后，用getline读取输入流中的内容，这里可以哟用while循环，在判断的地方读取，虽然getline的返回值是一个引用对象，而while判断的是bool类型，但是可以这样写的原因是因为返回的对象中重载了强制类型转换。所以就可以通过getline返回引用的方式判断文件结尾。

实现代码如下：

(2).解析title代码的编写

要解析title，其实就是在整个文档里搜索< title> 关键字和< /title>关键字,可以通过string的find方法找到两个关键字的位置，然后第一个title的位置向后移动该关键字的长度，就是我们需要部分的第一个元素的位置，再组合上第二个关键字的起始位置，就可以形成一个左闭右开区间，从而提取出title。

代码如下：

(3).去标签代码的编写

要把文档中双标签，单标签，也就是凡是< xxx >和< /xxx >内部的xxx的内容全部去掉，正常的标签上的数据都保留。
文档读取到string上，就是一个个的字符，而我们字符向后遍历的过程中，要么就是在读取标签的内容，要么就是在读取我们需要的内容，所以实际实现的过程中我们要基于一个简易的状态机来编写。
定义LABEL(标签)和CONTENT(内容)两个状态。

文件的第一个字符肯定是<，所以初始状态为LABEL。

当我的状态是LABEL遍历文件内容时，只要碰到了>，就意味着当前的标签被处理完了，就可以把状态置为CONTENT，

当前标签结束，下一个位置可能是正常内容，也可能是下一个标签的开始，所以当状态为CONTENT时，要判断当前字符是否是<，如果是，则表示即将进入LABEL状态。如果不是<，则可以把当前字符push进参数describe中。

这里有一点需要注意，我们不想保留原始文件的\n，因为我们想用\n作为html解析之后的文本分隔符，所以这里我们不读\n。

下面是实现代码

(4).构建URL代码的编写并测试

我们的文档是从官网上下载下来的，而官网的url的路径和我们的路径其实是有一定关联的。

这是我从boost库的官方文档随便打开的一个文件，可以看到他的url是这样的：

而在我们下载的boost文档中，我们也可以在文档里面的doc/html目录下找到该文件

把这些地址罗列下来：

官网：https://www.boost.org/doc/libs/1_79_0/doc/html/accumulators.html

下载的路径：boost_searcher/boost_1_79_0/doc/html/accumulators.html

在项目里的路径：data/input/accumulators.html
//我们把boost文档的html目录下的内容都拷贝进了data/input/目录下

所以我们要拼接的url应该分为两个部分：

url_head = https://www.boost.org/doc/libs/1_79_0/doc/html;
url_tail = [data/input](删除掉)/accumulators.html->/accumulators.html
url= url_head+url_tail;

所以接下来我们的任务就是我们要构建出一个url，那ParserUrl的参数就一定要有我们在外面构建的结构的url成员，并且这是一个输出型参数。

url_head的部分是不变的，所以我们可以把这部分直接写在代码里

要截取我们自己路径下的后半部分，我们可以在文件的路径名截，而所有文件的路径名我们已经在第一步列举文件名是存放在了file_name_list中，把这里的路径传进函数然后用string的substr方法直接构建出url_tail，然后拼接起来即可。

下面是代码：

文件解析模块的测试

以上我们就完成了文件解析模块的编写，现在可以对该模块进行测试。可以写一个PrintFmt，把我们解析的结果打印出来

但是如果我们全部打印的化，我们预计打印的量会非常大，也不方便我们观察，所有我们可以设计打印一个或者几个观察以下就可

这是我打印出来的一个文档：

可以看到内容方面是正常的，已经不存在标签的内容了，再用url去官网验证以下

可以基本确认我们的代码是没有问题的。

完成了文件列举和文件解析，下一步就是把我们解析的结果写入到我们的目标文件中。

6.文件写入模块的编写

现在我们要做的就是把在存储在result的所有解析好的文件的内容写入到我们的文件中，数据源和目标文件我们都有了，那其实就是文件操作，但是有几点要注意以下

我们之前的规定是每个文件之间用’\3’间隔，但是我们解析出来的文件包含三个部分，如果把他们放在一起，写的时候没问题，但是读取的时候就很麻烦，那我写的时候，就可以在每一个部分的后面增加标识，而string里面有一种方法叫getline，那为了我们操作方便，我们可以更改一下标识的意义，让’\n’作为文件与文件的间隔,'\3’作为文件中每个部分的间隔。

文档保存的内容：title/3describes/3url/ntitle/3describes/3url/n......

剩下就是编码工作

首先要打开我们的目标文件，这里我们可以用二进制方式写入，因为二进制方式的最大特点是写入什么，文档里就保存什么，用别的方式也可以

以下是实现代码：

以上我们就完成了对Parser模块的编写，去验证一下raw.txt文件

8171行，对应8171个文件，打开这个文件我们就可以看到这里面就是我们解析之后的结果

六.编写建立索引的模块Index

1.搭建索引代码基本结构

建立索引，那我们就要把正排索引和倒排索引都建立好，所以我们的index里面一定要有正排索引和倒排索引的结果！，可以用一个类来组织索引。

成员变量：
正排索引是通过文档id找到文档，那我们就可以用数组来组织正排索引的结构，数组下标表示文档id，然后用我们定义的文档结构struct Format表示文档，这里的文档结构可以因为要与文档id关联，所以还要在原来三个元素的基础上再加上文档id，而为了防止文档id出现不必要的错误，可以用更大的数据比如uint64_t表示文档id。

倒排索引是通过关键词找文档id，但是一个关键词可能出现在很多文档id中，如何表达他们的先后，就还需要一个值代表该关键词下的该文档id权重，这三个数据也可以用一个结构体组织起来，可以定义为倒排节点，整个倒排索引就可以用一个KV结构的哈希表组织起来，K代表用来查找关键字，V可以是一个数组，里面就是某一个关键字能够查找出来的所有的文档id、id的权值等信息组织起来的一个个节点，可以把这个结构定义为倒排拉链。

成员方法
一定要有的两个方法，获得正排索引和获得倒排索引，
正排索引就是通过文档id找到文档内容，所以参数就是文档id，返回的就是该文档id对应的文档，还是用我们前面定义的结构表示文档。
要获得正排索引的方式也非常简单，因为我们构建索引肯定是连续构建的，所以我们只需要判断我们用来查找的文档id是否合法，如果合法，那我们直接从我们的正排索引返回id对应的文档即可，如果不合法，就返回空，并打印原因。

倒排索引就是通过关键字找文档id，所以参数就是要查找的关键字，而关键字与文档id的关系我们已经在上面把他们定义成了倒排拉链，所以我们这里返回的就是我们构建的该关键字的倒排拉链。
实现方法也比较简单，直接用查找方法看能否在哈希表中找到该关键字的倒排拉链，找到就返回，找不到就返回空。

最后，我们还需要的一个方法就是建立索引，建立索引需要的肯定就是我们经过Parser处理后的数据了，可以返回一个bool值判断是否建立成功，其实现比较复杂，后面再详细说

结构如下图

(这里的index类名最好首字母大写：Index，方便区分类与对象)

2.建立索引代码的编写

首先我们就要把我们之前处理好的文件打开，因为我们之前已经定义好了文件之间用’\n’分隔，所以直接getline就可以读取到一个文件的信息

建立正排索引，我们直接把读取到的文档的对应的内容解析出来，填写到对应文件的结构中，然后把解析的文档数据push进我们的正排索引即可

而建立倒排索引，需要对我们的每一个文档的title，describe相关内容进行分词，分词的操作我们可以自己完成，也可以使用cppjieba完成分词。

我们的操作就是不断的getline，然后先构建正排。正排完成后

以下就是构建索引代码的基本结构：

(1).正排索引

需要根据我们输入的一行文件内容进行构建，我们构建正排的本质就是构建出一个Format_t，然后把里面的值填好，把这个构建好的数据插入到正排的vector中，而我们正好可以用vector的下标充当我们的文档id

第一步：解析读到的文件内容，字符串切分
我们要把读到的字符串切分成title，describe，url三个部分，那就可以用一个vector把被切好的三个部分组织起来，那我们现在还需要一个字符串切割的功能，可以定义一个专门负责字符串切割的函数，可以把它放在之前写好的工具集文件中，定义一个类代表字符串工具，里面加入一个方法专门进行字符串切割

第二步：把切分好的字符串填充到Format_t中
第三步：插入到正排索引中

插入时可以用move减少拷贝，提高效率。插入完成后，我们在BuildIndex方法中计划的方法是用刚刚构建好的Format不断的构建倒排。所以我们返回的应该是我们刚刚构建好的Format。
其结构如下：

字符串切分代码的编写

字符串切分的工作可以我们自己写，也可以用boost库中的boost split函数完成切分，其头文件为< boost/algorithm/string.hpp>

不建议使用strtok接口，虽然也可以完成，但是它会对原始字符串做修改，所以这里使用split

如何使用？

boost::split(result, target,boost::is_any_of("sep"), boost::token_compress_on);
result：分割出来以后是多个结果，所以是vector类型
target：要被分割的内容
is_any_of(""):凡是这里的任何一个字符都作为分隔符
token_compress_on：选项，选择是否需要压缩（比如多个分隔符相连，相邻两个分隔符之间没有内容，
不压缩就认为内容是空，就会保留一个空，压缩就不保留），不写就是默认，等于token_compress_off

下面直接用split完成切分即可

(2).倒排索引

上一步正排完成了对字符串的解析，而这个解析就包含了文件的title，describe，url，file_id的内容，我们现在的任务就是通过这些信息，完成从关键词到倒排拉链的映射，就需要我们对title，describe的内容进行分析，比如统计一下词频等

倒排索引的基本原理

首先我们先列出与倒排相关的几个数据结构

//我们拿到的文档内容
typedef struct Format
{
    std::string title;   //文档标题
    std::string describe;//文档去标签之后的内容
    std::string url;     //文档url
    uint64_t file_id;    //文件id
}Format_t;

//把倒排的关键字和文档id，权重捆绑在一起
struct InvertNode
{
    std::string key_word;
    uint64_t file_id;
    int weight;
};
//倒排拉链
typedef std::vector InvertList;
//关键字与倒排拉链的映射关系
std::unordered_map inverted_index;

InvertNode表示的就是关键词与文档之间的关系，我们倒排的最终目的就是要通过文档内容，建立一个或多个InvertNode！！
因为一个文档的标题和内容都可能包含很多词，而每一个词都可能在很多文档中出现

但是由于我们是一个文档一个文档建立的，索引我们每一次建立的应该是当前文档里所有的关键词与当前文档的关系。

而与我们搜索强相关的是就是标题和内容，
第一步：我们需要对title和describe都要先分词

第二步：词频统计
如果一个词在文档中的出现次数特别多，那它被搜索时也应该高优先级的搜索出来。也就是词和文档的相关性。
相关性实际在衡量时有多种维度，所以大多数的搜索引擎的相关性设置上非常复杂，并且需要有大量的积累，所以我们这里就简单的用词频设计相关性，一个词的出现频率越高，其相关性就越高。但是我们认为：在标题中出现的词，其相关性会比内容中出现的词更高一些。相关性就是我们设计Format中的weight。

cppjieba的使用

我们分词使用的工具就是cppjieba

这是我下载下来的cppjieba的内容，其test里面有一个demo.cpp，里面就是使用方法

这里面有它各种各样的分词方法，我们使用的是CutForSearch

在目录/cppjieba/dict目录下存放的就是我们jieba库的词库

词库就是决定我们分词的标准，比如那些属于同一种词，如何分。所以使用它时这些词库也要能够被找到，所以这个dict目录就要能够在我们的程序中被看到，可以使用软连接的方法在项目目录下建立对应的软连接

ln -s ~/mycode/cppjieba/dict dict
前面的cppjieba之前的部分是我的jieba库保存的地方

除了dict目录，include目录下的cppjieba里面包含的头文件也要让我们的程序看到，也可以建立对应的软连接

ln -s ~/mycode/cppjieba/include/cppjieba cppjieba

在使用之前有一点需要注意，我们待自己把cppjieba目录下的deps里的limonp拷贝到include目录的cppjieba目录下,否则就会编译报错。

cd cppjieba: cp -rf deps/limonp include/cppjieba/

因为在这个项目中除了建立倒排索引需要分词，在我们搜索的时候也需要分词，所以我们可以把jieba分词封装到我们的工具集中。
所以我们就可以直接在工具集中编写一个类JiebaTool，首先包含头文件 “cppjieba/jieba.hpp”;

其使用方法可以借鉴demo，首先要定义一个jieba对象，然后还要包含词库，要注意词库的的路径不能出错（根据自己的情况写），否侧编译可以通过但是运行就会报错！因为我们刚刚已经在当前目录下建立好了软连接，所以词库的路径如下：

const char* const DICT_PATH = "./dict/jieba.dict.utf8";
const char* const HMM_PATH = "./dict/hmm_model.utf8";
const char* const USER_DICT_PATH = "./dict/user.dict.utf8";
const char* const IDF_PATH = "./dict/idf.utf8";
const char* const STOP_WORD_PATH = "./dict/stop_words.utf8";

首先要有一个jieba对象，然后调用该对象的CutForSearch方法，我们把这些参数传进来就可以，而为了不让我们每一次分词都创建一个jieba对象，可以把该对象定义成静态，如下：

倒排索引代码的编写

在我们循环遍历文件建立正排时，建立完正排的结果都会交给我们，那我们的倒排就可以拿到文档，首先我们要先对标题和内容部分进行分词，并且分词的时候进行词频统计。

那就可先定义一个结构，里面有两个int成员用来表示一个关键词分别在标题于文档中的出现次数，以便于后面我们设置权重。而关键词与词频的映射关系可以用哈希表建立，方便我们用关键词去查找并计数。

然后我们就可以着手用我们封装的jieba分词对文档的标题和内容进行分词，分词完成后遍历分词的结果，然后统计在两个地方出现次数。

在此之前，还有一点需要注意，我们可以观察一下，搜索引擎在搜索的时候其实是不区分大小写的，所以我们也不区分大小写，那我就可以建立索引的时候就可以统一大小写，并且将来客户输入关键字搜索时，我也要先统一大小写再搜索，可以使用boost库的to_lower方法实现，并且呈现上我不修改文档内容，只是在搜索算法上统一使用小写搜索。

词频统计完成后，我们就要着手建立倒排索引了，我们设计的倒排索引是一个哈希表，是关键词与哈希桶之间的映射。哈希桶中存放的我们叫做节点，节点表示的就是关键词，文档id，和该关键词在该文档中的权重，那我们现在就可以用我们当前文档的信息，构建出当前文档的所有关键词与当前文档id映射和权值，构建好了以后，可以使用unordered_map的[]的特性，直接用我们构建的关键字在倒排索引中寻找该关键字对应的倒排拉链，然后把构建好的节点插入到该拉链上，循环此过程，就可以完成当前文档的所有关键词倒排索引的建立。

代码如下：

以上就完成了index模块的编写

七.编写搜索引擎模块Searcher

1.index单例与searcher基本代码结构

既然index里面已经提供了build方法，那我在searcher里面首先就是执行build任务，build任务的本质就是把磁盘上已经去标签化的文档以索引的形式加载到内存中，首先这是比较大的，再其次我们需要有一个调用的过程，而搜索引擎的索引只有一份就够了，所以我们可以把Index设计成单例模式，让searcher直接获取单例就可以了

index要build，是需要那个被处理过的文档的，所以Seacher的初始化首先就需要得到这个文档然后传给index，让index去建立索引。

然后就是Search查找代码的编写，首先我们要拿到用户输入的查找词，一定是一个字符串，然后我们的工作就是通过这个语句，构建出一个json串返回给用户。一共分为4步，首先要对用户的查找内容进行分词，找到里面的关键词，然后根据这些关键字在索引里查找，找到文件id与其权值，然后按照权值将文件进行降序排列，再通过查找的结果，构建一个json串，以便给用户返回结果。

这些是基本方法，后面还会新增方法

如何把index设计成单例

把Index的构造函数私有。拷贝构造，赋值重载直接delete
然后成员变量处增加一个static的Index指针，在类外初始化，然后编写GetInstance方法获取单例，考虑到线程安全问题，还要再加一个静态的锁，所以这个锁也要在类外初始化，然后双判断，如果指针为空就new一个对象，不为空直接返回对象，完成编写

然后在Seacher模块里，只需要用类域直接调用GetInstance就可以获得单例index，然后使用index的Build方法构建索引

以下是基本结构：

2.Search查找代码的编写

首先要对用户搜索的内容进行分词，那就可以引入我们的工具集，调用里面我们写好的jieba分词，把分词的结果用一个vector组织起来

第二步，要根据关键词，找到他们对应的倒排拉链，如果该关键词找不到对应的倒排拉链，则表示该次没有在文件中出现过，继续找下一个词即可，而为了方便我们排序，我们可以把每一个词对应的倒排拉链组合在一起，组成一个包含搜索语句里所有关键词的一个大的倒排拉链，

有了整体的倒排拉链，我们再根据这里面的相关性，继续降序排序，可以使用sort即可。

排好序之后我就要根据这个组合拉链里的每一个元素去找相应的文档内容，然后通过jsoncpp对文档内容进行序列化与反序列化，

安装jsoncpp

sudo yum install -y jsoncpp-devel

头文件

json里有3个类
Value：序列化与反序列化的中间类，要先把原始数据转化成Value类，然后才能转化，可以用append方法把多个Value对象顺序添加到一起

Reader：反序列化，把一个string类型转化成Value类型

Writer：分为两种FastWriter和StyledWriter，使用writer方法就可以把一个Value类型转换成string类型通过返回值返回，第一种是转成了一个一行的字符串，传输比较快，第二种它虽然变成了字符串，但是看起来还是原来的样子

编译时要加-ljsoncpp

通过遍历组合拉链，然后使用正排索引找到每个节点对应的文档内容，再根据每个文档内容，构建Value类型的对象，把title，describe，url都放进去，这里的间接我们只要一部分，不全要，所以需要处理，然后把所以文件的value对象全都append到一个整体的Vaule对象中，直接序列化这个整体的对象即可，因为我们的文档是排好序的，所以将来使用的时候直接直接从头开始用就可以了。

(1).获取摘要

如果把文档内容都加上，那内容太多了，所以这里可以编写一个方法，用来根据文档内容获取文档的摘要

理论上获取摘可以用一个特别简单粗暴的方法，直接获取文档内容的前一部分，但是前一部分不一定有我们的搜索关键字，最好能在标题和摘要里都凸显一下关键字，所以形成摘要还需要我们传入关键字。我们现在是根据倒排拉链在进行序列化，而倒排拉链的节点里面就包含了该文档的关键字，以次来获取该文档的摘要

我们规定获取摘要的内容在文档中第一的出现的关键字的前50个到后150个一共200和字节之间，

搜索关键词位置时，不可以用find，因为find是区分大小写的，而我们建立索引的时候是使用小写建立的索引，并且没有修改原来的内容，如果用find搜，可能会出现大小写不匹配而找不到的情况，所以这里使用C++的一个可以忽略大小写的查找接口search

下面是代码：

八.调试使用的命令行式的搜索

这里可以先对上面的三个模块进行一下命令行测试

首先先创建一个Searcher对象，然后调用其InitSearcher方法初始化。这个初始化就会先获取单例的Index对象，然后根据我们传的处理好的结果建立索引。

然后我们就可以使用一个while循环，让用户输入搜索的内容，然后调用Search方法进行搜索，把结果打印出来。

为了方便观察，可以在Searcher模块获取单例index和索引建立成功后分别打印一条提示，然后在Index模块的BuildIndex函数中，设计一个计数器，然后每建立50个索引就打印一次提示。这样就可以看到代码运行的情况


我如何才能检测打印出来的内容是不是按照我们设置的相关性顺序打印的？

可以在searcher模块里面构建Value时加上权值，然后打印的时候就可以看到
我们可以发现，我们打印出来的权值确实是按顺序排序的，但是如果你用连接去官方文档找，然后自己计算一下会发现打印出来的权值可能会和自己计算的有一些差异，这有两个原因，首先是我们使用的jieba分词工具的分词方法可能和浏览器中分词方法不同，这就会导致最后计算权值时有一些差异，其次，我们的解析模块解析内容时，是先把整个文件都读到了内存，然后又对整个内容进行去标签，而这个去标签后的内容里面也是包含标题的！所以如果一个关键词在标题中出现了，那么它也一定会在内容中出现，也就是说标题中出现过的关键词统计权值时的值会比正常计算多一个。

实际的调试可以根据不同的情况进行，

九.编写http_server模块

1.引入cpp-httplib库

可以用来部署一个http服务，下载方法可以在gitee上直接搜索就可以找到

链接:https://gitee.com/sumert/cpp-httplib?_from=gitee_search

这个库只有一个头文件httplib.h

注意事项：cpp-httplib在使用的时候需要使用较新版本的gcc，而centos 7默认的gcc版本是4.8.5，直接用要么编译不通过，要么就运行时报错，centos为了确保工具集的稳定性，yum默认支持的工具一般都比较老，所以要获得新的编译器要是有scl工具集进行安装。

首先要安装scl源

sudo yum install centos-release-scl scl-utils-build

安装新版本的gcc，7以及7以上都可以

sudo yum install -y devtoolset-7-gcc devtoolset-7-gcc-c++

上面两步做完就可以使用了，可以在目录：/opt/rh/下看到安装的内容

启动

scl enable devtoolset-7 bash
gcc -v

这个命令行启动只在本次会话有效，重新登录以后又会回到老版本，要用新版本就待再启动，如果不想每次登录都启动一次，可以设置登录的时候就执行一次启动命令，可以用vim把该命令写在下面这个文件的后面

~/.bash_profile

这是登录的时候默认会执行的一个登录脚本，这就可以保证每次启动的时候都会执行这个命令。（最好不要写在全局）

然后就是安装cpp-httplib
最新的cpp-httplib在使用时，如果gcc版本不是特别新，也可能导致运行时错误的问题。建议使用cpp-httplib 0.7.15
在gitee标签里找到历史版本，就可以找到这个版本，可以直接把安装包下载下来。直接拖拽到终端或者使用rz -E命令，把安装包转移到云服务器上

解压：unzip cpp-httplib-v0.7.15.zip

然后可以把库拷贝到项目文件中，也可以建立软连接把库引入到项目文件下

cpp-httplib库的使用方法非常简单，在gitee仓库下面就有各种使用方法

这就完成了一个简单的http server，浏览器访问/hi资源就会返回Hello World！

web服务器需要有一个web根目录保存网页资源，所以还要在项目目录下新建一个wwwroot目录，在里面可以遍历index.html首页信息，然后使用httplib::Server类对象的set_base_dir()方法，（）里面填上字符串形式的根目录的路径就可以设计根目录了。

2.http_server代码的编写

首先创建Searcher对象，然后调用InitSearcher方法获取单例index与建立索引。

然后创建Server对象用来构建服务，先调用set_base_dir方法设置web根目录。

然后调用Get方法，第一个参数设置成/s ，表示搜索，第二个参数可以用lambda表达式，第一个参数是Request类型（我简称为req），表示请求，第二个参数是Response类型（我简称为rsp），表示响应。

可以用req对象的has_param检查对端是否输入了word参数，如果没有参数，使用rsp对象调用set_content方法给用户返回一条提示信息。

获取到参数以后，可以使用req对象的get_param_value方法以string形式获得word参数的值，获取到之后服务端也可以打印一下。

得到用户的搜索内容，就可以调用search对象的Search方法进行搜索任务了，这里lambda表达式要使用前面定义的变量，要先在捕获列表把search对象捕获进来，调用Search方法前，创建一个字符串存储结果json串，然后rsp对象调用set_content方法给客户端返回一个json串，json串的格式为application/json

然后server对象调用listen方法，把我们的IP和开放的端口设置好即可。

Makefile也要做一下修改

这时候我们再把服务跑起来，在浏览器访问我们的IP+端口，在后面加上/s，如果直接访问，那就回给我们返回没有参数的提示，要加参数，就在后面加上一个？，然后添加word=[要搜索的内容]，这时候再访问就可以看到服务端给浏览器返回的搜索结果了。

以上就完成了本项目所有的后端代码的编写。

十.编写前端模块

vscode工具的使用
编写前端我们使用的工具是vscode。
vscode是微软开发的一款编辑器，可以直接百度vscode的官网加载，如果下载很慢的化可以把下载链接替换成国内的镜像，可以参考这篇文章：https://www.zhihu.com/search?type=content&q=vscode%20%E4%B8%8B%E8%BD%BD%E6%85%A2

可以在本地新建文件夹写，写好之后上传到云服务器，也使用remote-ssh插件远程连接云服务器直接把内容写在云服务器上

因为vscode和云服务器是可以同步的，所有在编写前端网页时，可以让服务器一直跑着，然后把网页同步上去，就可以直接在浏览器访问或刷新，比较方便

1.编写html

要包括的内容：标题，输入框，按钮（可以点击），显示搜索的内容的标题，简介和url。

<body>
    <div class="container">
        <div class="search">
            <input type="text" value="输入搜索关键字...">
            <button>搜索一下button>
        div>
        <div class="result">
            <div class="item">
                <a href="#">标题a>
                <p>摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要p>
                <i>https://www.baidu.com/i>
            div>
            <div class="item">
                <a href="#">标题a>
                <p>摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要p>
                <i>https://www.baidu.com/i>
            div>
            <div class="item">
                <a href="#">标题a>
                <p>摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要p>
                <i>https://www.baidu.com/i>
            div>
            <div class="item">
                <a href="#">标题a>
                <p>摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要p>
                <i>https://www.baidu.com/i>
            div>
            <div class="item">
                <a href="#">标题a>
                <p>摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要p>
                <i>https://www.baidu.com/i>
            div>
            <div class="item">
                <a href="#">标题a>
                <p>摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要摘要p>
                <i>https://www.baidu.com/i>
            div>
        div>
    div>  
body>

2.编写css样式

去除内外边距

    <style>
    	/*去掉网页的默认内外边距*/
        *{	
            margin:0;
            /* 设置外边距 */
            padding:0;
            /* 设置内边距 */
        }
        /* boody内容和网页呈现吻合 */
        html,
        body{
            height: 100%;
        }
        /*以.开头：类选择器 */
        .container{      
            width: 800px;   /*设置div的宽度 */
            margin:0px auto;  /*如果是两个，第一个代表上下，第二个是左右，auto左右会自动对其*/
            margin-top:15px;  /*设置外边距的上边距，让元素和网页上部有一定距离*/
        }
        /*复合选择器，选中container下的search*/
        .container .search{   
            width: 100%;   /*宽度与父标签保持一致*/
            height: 52px;  /*高度设置为52像素点*/
        }
        /*先选中input标签，再设置标签的属性：标签选择器*/
        .container .search input{  
            float: left;/*设置left浮动，可以把两个盒子之间的距离清0*/
            width: 650px;
            height: 35px; /*input在进行高度设置时，没有考虑边框，这是内部的高度*/

            border: 1px solid black; /*设置边框大小，样式与颜色*/
            border-right: none;   /*去掉右边框*/

            padding-left: 10px;  /*设置搜索框内的内容与搜索框左侧的距离*/
            color:#ccc;       /*设置默认字体的颜色*/
            font-size: 15px;    /*设置字体大小*/
        }
        /*先选中button标签，再设置标签的属性：标签选择器*/
        .container .search button{
            float: left;
            width: 100px;
            height: 37px;

            background-color: #0b8b0d;  /* 设置按钮背景颜色*/
            color: #fff;   /*设置字体颜色*/
            font-size: 17px; /*设置字体大小*/
            font-family:'Courier New', Courier, monospace;/*设置字体*/
        }
        /* 设置result显示内容的属性*/
        .container .result{
            width: 100%; /*完全继承父父标签*/
        }
        .container .result .item{
            margin-top: 15px;/*设置外边距的上边距*/          
        }
        .container .result .item a{
            display: block; /*设置成块级元素，可以独占一行*/
            text-decoration: none;/*去掉标题的下横线*/
            font-size: 18px;/*把标题字体修改大一些*/
            color: #0b8b0d;/*设置标题颜色*/
        }
        /*设置鼠标放在a上的动态效果*/
        .container .result .item a:hover{
            text-decoration: underline;/*光标事件，鼠标放在标题可以有一个加下横线的结果*/
            
        }
        .container .result .item p{
            margin-top: 5px;/*p标签的上边距，让内容和标题之间有一定距离*/
            font-size: 14px;
        }
        .container .result .item i{
            display: block; /*设置成块级元素，可以独占一行*/
            font-style: normal;/*取消斜体风格*/
            color: #ccc;/*设置颜色*/
            font-size: 14px;
        }
	style>

3.编写js前后端交互

使用原始的js成本比较高，推荐使用JQuery。
搜索jquery CDN，找到一个js的外部链接，粘贴到head中

发起网页请求时，除了可以获得首页，浏览器还会自动获得这个js文件，这就是jquery库

因为我们的目的是根据搜索结果生成动态的网页，所以上面的CSS中的测试网页就可以全注释掉了

	<script>
        function Search()
        {
            //alert("helli js");/*弹窗*/

            //1.提取数据
            //$可以理解为jQuery的别称
            let aim=$(".container .search input").val();//拿到input里的参数
            console.log("aim = "+aim);//console是浏览器的对话框，可以用来查看js数据

            //2.发起http请求
            //ajax属于jquary中的一个和后端进行数据交互的函数
            $.ajax({
                type:"GET",//GET方法
                url:"/s?word="+aim,
                success: function(data){//拿到的结果就在data里
                    console.log(data);
                    BuildHtml(data);//用从后端获取的结果，构建一个新网页
                }
            })
        }
        function BuildHtml(data)
        {
            //获取html中的result标签
            let result_lable=$(".container .result");
            //清空历史搜索结果
            result_lable.empty();
            //遍历json串
            for( let elem of data)
            {
                // console.log(elem.title);
                // console.log(elem.url);
                let a_lable=$("",{
                    text:elem.title,
                    href:elem.url,//链接到url
                    target:"_blank"//跳转到新页面
                });
                let p_lable=$("",{
                    text:elem.describe+"..."
                });
                let i_lable=$("",{
                    text:elem.url
                });
                let div_lable=$("",{
                    class:"item"
                });
                a_lable.appendTo(div_lable);
                p_lable.appendTo(div_lable);
                i_lable.appendTo(div_lable);
                div_lable.appendTo(result_lable);
            }
        }
    </script>

十一.项目的优化

1.搜到重复内容问题

用上面的代码，在搜索时可能会出现重复结果。

因为我们的searcher模块在搜索获取倒排拉链时，使用的是一个一个分好的词搜的，如果我搜索的内容的有好几个词都出现在了文档A中，那在建立倒排拉链时这几个关键词都可以关联到这个文档A上，那就会各自在自己的倒排拉链上绑定这个文档，最终我们对内容进行排序时会把拉链合并起来，然后排序，那这时候这个合并的拉链里面就会包含好几个该文档A，将来搜索就会搜出好几遍该文档对应的网页，造成重复的问题。

解决思路：
1.把搜索到的id相同的文档合并
2.被重复搜索的文档的权值累加，作为新的权值
3.建立倒排时的节点一个文档id只对应一个word，这里的word需要特殊处理

首先在searcher模块定义一个用来显示的倒排拉链节点，把这个节点作为组成最终返回给客户的整体倒排拉链的节点。里面包含的元素就是file_id，weight，还有关键词，这个关键词就不能是一个词了，导致文件被重复搜索的原因就是在同一个文件中的几个关键字都对应了一遍file_id，形成了多个节点，所以这里用一个vector，同一个文件的所有关键词只生成一个节点，那搜索时也就不会出现重复文档了。

具体去重的方法可以使用一个unoredred_map,通过file_id去重，里面的V就是我们各个定义的新节点，然后searcher在通过分词的结果使用每一个关键词找到倒排拉链时，就不能直接把拉链push到组合拉链了，要先根据拉链中的文档id，在map中找到新节点的位置，然后对新节点进行修改，最终遍历以便所有通过倒排索引找出来的倒排拉链，把其中的每一个节点都进行一次去重，得到的unordered_map就是去重过后的搜索结果，再把这个结果转移到组合拉链中，再进行排序，构建json串等工作，这样就达到了去重的目的。

并且这里的序列化方法也可以改成FastWriter，StyledWriter是为了让我们好调试，现在所有的代码都已经完成，为了效率就可以改成FastWriter了。
下面是修改后的searcher代码


2.添加日志

可以编写一个log.hpp文件，首先可以定义一些宏常量，表示日志的等级，比如NORMAL代表正常，WORNING代表警告，DEBUG代表调试，ERROR代表错误等等。

然后我们先写一个log函数，功能要可以打印日志等级，日志时间，日志内容和日志的文件名和行数。时间可以由函数获取，剩下的4个则需要用参数传进来。

获取时间的方法可以先用time函数获取时间戳，然后用strftime函数把时间转化成字符串存在缓冲区，然后把缓冲区的内容打印出来就可以。

调用函数可以写成一个宏，只需要两个参数，等级和内容，因为等级我们定义成了常量，所以要把输入的参数用#变成字符串，内容自己输入对应的内容即可，剩下两个参数文件和行数可以使用宏__FILE__和__LINE__得到，接下来在各个文件中包含我们的log.hpp文件，然后我们就可以在我们上面的代码中调用就可以，以index模块中我们查看建立索引进度的代码为例：

原代码:std::cout<<"当前已经建立索引的文档: "<
这样修改我们之前打印消息的地方，重新编译，效果如下：当然除了这些地方，也可以在代码别的位置加入你想要打印到日志中的内容。代码如下：日志补充完成后，可以运行以下命令： nohup ./http_server > log.txt 2>&1 & 启动进程时以守护进程的方式让服务运行起来，并且会把日志信息打印到log.txt文件中，部署服务到Linux。十二.项目的扩展方向 1.我们建库使用的是doc目录下的html文件里的内容，除了这里，别的地方其实也还有，所以想要也可以建立整站搜索，只是这样可能对我们的服务器占用会比较大。更狠的话你可以把boost的所有版本都下载下来，然后所有的内容都建立正排倒排。 2.我们获取数据源的方式是通过下载，也可以在合法的范围内使用爬虫爬取一些资源建库，使用信号等方式，设计一个在线更新方案。 3.我们用的很多现成的组件，可以自己设计对应的方案 4.在搜索引擎中，添加竞价排名（拼接结果时可以把广告的权值设计的特别大） 5.搜索词的热词，可以做一下热词统计，当用户输入热词的前缀时，可以把热词都显示在搜索框中供用户选择。智能显示搜索关键词。（可以使用字典树或优先级队列） 6.设置登录注册，引入对MySQL的使用。

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Linux查看服务器日志 TPBoreas 运维 linux 运维
一、tail这个是我最常用的一种查看方式用法如下：tail-n10test.log查询日志尾部最后10行的日志;tail-n+10test.log查询10行之后的所有日志;tail-fn10test.log循环实时查看最后1000行记录(最常用的)一般还会配合着grep用，(实时抓包)例如:tail-fn1000test.log|grep'关键字'（动态抓包）tail-fn1000test.log
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
2021 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级C++语言试题（第三大题：完善程序代码） mmz1207 c++csp
最近有一段时间没更新了，在准备CSP考试，请大家见谅。（1）有n个人围成一个圈，依次标号0到n-1。从0号开始，依次0，1，0，1...交替报数，报到一的人离开，直至圈中剩最后一个人。求最后剩下的人的编号。#includeusingnamespacestd;intf[1000010];intmain(){intn;cin>>n;inti=0,cnt=0,p=0;while(cnt#includeu
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
20个新手学习c++必会的程序输出*三角形、杨辉三角等（附代码） X_StarX c++学习算法大学生开发语言数据结构
示例1:HelloWorld#includeusingnamespacestd;intmain(){coutusingnamespacestd;intmain(){inta=5;intb=10;intsum=a+b;coutusingnamespacestd;intfactorial(intn){if(nusingnamespacestd;voidprintFibonacci(intn){intt
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR