Android 右键后无Java class创建不吃凉粉 android java 开发语言
Androidstudio创建javaclass：最近几个月用Androidstudio开发，因为电脑设置了一个新的用户使用，原来的androidstudio,打开之前的正常的项目总是报一些奇奇怪怪的错误，就重新安装了最新的版本问题描述但是新的androidstudio右键后没有javaclass,本来我就不怎么用java和androidstudio,又赶时间，不想花时间用更不了解的kotlin解
stm32+w5500实现web服务_【NodeJS】简单静态WEB服务器实现 weixin_39711441
说明利用HTTP模块URl模块Path模块Fs模块创建在项目文件夹下，创建文件夹static,下面创建index.html//引入http模块var http=require('http');//fs模块var fs=require('fs');http.createServer(function(req,res){ //http://localhost:8001/news.html/new
Axios封装一款前端项目网络请求实用插件 smart_ljh 前端 vue.js vuejs axios 网络
前端项目开发非常经典的插件axios大家都很熟悉，它是一个Promise网络请求库，可以用于浏览器和node.js支持的项目中。像一直以来比较火的Vue.js开发的几乎所有项目网络请求用的都是axios。那么我们在实际的项目中，有时候为了便于维护、请求头信息统一处理、统一拦截器设置以及响应数据统一处理，需要在项目中针对axios封装一个网络请求插件。接下来就介绍一下针对以上这些输出具体的解决方案和
vue3开发：项目添加mitt
项目中遇到一个场景：类似于app.vue页面获取某一个页面组件的数据，因为进入那个组件是通过router-view进入，不是通过组件注入到app.vue,所以使用常规的组件通信获取不到数据，我使用了mitt实现了这个功能。Vue2中我们使用EventBus来实现跨组件之间的一些通信，它依赖于Vue自带的on/on/on/emit/$off等方法，而Vue3中移除了这些相关方法，这意味着EventB
不喜欢SAP GUI？那试试用Eclipse进行ABAP开发吧
在SAP项目实施中，Brownfield场景是一种迁移策略，尤其用于从SAPERP系统升级到SAPS/4HANA的过程中。Brownfield方法可以理解为“系统转换”模式，它是指在现有系统基础上进行优化和转换，而不是从头开始构建一个全新系统。这种策略可以让企业保留现有的业务流程和系统配置，最大程度地降低业务中断风险，同时利用S/4HANA提供的新功能来实现企业数字化转型。
新手安装Arkime不求人 OpenSource SIM 开源 Arkime
Arkime（原名Moloch）是一个开源数据包捕获软件，它可以收集到PCAP数据并对其索引，用于浏览和搜索捕获的并建立索引的网络流量。虽说可以在Arkime官方（https://arkime.com/）下载适用于CentOS（rpm）和Ubuntu（deb）的安装包安装。官网也有非常详细的文档资料（https://arkime.com/learn）。然而项目的压力使得我们无法充分学习技术，而且对
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
基于STM32 + W5500的以太网功能开发与时间同步方案嵇英芹
基于STM32+W5500的以太网功能开发与时间同步方案STM32W5500移植NTP更新时间.rar项目地址:https://gitcode.com/open-source-toolkit/60355概述本项目展示了如何在STM32微控制器上集成W5500以太网控制器，实现了网络通信的基础，特别地，通过移植Ethernet相关驱动文件，结合NTP协议，实现了精确的RTC（实时时钟）对时功能。此外
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
微信小程序游戏开发大梦百万秋知识学爆微信小程序小程序
1.微信小程序开发环境准备要开发微信小程序游戏，首先需要搭建开发环境，主要步骤如下：1.1注册微信小程序账号前往微信公众平台注册并认证一个小程序账号。注册后获得AppID，用于后续开发和测试。1.2下载并安装微信开发者工具微信提供了专门的开发工具——微信开发者工具，支持调试和预览小程序的功能。1.3创建游戏项目在开发者工具中创建新项目，选择“小游戏”类型并填写AppID和项目路径。{"minipr
JavaWeb 开发入门：从基础到应用大梦百万秋知识学爆 java
JavaWeb是基于Java技术构建的Web应用开发体系。得益于Java的跨平台性和强大的生态系统，JavaWeb长期以来一直是企业级开发的首选方案之一。本篇博客将从JavaWeb的基本概念、核心技术到实际项目开发，带你全面了解如何利用JavaWeb构建一个动态网站。什么是JavaWeb？JavaWeb是使用Java技术开发Web应用程序的总称，通常包括动态网页、交互式功能和后端逻辑。它支持开发以
【强化学习】Mava框架大雨淅淅人工智能机器学习算法人工智能学习深度学习
目录一、选择框架二、学习框架基础三、深入框架高级特性四、实践项目五、参考文档和社区资源六、编写测试用例七、学习框架的生态系统八、持续学习和适应九、建立个人项目或工作项目十、反思和总结关于Mava框架的学习，首先需要明确的是，您可能是指Java框架的学习，因为“Mava”并非一个广为人知的特定Java框架名称。在Java开发领域，有多个知名的框架，如Spring、SpringBoot、Hiberna
iMac电脑启动ideal跑Java项目报错(Class JavaLaunchHelper is implemented in both...One of the two will be used.) 学习时长两年半的小学生开发的小坑小洼编辑器 java
第一次在iMac上面跑ideal，启动一个main方法出现报错（objc[19374]:ClassJavaLaunchHelperisimplementedinboth/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home/bin/java(0x10d1cb4c0)and/Library/Java/JavaVirtualMa
【Rust自学】13.7. 迭代器 Pt.3：使用闭包捕获环境配合迭代器的使用 SomeB1oody Rust自学 rust 后端开发语言
13.7.0.写在正文之前Rust语言在设计过程中收到了很多语言的启发，而函数式编程对Rust产生了非常显著的影响。函数式编程通常包括通过将函数作为值传递给参数、从其他函数返回它们、将它们分配给变量以供以后执行等等。在本章中，我们会讨论Rust的一些特性，这些特性与许多语言中通常称为函数式的特性相似：闭包迭代器（本文）使用闭包和迭代器改进I/O项目闭包和迭代器的性能喜欢的话别忘了点赞、收藏加关注哦
‘vite’ 不是内部或外部命令，也不是可运行的程序！ Vinca@ npm NodeJS vite npm node.js
项目背景包管理工具：pnpm提示‘vite’不是内部或外部命令，也不是可运行的程序！安装条件兼容性注意⚠️⚠️⚠️Vite需要Node.js版本18+，20+。然而，有些模板需要依赖更高的Node版本才能正常运行，当你的包管理器发出警告时，请注意升级你的Node版本。解决办法查看当前node版本是否满足安装vite#查看当前系统node版本node-vnode版本过低解决办法（一次就爽）如果您本机
如何在BlogSpot中一次上传多篇博客文章？潮易 python
如何在BlogSpot中一次上传多篇博客文章？在BlogSpot中一次性上传多篇博客文章的方法是使用API来批量上传文章。以下是详细的步骤和代码示例：1.首先，你需要从GoogleDevelopersConsole创建一个项目并启用BloggerAPI。2.然后，你需要在你的项目中添加BloggerAPI的客户端库，例如使用Python的`google-api-python-client`库。3.
LNK1181:无法打开输入文件“m.lib“ 潮易 python
在C++中，LNK1181错误通常意味着链接器无法找到某个库文件来链接你的程序。这可能是由于以下原因：1.库文件没有正确安装或路径设置不正确。2.编译命令没有包含正确的库参数。3.库文件已被移除或者版本不兼容。下面是一个解决LNK1181错误的基本步骤：###解决方案1：检查并确保库文件已正确安装-**查看库文件**：在你的操作系统中，找到与你的项目需要链接的库文件（m.lib）。-**确认路径*
Android app系统签名方法 Androidfoolish [Android]从入门到精通
1.如果有项目代码那就非常简单了,直接吧apk放到vendor下面,添加Android.mk,然后mm编译即可得到系统签名后的产物.Android.mk文件参考源码vendor/google/apps/Android.mk文件,因为该目录下都是apk文件，一部分是需要系统签名的apk（LOCAL_CERTIFICATE:=platform），而另一部分是不需要签名的apk（LOCAL_CERTIF
02 微服务架构下的质量挑战源码头 java 微服务架构运维
相比传统的单体应用架构，微服务架构具有更多优势，但微服务同样不是万能的。它的许多优点同时也带来了明显的缺点，比如单个微服务虽然编译得更快了，但微服务数量却翻了数倍。再比如单个微服务可以针对热点服务进行单独扩缩容，但也就需要投入更多的运维成本，等等。这也使得微服务架构在架构设计、团队协作、测试环节等层面引发一系列挑战。我们知道，“越晚发现的问题，修复的成本也就越高”，如果在项目开始对这些挑战处理不当
Idea拉取项目流程及报错解决暖暖的糖糖 Idea工具 intellij-idea
1.入职新公司或者开启新项目的时候，需要通过idea引入项目2.首先通过git地址open引入项目，需要Git下载项目：https://blog.csdn.net/shy52134/article/details/121558689?spm=1001.2014.3001.5501获取git账号密码及权限获取git文件路径获取分支地址3.导入项目后来，加载依赖，注意有的公司有自己的私有库一定要求取最
一个.NET开源、性能优异的Excel数据读取库 dotNET跨平台 excel
项目介绍Sylvan.Data.Excel是一个开源、免费、跨平台的.NET库，专注于读取和写入Excel数据文件。支持多种文件格式，并提供高效的数据访问和数据绑定功能。该库在.NET生态系统中是读取Excel数据文件的最快且内存分配最低的库之一。使用场景适用于需要从Excel文件中读取数据并进行进一步处理（如数据分析、报告生成等）的应用程序。适用于需要将数据从数据库或其他数据源导出到Excel文
[cg] android studio 无法调试cpp问题 DXT00 Graphics 笔记总览 android studio android ide
折腾了好久，nativecpp库无法调试问题，原因下面的Deploy需要选Apkfromappbundle!!另外就是指定Debugtype为Dual，并在SymbolDirectories指定nativecpp的so路径UE项目调试：使用AndroidStudio调试虚幻引擎Android项目|虚幻引擎5.5文档|EpicDeveloperCommunity
全面解析npm：功能、用途、命令和配置阿吉的呓语 java开发知识 npm
1.npm简介npm（NodePackageManager）是Node.js的官方包管理工具，用于安装、发布、管理JavaScript包和依赖关系。它是世界上最大的软件注册表之一，拥有数百万个包，每天处理数十亿次的下载请求。2.npm的功能和用途包安装和管理：通过npm可以方便地安装、更新、删除JavaScript包。依赖管理：npm能够管理项目的依赖关系，包括安装、更新和移除依赖。包发布和管理：
Nginx UI：一款开源的Nginx可视化管理界面，让你轻松管理nginx的配置小华同学ai nginx ui 开源
嗨，大家好，我是小华同学，关注我们获得“最新、最全、最优质”开源项目和工作学习方法NginxUI是由0xJacky和Hintay共同开发的一款Nginx网络管理界面。它旨在为Nginx提供一个易于使用的图形界面，让用户可以在线查看服务器状态、编辑配置文件、管理网站和证书等。想要一睹为快？访问https://demo.nginxui.com/使用以下凭据登录：用户名：admin密码：admin特色功
【AUTOSAR】VCU开发实际项目讲解（二）----VCU软件与结构描述大道生单片机嵌入式硬件 AUTOSAR 26262 VCU 汽车
VCU软件描述VCU软件架构主要分为底层软件驱动和应用层控制策略，其中应用层控制策略通过基于模型的开发，自动生成代码并可与底层驱动软件实现无缝连接。VCU软件通过BOOTLOADER和CAN总线进行更新刷写。标定及诊断支持CCP/XCP标定协议支持UDS诊断协议及SAEJ1939诊断协议故障存储：128KIIC外扩EEPROM提供程序刷新Bootloader软件工具基于CAN总线的控制器刷新工具支
掌握未来游戏开发：Unreal Engine 5与C++的完美结合金文依
掌握未来游戏开发：UnrealEngine5与C++的完美结合【下载地址】UnrealEngine5游戏开发教程-使用C脚本分享UnrealEngine5游戏开发教程-使用C++脚本欢迎来到“UnrealEngine5GameDevelopmentwithC++Scripting”资源下载页项目地址:https://gitcode.com/Open-source-documentation-tut
推荐开源项目：EPPlus.Core——.NET Core下的Excel处理库纪亚钧
推荐开源项目：EPPlus.Core——.NETCore下的Excel处理库项目地址:https://gitcode.com/gh_mirrors/ep/EPPlus.Core1、项目介绍在数据处理的日常工作中，对Excel文件的操作是一项常见的需求。而EPPlus.Core正是为此而生的一个.NETCore版本的Excel处理库。作为一个非官方的EPPlus库移植版，它允许你在跨平台的.NETC
使用npm创建three.js项目 ShawnWeasley npm javascript arcgis 前端 node.js
1.安装Node.js和npm首先，需要在您的计算机上安装Node.js和npm。Node.js是一个JavaScript运行环境，而npm是一个JavaScript包管理器。npm会随Node.js一起安装，因此只需要安装Node.js即可。从Node.js的官方网站(https://nodejs.org)下载并安装适合您操作系统的版本。2.创建一个新的项目在您希望创建项目的目录下，手动创建一个
redis 工具类封装 swadian2008 Spring Boot redis redis spring boot java
目录1-在springboot项目的pom.xml2-在application.properties中配置redis参数3-编写redis的配置类4-编写redis的工具类5-测试类RedisController.java1-在springboot项目的pom.xml在配置文件里加入redis的jar依赖4.0.0com.demo.springbootspringbootdemo1.0-SNAPS
探索JavaScript的宇宙：《JS星球系统》潘俭渝Erik
探索JavaScript的宇宙：《JS星球系统》solar-system-of-jsVisualizethelanguagesontheJSplatform项目地址:https://gitcode.com/gh_mirrors/so/solar-system-of-js在快速发展的前端世界中，JavaScript已经成为无可争议的主宰，围绕它的语言和框架如群星璀璨，构成了一个壮观的“JS星球系统”
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

求知.

【项目】Boost搜索引擎

文章目录

一、项目介绍
- 1.1 项目背景
- 1.2 模块划分
二、搜索引擎原理
- 2.1 基本原理
- 2.2 正排索引和倒排索引
三、环境搭建
- 3.1 升级GCC-G++
- 3.2 安装JsonCpp库
- 3.3 引入httplib库
- 3.4 安装Boost库
四、数据清洗模块
- 4.1 获取HTML文档路径
- 4.2 解析HTML文档内容
- 4.3 保存解析后的结果
五、索引建立模块
- 5.1 Index类的基本结构
- 5.2 建立正排索引
- 5.3 建立倒排索引
六、搜索引擎模块
- 6.1 搜索引擎类的基本结构
- 6.2 搜索功能的实现
- 6.3 摘要功能的实现
七、网络通信模块
八、前端页面模块
九、项目总结

一、项目介绍

1.1 项目背景

Boost搜索引擎是一个基于 Boost 文档的站内搜索引擎，用户可以根据浏览器访问该搜索引擎，当用户通过页面的搜索框输入查询关键字后，就能快速的快速的查询出相关的Boost在线文档，从而弥补了 Boost 库在线文档中没有搜索功能的缺陷。

1.2 模块划分

该项目的实现主要包含五个模块，即数据清洗模块、索引建立模块、搜索引擎模块、网络通信模块和前端界面模块：

数据清洗模块：该模块负责对 Boost 离线文档进行数据清洗，包括提取网页标题title、获取网页内容content、构建官方文档URL等，最后将清洗出来的数据保存到一个文件中。
索引建立模块：该模块主要功能是根据清洗出来的数据构建正排索引和倒排索引。
搜索引擎模块：该模块首先获取索引，任何根据用户提供的搜索关键字进行搜索，最后将搜索结果按照权值进行排序并返回。
网络通信模块：该模块作用是搭建 HTTP 网络通信服务器，实现与客户端的通信功能。
前端界面模块：该模块首先为用户提供搜索框的展示页面，然后将搜索结果展示给用户。

二、搜索引擎原理

2.1 基本原理

搜索引擎的基本原理是将用户输入的查询关键字转化为一组相关的文档，并按照相关度进行排序，最终展示给用户。具体来说，搜索引擎的工作过程包含以下几个步骤：

网络爬虫：搜索引擎首先通过网络爬虫程序抓取互联网上的网页，获取网页的内容和链接信息。
索引：搜索引擎将爬虫抓取到的网页内容进行分词和处理，将每个网页转化为一组关键词，并将这些关键词建立索引，以便后续查询时能够快速定位相关的文档。
查询处理：当用户输入查询词时，搜索引擎会对查询词进行分词和处理，将其转化为一组关键词，并在索引中查找包含这些关键词的文档列表。
相关度排序：根据一定的算法对查询词与文档的相关度进行计算，然后按照相关度排序，将最相关的文档展示给用户。
结果展示：最后，搜索引擎将排序后的文档结果展示给用户，包括文档的标题、摘要和链接等信息。

搜索引擎中的关键技术包括文本分词、索引构建、查询处理和相关度排序等。为了提高搜索引擎的效率和准确性，还可以使用一些技术和方法，例如压缩索引、倒排索引合并，查询缓存、搜索日志分析等。

2.2 正排索引和倒排索引

正排索引（Forward Index）和倒排索引（Inverted Index）都是文本检索中常用的索引结构。

正排索引：以文档为基本单位来组织数据的索引结构。对于每篇文档，正排索引会记录文档的一些属性，比如标题、作者、正文等，并将这些属性与文档ID一起存储在一个文档表中。同时，正排索引还会将每个文档中的每个单词及其出现的位置信息存储在一个单词表中，以方便进行搜索操作。正排索引的查询效率较高，但是由于需要存储大量的文档信息和单词信息，索引体积较大。
倒排索引：以单词为基本单位来组织数据的索引结构。倒排索引将每个单词及其出现的文档ID列表存储到一个倒排索引表中。当用户输入一个查询词时，倒排索引可以快速查找到包含该查询词的文档，并返回文档ID列表。相对于正排索引，倒排索引需要存储的信息量更小，因此索引体积相对较小，但是查询效率可能会受到一些限制，特别是在包含多个查询词的复杂查询中。

总的来说，正排索引适合于需要频繁访问文档内容的场景，比如文本编辑器或者其他需要高效访问文档内容的应用中；倒排索引则适用于信息检索和搜索引擎等需要根据关键词快速查找相关文档的场景。

三、环境搭建

3.1 升级GCC-G++

由于在该项目中会引入许多第三方库，比如httplib库，该库就会要求gcc编译器必须是较新的版本。如果使用老版本的编译器要么编译不通过，要么就会运行报错。因此我们需要对gcc进行升级，以下是升级至 gcc 7.3 的方法：

查看当前gcc版本

gcc --version

安装centos-release-scl

sudo yum install centos-release-scl-rh centos-release-scl

安装devtoolset

sudo yum install devtoolset-7-gcc devtoolset-7-gcc-c++

这里需要注意一下，如果想安装7.版本的，就改成devtoolset-7-gcc，以此类推。

激活对应的devtoolset

source /opt/rh/devtoolset-7/enable

此时GCC就成功升级到了 7.3 版本。

需要注意的是scl命令启用只是临时的，退出 shell 或重启就会恢复原系统gcc版本。如果想要一启动shell就立即生效可以进行以下配置：

echo "source /opt/rh/devtoolset-7/enable" >> ~/.bashrc

即把启动scl的命令添加到文件.bashrc中，每次启动shell就会执行该语句。

3.2 安装JsonCpp库

JSON 是一种轻量级的数据交换格式。它可以代表数字、字符串、值的有序序列和名称/值的集合对。

JsonCpp 是一个C++库，允许操作 JSON 值，包括字符串的序列化和反序列化。它还可以保存反序列化/序列化步骤中的现有注释，方便
用于存储用户输入文件的格式。

以下是安装JsonCpp的命令：

sudo yum install epel-release
sudo yum install jsoncpp-devel

安装好的JsonCpp存放在/usr/include/jsoncpp/json目录下：

3.3 引入httplib库

cpp-httplib 是个开源的库，是一个c++封装的http库，使用这个库可以在linux、windows平台下完成http客户端、http服务端的搭建，这是一个多线程“阻塞”HTTP 库。使用起来非常方便，只需要包含头文件httplib.h即可。源码地址

获取httplib库：

git clone https://github.com/yhirose/cpp-httplib.git

3.4 安装Boost库

由于C++本身的文件系统不够完善，因此可以使用Boost库在的filesystem来对文件进行操作，下面是安装Boost库的方法：

sudo yum install -y boost-devel

四、数据清洗模块

该模块负责对Boost离线文档进行去标签，清洗数据，然后将结果保存到文件中。在本项目中从Boost官网中下载的文档版本为boost_1_78_0，首先将boost_1_78_0/doc/html/目录下的全部文件赋值到项目下的目录data/input中，方便对其进行数据清洗。

首先在parser.cpp模块中定义源路径和存储结果的目的文件路径：

// 源目录
const std::string src_path = "../data/input";
// 目的路径
const std::string output = "../data/raw_html/raw.txt";

然后需要定义一个DocInfo结构体用来存储HTML文档的信息，包括title、content、url。其结构定义如下：

typedef struct DocInfo
{
	std::string title;	 // 文档标题
	std::string content; // 文档内容
	std::string url;	 // 官网文档的url
} DocInfo;

然后只需要在main函数中获取所有的HTML文档路径，然后根据文档路径解析出每个文档的title、content、url，并将其保存到DocInfo结构体中，最后写入到output 文件中即可。

4.1 获取HTML文档路径

实现EnumFile函数来递归式的获取src_path路径下的HTML文档路径。在该函数的实现中，由于C++本身的文件系统不够完善，因此使用boost库中的文件系统filesystem来对文件进行操作。

bool EnumFile(const std::string &src_path, std::vector<std::string> *files_list)
{
	namespace fs = boost::filesystem;
	fs::path root_path(src_path); // path 是filesystem中的路径对象

	// 判断src_path是否存在
	if (!fs::exists(root_path))
	{
		LOG(WARNING, src_path + "is not exists!");
		return false;
	}

	// 定义一个空的迭代器，用来进行递归结束的判断
	fs::recursive_directory_iterator end; // recursive_directory_iterator是filesystem中用来递归遍历文件的迭代器
	for (fs::recursive_directory_iterator iter(root_path); iter != end; ++iter)
	{
		// 1. 判断是否是普通文件，html是普通文件
		if (!fs::is_regular_file(*iter))
			continue;
		// 判断当前文件是否是 .html 为后缀的文件
		if (iter->path().extension() != ".html")
			continue;
		// 2. 此时一定是一个以html为后缀的普通文件
		files_list->push_back(iter->path().string());
	}
	return true;
}

最后将读取出来的HTML文档的路径保存到顺序表files_list中，方便后续根据文档路径对文档内容的读取。

4.2 解析HTML文档内容

该功能主要是有实现的ParseHTML函数来完成，该函数负责的功能有三个：解析出HTML文档的标题title、解析出HTML文档的内容、构建官方文档的URL。
ParseHTML函数的整体结构如下：

bool ParseHTML(const std::vector<std::string> &files_list, std::vector<DocInfo> *results)
{
	for (const std::string &file_path : files_list)
	{
		// 1. 读取文件
		std::string result;
		if (!ns_util::FileUtil::ReadFile(file_path, &result))
		{
			continue;
		}
		DocInfo doc;
		// 2. 解析当前文件内容，提取title
		if (!_ParseTitle(result, &doc.title))
		{
			continue;
		}
		// 3. 解析当前文件内容，提取content
		if (!_ParseContent(result, &doc.content))
		{
			continue;
		}
		// 4. 解析当前文件内容，构建文档官网url
		if (!_ParseURL(file_path, &doc.url))
		{
			continue;
		}
		results->push_back(std::move(doc)); // 将doc转化为右值，消除拷贝构造带来的性能低下
	}
	return true;
}

首先循环遍历files_list获取每个HTML文档的路径，然后通过ReadFile函数读取每个文档的内容，并将其保存到result字符串中，然后对result的内容进行解析，依次获取title、content、url，将其保存到DocInfo 结构体中，最后插入到results结果集中。

注意：最后将doc插入到results结果集中使用了std::move将其转化为了右值，使其匹配vector的移动构造，消除了拷贝构造带来的性能低下问题。

_ParseTitle函数的实现：

bool _ParseTitle(const std::string &file, std::string *title)
{
	//xxx
	std::size_t begin = file.find(""</span><span class="token punctuation">)</span><span class="token punctuation">;</span>
	<span class="token keyword">if</span> <span class="token punctuation">(</span>begin <span class="token operator">==</span> std<span class="token double-colon punctuation">::</span>string<span class="token double-colon punctuation">::</span>npos<span class="token punctuation">)</span>
		<span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">;</span>
	std<span class="token double-colon punctuation">::</span>size_t end <span class="token operator">=</span> file<span class="token punctuation">.</span><span class="token function">find</span><span class="token punctuation">(</span><span class="token string">"");
	if (end == std::string::npos)
		return false;

	begin += std::string(""</span><span class="token punctuation">)</span><span class="token punctuation">.</span><span class="token function">size</span><span class="token punctuation">(</span><span class="token punctuation">)</span><span class="token punctuation">;</span>
	<span class="token keyword">if</span> <span class="token punctuation">(</span>begin <span class="token operator">></span> end<span class="token punctuation">)</span>
		<span class="token keyword">return</span> <span class="token boolean">false</span><span class="token punctuation">;</span>

	<span class="token operator">*</span>title <span class="token operator">=</span> file<span class="token punctuation">.</span><span class="token function">substr</span><span class="token punctuation">(</span>begin<span class="token punctuation">,</span> end <span class="token operator">-</span> begin<span class="token punctuation">)</span><span class="token punctuation">;</span>
	<span class="token keyword">return</span> <span class="token boolean">true</span><span class="token punctuation">;</span>
<span class="token punctuation">}</span>
</code></pre> 
  <p>在HTML文件中，标题包含在标签<code><title> 中，因此只需要找到</code>和<code>在文件中的位置，然后进行字符串截取就可以获得标题内容。 
  _ParseContent函数的实现： 
  bool _ParseContent(const std::string &file, std::string *content)
{
	// 基于一个简单的状态机进行去标签
	//  只有读取到了 '<' 就进入标签状态， 读取到 '>' ，则结束标志状态，进入内容的读取
	enum STATUS
	{
		LABEL,	// 标签状态
		CONTENT // 内容状态
	};

	enum STATUS status = LABEL; // html文件 的第一个字符就是 '<'
	for (auto ch : file)
	{
		switch (status)
		{
		case LABEL:
		{
			if (ch == '>')
				status = CONTENT;
		}
		break;
		case CONTENT:
		{
			if (ch == '<')
				status = LABEL;
			else
			{
				if (ch == '\n') // 去掉同一个文档内容中的 '\n'，在保存解析结果到文件中时以 '\n' 作为文档与文档之间的分隔符
					ch = ' ';
				*content += ch;
			}
		}
		break;
		default:
			break;
		}
	}

	return true;
}
 
  在HTML文件中，文档的内容包含在双标签<> 中，但是HTML文件中除了双标签，还有很多单标签，因此就无法像解析标题那样来解析内容了。这里定义了一个简单的状态机，来解决判断标签和内容的问题：即遍历文档内容，如果遇到'<' 就进入LABEL状态，遇到'>'就进入CONTENT状态，然后进行内容的获取。
 状态机的定义如下： 
  enum STATUS
{
	LABEL,	// 标签状态
	CONTENT // 内容状态
};
 
  这里使用枚举的方式进行定义。 
  _ParseURL函数的实现： 
  bool _ParseURL(const std::string &file_path, std::string *url)
{
	std::string url_head = "https://www.boost.org/doc/libs/1_78_0/doc/html";
	std::string url_tail = file_path.substr(src_path.size()); // file_path: ../data/input/*.html    src_patc: ../data/input
	*url = url_head + url_tail;
	return true;
}
 
  拼接出官网文档url非常简单，因为我们获取的离线文档是1_78_0/doc/html目录下的文件，因此只需要取官网文档的https://www.boost.org/doc/libs/1_78_0/doc/html作为url_head，然后再截取本地文件路径../data/input下的文档路径作为url_tail，最后将url_head和url_tail拼接再一起就构成了文档在官网中的url了。 
  4.3 保存解析后的结果 
  该功能由SaveResults函数来完成，代码实现如下： 
  bool SaveResults(const std::vector<DocInfo> &results, const std::string &output)
{
#define SEP '\3' // title、content、url之间的分隔符
	std::ofstream out(output, std::ios::out | std::ios::binary);
	if (!out.is_open())
	{
		LOG(WARNING, output + "open file.");
		return false;
	}

	// 开始写入文件
	// 写入格式 titile\3content\3url\ntitle\3content\3url\n...
	// 方便读取的时候使用getline读取的一行的一个文档的内容
	for (const auto &doc : results)
	{
		std::string out_string;
		out_string = doc.title;
		out_string += SEP;
		out_string += doc.content;
		out_string += SEP;
		out_string += doc.url;
		out_string += '\n';

		out.write(out_string.c_str(), out_string.size());
	}
	out.close();
	return true;
}
 
  文件的写入操作借助于C++的文件流来实现。在保存每个文档的title、content、url时，使用了不可见字符'\3'来进行分隔，并且去除了每个文档中的'\n'换行字符，而使用'\n'换行字符进行文档与文档之间的隔离，方便后续使用getline函数每次读取的一行数据就是一个HTML文档的内容。 
  五、索引建立模块 
  该模块的主要功能是根据数据清洗后保存的结果，建立索引。而建立的索引中又分为正排索引和倒排索引，正排索引用于根据文档id，快速找到文档；倒排索引用于根据关键字查找到相关的文档。该模块主要实现了一个Index类。 
  5.1 Index类的基本结构 
  Index类的基本结构如下： 
  
namespace ns_index
{
    // 设计为单例模式
    class Index
    {
    private:
        // 正排索引
        std::vector<DocInfo> forward_index;
        // 倒排索引
        // 倒排索引是一个关键字对应一组（一个）InvertedElem
        std::unordered_map<std::string, InvertedList> inverted_index;

    private:
        Index() {}
        Index(const Index &) = delete;
        Index &operator=(const Index &) = delete;

        static Index *instance; // 单例对象
        static std::mutex mtx;  // 互斥锁

    public:
        static Index *GetInstance();
        // 根据文档id找到文档
        DocInfo *GetForwardIndex(uint64_t id);

        // 根据关键字string，获取倒排拉链
        InvertedList *GetInvertedList(const std::string &word);

        // 根据"../data/raw_html/raw.txt"建立索引
        bool BuildIndex(const std::string &input);

    private:
        // 构建正排索引
        DocInfo *BuildForwardIndex(const std::string &line);
        // 构建倒排索引
        bool BuildInvertedIndex(const DocInfo &doc);
    };

    // 类外初始化类内静态成员变量
    Index *Index::instance = nullptr;
    std::mutex Index::mtx;

} // namespace ns_index

 
  该类的成员变量分别是forward_index正排索引和inverted_index倒排索引，其定义分别如下： 
  // 正排索引
std::vector<DocInfo> forward_index;
// 倒排索引
std::unordered_map<std::string, InvertedList> inverted_index;
 
  其中DocInfo是定义的文档信息结构体，其定义如下： 
      // 文档信息
    struct DocInfo
    {
        std::string title;   // 文档标题
        std::string content; // 文档内容
        std::string url;     // 官网文档的url
        uint64_t doc_id;     // 文档id，即数组下标
    };
 
  该结构体相比于之前增加了一个文档id的成员，其实就是文档存放在数组中的下标。 
  InvertedList是一个倒排拉链，其定义如下： 
      // 倒排拉链
    typedef std::vector<InvertedElem> InvertedList;
 
  其中InvertedElem也是定义的结构体，代表的是倒排元素，定义如下： 
  // 倒排元素
struct InvertedElem
{
    uint64_t doc_id;  // 文档id
    std::string word; // 关键字
    int weight;       // 权重
};
 
  其中包含的文档id、关键字、权值这些成员变量。 
  该类中的GetForwardIndex函数用于根据文档找到对应的文档；GetInvertedList函数用于根据提供的关键字获取倒排拉链；BuildIndex函数用于建立索引，包括正排索引和倒排索引。并且将该类设计为了单例模式，只创建一个对象供全局使用。 
  5.2 建立正排索引 
  建立正排索引的代码如下： 
  DocInfo *BuildForwardIndex(const std::string &line)
{
    // 1. 解析line，字符串切分
    // line: title\3content\3url
    const std::string sep = "\3";
    std::vector<std::string> result;
    ns_util::StringUtil::Split(line, &result, sep);
    if (result.size() != 3)
    {
        LOG(WARNING, "split failed.");
        return nullptr;
    }

    // 2. 填充DocInfo
    DocInfo doc;
    doc.title = result[0];
    doc.content = result[1];
    doc.url = result[2];
    doc.doc_id = forward_index.size(); // 即从 0 下标开始

    // 3. 将doc插入到正排索引中
    forward_index.push_back(std::move(doc));
    // 返回当前doc，用于建立倒排索引
    return &forward_index.back();
}
 
  通过getline读取文件raw.txt中的每一行数据，就得到了一个文档的全部信息，然后使用Boost库中的函数Split对其以\3为分隔符进行切分，最终构建出了DocInfo结构体对象，将其插入到正排使用forward_index，最后返回该DocInfo对象，用于建立倒排索引。 
  5.3 建立倒排索引 
  建立倒排索引的代码如下： 
  bool BuildInvertedIndex(const DocInfo &doc)
{
    // 1. 创建词频统计的结构体
    struct word_cnt
    {
        int title_cnt;   // 标题中出现次数
        int content_cnt; // 内容中出现次数
        word_cnt() : title_cnt(0), content_cnt(0) {}
    };

    // 用来暂存词频的映射表
    std::unordered_map<std::string, word_cnt> word_map;

    // 2. 利用jieba对title进行分词
    std::vector<std::string> title_words;
    ns_util::JiebaUtil::CutString(doc.title, &title_words);
    // 3. 对title进行词频统计
    for (auto &word : title_words)
    {
        boost::to_lower(word); // 统一转化为小写
        word_map[word].title_cnt++;
    }

    // 4. 利用jieba对content进行分词
    std::vector<std::string> content_words;
    ns_util::JiebaUtil::CutString(doc.content, &content_words);
    // 5. 对content进行词频统计
    for (auto &word : content_words)
    {
        boost::to_lower(word); // 统一转化为小写
        word_map[word].content_cnt++;
    }

    for (auto &word_pair : word_map)
    {
        // 创建并初始化倒排元素
        InvertedElem item;
        item.doc_id = doc.doc_id;
        item.word = word_pair.first;
        item.weight = 10 * word_pair.second.title_cnt + word_pair.second.content_cnt;

        // 插入倒排元素到倒排索引
        InvertedList &inverted_list = inverted_index[item.word]; // 获取倒排索引中word对应的倒排拉链，如果没有则会创建一个并引用返回
        inverted_list.push_back(std::move(item));
    }
    return true;
}
 
  在构建倒排索引的函数中，引入了一个用于词频统计的结构体word_cnt，然后将其于与关键字建立一个映射关系word_map： 
  struct word_cnt
{
    int title_cnt;   // 标题中出现次数
    int content_cnt; // 内容中出现次数
    word_cnt() : title_cnt(0), content_cnt(0) {}
};
// 用来暂存词频的映射表
std::unordered_map<std::string, word_cnt> word_map;
 
  这里使用jieba库对文档的标题和内容进行分词，然后分别统计其关键字的频率。统计完后遍历word_map集合，创建倒排元素，并将其插入到倒排索引以及相应的倒排拉链当中。 
  六、搜索引擎模块 
  该模块主要是对用户传入的关键字进行分词，然后对全部的分词通过索引进行搜索，最后将所有结果按照权重进行排序，构建Json串返回给用户。该模块主要实现了一个Searcher类。 
  6.1 搜索引擎类的基本结构 
  namespace ns_searcher
{
    // 定义一个用于去重的节点，即多个关键字可能会搜索到同一个文档
    struct InvertedElemPrint
    {
        uint64_t doc_id;
        int weight;
        std::vector<std::string> words;
        InvertedElemPrint() : doc_id(0), weight(0) {}
    };

    class Searcher
    {
    private:
        // 供查找的索引
        ns_index::Index *index;

    public:
        Searcher() {}
        ~Searcher() {}

    public:
        // 初始化搜索引擎
        void InitSearcher(const std::string &input)
        {
            // 1. 获取index对象
            index = ns_index::Index::GetInstance();
            LOG(NORMAL, "获取index单例对象成功.");

            // 2. 创建索引
            index->BuildIndex(input);
            LOG(NORMAL, "建立正排索引和倒排索引成功.");
        }
        // 搜索服务，将搜索结果以json串返回
        void Search(const std::string &query, std::string *json_strings);

    private:
        // 获取摘要
        std::string GetDesc(const std::string &content, const std::string &word);
    };
} // namespace ns_searcher
 
  该类中的成员变量就是index对象的指针，后续将利用index对象实现搜索功能。包含的成员函数有：InitSearcher函数负责对搜索引擎进行初始化，主要是获取Index单例对象和建立索引；Search函数实现搜索功能，最终将搜索结果以Json串进行返回；GetDesc函数用于获取内容的摘要，以后在前端界面将其展示给用户。 
  此外，由于通过多个关键字搜索可能会搜索到同一个文档，因此该类中实现了去重功能。首先建立了一个InvertedElemPrint结构体对象，其定义如下： 
   struct InvertedElemPrint
 {
     uint64_t doc_id;
     int weight;
     std::vector<std::string> words;
     InvertedElemPrint() : doc_id(0), weight(0) {}
 };
 
  其中的words成员就用于存储哪些关键字可搜索到该文档。实现去重功能的主要是在Search函数中使用了unordered_map集合，详细情况可见后文搜索功能的实现。 
  6.2 搜索功能的实现 
  搜索功能的实现代码如下： 
  // 搜索服务，将搜索结果以json串返回
void Search(const std::string &query, std::string *json_strings)
{
    // 用于保存所有的搜索结果
    std::vector<InvertedElemPrint> inverted_list_all;
    // 用于去重
    std::unordered_map<uint64_t, InvertedElemPrint> inverted_elem_print_map;

    // 1. 对query进行分词
    std::vector<std::string> words;
    ns_util::JiebaUtil::CutString(query, &words);

    // 2. 通过index, 根据分词的各个词进行查找
    for (std::string word : words)
    {
        ns_index::InvertedList *inverted_list = index->GetInvertedList(word);
        if (nullptr == inverted_list)
            continue;

        for (const auto &elem : *inverted_list)
        {
            //[]: 如果存在则返回值，不存在则插入新的值
            auto &item = inverted_elem_print_map[elem.doc_id];
            // 此时，每次循环的item一定是doc_id相同的元素
            item.doc_id = elem.doc_id;
            item.weight += elem.weight;
            item.words.push_back(std::move(elem.word));
        }
    }

    // 3. 将结果插入到inverted_list_all中
    for (const auto &item : inverted_elem_print_map)
    {
        inverted_list_all.push_back(std::move(item.second));
    }

    // 4. 将结果按照权值进行排序
    std::sort(inverted_list_all.begin(), inverted_list_all.end(), [](const InvertedElemPrint &e1, const InvertedElemPrint &e2)
              { return e1.weight > e2.weight; });

    // 5. 构建Json串, Jsoncpp完成序列化和反序列化
    Json::Value roots;
    for (const auto &item : inverted_list_all)
    {
        // 根据正排索引，获取doc
        ns_index::DocInfo *doc = index->GetForwardIndex(item.doc_id);
        if (nullptr == doc)
            continue;

        Json::Value root;
        root["title"] = doc->title;
        root["desc"] = GetDesc(doc->content, item.words[0]);
        root["url"] = doc->url;

        roots.append(root);
    }

    Json::StyledWriter writer;
    *json_strings = writer.write(roots);
}
 
  该函数中先定义了一个inverted_list_all用于保存搜索结果，然后定义了一个inverted_elem_print_map用于去重，即建立了文档id与InvertedElemPrint 结构体之间的映射关系。 
  在进行搜索前同样需要使用Jieba库对搜索关键字进行分词处理，然后根据每个分词获取对应的倒排拉链，遍历每个倒排拉链中的元素通过inverted_elem_print_map构建相应的InvertedElemPrint 对象。 
  完成上述工作之后，循环遍历inverted_elem_print_map集合，将其中的InvertedElemPrint 对象插入到结果集inverted_list_all中，此时其中的元素全是不重复的。然后将其中的每个元素按照权值进行排序，最后构建Json串返回给用户。 
  6.3 摘要功能的实现 
  获取摘要的基本思路是：找到word关键字在文档内容中首次出现的位置，然后向前找50字节（如果没有，则之间从文档内容开始进行截取），再向后面找100个字节（如果后面没有100字节，则将后面的内容全部截取），最后截取中间的内容作为摘要。GetDesc函数的实现代码如下： 
  std::string GetDesc(const std::string &content, const std::string &word)
{
    // 1. 找到word在content中首次出现的位置，然后往前找50字节（如果没有，则从begin开始），往后找100字节（然后没有，则到end）。
    const std::size_t prev_step = 50;
    const std::size_t next_step = 100;

    // 以忽略大小写的方式进行查找
    auto iter = std::search(content.begin(), content.end(), word.begin(), word.end(), [](char x, char y)
                            { return std::tolower(x) == std::tolower(y); });

    std::size_t pos = std::distance(content.begin(), iter);

    // 2. 获取start 和end，注意size_t
    std::size_t start = 0;
    std::size_t end = content.size() - 1;

    // 如果pos前面有50个字节
    if (pos > start + prev_step)
    {
        start = pos - prev_step;
    }
    // 如果pos后面有100字节
    if (pos + next_step < end)
        ;
    {
        end = pos + next_step;
    }

    std::string desc = "...";
    desc += content.substr(start, end - start);
    desc += "...";
    return desc;
}
 
  七、网络通信模块 
  该模块作用是搭建 HTTP 网络通信服务器，实现与客户端的通信功能。这里借助了cpp-httplib库，大大减小了开发的难度，提高了开发效率，其代码实现如下： 
  #include "searcher.hpp"
#include "httplib.h"
#include "log.hpp"

const std::string root_path = "./wwwroot";
const std::string input = "../data/raw_html/raw.txt";

int main()
{
    httplib::Server server;
    ns_searcher::Searcher searcher;
    searcher.InitSearcher(input);

    // 设置资源根目录
    server.set_base_dir(root_path.c_str());

    server.Get("/s", [&searcher](const httplib::Request &req, httplib::Response &rsp) 
    {
        if(!req.has_param("word"))
        {
            rsp.set_content("必须要有搜索关键字！", "text/plain; charset=utf-8");
            return;
        }

        std::string word = req.get_param_value("word");
        LOG(DEBUG, "用户正在搜索关键字：" + word);
        
        std::string json_strings;
        searcher.Search(word, &json_strings);

        rsp.set_content(json_strings, "application/json");
    });

    server.listen("0.0.0.0", 8080);
    return 0;
}
 
  八、前端页面模块 
  前端代码如下： 
  <!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <script src="http://code.jquery.com/jquery-2.1.1.min.js"></script>

    <title>Boost库搜索引擎</title>
    <style>
        /* 去掉网页内容中的所有内外边距 */
        * {
            /* 设置外边距 */
            margin: 0;
            /* 设置内边距 */
            padding: 0;
        }

        /* 将body内容与html内容呈现吻合 */
        html,
        body {
            height: 100%;
        }

        /* 以"."开头：类选择器 */
        .container {
            /* 设置div的宽度 */
            width: 800px;
            /* 通过设置外边距达到居中对齐 */
            margin: 0px auto;
            /* 设置外边距的上边距，保持元素与上边界的距离 */
            margin-top: 15px;
        }

        /* 复合选择器：选中container下的search */
        .container .search {
            /* 宽度与父标签保持一致 */
            width: 100%;
            /* 高度 */
            height: 52px;
        }

        /* 先选中input标签，直接设置标签的属性，先要选中。input：标签选择器。*/
        .container .search input {
            /* 设置left左浮动 */
            float: left;
            width: 600px;
            height: 50px;
            /* 设置边框属性：宽度、样式、颜色 */
            border: 1px solid #4e6ef2;
            /* 去掉input的右边框 */
            border-right: none;
            /* 设置内边距 */
            padding-left: 12px;
            color: #ccc;
            font-size: 17px;
        }

        .container .search button {
            float: left;
            width: 150px;
            height: 52px;
            /* 设置button背景颜色：#4e6ef2 */
            background-color: #4e6ef2;
            /* 设置button中的字体颜色 */
            color: #fff;
            /* 设置字体大小 */
            font-size: 20px;
            font-family: 'Franklin Gothic Medium', 'Arial Narrow', Arial, sans-serif;

        }

        .container .result {
            width: 100%;
        }

        .container .result .item {
            margin-top: 15px;
        }

        .container .result .item a {
            /* 设置为块级元素，单独占一行 */
            display: block;
            /* 去掉a标签标题的下划线 */
            text-decoration: none;
            /* 设置标题的大小 */
            font-size: 18px;
            /* 设置标题的字体颜色 */
            color: #4e6ef2;
        }

        .container .result .item a:hover {
            /* 设置鼠标放在标题上的动态效果 */
            text-decoration: underline;
        }

        .container .result .item p {
            margin-top: 5px;
            font-size: 16px;
            font-family: 'Courier New', Courier, monospace;
        }

        .container .result .item i {
            display: block;
            /* 取消斜体风格 */
            font-style: normal;
            color: green;
        }
    </style>
</head>

<body>
    <div class="container">
        <div class="search">
            <input type="text" value="输入搜索关键字">
            <button onclick="Search()">搜索一下</button>
        </div>

        <div class="result">

            <!-- 动态生成网页内容 -->


            <!-- <div class="item">
                <a href="#">这是一个标题</a>
                <p>摘要内容..................................................</p>
                <i>https://gitee.com/LiHaiHei/boost-search-engine-project
            </div>
            <div class="item">
                <a href="#">这是一个标题</a>
                <p>摘要内容..................................................</p>
                <i>https://gitee.com/LiHaiHei/boost-search-engine-project
            </div>
            <div class="item">
                <a href="#">这是一个标题</a>
                <p>摘要内容..................................................</p>
                <i>https://gitee.com/LiHaiHei/boost-search-engine-project
            </div>
            <div class="item">
                <a href="#">这是一个标题</a>
                <p>摘要内容..................................................</p>
                <i>https://gitee.com/LiHaiHei/boost-search-engine-project
            </div> -->
        </div>
    </div>

    <script>
        function Search() {
            // 浏览器的一个弹窗
            // alert("Hello JS!");

            // 1. 利用jQuery提取数据，$可以理解为jQuery的别称
            let query = $(".container .search input").val();
            if (query == '' || query == null) {
                return;
            }
            console.log("query = " + query); // console：是浏览器的对话框，可以用来查看js数据

            // 2. 发起HTTP请求，ajax：是jQuery中一个和后端进行数据交互的函数
            $.ajax({
                type: "GET",
                url: "/s?word=" + query,
                success: function (data) {
                    console.log(data);
                    BuildHtml(data);
                }
            });
        }

        function BuildHtml(data) {
            if (data == '' || data == null) {
                document.write("无搜索结果...");
                return;
            }

            // 获取HTML中的result标签
            let result_lable = $(".container .result");
            // 清空历史搜索结果
            result_lable.empty();

            for (let elem of data) {
                // console.log(elem.title);
                // console.log(elem.url);

                // 构建a标签
                let a_lable = $("", {
                    text: elem.title,
                    href: elem.url,
                    // 跳转到新的页面
                    target: "_blank"
                });

                // 构建p标签
                let p_lable = $("", {
                    text: elem.desc
                });

                // 构建i标签
                let i_lable = $("", {
                    text: elem.url
                });

                let div_lable = $("", {
                    class: "item"
                });

                // 添加a、p、i 三个标签到div item标签中
                a_lable.appendTo(div_lable);
                p_lable.appendTo(div_lable);
                i_lable.appendTo(div_lable);

                // 添加item到result中
                div_lable.appendTo(result_lable);
            }
        }

    </script>
</body>

</html>
 
  九、项目总结 
  添加日志功能： 
  #pragma once
#include 
#include 
#include 

#define NORMAL 1
#define WARNING 2
#define DEBUG 3
#define FATAL 4

#define LOG(LEVEL, MESSAGE) log(#LEVEL, MESSAGE, __FILE__, __LINE__)

void log(std::string level, std::string message, std::string file, int line)
{
    std::cout << "[" << level << "]"
              << "[" << time(nullptr) << "]"
              << "[" << message << "]"
              << "[" << file << ":" << line << "]" << std::endl;
}
 
  服务部署： 
  nohup ./server > log/log.txt 2>&1 &
 
  nohup 英文全称 no hang up（不挂起），用于在系统后台不挂断地运行命令，退出终端不会影响程序的运行。 
  nohup 命令，在默认情况下（非重定向时），会输出一个名叫 nohup.out 的文件到当前目录下，如果当前目录的 nohup.out 文件不可写，输出重定向到 $HOME/nohup.out 文件中。

【项目】Boost搜索引擎

文章目录

一、项目介绍

1.1 项目背景

1.2 模块划分

二、搜索引擎原理

2.1 基本原理

2.2 正排索引和倒排索引

三、环境搭建

3.1 升级GCC-G++

3.2 安装JsonCpp库

3.3 引入httplib库

3.4 安装Boost库

四、数据清洗模块

4.1 获取HTML文档路径

4.2 解析HTML文档内容

4.3 保存解析后的结果

五、索引建立模块

5.1 Index类的基本结构

5.2 建立正排索引

5.3 建立倒排索引

六、搜索引擎模块

6.1 搜索引擎类的基本结构

6.2 搜索功能的实现

6.3 摘要功能的实现

七、网络通信模块

八、前端页面模块

九、项目总结

你可能感兴趣的:(项目,搜索引擎)