程序dunk

Elasticsearch初步学习（仿京东搜索、爬虫）

个人博客欢迎访问

微信搜索程序dunk，关注公众号，获取项目、博客源码

我们面前无所不有，我们面前一无所有 ——查尔斯·狄更斯

序号	内容
1	Java基础面试题
2	JVM面试题
3	Java并发编程面试
4	计算机网络知识点汇总
5	MySQL面试题
6	Mybatis源码分析 + 面试
7	Spring面试题
8	SpringMVC面试题
9	SpringBoot面试题
10	SpringCloud面试题
11	Redis面试题
12	Elasticsearch面试题
13	Docker学习
14	消息队列
15	持续更新…

大数据背景介绍
搜索引擎发展史
- 搜索引擎分类
Elasticsearch
- 简介
- - Lucene和Elasticsearch的关系
  - 使用场景
  - Elasticsearch和Solr的区别
- REST是什么
- - REST的关键原则
  - - Resource
    - 超文本驱动
    - 统一接口
    - 资源表述
    - 状态转移
- 搜索技术基本知识
- - 数据搜索方式
  - 搜索引擎的工作原理
  - 网络爬虫工作原理
  - 网页分析
  - 倒排索引
  - - 正向索引
    - 倒排索引
- 安装
- - ElasticSearch下载
  - 安装[elasticsearch-head-master](https://github.com/mobz/elasticsearch-head/archive/refs/heads/master.zip)
  - 启动elasticsearch-head-master
  - 开启跨域配置
  - 访问9200端口
  - 安装[Kibana](https://www.elastic.co/cn/kibana)
  - 汉化插件
- ES核心概念
- - 物理设计
  - 逻辑分页
  - - 文档
    - 类型
    - 索引
    - 物理设计:节点和分片如何工作
  - 高可用——副本（Replication）
  - PB级数量的基石——分片（Shard）
  - 高可用+弹性扩容
  - ES的搜索机制
- ELK简介
IK分词器
- 安装
- 什么是分词器
- 扩展字典
- 索引的操作
- - 单纯创建索引
  - 修改索引的值
  - 删除索引
  - 查询
  - 复杂搜索
  - - 匹配查询
    - 结果过滤
    - 排序
    - 分页
    - 布尔值查询
    - 过滤条件
    - 精确查询
    - 高亮查询
SpringBoot集成ElasticSearch
- 创建SpringBoot项目
- 索引操作
- 文档操作
- 网络爬虫爬取jd数据
- - 引入jsoup依赖（注意版本问题）
  - 封装商品
  - 编写工具类
仿京东搜索实战
- 解析数据放入es中
- - service层
  - controller层
  - 页面展示
- 从es中获取数据，渲染页面
- - service层
  - controller层
  - 页面展示
- 添加页面高亮
- - 页面展示
ElasticSearch面试题
- 为什么要使用Elasticsearch？
- Elasticsearch写数据的过程？
- elasticsearch 的倒排索引是什么?
- elasticsearch 索引数据多了怎么办，如何调优，部署
- - 动态索引层面
  - 存储层面
  - 部署层面
报错

我们面前无所不有，我们面前一无所有 ——查尔斯·狄更斯

pause可以阻止dos命令闪退

大数据背景介绍

Lucene作者 Doug Cutting

深入浅出大数据：到底什么是Hadoop？

Hadoop之父：Doug Cutting

elasticsearch中文社区

搜索引擎发展史

正如查尔斯·狄更斯在《双城记》中所述，在信息爆炸的当下，我们面前无所不有；而个人信息过载已经成为越来越多的人的负担，我们面前一无所有

如何摆脱过载的信息束缚，高效地找到自己需要的信息呢？——答案就是搜索引擎，借助搜索引擎实现

搜索引擎分类

宏观而言，搜索引擎的发展经历了五个阶段和两大类

五个阶段

FTP文件检索阶段：搜索引擎会告诉用户从哪一个FTP地址可以下载被搜索的文件，代表作：Archie
分类目录导航阶段：该阶段的搜索引擎就是一个导航网站，网站中都是网址分类陈列，用户在互联网上常用的网址在这里一应俱全，我们常用的好123、搜狗浏览器主页、UC导航等都是这类导航页面
文本相关性检索阶段：引入了全文搜索技术，来保证搜索引擎检索到的网页标题和网页内容强一致，摒弃了单纯依赖网页标题和网页地址来判断网页内容的方法，代表作是Alta Vista、Excite等
网页链接分析阶段：
- 这个阶段的搜索引擎所使用的网站链接形式与当前基本相同，在该阶段，外部链接表示推荐
- 因此通过计算每个网站的推荐链接数量，就可以判断一个网站的流行性和重要性
- 于是，搜索引擎通过结合网页内容的重要性和相似度来改善搜索的信息质量
- 代表作：Google
用户意图识别阶段
- 以用户为中心作为设计的初心，搜索引擎力求理解每一位用户的真正搜索诉求，力求千人千面，追求个性化识别和反馈
- 比如输入”小米“，想要一个小米电子产品的用户和一个想要购买小米视频的用户，他们的搜索结果不同

两大类

站内搜索：
- 近几年发展比较迅猛，各大网站平台纷纷上线了转内搜索，如SNS平台中的微博、人人网等，如电商平台中的京东、淘宝等
- 另外，区块链内容搜索是近两年新的站内搜索形式，比如比特币区块链的搜索内容在比特币公链上，但比特币共公链的节点所在的区域却是分布式的
站外搜索：全网搜索，如谷歌、百度等等

Elasticsearch

简介

Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。
Elasticsearch提供了搜集、分析、存储数据三大功能，其主要特点有：分布式、零配置、易装易用、自动发现、索引自动分片、索引副本机制、RESTful风格接口、多数据源和自动搜索负载
Elasticsearch并非从零起步，而是站在巨人的肩膀上。Elasticsearch基于Java编写，其内部使用Lucene做索引与搜索。通过进一步封装Lucene，向开放人员屏蔽了Lucene的复杂性只需要使用一套简单一致的RESTfulAPI即可。
除此之外，Elasticsearch还解决了检索相关数据、返回统计结果、响应速度等相关问题，因此Elasticsearch能做到分布式环境下的实时文档存储和实时分析搜索。实时存储文档，每个字段都可以被索引与搜索
Elasticsearch能都胜任成百上千个服务节点的分布式扩展，支持PB级别结构化或者非结构化海量数据的处理
7.0版本中引入内存断路器、引入Elasticsearch的全新集群协调层——Zen2、支持更快的前k个查询、引入Function score2.0等，提高了可用性、性能和用户体验，使Elasticsearch变得更快、更安全、更易于使用

Lucene和Elasticsearch的关系

Lucene是一个免费、开源、高兴能、纯java编写的全文搜索引擎
Lucene是Apache的顶级项目
ElasticSearch 和 Solr 都是基于 Lucene 的搜索引擎，是对 Lucene 的封装，Lucene仅仅是一个工具包，它并非一个完整的全文搜索引擎，这个Lucene的初衷有关，Lucene主要问软件开发人员提供一个简单易用的工具包，主要提供倒排索引的查询，以便软件开发人员在其业务系统中实现全文搜索功能

使用场景

站内搜索，用户行为，社交数据，异常讨论，开源代码，电商商品，日志分析，价格监控，商业智能等等

Elasticsearch和Solr的区别

当单纯的对已有数据进行搜索时，Solr 更快
当实时建立索引时，Solr 会产生 io 阻塞，查询性能较差，ElasticSearch 具有明显的优势
随着数据量的增加，Solr 的搜索效率会变得更低，而 ElasticSearch 却没有明显的变化
转变搜索基础设施后从 Solr 到 ElasticSearch 可以大幅度提高搜索性能
ElasticSearch 开箱即用，Solr 需要安装
Solr 利用 Zookeeper 进行分布式管理，而 ElasticSearch 自身带有分布式协调管理功能
Solr 支持更多格式的数据，例如 JSON、XML、CSV，而 ElasticSearch 仅支持 JSON 文件格式
Solr 官方提供的功能更多，而 ElasticSearch 本身更注重于核心功能，高级功能多由第三方插件提供，例如图形化界面需要 kibana 友好支撑
Solr 查询快，但更新索引时慢，用于电商等查询多的应用。ElasticSearch 建立索引快即实时性查询快，用于 facebook、新浪等搜索应用
Solr 是传统搜索应用的有力解决方案，ElasticSearch 更适用于新兴的实时搜索应用

REST是什么

REST的英文是Representational State Transfer，中文翻译”表述性状态转移“，一种软件架构风格、设计风格，而不是标准，只是提供了一组设计原则和约束条件，是所有Web应用都应该遵守的架构设计指导原则。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制。

REST的关键原则

Resource（资源）：表示为所有事务定义ID
Hypertext Driver（超文本驱动）：表示所有事物链接在一起
Uniform Interface（统一接口）：表示使用标准的方法
Representation（资源的表述）：表示资源多重表述的方法
State Transfer（状态转移）：表示无状态通信

Resource

资源其实可以看做一种看待服务器的方式

一个资源可以由一个或者多个URI来标识。URI既是资源的名称，也是资源在Web上的地址，对某个资源感兴趣的客户端，可以通过资源的URI与其进行交互访问并获取
将服务器看做由很多离散的资源组成，资源可以是一文件系统的一个文件，也可以是数据库中的一张表
资源意味着为所有事务定义ID，在Web开发中，每个事务都是可被标志的，都会拥有一个ID，代表ID的统一概念是URI
- URI（Uniform Resource Identifier）：统一资源标识符，包括URL和URN
  - URL（Uniform Resource Locator）：统一资源定位符，常见的有Web URL和FTP URL
  - URN（Uniform Resource Name）：统一资源名称，例如：tel:+1-888-888-8888
设计URI的四个原则
- 它们是名词
- 区分单复数
- URI有长度限制，建议小于1KB
- 在URI中不要放未加密的敏感信息

超文本驱动

意味着所有事物链接在一起

核心就是超媒体，换句话说就是链接的思想
引入链接后，Web应用可以看做一个有很多状态组成的有限状态机，资源之间通过超链接相互关联
URI是全球表针，所以构成Web的所有资源都是可以相互连通的
客户端可以通过链接将应用从一个状态转变为另一个状态

统一接口

统一接口意味着使用标准的方法

四个HTTP方法：POST、GET、PUT、DELETE

Elasticsearch中的Rest命令说明

method	url地址	描述
PUT	localhost:9200/index/type/documentId	创建文档（指定文档id）
POST	localhost:9200/index/type/	创建文档（随机文档id）
POST	localhost:9200/index/type/documentId/_update	修改文档
DELETE	localhost:9200/index/type/documentId	删除文档
GET	localhost:9200/index/type/documentId	查询文档通过文档id
POST	localhost:9200/index/type/_search	查询所有数据

资源表述

资源的表示是对一段资源在某个特定时刻的状态的描述。资源可以在客户端——服务器之间传递

资源的表述有很多格式：HTML、XML、JSON、文本、图片、音频、视频等

状态转移

意味着无状态通信

无状态即服务器的变化对客户端是不可见的，主要为了保证架构设计的可伸缩性和可扩展

搜索技术基本知识

数据搜索方式

搜索引擎主要是对数据进行检索。而研发过程中不难发现，数据有两种类型，即结构化数据和非结构化数据

结构化
- 结构化数据：结构化数据一般我们会放入关系性数据库如MySQL和Oracle等，这是因为结构化数据有固定的数据格式和有限个数的字段，因此通过二维化的表结构来承载
- 结构化搜索：因为关系型数据库往往支持索引，因此结构化数据可以通过关系型数据库来完成搜索和查找，常用的方式有顺序扫描、关键字精确匹配等，对于复杂的关键字匹配可以使用like关键字匹配
非结构化
- 非结构化数据：非结构化数据一般会放入MongoDB中，这是因为非结构化数据的数据长度不定且无固定数据格式
- 非结构化搜索：对于非结构化数据而言，顺序扫描是效率很低的方法，因此引入全文搜索技术
- 全文搜索过程中，一般需要提取非结构化数据中的有效信息，重新组织数据的承载结构形式，而检索数据时，需要基于新结构化数据展开，从而达到提高搜索速度的目的（空间换时间的做法）

搜索引擎的工作原理

搜索引擎的工作原理

搜索引擎的工作原理分为两个阶段

网页数据爬取和索引阶段
- 网络爬虫用于爬取互联网上的网页，爬取到一个新的网页后继续通过该页面中的链接爬取其他网页
- 网页被网络爬虫爬取后，会被存入网页库，以备进行数据预处理，因为页面有一定的重复性，所以在把新的网页插入网页库之前需要查重
- 预处理不断地从网页中取出网页进行必要的预处理，取出噪声内容（广告、导航条、声明文字）、关键词处理、网页链接关系计算等，此外，网页上还有文件文档（PDF、WORD、WPS等）、多媒体文件等，都需要预处理
- 预处理后，要进行索引过程，索引过程先后经历正向索引和倒排索引阶段，最终简历索引库，随着不断的加入网页库，索引库的更新和维护往往也是增量进行的
搜索阶段
- 用户输入的关键字同样会经过预处理，如删除不必要的标点符号、停用词、空格等
- 然后从索引库中查询需要的内容进行排序，返回给用户

网络爬虫工作原理

网络爬虫有多个不同称谓，如网络探测器、Spider蜘蛛等，取意的原因是网页爬取程序像虫子一样在网络间爬来爬取，从一个网页链接爬到另一个网页链接

网络爬虫用于爬取互联网上的网页，爬取到一个新的网页后继续通过该页面中的链接爬取其他网页，如此循环，直到所有的内容都被爬取完
为了提高效率，一般采用并行爬取的方式，多个网络爬虫在并行爬取过程中，不重复的爬取一个网页尤为重要

网页爬取的方式
- 先深度后广度（一般采用）
- 先广度后深度
收录模式
- 增量收集：搜索新的网页，搜集更新，不覆盖，设计复杂、时效性好
- 全量收集：更新全部数据，开销大、成本高、时效性不高、网路带宽消耗大、耗时比较长，一般都是定期展开

我们可以基于现有的爬虫框架来实现对网络数据的爬取，java语言技术栈可以使用WebMagic、Gecco；Python语言栈使用Scrapy；GO语言使用YiSpider

网页分析

在搜索引擎中，爬虫爬取了对应的网页之后，会将网页存储到服务器的原始数据库中，之后，搜索引擎会对这些网页进行分析并确定各网页的重要性，即会影响用户检索的排名结果

所以在此，我们需要对搜索引擎的网页分析算法进行简单了解

搜索引擎的网页分析算法主要分为3类：基于用户行为的网页分析算法、基于网络拓扑的网页分析算法、基于网页内容的网页分析算法

基于用户行为的网页分析算法：基于用户行为的网页分析算法是比较好理解的。这种算法中，会依据用户对这些网页的访问行为，对这些网页进行评价，比如，依据用户对该网页的访问频率、用户对网页的访问时长、用户的单击率等信息对网页进行综合评价
基于网络拓扑的网页分析算法：基于网络拓扑的网页分析算法是依靠网页的链接关系、结构关系、已知网页或数据等对网页进行分析的一种算法，所谓拓扑，简单来说即结构关系的意思
- 基于网页粒度的分析算法
- 基于网页块粒度的分析算法
- 基于网站粒度的分析算法
  - PageRank算法是一种比较典型的基于网页粒度的分析算法。相信很多朋友都听过Page-Rank算法，它是谷歌搜索引擎的核心算法，简单来说，它会根据网页之间的链接关系对网页的权重进行计算，并可以依靠这些计算出来的权重，对网页进行排名
基于网页内容的网页分析算法：在基于网页内容的网页分析算法中，会依据网页的数据、文本等网页内容特征，对网页进行相应的评价

倒排索引

正向索引

在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合（实际上在搜索引擎索引库中，关键词也已经转换为关键词ID）。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位置。

正向索引的结构

一般是通过key，去找value。

倒排索引

所以，搜索引擎会将正向索引重新构建为倒排索引，即把文件ID对应到关键词的映射转换为关键词到文件ID的映射，每个关键词都对应着一系列的文件，这些文件中都出现这个关键词。

得到倒排索引的结构如下：

基于词做索引明显比基于字做索引内容要少的多，因而查询会更高效（所以引入了中文分词器（ik分词器））

倒排序中三个名词

词条（Term）：索引里面最小的存储单元和查询单元，英文环境就是一个单词，中文环境词条指的是分词后的一个词组
字典（Term Dictionary）：词条的集合，一般由网页或者文章集合中出现过的所有词构成的字符串集合
倒序表（Post List）：记录词出现在那些文档里、出现的位置和频率等，如下图

安装

ElasticSearch下载

熟悉目录

bin: 启动文件
config: 配置文件
log4j: 日志文件
jvm.options: java 虚拟机先关的配置
elasticsearch.xml: elasticsearch 的配置文件
lib: 相关 jar 包
logs: 日志
modules: 功能模块
plugins: 插件 ik

安装elasticsearch-head-master

启动elasticsearch-head-master

cnpm install
npm run start

开启跨域配置

\elasticsearch-7.13.1\config\elasticsearch.yml

#开启http跨域
http.cors.enabled: true
#允许所有人可以访问
http.cors.allow-origin: "*"

访问9200端口

安装Kibana

汉化插件

\kibana-7.13.1-windows-x86_64\config\kibana.yml

i18n.locale: "zh-CN"

ES核心概念

ElasticSearch是面向文档的，关系型数据库和ElasticSearch客观对比

Relational DB	ElasticSearch
数据库(Database)	索引(index)
表(table)	types（慢慢废弃）
行(rows)	文档(documents)
字段(columns)	fields

ElasticSearch集群中可以包含多个索引（数据库），每个索引可以包含多个类型（表），每个类型下可以包含多个文档（行），每个文档中可以包含多个字段（列）

物理设计

ElasticSearch在后台吧多个所以划分成多个分片，每个分片可以在集群中的不同服务器迁移

逻辑分页

一个类型中,包含多个文档,比如说文档1,文档2,当我们索引一篇文档时,可以通过这样的顺序找到它:索引>类型>文档ID,通过这个组合我们就能索引到某个具体的文档。注意:ID不必是整数,实际上它是个字符串

文档

文档(Document)：一般搜索引擎的处理对象是互联网网页，而文档这个概念要更宽泛些，代表以文本形式存在的存储对象，相比网页来说，涵盖更多种形式，比如Word，PDF，html，XML等不同格式的文件都可以称之为文档。再比如一封邮件，一条短信，一条微博也可以称之为文档。在本书后续内容，很多情况下会使用文档来表征文本信息

ElasticSearch中，文档有几个重要属性：

自我包含,一篇文档同时包含字段和对应的值,也就是同时包含keyvalue!
可以是层次型的,一个文档中包含自文档,复杂的逻辑实体就是这么来的!（就是一个JSON对象，FastJson进行转换!）
灵活的结构,文档不依赖预先定义的模式,我们知道关系型数据库中,要提前定义字段才能使用,在elasticsearch中,对于字段是非常灵活的,有时候,我们可以忽略该字段,或者动态的添加一个新的字段。

尽管我们可以随意的新增或者忽略某个字段,但是,每个字段的类型非常重要,比如一个年龄字段类型,可以是字符串也可以是整形。因为ElasticSearch会保存字段和类型之间的映射及其他的设置,这种映射具体到每个映射的每种类型,这也是为什么在ElasticSearch中,类型有时候也称为映射类型。

类型

类型是文档的逻辑容器,就像关系型数据库一样,表格是行的容器。类型中对于字段的定义称为映射,比如name映射为字符串类型。我们说文档是无模式的,它们不需要拥有映射中所定义的所有字段,比如新增一个字段,那么 ElasticSearch是怎么做的呢?
ElasticSearch会自动的将新字段加入映射,但是这个字段的不确定它是什么类型, ElasticSearch就开始猜,如果这个值是18,那么ElasticSearch会认为它是整形,但是 ElasticSearch也可能猜不对,所以最安全的方式就是提前定义好所需要的映射,这点跟关系型数据库殊途同归了,先定义好字段,然后再使用

索引

就是数据库

索引是映射类型的容器, ElasticSearch中的索引是一个非常大的文档集合,索引存储了映射类型的字段和其他设置。然后它们被存储到了各个分片上了。我们来研究下分片是如何工作的

物理设计:节点和分片如何工作

一个集群至少有一个节点,而一个节点就是一个 ElasticSearch进程,节点可以有多个索引默认的,如果你创建索引,那么索引将会有个5个分片( primary shard又称主分片)构成的,每个主分片会有一个副本( replica shard,又称复制分片)

主分片和对应的复制分片都不会在同一个节点内,这样有利于某个节点挂掉了,数据也不至于丢失。实际上,一个分片是一个 Lucene索引,一个包含倒排索引的文件目录,倒排索引的结构使得 ElasticSearch在不扫描全部文档的情况下,就能告诉你哪些文档包含特定的关键字

高可用——副本（Replication）

高可用是企业级服务必须考虑的一个指标，高可用必然涉及到集群和分布式，好在ES天然支持集群模式，可以非常简单的搭建一个分布式系统

ES服务高可用要求其中一个节点如果挂掉了，不能影响正常的搜索服务。这就意味着挂掉的节点上存储的数据，必须在其他节点上留有完整的备份。这就是副本的概念

如上图所示，Node1作为主节点，Node2和Node3作为副本节点保存了和主节点完全相同的数据，这样任何一个节点挂掉都不会影响业务的搜索。满足服务的高可用要求。

但是有一个致命的问题，无法实现系统扩容！即使添加另外的节点，对整个系统的容量扩充也起不到任何帮助。因为每一个节点都完整保存了所有的文档数据。

因此，ES引入了分片（Shard）的概念。

PB级数量的基石——分片（Shard）

ES将每个索引（ES中一系列文档的集合，相当于MySQL中的表）分成若干个分片，分片将尽可能平均地分配到不同的节点上。比如现在一个集群中有3台节点，索引被分成了5个分片，分配方式大致（因为具体如何平均分配取决于ES）如下图所示。

这样一来，集群的横向扩容就非常简单了，现在我们向集群中再添加2个节点，则ES会自动将分片均衡到各个节点之上：

高可用+弹性扩容

副本和分片功能通力协作造就了ES如今高可用和支持PB级数据量的两大优势。

现在我们以3个节点为例，展示一下分片数量为5，副本数量为1的情况下，ES在不同节点上的分片排布情况：

ES怎么确定某个文档应该存储到哪一个分片上的呢？

通过上面的映射算法，ES将文档数据均匀地分散在各个分片中，其中routing默认是文档id。

此外，副本分片的内容依赖主分片进行同步，副本分片存在意义就是负载均衡、顶上随时可能挂掉的主分片位置，成为新的主分片。

ES的搜索机制

客户端进行关键词搜索时，ES会使用负载均衡策略选择一个节点作为协调节点（Coordinating Node）接受请求，这里假设选择的是Node3节点；

Node3节点会在10个主副分片中随机选择5个分片（所有分片必须能包含所有内容，且不能重复），发送search request；
被选中的5个分片分别执行查询并进行排序之后返回结果给Node3节点；
Node3节点整合5个分片返回的结果，再次排序之后取到对应分页的结果集返回给客户端。

注：实际上ES的搜索分为Query阶段和Fetch阶段两个步骤，在Query阶段各个分片返回文档Id和排序值，Fetch阶段根据文档Id去对应分片获取文档详情

现在考虑客户端获取990～1000的文档时，ES在分片存储的情况下如何给出正确的搜索结果。

获取990～1000的文档时，ES在每个分片下都需要获取1000个文档，然后由Coordinating Node聚合所有分片的结果，然后进行相关性排序，最后选出相关性顺序在990～1000的10条文档。

页数越深，每个节点处理的文档也就越多，占用的内存也就越多，耗时也就越长，这也就是为什么搜索引擎厂商通常不提供深度分页的原因了，他们没必要在客户需求不强烈的功能上浪费性能。

ELK简介

ELK是三个开源软件的缩写，分别表示：Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。

Elasticsearch是个开源分布式搜索引擎，提供搜集、分析、存储数据三大功能。它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。

Logstash 主要是用来日志的搜集、分析、过滤日志的工具，支持大量的数据获取方式。一般工作方式为c/s架构，client端安装在需要收集日志的主机上，server端负责将收到的各节点日志进行过滤、修改等操作在一并发往elasticsearch上去。

Kibana 也是一个开源和免费的工具，Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以帮助汇总、分析和搜索重要数据日志。

Filebeat隶属于Beats。目前Beats包含四种工具：

Packetbeat（搜集网络流量数据）
Topbeat（搜集系统、进程和文件系统级别的 CPU 和内存使用情况等数据）
Filebeat（搜集文件数据）
Winlogbeat（搜集 Windows 事件日志数据）

IK分词器

安装

下载IK分词器

注意版本一定要和ElasticSearch版本一致！！！！

解压放在\elasticsearch-7.13.1\plugins\ik目录下，注意是编译打包过得文件

重启ElasticSearch，插件加载完毕

通过elasticsearch-plugin插件查看加载的插件

什么是分词器

分词：即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字看成一个词,比如”我爱长安”会被分为”我”、”爱”、”长”、”安”、这显然是不符合要求的,所以我们需要安装中文分词器来解决这个问题

iK提供了两个分词算法: ik_smart（最小分词器）和 ik_max_word（最细粒度划分）,其中 ik_smart为最少切分, ik_max_word为最细粒度划分

扩展字典

使用分词器查询程序dunk可以看到

GET _analyze 
{
    "analyzer" : "ik_max_word",
    "text" : "程序dunk"
}

如果想要吧程序dunk当做一个词语，那么需要在elasticsearch-7.13.1\plugins\ik\config路径下自己扩展字典

重启服务，可以看到分词器，将程序dunk单独划分了出来

索引的操作

添加索引、同时添加数据

PUT test1/type1/1
{
    "name" : "dunk_code",
    "age" : 18
}

单纯创建索引

PUT test2
{
  "mappings": {
    "properties": {
      "name" : {
        "type": "text"
      },
      "age" : {
        "type": "long"
      },
      "birthday" : {
        "type": "date"
      }
    }
  }
}

修改索引的值

POST /test1/type1/1/_update
{
  "doc" : {
    "name" : "程序dunk"
  }
}

删除索引

DELETE test1/type1/1

查询

//查询该索引的信息
GET test1/
//查询索引下指定文档id信息
GET test1/type1/1
//精确查询name为dunk_code的信息
GET test1/type1/_search?q=name : dunk_code

复杂搜索

创建索引

PUT /xauat/student/1 
{
  "name" : "程序dunk",
  "age" : 21,
  "desc" : "必进大厂",
  "tags" : ["编程", "篮球", "游戏"]
}

匹配查询

_query

GET /xauat/student/_search
{
  "query" : {
    "match": {
      "name" : "程序"
    }
  }
}

结果过滤

_source：保留那些数据

"_source" : ["name","desc"]

排序

sort

"sort" : [
    {
      "age" : {
        "order" : "asc"
      }
    }
  ]

分页

from ：开始页

size：页码

"from" : 0,
"size" : 2

布尔值查询

must ： and

GET /xauat/student/_search
{
  "query" : {
    "bool": {
      "must": [
        {
          "match" : {
            "name" : "dunk"
          }
        },
        {
          "match": {
            "age" : 30
          }
        }
        
      ]
    }
  }
}

should：or

GET /xauat/student/_search
{
  "query" : {
    "bool": {
      "should": [
        {
          "match" : {
            "name" : "dunk"
          }
        },
        {
          "match": {
            "age" : 30
          }
        }
        
      ]
    }
  }
}

must_not：not

过滤条件

filter

GET /xauat/student/_search
{
  "query" : {
    "bool": {
      "must": [
        {
          "match" : {
            "name" : "dunk"
          }
        }
      ],
      "filter": {
        "range" : {
          "age" : {
            "gte" : 21,
            "lte" : 30
          }
        }
      }
    }
  }
}

gt：大于
gte：大于等于
lt：小于
lte：小于等于
eq：相等

精确查询

term 查询是直接通过倒排索引指定的词条进行精确查找！

关于分词：

term：直接查询精确的
match : 会使用分词器解析

两个类型 text keyword

text 会被分词器解析
keyword 不会被分词器解析

高亮查询

高亮：highlight

前缀：pre_tags

后缀：post_tags

GET /xauat/student/_search
{
  "query" : {
    "term": {
      "name" : "dunk"
    }
  },
  "highlight" : {
    "pre_tags": "", 
    "post_tags": "
", 
    "fields": {
      "name" : {}
    }
  }
}

SpringBoot集成ElasticSearch

创建SpringBoot项目

导入SpringData Elasticsearch依赖

索引操作

@Test
//创建索引
void testCreateIndex() throws IOException {
    CreateIndexRequest request = new CreateIndexRequest("xauat");
    client.indices().create(request, RequestOptions.DEFAULT);
}
@Test
//判断是否存在索引
void isExistIndex() throws IOException {
    GetIndexRequest request = new GetIndexRequest("xauat");
    boolean exists = client.indices().exists(request, RequestOptions.DEFAULT);
    System.out.println(exists);
}
@Test
//删除索引
void deleteIndex() throws IOException {
    DeleteIndexRequest request = new DeleteIndexRequest("xauat");
    AcknowledgedResponse delete = client.indices().delete(request, RequestOptions.DEFAULT);
    System.out.println(delete.isAcknowledged());
}

文档操作

@Test
//创建文档
void createDocument() throws IOException {
    //创建请求
    IndexRequest request = new IndexRequest("xauat");
    //创建对象
    Student student = new Student("王五",
            40, "编程大佬", Arrays.asList("编程", "学习"));
    //设置请求
    request.id("6");
    request.timeout(TimeValue.timeValueMillis(1));
    //将数据转为json格式放入请求
    request.source(JSON.toJSONString(student), XContentType.JSON);
    //发送请求
    IndexResponse indexResponse = client.index(request, RequestOptions.DEFAULT);
    //获取响应结果
    System.out.println(indexResponse.toString());
    //响应状态
    System.out.println(indexResponse.status());
}
@Test
//获取文档
void getDocument() throws IOException {
    GetRequest request = new GetRequest("xauat", "6");
    //判断是否存在
    boolean exists = client.exists(request, RequestOptions.DEFAULT);
    System.out.println(exists);
    GetResponse getResponse = client.get(request, RequestOptions.DEFAULT);
    //返回全部内容
    System.out.println(getResponse);
    //打印文档内容
    System.out.println(getResponse.getSourceAsString());
}
@Test
//更新文档
void updateDocument() throws IOException {
    UpdateRequest request = new UpdateRequest("xauat", "6");
    Student student = new Student("王五",
            40, "编程菜鸡", Arrays.asList("编程", "互啄"));
    request.doc(JSON.toJSONString(student), XContentType.JSON);
    UpdateResponse update = client.update(request, RequestOptions.DEFAULT);
    System.out.println(update.status());
}
@Test
//删除文档
void DeleteDocument() throws IOException {
    DeleteRequest request = new DeleteRequest("xauat", "3");
    DeleteResponse delete = client.delete(request, RequestOptions.DEFAULT);
    System.out.println(delete.status());
}
@Test
//批量插入
void  addBatch() throws IOException {
    List<Student> students = new ArrayList<>();
    //创建请求
    BulkRequest bulkRequest = new BulkRequest();
    students.add(new Student("王五",
            40, "编程菜鸡", Arrays.asList("编程", "互啄")));
    students.add(new Student("王五",
            40, "编程菜鸡", Arrays.asList("编程", "互啄")));
    students.add(new Student("王五",
            40, "编程菜鸡", Arrays.asList("编程", "互啄")));
    students.add(new Student("王五",
            40, "编程菜鸡", Arrays.asList("编程", "互啄")));
    for (int i = 0; i < students.size(); i++) {
        bulkRequest.add(new IndexRequest("xauat")
                .id(i + 6 + "")
                .source(JSON.toJSONString(students.get(i)), XContentType.JSON));
        BulkResponse bulk = client.bulk(bulkRequest, RequestOptions.DEFAULT);
        System.out.println(bulk.status());
    }
}
@Test
//查询
void SearchDocument() throws IOException {
    SearchRequest request = new SearchRequest();
    //构建搜素条件
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    //构建查询条件
    TermQueryBuilder termQueryBuilder = new TermQueryBuilder("name", "dunk");
    searchSourceBuilder.query(termQueryBuilder);
    searchSourceBuilder.timeout(TimeValue.timeValueMillis(2000));
    request.source(searchSourceBuilder);
    SearchResponse search = client.search(request, RequestOptions.DEFAULT);
    //查询结果集
    SearchHits hits = search.getHits();
    System.out.println(JSON.toJSONString(hits));
    //循环打印每个查询结果
    for (SearchHit hit : hits.getHits()) {
        System.out.println(hit.getSourceAsMap());
    }
    
}

网络爬虫爬取jd数据

引入jsoup依赖（注意版本问题）

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

封装商品

/**
 * @author ：zsy
 * @date ：Created 2021/6/9 16:17
 * @description：商品
 */
@Data
@AllArgsConstructor
@NoArgsConstructor
@ToString
public class Content {
    private String img;
    private String price;
    private String name;
}

编写工具类

jd图片是懒加载的，所以从"data-lazy-img"中获取图片url而不是src

/**
 * @author ：zsy
 * @date ：Created 2021/6/9 15:24
 * @description：解析网页
 */
public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        HtmlParseUtil.parseJD("java").forEach(System.out::println);
    }
    public static List<Content> parseJD(String keyWord) throws IOException {
        String url = "https://search.jd.com/Search?keyword=" + keyWord;
        Document document = Jsoup.parse(new URL(url), 30000);
        Element e = document.getElementById("J_goodsList");
        //System.out.println(e.html());
        List<Content> list = new ArrayList<>();
        Elements lis = e.getElementsByTag("li");
        for (Element li : lis) {
            //所有图片都是延时加载的
            String img = li.getElementsByTag("img").eq(0).attr("data-lazy-img");
            String price = li.getElementsByClass("p-price").eq(0).text();
            String name = li.getElementsByClass("p-name").eq(0).text();
            //System.out.println("http:" + img);
            //System.out.println(price);
            //System.out.println(name);
            list.add(new Content("http:" + img, price, name));
        }
        return list;
    }
}

仿京东搜索实战

前端页面如下

解析数据放入es中

service层

/**
 * @author ：zsy
 * @date ：Created 2021/6/9 16:45
 * @description：jd搜索
 */
public interface JDService {

    //解析数据放入es
    Boolean analyticalData(String keyword) throws IOException;
}

/**
 * @author ：zsy
 * @date ：Created 2021/6/9 16:45
 * @description：实现
 */
@Service
public class JDServiceImpl implements JDService {

    @Autowired
    RestHighLevelClient client;

    @Override
    public Boolean analyticalData(String keyword) throws IOException {
        //获取解析数据
        List<Content> contents = HtmlParseUtil.parseJD(keyword);

        //判断索引是否存在
        GetIndexRequest getRequest = new GetIndexRequest("jd_goods");
        boolean exists = client.indices().exists(getRequest, RequestOptions.DEFAULT);
        if (!exists) {
            //索引不存在，创建索引
            CreateIndexRequest createIndexRequest = new CreateIndexRequest("jd_goods");
            CreateIndexResponse createIndexResponse = client.indices().create(createIndexRequest, RequestOptions.DEFAULT);
            if (!createIndexResponse.isAcknowledged()) return false;
        }
        //批处理请求
        BulkRequest bulkRequest = new BulkRequest();
        for (int i = 0; i < contents.size(); i++) {
            bulkRequest.add(new IndexRequest("jd_goods")
                    .source(JSON.toJSONString(contents.get(i)), XContentType.JSON));
        }
        bulkRequest.timeout(TimeValue.timeValueMillis(10000));
        BulkResponse searchResponse = client.bulk(bulkRequest, RequestOptions.DEFAULT);

        return !searchResponse.hasFailures();
    }

}

controller层

/**
 * @author ：zsy
 * @date ：Created 2021/6/9 17:40
 * @description：商品
 */
@Controller
public class ContentController {

    @Autowired
    JDService jdService;

    @GetMapping("/parse/{keyword}")
    @ResponseBody
    public Boolean parse(@PathVariable String keyword) throws IOException {
        return jdService.analyticalData(keyword);
    }
}

页面展示

从es中获取数据，渲染页面

service层

List<Map<String, Object>> search(String keyword, int pageNo, int pageSize) throws IOException;

@Override
public List<Map<String, Object>> search(String keyword, int pageNo, int pageSize) throws IOException {
    SearchRequest searchRequest = new SearchRequest();
    List<Map<String, Object>> list = new ArrayList<>();
    //构建搜索条件
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    //分页
    searchSourceBuilder.from(pageNo);
    searchSourceBuilder.size(pageSize);
    //精确匹配
    TermQueryBuilder termQueryBuilder = new TermQueryBuilder("name", keyword);
    searchSourceBuilder.query(termQueryBuilder);
    searchSourceBuilder.timeout(TimeValue.timeValueMillis(10000));
    //执行搜索
    searchRequest.source(searchSourceBuilder);
    SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
    //查询结果集
    SearchHits hits = searchResponse.getHits();
    for(SearchHit hit : hits) {
        list.add(hit.getSourceAsMap());
    }
    return list;
}

controller层

@ResponseBody
@GetMapping("/search/{keyword}/{pageNo}/{pageSize}")
public List<Map<String, Object>> search(
        @PathVariable String keyword,
        @PathVariable int pageNo,
        @PathVariable int pageSize) throws IOException {
    return jdService.search(keyword, pageNo, pageSize);
}

页面展示

添加页面高亮

@Override
public List<Map<String, Object>> search(String keyword, int pageNo, int pageSize) throws IOException {
    SearchRequest searchRequest = new SearchRequest();
    List<Map<String, Object>> list = new ArrayList<>();
    //构建搜索条件
    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    //分页
    searchSourceBuilder.from(pageNo);
    searchSourceBuilder.size(pageSize);
    //精确匹配
    TermQueryBuilder termQueryBuilder = new TermQueryBuilder("name", keyword);
    searchSourceBuilder.query(termQueryBuilder);
    searchSourceBuilder.timeout(TimeValue.timeValueMillis(10000));
    //添加高亮
    HighlightBuilder highlightBuilder = new HighlightBuilder();
    highlightBuilder.field("name");
    highlightBuilder.requireFieldMatch(false);
    highlightBuilder.preTags("");
    highlightBuilder.postTags("");
    searchSourceBuilder.highlighter(highlightBuilder);
    //执行搜索
    searchRequest.source(searchSourceBuilder);
    SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
    //查询结果集
    SearchHits hits = searchResponse.getHits();
    for(SearchHit hit : hits) {
        Map<String, HighlightField> highlightFields = hit.getHighlightFields();
        //获取原来的结果
        HighlightField name = highlightFields.get("name");
        Map<String, Object> sourceAsMap = hit.getSourceAsMap();
        if (name != null) {
            Text[] fragments = name.fragments();
            String curName = "";
            for (Text fragment : fragments) {
                curName += fragment;
            }
            sourceAsMap.put("name", curName);
        }
        name = highlightFields.get("name");
        list.add(hit.getSourceAsMap());
    }
    return list;
}

页面展示

ElasticSearch面试题

为什么要使用Elasticsearch？

系统中的数据，随着业务的发展，时间的推移，将会非常的多，而业务中往往采用模糊查询进行数据结构搜索，而模糊查询会导致查询引擎放弃索引，导致系统查询数据时都是全盘扫描，在百万级别数据库中，查询效率是非常低效的，而Es是一个全文索引，将经常查询的系统功能的某些字段，比如电商系统表中的商品名，描述、价格和id都可以放入ES索引库，提高查询效率

Elasticsearch写数据的过程？

文档写入包含：单文档写入和批量 bulk 写入，这里只解释一下：单文档写入流程

客户写集群某节点写入数据，发送请求。（如果没有指定路由/协调节点，请求的节点扮演路由节点的角色
节点 1 接受到请求后，使用文档_id 来确定文档属于分片 0。请求会被转到另外的节点，假定节点 3。因此分片 0 的主分片分配到节点 3 上
节点 3 在主分片上执行写操作，如果成功，则将请求并行转发到节点 1和节点 2 的副本分片上，等待结果返回。所有的副本分片都报告成功，节点 3 将向协调节点（节点 1）报告成功，节点 1 向请求客户端报告写入成功

第二步中的文档获取分片的过程

借助路由算法获取，路由算法就是根据路由和文档 id 计算目标的分片 id 的过程

elasticsearch 的倒排索引是什么?

传统的我们的检索是通过文章，逐个遍历找到对应关键词的位置

而倒排索引，是通过分词策略，形成了词和文章的映射关系表，这种词典+映射表即为倒排索引。有了倒排索引，就能实现 o（1）时间复杂度的效率检索文章了，极大的提高了检索效率

倒排索引，相反于一篇文章包含了哪些词，它从词出发，记载了这个词在哪些文档中出现过，由两部分组成——词典和倒排表

加分项：倒排索引的底层实现是基于：FST（Finite State Transducer）数据结构

ucene 从 4+版本后开始大量使用的数据结构是 FST。FST 有两个优点：

空间占用小。通过对词典中单词前缀和后缀的重复利用，压缩了存储空间
查询速度快。O(len(str))的查询时间复杂度

elasticsearch 索引数据多了怎么办，如何调优，部署

索引数据的规划，应在前期做好规划，正所谓“设计先行，编码在后”，这样才能有效的避免突如其来的数据激增导致集群处理能力不足引发的线上客户检索或者其他业务受到影响。

动态索引层面

基于模板+时间+rollover api 滚动创建索引，举例：设计阶段定义：blog 索引的模板格式为：blog_index_时间戳的形式，每天递增数据。这样做的好处：不至于数据量激增导致单个索引数据量非常大，接近于上线 2 的32 次幂-1，索引存储达到了 TB+甚至更大。

一旦单个索引很大，存储等各种风险也随之而来，所以要提前考虑+及早避免。

存储层面

冷热数据分离存储，热数据（比如最近 3 天或者一周的数据），其余为冷数据。

对于冷数据不会再写入新数据，可以考虑定期 force_merge 加 shrink 压缩操作，节省存储空间和检索效率。

部署层面

一旦之前没有规划，这里就属于应急策略。

结合 ES 自身的支持动态扩展的特点，动态新增机器的方式可以缓解集群压力，注意：如果之前主节点等规划合理，不需要重启集群也能完成动态新增的

报错

Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone

E:\course\26-elasticsearch\elasticsearch-7.13.1\config\elasticsearch.yml

xpack.security.enabled: false

参考文档：
《Elasticsearch实战与原理解析》牛冬
ElasticSearch面试题
参考视频：
仿京东实战搜索

你可能感兴趣的:(中间件,搜索引擎)

深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
【Elasticsearch 实战应用】 wenshao.du elasticsearch
Elasticsearch实战应用在现代企业技术架构中，Elasticsearch因其出色的性能、可扩展性和易用性，成为了处理大规模数据和构建搜索引擎的首选工具。本文将通过一个实际案例，详细讲解如何在SpringBoot项目中集成Elasticsearch，进行数据索引、搜索、聚合分析等操作。1.Elasticsearch简介Elasticsearch是一个基于ApacheLucene构建的开源分
Pinterest联盟营销综合指南纯干苹果派人工智能网络物联网大数据服务器 ip
Pinterest不仅是社交媒体平台，还是一个优质的视觉搜索引擎，独特的交互方式和平台生态使得Pinterest依然很受欢迎，因此它也成为最适合进行联盟营销的平台之一。一、为什么要使用Pinterest联盟营销1.活跃用户多Pinterest活跃用户数超过5亿，庞大的用户基础在一定程度上意味着更高的购买潜力。2.用户质量高根据PAConsulting和Pinterest的数据，奢侈品牌最关注的消费
【黑马-SpringCloudAlibaba】学习笔记10-Seata：实现分布式事务控制言谶分布式学习 java
Seata介绍2019年1月，阿里巴巴中间件团队发起了开源项目Fescar（Fast&EaSyCommitAndRollback），其愿景是让分布式事务的使用像本地事务的使用一样，简单和高效，并逐步解决开发者们遇到的分布式事务方面的所有难题。后来更名为Seata，意为：SimpleExtensibleAutonomousTransactionArchitecture，是一套分布式事务解决方案。Se
【gin】中间件使用之jwt身份认证和Cors跨域，go案例 {⌐■_■} gin 中间件 golang
Gin-3中间件编程及JWT身份认证1.Gin中间件概述中间件是处理HTTP请求的函数，可以在请求到达路由处理函数之前或之后对请求进行处理。在Gin框架中，中间件常用于处理日志记录、身份验证、权限控制等功能。router:=gin.Default()router.Use(middleware)//使用中间件中间件可以通过Use方法进行添加，并且可以用于所有路由或特定路由组。2.JWT简介https
逆袭之路（11）——python网络爬虫：原理、应用、风险与应对策略凋零的蓝色玫瑰逆袭之路 php 开发语言 python
困厄铸剑心，逆袭展锋芒。寒苦凝壮志，腾跃绘华章。我要逆袭。目录一、引言二、网络爬虫的基本原理（一）网络请求与响应（二）网页解析（三）爬行策略三、网络爬虫的应用领域（一）搜索引擎（二）数据挖掘与分析（三）金融领域（四）学术研究（五）社交媒体监测四、网络爬虫带来的风险（一）法律风险（二）隐私风险（三）安全风险五、网络爬虫风险的应对策略（一）遵守法律法规（二）加强技术防护（三）提高道德意识六、结论一、引
AI大模型如何赋能电商行业，引领变革虞书欣的C 人工智能开发语言
•个性化推荐：利用机器学习算法分析用户的历史购买记录、浏览行为和喜好，生成个性化的产品推荐列表，提升用户的购买意愿和满意度。•优化用户体验：•智能搜索引擎：运用自然语言处理技术，优化搜索引擎，让用户能够通过自然语言进行搜索。•虚拟客服：通过聊天机器人和语音助手，提供24/7的客户支持，快速解答用户咨询。•图像识别：利用计算机视觉技术，用户可以通过拍照识别商品，快速找到相似商品或进行排版搭配推荐。•
程序员必须掌握的消息中间件-RocketMQ 后端
设计(design)1消息存储消息存储是RocketMQ中最为复杂和最为重要的一部分，本节将分别从RocketMQ的消息存储整体架构、PageCache与Mmap内存映射以及RocketMQ中两种不同的刷盘方式三方面来分别展开叙述。1.1消息存储整体架构消息存储架构图中主要有下面三个跟消息存储相关的文件构成。(1)CommitLog：消息主体以及元数据的存储主体，存储Producer端写入的消息主
【RabbitMQ】超详细Windows系统下RabbitMQ的安装配置 m0_74823963 rabbitmq windows 分布式
RabbitMQ是一个开源的消息队列中间件，广泛用于分布式系统中的异步消息传递。它支持多种消息协议，易于扩展，功能强大。本文将详细介绍如何在Windows系统下安装和配置RabbitMQ，包括所需的依赖项、安装步骤、基本配置和常见问题解决方案。目录什么是RabbitMQ？安装前的准备2.1系统要求2.2安装ErlangRabbitMQ的安装步骤3.1下载RabbitMQ3.2安装RabbitMQ配
程序员必须掌握的消息中间件-RabbitMQ 后端
一、Rabbit概述RabbitMQ是一个开源的消息代理和队列服务器，用来通过普通协议在完全不同的应用中间共享数据，RabbitMQ是使用Erlang语言来编写的，并且RabbitMQ是基于AMQP协议的。特点：开源、性能优秀Erlang语言最初用在交换机的架构模式，这样使得RabbitMQ在Broker之间进行数据交互的性能时非常优秀的。Erlang的优点：Erlang有着和原生Socket一样
Apache SeaTunnel 荣登 2024 年度中间件开源项目 Top 50 榜单 SeaTunnel 大数据
近日，ApacheSeaTunnel项目成功入选2024年度中间件开源项目Top50榜单。该榜单由OpenGithub技术社区评选，旨在表彰在中间件领域具有突出表现的开源项目。榜单链接：https://zhuanlan.zhihu.com/p/16116358605关于ApacheSeaTunnelApacheSeaTunnel是一个云原生的高性能海量数据集成工具。北京时间2023年6月1日，全球
【Scrapy】Scrapy 中间件等级设置规则音乐学家方大刚爬虫 Scrapy Python scrapy 中间件
准我快乐地重饰演某段美丽故事主人饰演你旧年共寻梦的恋人再去做没流着情泪的伊人假装再有从前演过的戏份重饰演某段美丽故事主人饰演你旧年共寻梦的恋人你纵是未明白仍夜深一人穿起你那无言毛衣当跟你接近陈慧娴《傻女》Scrapy是一个功能强大的爬虫框架，通过使用中间件（middleware），用户可以自定义和扩展爬虫的行为。中间件提供了对请求和响应进行预处理和后处理的机制，使用户可以在不修改核心代码的情况下增
node.js中express-session配置项详解巷中人 json javascript 网络 ViewUI
官方地址：https://www.npmjs.com/package/express-session作用：用指定的参数创建一个session中间件，sesison数据不是保存在cookie中，仅仅sessionID保存到cookie中，session的数据仅仅保存在服务器端警告：默认的服务器端的session存储，MemoryStore不是为了生产环境创建的，大多数情况下会内存泄露，主要用于测试和
ShardingSphere 功能详细介绍冰糖心158 数据库
ShardingSphere是一个开源的分布式数据库中间件，旨在为数据库提供高可扩展性、可管理性和高可用性，支持数据的分库分表（Sharding）、数据库路由、数据同步等功能。ShardingSphere本质上是一个分布式数据库代理，它提供透明的分布式数据操作，使得应用程序可以像操作单一数据库一样操作分布式数据。ShardingSphere具有以下几个主要功能：1.分库分表（Sharding）Sh
基于docker微服务日志ELK+Kafka搭建我是奶龙！我是奶龙！我是奶龙！ docker 微服务 elk spring cloud spring boot kafka
ELK是Elasticsearch、Logstash、Kibana的简称Elasticsearch是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能；是一套开放REST和JAVAAPI等结构提供高效搜索功能，可扩展的分布式系统。它构建于ApacheLucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日志，包括系统日志、错误日志和自定义应用程
Elasticsearch二次开发：实现实时定时同步同义词、近义词与停用词 codeBrute elasticsearch 中文分词
Elasticsearch二次开发：实现实时定时同步同义词、近义词与停用词引言Elasticsearch（ES）作为开源搜索引擎的典范，以其强大的全文搜索、结构化搜索以及分析能力，在各个领域得到了广泛应用。在复杂的搜索场景中，同义词、近义词和停用词的处理对于提升搜索的准确性和用户体验至关重要。为了满足动态变化的业务需求，实现同义词、近义词与停用词的定时同步成为了一项关键任务。本文将详细介绍如何在E
.NET Core Web API架构解析：应用场景与实例详解 m0_74824054 .netcore 前端架构
“.NETCoreWebAPI架构深度解析：实战应用场景与代码示例”内容概述引言简要介绍.NETCore和WebAPI的基本概念。阐述本文的目的：深入解析.NETCoreWebAPI的架构，探讨其在实际项目中的应用场景，并提供代码示例。.NETCoreWebAPI架构解析核心组件：介绍ASP.NETCore框架中的关键组件，如Kestrel服务器、中间件管道、路由等。MVC模式：在WebAPI中的
Node.js - Express框架蒜蓉大猩猩 Node.js node.js express 后端架构
1.介绍Express是一个基于Node.js的Web应用程序框架，主要用于快速、简便地构建Web应用程序和API。它是目前最流行的Node.jsWeb框架之一，具有轻量级、灵活和功能丰富的特点。核心概念包括路由，中间件，请求与响应，以及模板引擎支持2.Express应用的使用通过npm进行安装express包npminstallexpress示例：以下是一个最简单的Express应用程序cons
记录搭建一个私人搜索引擎
本人很喜欢搜索引擎技术，最近想搭建一个属于自己的私人搜索引擎，自动完成所有的出来流程，记录一下。把某个行业、某个领域，对应的网址放在一个txt文件内，接下来动动鼠标，点几下，从爬取到最后即时搜索，自动全部搞定，效果跟在百度搜索没什么两样。以下是具体的操作流程逻辑：第一步：创建一个索引任务，一键生成这个操作会自动创建对应的表，用来存放爬取的网页内容，不需要人工创建，省去一些过于细化的配置。第二步，开
node笔记05——Nodejs学习之Express中间件与接口的编写，GET和POST接口的编写和案例演示。 noahsark747 学习中间件前端
认识expressexpress是基于Node.js平台的web开发框架作用和Node.js内置的http模块类似，是专门用来创建Web服务器的。本质上Express就是一个npm的第三方包提供了快速创建Web服务器的便捷方法。中文官网：expressjs.com.cnexpress的作用：快速方便的创建Web网站服务器和API接口服务器express的基本使用一、下载express包npmiex
Elasticsearch 实战应用周盛欢搜索引擎 elasticsearch jenkins
一、啥是Elasticsearch嘿，小伙伴们，今天给大家唠唠Elasticsearch。简单来说，它就是一个超厉害的搜索引擎，就像我们平时用的百度、谷歌一样，但它是专门给开发者用的，能帮你在海量数据里快速找到想要的东西。二、为啥要用Elasticsearch想象一下，你有个电商网站，商品信息多得跟天上的星星似的。要是没有Elasticsearch，用户想搜个商品，得等半天才能出结果，那多糟心啊。
企业级应用的历史、现状与未来：技术转移与问题优化自由鬼行业发展 IT应用探讨微服务企业级应用软件开发
企业级应用是组织生产环境的核心，旨在保障关键需求如安全、稳定、扩展性和业务连续性。在技术发展的过程中，企业级应用的架构和实现方式经历了显著的变化。本文将探讨企业级应用的历史、现状及未来，并分析技术演进中问题转移与优化的现象。一、企业级应用的历史：传统架构的复杂性在传统架构中，企业级应用的设计主要依赖于强大的中间件和数据库。例如，IBMWAS（WebSphereApplicationServer）常
FastAPI 中间件使用：CORS 与 GZip 压缩 LensonYuan python学习教程 fastapi 中间件 GZip CORS 跨域访问
FastAPI中间件详解：CORS与GZip压缩在FastAPI中，中间件（Middleware）是一种强大的工具，用于在请求和响应之间执行全局性任务。本文将深入探讨两个常用的中间件：CORSMiddleware和CustomGZipMiddleware，并通过丰富的示例和知识点，帮助你全面掌握它们的使用场景和实现原理。1.什么是中间件？中间件是一种在请求到达应用程序之前或响应返回客户端之前执行的
一步到位：购买适合 SEO 的域名全攻略后端
选择一个对SEO友好的域名不仅可以提高搜索引擎排名，还能增强品牌影响力。以下是简化优化后的购买流程：1.检查域名历史，确保无负面记录在购买域名前，务必确认它没有被封锁或拉黑，并且历史记录与您的行业相关：检查域名安全性和历史VirusTotal：查看域名是否被列为不安全。WebArchive：查看域名以前的用途，判断是否有不良记录或与您的行业冲突。GoogleTransparencyReport：检
云原生周刊：Docker 的替代方案云计算
开源项目推荐DitoDito是一个用Go语言编写的高级Layer7反向代理服务器，提供灵活的中间件支持、后端连接的自定义证书处理、动态配置重载，以及与Redis的分布式缓存和速率限制功能。其主要特性包括高效处理HTTP和HTTPS请求、支持WebSocket代理、动态配置热重载、分布式速率限制和缓存、以及自定义TLS证书管理等。Dito的设计注重灵活性和可扩展性，允许用户根据自身需求进行定制，满足
Golang Gin系列-1：Gin 框架总体概述梦想画家 #Golang golang gin
本文介绍了Gin框架，探索了它的关键特性，并建立了简单入门的应用程序。在这系列教程里，我们会探索Gin的主要特性，如路由、中间件、数据库集成等，最终能使用Gin框架构建健壮的web应用程序。总体概述Gin是Go编程语言的web框架，以简单和高性能而设计。它为构建web应用程序和RESTfulapi提供了一组轻量级和灵活的工具。Gin的主要优势之一是其简约的设计，允许开发人员对他们的应用程序进行细粒
http和https有哪些不同星沁城学习小记 http https 网络协议网络
http和https有哪些不同1.数据传输的安全性：http非加密，https加密2.端口号：http默认80端口，https默认443端口3.性能：http基于tcp三次握手建立连接，https在tcp三次握手后还有TLS协议的四次握手确认加密，所以http建立连接更快。4.SEO影响：搜索引擎更偏向于https的网站。SEO（SearchEngineOptimization，搜索引擎优化）是一
2025年极速申请永久免费通配符SSL证书
SSL证书不仅可以加密网站数据传输，保护用户隐私，还能提升网站的可信度和搜索引擎排名。通配符SSL证书又叫泛域名SSL证书，它可以保护一个主域名以及下级所有的子域名，是非常实用的。下面是免费申请流程：官网链接：https://www.joyssl.com/certificate/select/free.html?nid=19一、注册账号打开浏览器，访问JoySSL的官方网站。点击页面右上角的“注册
RocketMQ由哪些角色组成，每个角色作用和特点是什么？思维导图代码示例（java 架构) 用心去追梦 java-rocketmq rocketmq java
RocketMQ是一个分布式消息中间件，专为高吞吐量和低延迟设计，广泛应用于需要高效、可靠消息传递的场景。它由多个角色组成，每个角色在系统中扮演着特定的角色以确保消息的可靠传递和服务的稳定性。RocketMQ角色及特点思维导图建议NameServer作用提供路由信息管理服务负责客户端（Producer/Consumer）请求的负载均衡特点无状态节点支持集群部署简单且轻量级Broker作用消息存储的
全站HTTPS轻松搞定！免费SSL助您快速部署！ sslhttps
为什么选择全站HTTPS？提升安全性HTTPS通过加密技术，保护用户的敏感信息（如登录密码、支付数据）免受窃取和篡改。提升搜索引擎排名搜索引擎，如Google，将HTTPS作为排名的重要因素，使用HTTPS可以帮助您的网站在搜索结果中获得更好的位置。消除“不安全”警告现代浏览器会在未启用HTTPS的网站上显示“不安全”的警告，全站HTTPS能提升用户信任感。↓免费SSL证书：https://www
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出