Elasticsearch 相关度评分算法

一. 相关度评分算法的组成

1.1 boolean model
1.2 TF/IDF
1.3 Vector space model

二. Lucene中的相关度分数算法
三. 优化相关度分数计算的方式(推荐使用☆☆☆☆☆)

3.1 query-time boost
3.2 negative boost
3.3 constant score

四. 使用function score自定义相关度分数算法

4.1 field_value_factor

序号	内容	链接地址
1	SpringBoot整合Elasticsearch7.6.1	https://blog.csdn.net/miaomiao19971215/article/details/105106783
2	Elasticsearch Filter执行原理	https://blog.csdn.net/miaomiao19971215/article/details/105487446
3	Elasticsearch 倒排索引与重建索引	https://blog.csdn.net/miaomiao19971215/article/details/105487532
4	Elasticsearch Document写入原理	https://blog.csdn.net/miaomiao19971215/article/details/105487574
5	Elasticsearch 相关度评分算法	https://blog.csdn.net/miaomiao19971215/article/details/105487656
6	Elasticsearch Doc values	https://blog.csdn.net/miaomiao19971215/article/details/105487676
7	Elasticsearch 搜索技术深入	https://blog.csdn.net/miaomiao19971215/article/details/105487711
8	Elasticsearch 聚合搜索技术深入	https://blog.csdn.net/miaomiao19971215/article/details/105487885
9	Elasticsearch 内存使用	https://blog.csdn.net/miaomiao19971215/article/details/105605379
10	Elasticsearch ES-Document数据建模详解	https://blog.csdn.net/miaomiao19971215/article/details/105720737

一. 相关度评分算法的组成

对于Elasticsearch而言，相关度评分的计算规则通过三部分组成: boolean model，TF/IDF，Vector space model。这三个部分没有所谓的权重，它们是平等的，计算时逐层推进。

1.1 boolean model

boolean model是相关度分数计算的第一步操作。

Elasticsearch搜索时，首先根据搜索条件，过滤出符合条件的document，此时Elasticsearch不会做任何的相关度分数计算，仅仅只记录true或false，标记document是否满足搜索要求(对标Elasticsearch内存中的Node Query Cache区域)。

1.2 TF/IDF

TF/IDF是相关度分数计算的第二步操作。

在对搜索条件进行分词后，Elasticsearch会根据TF/IDF算法，依托于index内所有document中，计算每一个(不可拆分的)词条的相关度分数。

TF/IDF算法可以被拆分成TF算法，IDF算法以及length norm算法:

TF： term frequency，词频算法。对搜索条件进行分词后，各词条在整个index的所有document中出现的次数越多，则权重越高。
举例：搜索条件为"hello es"，document1对应 {“field_test”: “hello world, I am learning es”}，document2对应{“field_test”: “hello Wuhan”}。
分析：由于搜索条件分词后，document1包含了2个关键词，而document2只包含了1个关键词，因此在计算TF这一项相关度分数算法指标时，document1比document2高。
IDF： inverse document frequency，逆文本频率指数算法。对搜索条件进行分词后，统计各词条在所有(已过滤的)document中出现的次数，出现的次数越多，词条的特性越弱，该词条在后续用于评定相关度分数时，起到的作用也越低。
举例：搜索条件为hello es，document1对应 {“field_test”: “hello world, I am learning something new”}，document2对应{“field_test”: “java es”} 其中，hello在index中出现了1000次，es出现了100次。
分析：即便document1和document2中出现词条的次数相同，由于"hello"的相关度评定价值比"es"低，因此，在计算IDF这项相关度算法的权重时，document1比document2低。
length norm: 长度规范。对已匹配目标词条的document而言，document的长度越长，则相关度分数阅读。
举例：搜索条件为hello es，document1对应 {“field_test”: “hello world, I am learning something new”}， document2对应{“field_test”: “heelo es”}
分析：虽然两个document都只包含了一个目标词条，但document1内的无用数据比document2多，因此在计算length norm这项相关度算法的权重时，document1比document2低。

最后Elasticsearch会综合上述三种算法，计算出每一个term对于每一个document的权重。

1.3 Vector space model

空间向量算法是相关度分数计算的第三步操作。
从TF/IDF最终的执行结果中，我们不难看出这种算法仍然不能满足我们的需求，因为搜索条件中往往不止有一个term，经过TF/IDF算法后，仅仅只是为每一个(过滤后的)document计算出每一个term的相关度分数，那么怎样求得一个"总分"呢？贸然的对所有term分数求和肯定不好，所以空间向量算法(Vector space model)就派上用场了。

首先，我们从document出发。document由若干个term组成(忽略停用词)，通过TF/IDF算法计算后，我们可以得知每一个term在document中的权重，而不同的term又会根据自己的权重影响当前document的相关度得分。
在这里，我们将当前document中出现的所有term的权重组合起来，形成一条向量——Document Vector
显然，Document Vector可能会有多条。

Document = {term1, term2, …… ,termN}
Document Vector = {weight1, weight2, …… ,weightN}

接着，我们把查询条件也看做一个document，分别为其中的每一个词条参考它们在所有document中的权重值计算出各自的权重值，最后组合起来，形成一条向量——Query Vector。

Query = {term1, term2, …… , termN}
Query Vector = {weight1, weight2, …… , weightN}

最后，我们把所有计算出的向量(文档向量和查询向量)放在同一个N维空间中，如图所示:

现在的关键是计算每一个Document Vector对于Query Vector的相似度。Elasticsearch认为，若两个向量之间的夹角越小，则相似度越高。

即: 夹角越小 -> 该角的余弦值越大 -> 两条向量的相似度越高 -> 最终相关度分数越高

相关度分数的计算公式如下:

若想对空间向量算法做更深入的了解，可以参考文章: ElasticSearch之向量空间模型算法介绍、

二. Lucene中的相关度分数算法

Lucene中的相关度分数算法，相当于整个相关度评分算法的第二步——TD/IDF算法。
在Lucene中，使用practical scoring function来计算query对某一个document的相关度分数。该函数会使用以下方式计算:

score(q,d)  =  
    queryNorm(q)  
    · coord(q,d)    
    · ∑ (           
        tf(t in d)   
        · idf(t)2      
        · t.getBoost() 
        · norm(t,d)    
    ) (t in q)

这里面涉及到了许多函数，它们的功能大致如下:

score(q,d)
官方解释: score(q,d)is the relevance score of document d for query q.
这个函数能够计算出一个query(q)针对一个document(d)的最终相关度分数。
queryNorm(q)
官方解释: queryNorm(q) is the query normalization factor(new).
这个函数用来让document的最终相关度得分处于一个合理的区间，比如document1的分数为1000，而document2的分数却只有0.1，像这种评分跨度就太大了，不适合做最终评分数统计。算法大概是1/√sumOfSquaredWeights，其中sumOfSquaredWeights是∑公式结果，我们对这个结果做平方根计算，再被1除，得到的就是queryNorm()的最终结果。
coord(q,d)
官方解释: coord(q,d) is the coordination factor (new).
简单来说，就是对更加匹配query的document进行分数上的成倍奖励。比如: query搜索条件是hello java spark，如果某个document中只有hello这个term匹配，假设给定一个term的匹配分数为1.5，那么通过coord算法计算出的分数为: 1.5 x 1 / 3 = 0.5。如果另一个document中有hello和world匹配，假设匹配两个term时，每个term给定的分数是3，那么通过coord算法计算出的分数为: 3 * 2 / 3 = 2。依次类推。涉及coord算法的理由便是为了给那些更匹配query的document给予成倍的分数奖励。
∑
官方解释: The sum of the weights for each term t in the query q for document d.
将搜索条件分词后的每一个term对document的相关度分数进行求和，相当于向量空间算法。比如: query搜索条件为hello world，分词后可以得到"hello"和"world"这两个词条。接着，分别对每一个document计算这两个词条的相关度分数，最后求和。
tf()
官方解释: tf(t in d) is the term frequency for term t in document d.
计算每一个term的对document的分数。本质上是TF算法。
idf()
官方解释: idf(t) is the inverse document frequency for term t.
计算query搜索条件分词后的词条在逆文本频率指数中的得分。本质上是IDF算法。
getBoost()
官方解释: t.getBoost() is the boost that has been applied to the query (new).
获取搜索条件中设置的权重，在计算相关度分数时，若搜索条件匹配成功，则乘以对应的权重。
norm(t, d)
官方解释: norm(t,d) is the field-length norm, combined with the index-time field-level boost, if any. (new).
根据field的长度来计算document的得分。本质上是norm-length算法。

三. 优化相关度分数计算的方式(推荐使用☆☆☆☆☆)

3.1 query-time boost

在搜索时，通过对搜索条件设置boost，实现条件匹配时分数倍增的目的。

GET /index_name/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "field1": {
              "query": "value1",
              "boost": 2
            }
          }
        },
        {
          "match": {
            "field2": {
              "query": "value2",
              "boost": 4
            }
          }
        }
      ]
    }
  }
}

3.2 negative boost

在搜索时，通过对搜索条件设置negative boost，实现匹配某些条件时分数降低的目的。

比如希望搜索出包含java的数据，但不太想搜索出包含elasticsearch的数据。如果贸然使用must和must_not，会造成同时包含java和elasticsearch的数据被过滤掉的后果。

此时，我们可以使用negative boost来解决这个问题。negative boost会降低elasticsearch词条在每个document中相关度分数计算时的比值，从而变相的提高了java词条的比值，实现更加合理的排序。

GET /index_name/_search
{
  "query": {
    "boosting": {
      "positive": {
        "match": {
          "field1": "java"
        }
      },
      "negative": {
        "match": {
          "field1": "elasticsearch"
        }
      },
      "negative_boost": 0.2
    }
  }
}

注意：

"positive"代表正向计算相关度分数，默认权重为1(不能修改，比如像3.1节中使用boost手动指定权重)。"negative"代表反向计算相关度分数，它的权重指由"negative_boost"指定。
negative boost能够"拖垮"整个document的相关度分数。

3.3 constant score

使用constant_score会忽略相关度分数的计算过程，所有document的相关度分数都是1。在Elasticsearch6.x版本以后，constant score内不能使用query语法，只能通过filter来实现数据的过滤，但filter本身恰好又是不计算相关度分数的，因此借助constant score来影响相关度分数的做法渐渐不再被使用。

GET /index_name/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "constant_score": {
            "filter": {
              "term": {
                "field1": "java"
              }
            }
          }
        },
        {
          "constant_score": {
            "filter": {
              "terms": {
                "field1": ["elasticsearch"]
              }
            }
          }
        }
      ]
    }
  }
}

四. 使用function score自定义相关度分数算法

4.1 field_value_factor

Elasticsearch中允许自定义相关度分数算法的计算函数，这个函数计算出的结果可以参与到最终的相关度分数计算中，甚至可以直接作为最终的相关度分数(但不会影响boolean model,TF/IDF以及Vector Space Model的执行过程)。

举例:

POST /index_name/_bulk
{"index" : { "_id" : "1" }}
{"fc" : 10, "f" : "hello world"}
{"index" : { "_id" : "2" }}
{"fc" : 20, "f" : "hello java"}
{"index" : { "_id" : "3" }}
{"fc" : 5, "f" : "hello spark"}
{"index" : { "_id" : "4" }}
{"fc" : 15, "f" : "hello bye bye"}
{"index" : { "_id" : "5" }}
{"fc" : 13, "f" : "hi world"}

GET /index_name/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "f": "java spark"
        }
      },
      "field_value_factor": {
        "field": "fc",
        "modifier": "log2p", 
        "factor": 0.5
      },
      "boost_mode": "sum",
      "max_boost": 0.8
    }
  }
}

如果field_value_factor中只写了"field"，那么Elasticsearch会在query match中计算出的相关度分数的基础上直接乘以document中对应"field"字段的值。比如直接使用query match “f”: "java spark"时，得到的document的分数为1.43，而fc的值为20，那么组合后计算出的相关度分数为1.43 x 20 = 28.6。

modifier是针对field的计算公式。Elasticsearch内部提供了大量的计算公式，比如ln、ln1p、ln2p、log1p、log2p等等。举个例子，log2p对应的公式为: log以2为底，2+number_of_votes的对数，number_of_votes就是document中对应自定义相关度分数计算字段的值。最终得到的结果再去和前面query match计算出的值相乘。

factor可以进一步影响相关度分数的计算， log(1 + factor * number_of_votes)。

前面都是用自定义相关度分数乘以query match的值作为最终的相关度分数，倘若不想使用乘法，我们还可以选用boost_mode参数。
boost_mode可以选择函数: max(最大值)、min(最小值)、avg(平均值)、multiply(乘法[默认值])、replace(替换)、sum(求和)。

max_boost，限制自定义相关度分数字段最终计算出的数值不得超过max_boost指定的值，如果超过，则直接使用max_boost的值。

本地部署Elasticsearch分布式搜索引擎结合内网穿透实现远程搜索 E绵绵 Everything 搜索引擎 elasticsearch 分布式
文章目录前言系统环境1.Windows安装Elasticsearch2.本地访问Elasticsearch3.Windows安装Cpolar4.创建Elasticsearch公网访问地址5.远程访问Elasticsearch6.设置固定二级子域名前言本文主要介绍如何在Windows系统安装分布式搜索和分析引擎Elasticsearch，并结合Cpolar内网穿透工具实现无公网IP远程访问使用。El
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
折腾 Quickwit，Rust 编写的分布式搜索引擎-官方配置详解为为少搜索引擎
Nodeconfiguration(节点配置)节点配置允许您为集群中的各个节点自定义和优化设置。它被分为几个部分：常规配置设置：共享的顶级属性Storage(存储)设置：在storage部分定义https://quickwit.io/docs/configuration/node-config#storage-configurationMetastore(元存储)设置：在metastore部分定义
折腾 Quickwit，Rust 编写的分布式搜索引擎 - 从不同的来源摄取数据为为少 rust 分布式搜索引擎开发语言后端
摄取API在这节教程中，我们将介绍如何使用IngestAPI向Quickwit发送数据。要跟随这节教程，您需要有一个本地的Quickwit实例正在运行。https://quickwit.io/docs/get-started/installation要启动它，请在终端中运行./quickwitrun。创建索引首先，我们创建一个无模式的索引。#Createtheindexconfigfile.cat
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
ElasticSearch为什么快？ z.jiaminf ElasticSearch elasticsearch 大数据搜索引擎
ElasticSearch是一个高性能，分布式搜索引擎，它之所以快，主要有以下几个原因：1.分布式存储：ElasticSearch使用分布式存储技术，将数据存储在多个节点上从而减少单个节点的压力，提高整体性能。2.索引分片：ElasticSearch把每个索引划分成多个分片，这样可以让查询操作并行化，从而提高查询速度。3.全文索引：ElasticSearch使用了高效的全文索引技术，把文档转化成可
ES+Logstash+Kibana(ELK)部署---废弃版，请勿参考小关暗器 elasticsearch elk 大数据
一概念理解ES、Logstash和Kibana是一组开源工具的缩写，通常被称为ELKStack。它们分别是：Elasticsearch(ES):一个开源的分布式搜索引擎，用于全文搜索、分析和可视化大量数据。它能够快速存储、搜索和分析大量数据Logstash:一个用于日志数据收集、转换和传输的开源工具。Logstash可以从不同来源收集数据，并将其转换为指定格式，然后传输到Elasticsearch
大数据搜索引擎之ElasticSearch安装篇(资源) weixin_34049948 大数据运维 java
2019独角兽企业重金招聘Python工程师标准>>>实验平台：操作系统：CentOS7软件链接（官网）：https://www.elastic.co/productsElasticsearch介绍ELK由Elasticsearch、Logstash和Kibana三部分组件组成；他们都是开源免费的工具。简述如下：Elasticsearch是个开源分布式搜索引擎，特点网上一搜到处是：分布式，零配置，
分布式搜索引擎 elasticsearch KYGALYX 搜索引擎分布式 elasticsearch
分布式搜索引擎elasticsearch第一部分1.初识elasticsearch1.1.了解ES1.1.1.elasticsearch的作用elasticsearch是一款非常强大的开源搜索引擎，具备非常多强大功能，可以帮助我们从海量数据中快速找到需要的内容例如：在GitHub搜索代码在电商网站搜索商品搜索答案在打车软件搜索附近的车1.1.2.ELK技术栈elasticsearch结合kiban
ELK的日志解决方案 DecemberZero2 elk
ELK的日志解决方案ELK是什么ELK是一个缩写，代表ElasticStack，而不是三个独立的产品名称。ElasticStack是一个开源的数据处理和分析平台，用于实时搜索、分析和可视化大规模数据。ELK是由三个主要的组件构成：Elasticsearch(ES):一个分布式搜索引擎，用于实时存储和检索数据。它提供了强大的全文搜索能力和分布式性能，常用于存储和查询大规模的日志数据、指标数据等。Lo
Elasticsearch 安装和配置脚本文档刀鋒偏冷运维知识 elasticsearch
Elasticsearch安装和配置脚本文档目录**Elasticsearch安装和配置脚本文档**0.**概述**1.**使用方法：**2.**脚本步骤：**3.**完整代码如下：**0.概述此Bash脚本用于自动化在CentOS7系统上安装和配置Elasticsearch（ES）分布式搜索引擎。脚本包括了创建集群、配置节点、安装Java环境、以及设置必要的系统和ES参数。执行脚本后，将会完成E
ElasticSearch基本概念介绍林深见鹿与 Elastic Search 大数据
ElasticSearch：一个基于lucene的搜索服务器，提供一个高可用、分布式多用户能力、开源的全文检索引擎、分布式文档存储引擎、数据分析引擎。可以存储、搜索和实时快速的分析大量数据。提供简单易用的RestFulAPI接口，JavaAPI接口，设计与云计算中，能够达到实时搜索、稳定、可靠、快速、安装和使用方便。ElasticSearch的功能：1、分布式搜索引擎和数据分析引擎；搜索：百度、电
Docker安装部署ELK (Elasticsearch+Kibana+Logstash+Filebeat) zhanglb12
Docker安装部署ELK(Elasticsearch+Kibana+Logstash+Filebeat)ELK是由Elasticsearch、Logstash和Kibana三部分组件组成。Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，它可以
Elasticsearch内核剖析大叶子不小 elasticsearch 大数据搜索引擎
Elasticsearch内核剖析-知乎大家都知道Elasticsearch是一个开源的分布式搜索和分析引擎，也是一种NoSQL数据库。由于Elasticsearch填补了开源领域分布式搜索引擎的空白，而且难能可贵的是，Elasticsearch提供了非常友好的操作性，上手极其容易，这些特征促使其在过去5年在市场上快速崛起。目前在开源的搜索系统中基本处于垄断地位。虽然Elasticsearch在业
分布式搜索引擎- weixin_57107855 搜索引擎
数据聚合聚合（aggregations）可以让我们极其方便的实现对数据的统计、分析、运算。例如：什么品牌的手机最受欢迎？这些手机的平均价格、最高价格、最低价格？这些手机每月的销售情况如何？实现这些统计功能的比数据库的sql要方便的多，而且查询速度非常快，可以实现近实时搜索效果。聚合的种类聚合常见的有三类：桶（Bucket）聚合：用来对文档做分组TermAggregation：按照文档字段值分组，例
【ElasticSearch】概述流转星云 elasticsearch 搜索引擎 elasticsearch 大数据搜索引擎
文章目录ElasticSearch1.基本介绍2.设计理念3.基本架构与核心概念学习参考资料：ElasticSearch简单整理ES基本概念，设计理念，构建与使用，供回顾。1.基本介绍Elasticsearch是一个基于ApacheLucene的开源的分布式搜索引擎，用于实时存储、检索和分析大规模数据。它属于ElasticStack（以前称为ELKStack），包括Elasticsearch、Lo
ElasticSearch概述及Window和Linux环境下安装 666-LBJ-666 ES elasticsearch linux 大数据
一、ElasticSearch1、ElasticSearch概述ES（Elasticsearch）是一个基于开放源代码的分布式搜索引擎，用于快速和灵活地搜索和分析大量数据。它是构建在ApacheLucene之上的，通过提供一个简单而强大的RESTfulAPI来实现全文搜索、结构化搜索、分析和数据可视化的功能。ES的设计目标是具有高度可扩展性和可靠性，可以在大规模分布式环境中处理PB级别的数据。它通
ElasticSearch分布式搜索引擎安装教程小Du猿开发环境安装教程搜索引擎
ElasticSearch分布式搜索引擎安装教程专注小Du博客，每天分享干货知识。原文地址：http://dushunchang.top/blog/72在正式开始安装教程之前，小Du先带大家来了解什么是ElasticSearch。一.Hr：ElasticSearch是什么？答：Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfu
分布式搜索引擎_学习笔记_3 lisus2007 Java 分布式搜索引擎
分布式搜索引擎030.学习目标1.数据聚合**聚合（aggregations）**可以让我们极其方便的实现对数据的统计、分析、运算。例如：什么品牌的手机最受欢迎？这些手机的平均价格、最高价格、最低价格？这些手机每月的销售情况如何？实现这些统计功能的比数据库的sql要方便的多，而且查询速度非常快，可以实现近实时搜索效果。1.1.聚合的种类聚合常见的有三类：**桶（Bucket）**聚合：用来对文档做
分布式搜索引擎_学习笔记_2 lisus2007 Java 分布式搜索引擎学习
分布式搜索引擎_学习笔记_2在昨天的学习中，我们已经导入了大量数据到elasticsearch中，实现了elasticsearch的数据存储功能。但elasticsearch最擅长的还是搜索和数据分析。所以今天，我们研究下elasticsearch的数据搜索功能。我们会分别使用DSL和RestClient实现搜索。0.学习目标1.DSL查询文档elasticsearch的查询依然是基于JSON风格
分布式搜索引擎_学习笔记_1 lisus2007 Java 分布式搜索引擎 java
分布式搜索引擎01–elasticsearch基础0.学习目标1.初识elasticsearch1.1.了解ES1.1.1.elasticsearch的作用elasticsearch是一款非常强大的开源搜索引擎，具备非常多强大功能，可以帮助我们从海量数据中快速找到需要的内容例如：在GitHub搜索代码在电商网站搜索商品在百度搜索答案在打车软件搜索附近的车1.1.2.ELK技术栈elasticsea
大数据分析利器ElasticSearch入门(一) heshengfu1211 分布式 elasticsearch
1为什么要学习ElasticSearch?1.1为什么要学习ElasticSearchElasticSearch（ES）作为一款优秀的分布式搜索分析引擎，越来越收到很多大型互联网公司的关注，像小米、滴滴出行、携程旅游、阿里云和腾讯云都在使用ElasticSearch。最著名的公司就是github，它采用ES作为搜素引擎对代码进行搜索，虽然它是一款分布式搜索引擎，但是它强大的查询、分析和聚合能力使他
分布式搜索引擎elasticsearch的架构原理雪飘千里
分布式搜索引擎：把大量的索引数据拆散成多块，每台机器放一部分，然后利用多台机器对分散之后的数据进行搜索，所有操作全部是分布在多台机器上进行，形成了完整的分布式的架构。1、核心概念1.1Nearrealtime近实时近实时，有两层意思：从写入数据到数据可以被搜索到有一个小延迟（大概是1s）基于es执执行搜索和分析可以达到秒级1.2cluster集群&Node节点集群包含多个节点，每个节点属于哪个集群
分布式搜索引擎02 (￣(工)￣)霸天下微服务分布式搜索引擎微服务 java
分布式搜索引擎02在昨天的学习中，我们已经导入了大量数据到elasticsearch中，实现了elasticsearch的数据存储功能。但elasticsearch最擅长的还是搜索和数据分析。所以今天，我们研究下elasticsearch的数据搜索功能。我们会分别使用DSL和RestClient实现搜索。0.学习目标1.DSL查询文档elasticsearch的查询依然是基于JSON风格的DSL来
ElasticSearch集群灾难：别放弃，也许能再抢救一下 | 京东云技术团队京东云技术团队 elasticsearch 京东云大数据
1前言Elasticsearch作为一个分布式搜索引擎，自身是高可用的；但也架不住一些特殊情况的发生，如：集群超过半数的master节点丢失，ES的节点无法形成一个集群，进而导致集群不可用；索引shard的文件损坏，分片无法被正常恢复，进而导致索引无法正常提供服务本地盘节点，多数据节点故障，旧节点无法再次加入集群，数据丢失针对上述的情况，今天来聊一聊相关的解决方案。2基础知识2.1集群经典架构在聊
Elasticsearch内核解析 - 数据模型篇大叶子不小 elasticsearch 大数据搜索引擎
Elasticsearch内核解析-数据模型篇-知乎Elasticsearch是一个实时的分布式搜索和分析引擎，它可以帮助我们用很快的速度去处理大规模数据，可以用于全文检索、结构化检索、推荐、分析以及统计聚合等多种场景。Elasticsearch是一个建立在全文搜索引擎库ApacheLucene基础上的分布式搜索引擎，Lucene最早的版本是2000年发布的，距今已经18年，是当今最先进，最高效的
【运维】Ubuntu18.04系统docker方式安装ElasticSearch和kibana 奔跑的大白啊运维【linux】运维 docker elasticsearch kibana 安装配置
前言最近需要搭建一套测试环境，用到了ElasticSearch(简称es)搜索引擎，安装过程有些曲折，记录下来作为经验。正文环境Ubuntu18.04操作系统DockerServerVersion:20.10.7ElasticSearchVersion:8.5.3KibanaVersion:8.5.3说明ElasticSearch是一个开源分布式搜索引擎，可以快速地储存、搜索和分析海量数据，Kib
es怎么实现master选举吃胖点儿 elasticsearch
Elasticsearch分布式一致性原理剖析(一)-节点篇王怀远阿里云分布式NoSQL开发23人赞了该文章前言“Elasticsearch分布式一致性原理剖析”系列将会对Elasticsearch的分布式一致性原理进行详细的剖析，介绍其实现方式、原理以及其存在的问题等(基于6.2版本)。ES目前是最流行的分布式搜索引擎系统，其使用Lucene作为单机存储引擎并提供强大的搜索查询能力。学习其搜索原
Elasticsearch分布式一致性原理剖析(一)-节点篇大叶子不小 elasticsearch
前言“Elasticsearch分布式一致性原理剖析”系列将会对Elasticsearch的分布式一致性原理进行详细的剖析，介绍其实现方式、原理以及其存在的问题等(基于6.2版本)。ES目前是最流行的分布式搜索引擎系统，其使用Lucene作为单机存储引擎并提供强大的搜索查询能力。学习其搜索原理，则必须了解Lucene，而学习ES的架构，就必须了解其分布式如何实现，而一致性是分布式系统的核心之一。本
什么是es？ yeren108
es是一个实时分布式搜索引擎。它让你以前所未有的速度处理大数据成为可能。它用于全文搜索，结构化搜索，分析以及将这三者混用。es所涉及到的每一项技术都不是创新和革命性的。全文搜索、分析系统以及分布式数据库这些早就已经不存在了。它的革命性在于将这些独立且有用的技术整合成一个一体化，实时的应用。它对新用户的门槛很低。它能够进行全文搜索，处理同义词和根据相关性给文档打分，它能根据同一份数据生成分析和聚合的
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

Elasticsearch 相关度评分算法