赵侠客

通过案例实战详解elasticsearch自定义打分function_score的使用

前言

elasticsearch给我们提供了很强大的搜索功能，但是有时候仅仅只用相关度打分是不够的，所以elasticsearch给我们提供了自定义打分函数function_score，本文结合简单案例详解function_score的使用方法，关于function-score-query的文档最权威的莫过于官方文档:
function_score官方文档

基本数据准备

我们创建一张新闻表，包含如下字段：

字段	类型	说明
id	Long	新闻ID
title	string	标题
tags	string	标签
read_count	long	阅读数
like_count	long	点赞数
comment_count	long	评论数
rank	double	自定义权重
location	arrays	文章发布经纬度
pub_time	date	发布时间

创建elasticsearch的 Mapping：

PUT /news
{
  "mappings": {
    "properties": {
      "id": {
        "type": "long"
      },
      "title": {
        "type": "text",
        "analyzer": "standard"
      },
      "tags": {
        "type": "keyword"
      },
      "read_count": {
        "type": "long"
      },
     "like_count": {
        "type": "long"
      },
     "comment_count": {
        "type": "long"
      },
      "rank": {
        "type": "double"
      },
      "location": {
          "type": "geo_point"
        },
      "pub_time": {
        "type": "date",
        "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd HH:mm||yyyy-MM-dd||epoch_millis"
      }
    }
  }
}

准备测试数据：

id	title	tags	read_count	comment_count	like_count	rank	location	pub_time
1	台风“杜苏芮”登陆福建晋江多部门多地全力应对	台风;杜苏芮;福建	10000	2000	600	0	118.55199,24.78144	2023-07-29 09:47
2	受台风“杜苏芮”影响北京7月29日至8月1日将有强降雨	台风;杜苏芮;北京	1000	200	60	0	116.23128,40.22077	2023-06-29 14:49:38
3	杭州解除台风蓝色预警信号	台风;杭州	10	2	6	0.9	120.21201,30.2084	2020-07-29 14:49:38

批量添加数据到elasticsearch中:

POST _bulk
{"create": {"_index": "news", "_id": 1}}
{"comment_count":600,"id":1,"like_count":2000,"location":[118.55199,24.78144],"pub_time":"2023-07-29 09:47","rank":0.0,"read_count":10000,"tags":["台风","杜苏芮","福建"],"title":"台风“杜苏芮”登陆福建晋江 多部门多地全力应对"}
{"create": {"_index": "news", "_id": 2}}
{"comment_count":60,"id":2,"like_count":200,"location":[116.23128,40.22077],"pub_time":"2023-06-29 14:49:38","rank":0.0,"read_count":1000,"tags":["台风","杜苏芮","北京"],"title":"受台风“杜苏芮”影响 北京7月29日至8月1日将有强降雨"}
{"create": {"_index": "news", "_id": 3}}
{"comment_count":6,"id":3,"like_count":20,"location":[120.21201,30.208],"pub_time":"2020-07-29 14:49:38","rank":0.99,"read_count":100,"tags":["台风","杭州"],"title":"杭州解除台风蓝色预警信号"}

`random_score`的使用

我们通过random_score理解一下weight、score_mode,boost_mode的作用分别是什么，先直接看Demo


GET /news/_search
{
  "query": {
    "function_score": {
      "query": {"match": {
        "title": "台风"
      }},
      "functions": [
        {
          "random_score": {}, 
          "weight": 1
        },
         {
          "filter": { "match": { "title": "杭州" } },
          "weight":42
        }
      ],
      "score_mode": "sum",
      "boost_mode": "replace"
    }
  }
}

对应JAVA查询代码:

        BoolQueryBuilder queryBuilder = QueryBuilders.boolQuery();
        queryBuilder.should(QueryBuilders.matchQuery("title","杭州"));
        FunctionScoreQueryBuilder.FilterFunctionBuilder[] filterFunctionBuilders = new FunctionScoreQueryBuilder.FilterFunctionBuilder[1];
        ScoreFunctionBuilder<RandomScoreFunctionBuilder> randomScoreFilter = new RandomScoreFunctionBuilder();
        ((RandomScoreFunctionBuilder) randomScoreFilter).seed(2);
        filterFunctionBuilders[0] = new FunctionScoreQueryBuilder.FilterFunctionBuilder(randomScoreFilter);
        FunctionScoreQueryBuilder query = QueryBuilders.functionScoreQuery(queryBuilder, filterFunctionBuilders).scoreMode(FunctionScoreQuery.ScoreMode.SUM).boostMode(CombineFunction.SUM);
        SearchSourceBuilder searchSourceBuilder= new SearchSourceBuilder().query(query);
        SearchRequest searchRequest= new SearchRequest().searchType(SearchType.DFS_QUERY_THEN_FETCH).indices("news").source(searchSourceBuilder);
        SearchResponse response =  restClient.search(searchRequest, RequestOptions.DEFAULT);
        SearchHits hits = response.getHits();
        String searchSource;
        for (SearchHit hit : hits)
        {
            searchSource = hit.getSourceAsString();
            System.out.println(searchSource);
        }

查询结果：

这个查询使用的function_score，query中通过title搜索“台风”，在functions我们增加了两个打分，一个是random_score，随机生成一个得分，得分的weight权重是1，第二个是如果标题中有“杭州”，得分权重为42，

random_score
顾名思义就是生成一个(0,1)之间的随机得分，我能想到的一个应用场景是，有一天产品要求：每个人看到新闻都不一样，要做到“千人千面”，而且只给你一天的时间，这样我们就可以使用random_score，每次拉取的数据都是随机的，每个人看到的新闻都是不一样的，这个随机查询比Mysql实现简单多了，0成本实现了“千人千面”。
weight
这个就是给生成的得分增加一个权重，在上面的Demo中，我们第一个 weight=1,第二个weight=42,从搜索结果得分可以看出“杭州解除台风蓝色预警信号”这条得分是42.40192，而下面的只有0.8194501，因为增加了42倍的权重。
score_mode

score_mode的作用是对functions中计算出来的多个得分做汇总计算，比如我用了是sum，就是指将上面random_score得到的打分和filter中得到的42分相加，也就是说第一条42.40192得分是random_score生成了0.40192再加上filter中得到了42分。score_mode默认是采用multiply，总共有6种计算方式：

`random_score`函数	计算方式
`multiply`	scores are multiplied (default)
`sum`	scores are summed
`avg`	scores are averaged
`first`	the first function that has a matching filter is applied
`max`	maximum score is used
`min`	minimum score is used

boost_mode

boost_mode作用是将functions得到的总分数和我们query查询的得到的分数做计算，比如我们使用的是replace就是完全使用functions中的得分替代query中的得分，boost_mode总共有6种计算方式：

`boost_mode`函数	得分计算方式
`multiply`	query score and function score is multiplied (default)
`replace`	only function score is used, the query score is ignored
`sum`	query score and function score are added
`avg`	average
`max`	max of query score and function score
`min`	min of query score and function score

`script_score`的使用

script_score就是用记可以通过各种函数计算你文档中出现的字段，算出一个自己想要的得分，我们直接看Demo

GET /news/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": { "title": "台风" }
      },
      "script_score": {
        "script": {
          "params": {
            "readCount": 1,
            "likeCount":5,
            "commentCount":10
          },
          "source": "Math.log(params.readCount* doc['read_count'].value +params.likeCount* doc['like_count'].value+params.commentCount* doc['comment_count'].value) "
        }
      },
      "boost_mode": "multiply"
    }
  }
}

每篇新闻有阅读数、点赞数据、评论数，我们可以通过这三个指标算出一个分值来评价一篇文章的热度，然后将这个热度和query中的得分相乘，这样热度很高的文章可以排到更前面。在这个Demo中我使用了一个简单的加权来计算文章热度，一般来说阅读数是最大的，点赞数次之，评论数是最小的。

$文章热度=Log(评论数\times 10+点赞数\times5+阅读数)$

这里为了演示，简单算一下文章热度，真实的要比这个复杂的多，可能不同种类的文章重要性也是不一样的。

`field_value_factor`的使用

field_value_factor可以理解成elasticsearch给你一些内置的script_score，每次写script_score必定不是太方便，如果有一些内置的函数，开箱即用就方便多了，我们直接看Demo

GET /news/_search
{
    "query": {
        "function_score": {
            "query": {
                "match": {
                    "title": "台风"
                }
            },
            "field_value_factor": {
                "field": "rank",
                "factor": 10,
                "modifier": "sqrt",
                "missing": 1
            },
            "boost_mode": "multiply"
        }
    }
}

这里的field_value_factor就对相当script_score的 sqrt(10 * doc['rank'].value)，这里的factor是乘以多少倍，默认是1倍，missing是如果没有这个字段默认值为1，modifier是计算函数，field是要计算的字段。

modifier计算函数有以下类型可以选择

`modifier`函数	得分计算方式
`none`	Do not apply any multiplier to the field value
`log`	Take the common logarithm of the field value. Because this function will return a negative value and cause an error if used on values between 0 and 1, it is recommended to use `log1p` instead.
`log1p`	Add 1 to the field value and take the common logarithm
`log2p`	Add 2 to the field value and take the common logarithm
`ln`	Take the natural logarithm of the field value. Because this function will return a negative value and cause an error if used on values between 0 and 1, it is recommended to use `ln1p` instead.
`ln1p`	Add 1 to the field value and take the natural logarithm
`ln2p`	Add 2 to the field value and take the natural logarithm
`square`	Square the field value (multiply it by itself)
`sqrt`	Take the square root of the field value
`reciprocal`	Reciprocate the field value, same as `1/x` where `x` is the field’s value

衰减函数Decay functions的使用

衰减函数可以理解成计算文档中某一个字段与给定值的距离，如果距离越近得分就越高，距离越远得分就越低，这个就比较适用于新闻发布时间的衰减了，越久前发布的新闻，得分应该越小，排序越往后。我们直接看Demo

GET /news/_search
{
    "query": {
        "function_score": {
            "query": {
                "match": {
                    "title": "台风"
                }
            },
            "functions": [
                {
                    "gauss": {
                        "pub_time": {
                            "origin": "now",
                            "offset": "7d",
                            "scale": "60d",
                            "decay": 0.9
                        }
                    }
                },
                {
                    "exp": {
                        "location": {
                            "origin": {
                                "lat": 120.21551,
                                "lon": 30.25308
                            },
                            "offset": "50km",
                            "scale": "50km",
                            "decay": 0.1
                        }
                    }
                }
            ],
            "score_mode": "sum", 
            "boost_mode": "sum"
        }
    }
}

搜索结果：

衰减函数有3种，分别为gauss高斯函数、lin线程函数、exp对数函数，具体的计算公式可以参考官方文档，这里我们主要理解衰减函数的4个参数作用是什么。

origin
可以理解成计算距离的原点，比如上面计算新闻发布时间的原点是当前时间，计算经纬度的原点是用户搜索位置，比如我在杭州，那么origin就是杭州的经纬度
offset
这个偏移量可以理解成不需要衰减的距离，比如在上面的Demo中，距离pub_time的offset为7d，意思是说近7天内发布的新闻都不需要衰减，得分直接为1。计算经纬度中的offset为50km意思是说距离用户50km里的新闻不需要衰减，50km内的基本都是杭州本地的新闻，就没必要衰减了。
scale和decay
这两个参数可以参考官方给的三种函数衰减图，scale和decay表示距离为scale后得分衰减到原来的scale倍。比如上面时间衰减offset=7d， scale=60d，decay= 0.9加起来的意思就是7天内的新闻不衰减，67天(7d+60d)前的新闻得分为0.9，在经纬度衰减中offset=50km， scale=50km，decay= 0.1的意思是50km内的距离不衰减，100km(50km+50km)外的数据得分为0.1。

总结

elasticsearch的function_score给我提供了好几种很灵活的自定义打分策略，在实际项目中需要根据自己的需求合理的组合这些打分策略并调整对应参数才能满足自己的搜索需求，本文主要介绍function_score的使用，接下来我会根据一个实际的搜索应用介绍一下如何组合、设置这些函数以达到比较理解的搜索效果。

网站藏着的「机器人红绿灯」：5 分钟看懂 Robots 协议 incidite 机器人
你有没有想过：当搜索引擎爬取网站时，是谁在指挥它们“该去哪、不该去哪”？答案就藏在一个名叫Robots协议的简单规则里。这个看似神秘的技术，其实就像网站门口的“交通信号灯”，用几句明文代码就能规范爬虫的行为。今天，我们用5分钟揭开它的面纱，新手也能轻松掌握。什么是Robots协议？简单说，Robots协议是网站给搜索引擎爬虫看的“说明书”。它通过一个名为robots.txt的文本文件，告诉爬虫哪些
Java EE的历史（转）古剑诛仙
转自公众号码农翻身。前言：昨天下午有同学问我JavaEE是干什么用的，能开发什么系统，我在QQ中敲了很多字，掰扯了半天，终于给他整明白了。我突然意识在其实很多初学者对JavaEE的来龙去脉并去清楚，大家并不知道为什么会出现这个技术，要解决什么问题。所以就写了这篇文章介绍下JavaEE的历史。先把时间扯的远一点，94年我上高中的时候，见过亲戚家有过电脑，很好奇，虽然上面都是一些单机桌面程序，根本上不
延迟队列的入门使用
延迟队列的入门使用思考：1.什么是延迟队列？延迟队列运用场景？2.延迟队列的排队过程如何实现？真的是先进先出吗？3.如何实现运用延迟队列一.什么是延迟队列DelayQueue是Java中的一个基于优先级队列的实现的线程安全的延迟队列。运用场景：实现定时任务或者延迟任务的调度。DelayQueue实现BlockingQueue，加入这个队列的元素必须实现Delayed接口，当生产者提交元素进入队列时
Java DelayQueue延迟队列的使用和源码分析 °Fuhb Java基础与进阶 java DelayQueue 延迟队列
文章目录概述示例原理分析概述DelayQueue是JAVA提供的延时队列，队列内部的对象必须实现Delayed接口，该接口只有一个getDelay方法，返回延迟执行的时长。publicinterfaceDelayedextendsComparable{longgetDelay(TimeUnitunit
DelayQueue延时队列简单使用泉泉写Java java 开发语言
DelayQueue是JDK1.5引入到工具，位置在java.util.concurrent。从包路径我们就能知道该工具是给多线程使用到。我们先看看官方注释：AnunboundedblockingqueueofDelayedelements,inwhichanelementcanonlybetakenwhenitsdelayhasexpired.TheheadofthequeueisthatDel
Java性能监测工具JMC的使用介绍
一、JMC介绍JMC是源自JRockitJVM的一套监控和管理工具,Oracle在发布JAVA7u4(Java7Update40)时将其包含在JDK中,用户不再需要单独下载。使用JMC可以监视和管理Java应用程序，不会导致相关工具类的大幅度性能开销，它使用为Java虚拟机(JVM)的普通自适应动态优化收集的数据。官方地址：https://www.oracle.com/java/technolog
Spring Boot 3.0新特性全面解析与实战应用天天进步2015 Java spring boot
SpringBoot3.0新特性全面解析与实战应用引言SpringBoot3.0作为Spring生态系统的一个重要里程碑，带来了众多令人兴奋的新特性和改进。本文将深入解析SpringBoot3.0的核心变化，并通过实战示例展示如何在项目中应用这些新特性。核心变化概览Java版本要求提升SpringBoot3.0最显著的变化是Java版本要求提升至Java17。这一变化不仅仅是版本号的更新，更是对现
ChatGPT 与 AIGC 简问乱答 MatrixOnEarth
ChatGPT与AIGC简问乱答**仅代表个人观点。**[Q1]ChatGPT最近非常火爆，2个月突破1亿月活，从产品形态来看，我们知道的微软、谷歌的搜索引擎都会嵌入。那么我们如何看待它的用户粘性，真的会有那么多人持续使用吗还是说只是一阵热潮？[A1]首先，工业界长久以来对搜索引擎的最终产品形态的定义是：信息问答助理。目前的信息检索黄页的产品形态个人认为其实是在技术发展未能满足最终产品形态目标的情
这个导航站，竟然藏着6000+实用网站
在互联网的浩瀚海洋中，我们常常为寻找一个合适的资源而耗费大量时间，从搜索引擎的海量结果中筛选出真正有用的网站，就像在沙堆里淘金一样艰难。然而，E导航的出现，就像一位贴心的向导，将网络世界中那些闪闪发光的宝藏网站汇聚在一起，为我们的探索之旅点亮了一盏明灯。网站地址：E导航-以极简之名,探索网络之境E导航–以极简之名,探索网络之境。以极简的设计理念和丰富的资源分类，为用户提供了一个高效、便捷的网络探索
JAVA面试八股文，万字长文！ Java进阶八股文 java 面试开发语言职场和发展 spring boot spring jvm
1、多态的作用多态的实现要有继承、重写，父类引用指向子类对象。它的好处是可以消除类型之间的耦合关系，增加类的可扩充性和灵活性。多态允许你通过统一的接口来处理不同类型的对象，这样在添加新的类型时，不需要修改现有的代码，只需要实现相同的接口或继承相同的父类即可。这使得代码的扩展性大大增强。2、什么是反射？反射机制是在运行时，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意个对象，都能够调用它
设计模式-工厂方法模式 Java
模式概述工厂方法模式(FactoryMethodPattern)又称为工厂模式，定义创建对象的接口，但将具体实现延迟到子类，实现对象创建与使用的解耦。简单代码示例//1.抽象产品：日志记录器接口interfaceLogger{voidlog(Stringmessage);}//2.具体产品：文件日志记录器classFileLoggerimplementsLogger{@Overridepublic
实时时间钟表命苦的孩子 java梦 java jvm spring
目录一、前提二、代码2.1窗口2.2时间显示三、代码整合一、前提在之前我们学会了JDK时间相关类，那我们就来小小地利用它来写一个”小玩意儿”。没看过的快去看一遍，在初识JDK时间相关类二、代码2.1窗口首先，你是不是得有一个窗口，那就用得上Swing了。importjavax.swing.*;publicclasstestextendsJFrame{privateJPanelwindonpanel
【Java代码审计 | 第五篇】XSS漏洞成因+实战案例秋说 Java代码审计 java xss
未经许可，不得转载。文章目录XSS漏洞成因1、直接输出用户输入2、在JSP中使用EL表达式输出用户输入3、在Thymeleaf模板中输出用户输入4、在JavaScript中嵌入用户输入实战案例案例1案例2案例3XSSXSS（跨站脚本攻击，Cross-SiteScripting）是一种常见的Web安全漏洞，攻击者通过在网页中注入恶意脚本，使得这些脚本在用户的浏览器中执行。XSS攻击通常分为以下三种类
java二叉树遍历
在Java中，二叉树遍历通常有三种方式：先序遍历(PreorderTraversal)：首先访问根节点，然后递归遍历左子树，最后递归遍历右子树。中序遍历(InorderTraversal)：首先递归遍历左子树，然后访问根节点，最后递归遍历右子树。后序遍历(PostorderTraversal)：首先递归遍历左子树，然后递归遍历右子树，最后访问根节点。例如，对于以下二叉树：1/\23/\/4567先
java学习笔记
期末课堂作业,以下内容为2024年上学期java课堂学习笔记202402150705目录[第1章:Java语言概述](#第1章:Java语言概述)[第2章:数据类型与运算符](#第2章:数据类型与运算符)[第3章:控制流程语句](#第3章:控制流程语句)[第4章:数组](#第4章:数组)[第5章:类与对象](#第5章:类与对象)[第6章:封装、继承与多态](#第6章:封装、继承与多态)[第7章:异
第5章：数据访问层 liangxh2010 微服务后端架构
5.1SpringDataJPA使用文字讲解SpringDataJPA是SpringData项目的一部分，旨在极大地简化JPA（JavaPersistenceAPI）的使用。它通过提供基于Repository接口的编程模型，让我们无需编写任何实现代码就能完成大多数数据访问操作。核心概念：Entity：一个使用@Entity注解的普通Java对象（POJO），它映射到数据库中的一张表。Reposit
MySQL(150)如何进行数据库自动化运维？辞暮尔尔-烟火年年 MySQL 数据库运维 mysql
数据库自动化运维（DBAAutomation）是确保数据库高效、安全运行的关键步骤。自动化运维可以涵盖备份、恢复、监控、性能优化、数据迁移等多个方面。以下是一个详细的指南，展示如何使用Java进行数据库自动化运维，包括代码示例。一、环境准备确保安装有Java开发环境（JDK）、Maven（或Gradle）以及一个数据库（例如MySQL）。我们将使用JDBC来进行数据库操作，以及QuartzSche
直接内存溢出 p＆f° JVM jvm
一、什么是直接内存直接捏成是一块由操作系统直接管理的内存，也叫堆外内存可以使用Unsafe或ByteBuffer分配直接内存可用-XX:MaxDirectMemorySize控制，默认是0，表示不限制二、为什么使用直接内存直接内存vs堆内存io效率高推荐参考：Java直接内存与非直接内存性能测试-阿里云开发者社区三、什么场景使用直接内存1有很大的数据需要存储，它的生命周期又很长2适合频繁的IO操作
单身程序员的幻想女友模拟器，面对对象的三大特征运维帮手大橙子开发语言 java intellij-idea 对象面对对象 windows 程序人生
你new出来的不仅是一个对象，更是一段陪伴、一份慰藉。你孤独的时候想有人和你说说话。而真正的那个她，也一定会出现，和你肩并肩看代码、看星星。项目结构SweetGirlfriendSimulator/├──src/└──com/└──love/├──Main.java//启动类├──Person.java//抽象人类├──IdealGirlfriend.java//理想女友类（可爱温柔）└──Coo
初始Java中的继承七十二小時 Java SE java 开发语言
为什么需要继承Java中使用类对现实世界中实体来进行描述，类经过实例化之后的产物对象，则可以用来表示现实中的实体，但是现实世界错综复杂，事物之间可能会存在一些关联，那在设计程序是就需要考虑。比如：狗和猫，它们都是动物。那能否将这些共性抽取呢？面向对象思想中提出了继承的概念，专门用来进行共性抽取，实现代码复用。继承概念继承(inheritance)机制：是面向对象程序设计使代码可以复用的最重要的手段
Java炼金术：从代码到加密货币——用Java铸造数字黄金的黑科技墨夶 Java学习资料4 java 科技开发语言
一、智能合约：比“契约精神”更严谨的代码1.1用Java写ERC-20代币（以太坊上的数字黄金）//ERC-20代币合约实现（需配合Web3j框架）publicclassMyERC20Token{privatefinalStringname="JavaCoin";privatefinalStringsymbol
android.support.v7.widget.RecyclerView$SavedState cannot be cast to android.widget.AbsListView$Sa... Mis丶H
全部错误信息：java.lang.RuntimeException:UnabletostartactivityComponentInfo{com.enhance.greapp/com.kaomanfen.enhance.gre3k.activity.QuestionWordActivity}:java.lang.ClassCastException:android.support.v7.widge
【华为OD机试】真题E卷-生成哈夫曼树（Java）西攻城狮北 java 华为od 机试真题生成哈夫曼树 2024 c卷
【华为OD机试真题】2024年C卷题库汇总目录（java）一、题目【华为OD机试真题】2024年C卷（java）-生成哈夫曼树题目描述：给定长度为n的无序的数字数组，每个数字代表二叉树的叶子节点的权值，数字数组的值均大于等于1。请完成一个函数，根据输入的数字数组，生成哈夫曼树，并将哈夫曼树按照中序遍历输出。为了保证输出的二叉树中序遍历结果统一，增加以下限制：二叉树节点中，左节点权值小于等于右节点权
淘宝商城四面（附架构面试专题）及B2C商城架构项目实战分享！风平浪静如码
一面主要问题如下（主要注重基础，问得很深很广，压力面试）：首先自我介绍数据结构算法的基本问题，如排序算法，二叉树遍历，后序遍历非递归，图的最短路径问题对一个数组进行绝对值排序的算法java中hashmap的底层实现java中垃圾回收机制GC原理等介绍自己的项目，数据库中用到的数据结构数据模型，死锁的概念（问的应该是数据库的死锁），如何避免死锁?乐观锁和悲观锁?一致性hash算法项目中业务对象的关联
用ELK日志分析平台分析常见的系统登录问题
通过ELK（Elasticsearch、Logstash、Kibana）日志分析平台，除了登录超时问题，还可深入分析以下常见的系统登录问题，并结合实际场景提供解决方案：一、认证失败分析1.问题定位场景：用户输入错误密码、账户锁定、服务端认证模块故障等。ELK实现：日志解析：通过Logstash的Grok插件提取关键字段（如用户名、IP、错误类型），例如解析/var/log/auth.log中的Fa
【Elasticsearch】IndexService risc123456 Elasticsearch elasticsearch
一句话：IndexService就是“一个索引在单个节点里的运行时总管”，负责把这个索引在本节点托管的所有分片（主/副）以及它们要用到的资源、配置、线程池、缓存、监听等全部管理起来。---✅IndexService的核心职责（节点维度）模块作用分片生命周期创建/删除/关闭本地IndexShard实例（每个分片一个）。线程池提供`index`,`search`,`refresh`,`flush`,`
Spring Boot 3.0+JDK 17 Springfox迁移到SpringDoc
为什么需要迁移？随着SpringBoot3.0和JDK17的发布，开发者可以享受更快的性能、更好的模块化支持以及现代Java生态的新特性。然而，升级过程中一个常见的问题是：原本基于Springfox（Swagger）的API文档工具不再兼容新环境。如果你在启动应用时遇到类似以下错误：org.springframework.beans.factory.UnsatisfiedDependencyExc
Doris实战——拈花云科的数据中台实践吵吵叭火大数据 #Doris 数据仓库大数据
目录前言一、业务背景二、数据中台1.0—Lambda三、新架构的设计目标四、数据中台2.0—ApacheDoris4.1新架构数据流转4.2新架构收益五、新架构的落地实践5.1模型选择5.1.1Unique模型5.1.2Aggregate模型5.2资源管理5.3批量建表5.4计算实现5.4.1实时计算5.4.2准实时计算通过JavaUDF生成增量/全量数据基于Doris的大表优化DorisBork
【华为OD机试真题 2025B卷】153、端口合并 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题 javascript 端口合并
文章目录一、题目题目描述输入输出样例1样例2样例3二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新
【华为OD机试真题 2025B卷】154、快递业务站 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题快递业务站 javascript c语言
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

通过案例实战详解elasticsearch自定义打分function_score的使用

前言

基本数据准备

random_score的使用

script_score的使用

field_value_factor的使用

衰减函数Decay functions的使用

总结

你可能感兴趣的:(搜索引擎,elasticsearch,搜索引擎,java)

`random_score`的使用

`script_score`的使用

`field_value_factor`的使用