weixin_42692506

Elasticsearch - Fuzzy query

引言

fuzzy query 是基于Levenshtein Edit Distance（莱温斯坦编辑距离）基础上，对索引文档进行模糊搜索。当用户输入有错误时，使用这个功能能在一定程度上召回一些和输入相近的文档。

例子

首先，我们来直观感受下这个功能。

现在索引的文档如下：

PUT levtest/_doc/_bulk
{ "index" : { "_id": 1 } }
{ "title": "lucky" }

此时，向索引发送如下请求：

GET /_search
{
    "query": {
       "fuzzy" : { "title" : "luky" }
    }
}

由于查询词luky和索引lucky之间的编辑距离为1，此时是可以召回文档lucky的。

fuzzy query的参数

参数名	含义
fuzziness	定义最大的编辑距离，默认为AUTO，即按照es的默认配置。 fuzziness可选的值为0,1,2，也就是说编辑距离最大只能设置为2. AUTO策略：在AUTO模式下，es将根据输入查询的term的长度决定编辑距离大小。用户也可以自定义term长度边界的最大和最小值，AUTO:[low],[high]，如果没有定义的话，默认值为3和6，即等价于 AUTO:3,6，即按照以下方案：输入查询term的长度： 0-2：必须精确匹配 3-5：编辑距离为1 >5：编辑距离为2
prefix_length	定义最初始不会被“模糊”的term的数量。这是基于用户的输入一般不会在最开始犯错误的设定的基础上设置的参数。这个参数的设定将减少去召回限定编辑距离的的term时，检索的term的数量。默认参数为0.
max_expansions	定义fuzzy query会扩展的最大term的数量。默认为50.
transpositions	定义在计算编辑聚利时，是否允许term的交换（例如ab->ba）,实际上，如果设置为true的话，计算的就是Damerau,F,J distance。默认参数为false。

注意：如果prefix_length设为0并且max_expansions设置为很大的一个数，这个查询的计算量将会是非常大。很有可能导致索引里的每个term都被检查一遍。

参数应用的例子：

GET /_search
{
    "query": {
        "fuzzy" : {
            "user" : {
                "title": "ki",
                "boost": 1.0,
                "fuzziness": 2,
                "prefix_length": 0,
                "max_expansions": 100
            }
        }
    }
}

具体的计算流程

至于FST是什么，具体可以参考：lucene字典实现原理

如果想进一步深入了解如何根据编辑距离进行召回，可以参考：Levenshtein Automata

为了进一步了解es的fuzzy query是如何工作的，我们来看几个例子：

我们的索引目前有以下文档：

 {
        "_index": "bitao_fuzzy_test",
        "_type": "doc",
        "_id": "2",
        "_score": 1,
        "_source": {
          "id": 2,
          "title": "组合沙发",
          "title_pinyin": "zu he sha fa",
          "title_pinyin_continuous": "zuheshafa"
        }
      },
      {
        "_index": "bitao_fuzzy_test",
        "_type": "doc",
        "_id": "4",
        "_score": 1,
        "_source": {
          "id": 4,
          "title": "卧室电视柜",
          "title_pinyin": "wo shi dian shi gui",
          "title_pinyin_continuous": "woshidianshigui"
        }
      },
      {
        "_index": "bitao_fuzzy_test",
        "_type": "doc",
        "_id": "5",
        "_score": 1,
        "_source": {
          "id": 5,
          "title": "酒柜",
          "title_pinyin": "jiu gui",
          "title_pinyin_continuous": "jiugui"
        }
      },
      {
        "_index": "bitao_fuzzy_test",
        "_type": "doc",
        "_id": "6",
        "_score": 1,
        "_source": {
          "id": 6,
          "title": "橱柜",
          "title_pinyin": "chu gui",
          "title_pinyin_continuous": "chugui"
        }
      },
      {
        "_index": "bitao_fuzzy_test",
        "_type": "doc",
        "_id": "1",
        "_score": 1,
        "_source": {
          "id": 1,
          "title": "沙发组合",
          "title_pinyin": "sha fa zu he",
          "title_pinyin_continuous": "shfazuhe"
        }
      },
      {
        "_index": "bitao_fuzzy_test",
        "_type": "doc",
        "_id": "3",
        "_score": 1,
        "_source": {
          "id": 3,
          "title": "电视柜",
          "title_pinyin": "dian shi gui",
          "title_pinyin_continuous": "dianshigui"
        }

每个文档都将经过ik_max_word的中文分词器，经过分词后，构建的词典含有以下词：

"token": "卧室",
"token": "电视机",
"token": "电视",
"token": "机柜",
"token "组合",
"token": "沙发",
"token": "酒柜",
"token": "橱柜",
"token": "电视柜",
"token"电视",
"token": "柜",

这时我们进行如下的模糊查询：

 {
 "profile":"true",
  "query": {
    "multi_match": {
      "fields":  [ "title" ],
      "query":     "卧室电视机柜",
      "fuzziness": "1"
    }
  }
}

这时将得到以下的召回

{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 3,
    "successful": 3,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 4,
    "max_score": 3.1329184,
    "hits": [
      {
        "_index": "bitao_suggester_test",
        "_type": "doc",
        "_id": "4",
        "_score": 3.1329184,
        "_source": {
          "id": 4,
          "title": "卧室电视柜",
          "title_pinyin": "wo shi dian shi gui",
          "title_pinyin_continuous": "woshidianshigui"
        }
      },
      {
        "_index": "bitao_suggester_test",
        "_type": "doc",
        "_id": "3",
        "_score": 1.708598,
        "_source": {
          "id": 3,
          "title": "电视柜",
          "title_pinyin": "dian shi gui",
          "title_pinyin_continuous": "dianshigui"
        }
      },
      {
        "_index": "bitao_suggester_test",
        "_type": "doc",
        "_id": "5",
        "_score": 0.75678295,
        "_source": {
          "id": 5,
          "title": "酒柜",
          "title_pinyin": "jiugui"
        }
      },
      {
        "_index": "bitao_suggester_test",
        "_type": "doc",
        "_id": "6",
        "_score": 0.75678295,
        "_source": {
          "id": 6,
          "title": "橱柜",
          "title_pinyin": "chugui"
        }
      }
    ]
  }
}

你一定很疑惑，为什么会召回这么多文档，按照编辑距离的定义，只有"卧室电视柜"与原query ："卧室电视机柜"编辑距离为1才对。

为了解开这个疑惑，我们来进一步看看es具体是怎么召回的：

在发送给索引进行召回时，我们看到，实际是发送了这么一个指令：

"title:卧室 ((title.smart_word:电视)^0.5 (title.smart_word:电视柜)^0.6666666) (title.smart_word:电视 (title.smart_word:电视柜)^0.5) ((ConstantScore(title.smart_word:柜))^0.0 (title.smart_word:橱柜)^0.5 (title.smart_word:酒柜)^0.5)"

{
 "id": "[QWv_XBWmTh6oskkO8axWag][bitao_suggester_test][0]",
 "searches": [
 {
 "query": [
 {
 "type": "BooleanQuery",
 "description": "title.smart_word:卧室 ((title.smart_word:电视)^0.5 (title.smart_word:电视柜)^0.6666666) (title.smart_word:电视 (title.smart_word:电视柜)^0.5) ((ConstantScore(title.smart_word:柜))^0.0 (title.smart_word:橱柜)^0.5 (title.smart_word:酒柜)^0.5)",
 "time_in_nanos": 892767,
 "breakdown": {
 "score": 16041,
 "build_scorer_count": 7,
 "match_count": 0,
 "create_weight": 114345,
 "next_doc": 34802,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 6,
 "score_count": 3,
 "build_scorer": 727562,
 "advance": 0,
 "advance_count": 0
 },
 "children": [
 {
 "type": "TermQuery",
 "description": "title.smart_word:卧室",
 "time_in_nanos": 52344,
 "breakdown": {
 "score": 1303,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 10432,
 "next_doc": 948,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 39651,
 "advance": 0,
 "advance_count": 0
 }
 },
 {
 "type": "BooleanQuery",
 "description": "(title.smart_word:电视)^0.5 (title.smart_word:电视柜)^0.6666666",
 "time_in_nanos": 473710,
 "breakdown": {
 "score": 2531,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 18098,
 "next_doc": 5875,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 447196,
 "advance": 0,
 "advance_count": 0
 },
 "children": [
 {
 "type": "BoostQuery",
 "description": "(title.smart_word:电视)^0.5",
 "time_in_nanos": 11668,
 "breakdown": {
 "score": 388,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 4243,
 "next_doc": 735,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 6292,
 "advance": 0,
 "advance_count": 0
 }
 },
 {
 "type": "BoostQuery",
 "description": "(title.smart_word:电视柜)^0.6666666",
 "time_in_nanos": 8557,
 "breakdown": {
 "score": 351,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 2994,
 "next_doc": 700,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 4502,
 "advance": 0,
 "advance_count": 0
 }
 }
 ]
 },
 {
 "type": "BooleanQuery",
 "description": "title.smart_word:电视 (title.smart_word:电视柜)^0.5",
 "time_in_nanos": 85704,
 "breakdown": {
 "score": 2154,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 15697,
 "next_doc": 6118,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 61725,
 "advance": 0,
 "advance_count": 0
 },
 "children": [
 {
 "type": "TermQuery",
 "description": "title.smart_word:电视",
 "time_in_nanos": 10744,
 "breakdown": {
 "score": 319,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 3454,
 "next_doc": 768,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 6193,
 "advance": 0,
 "advance_count": 0
 }
 },
 {
 "type": "BoostQuery",
 "description": "(title.smart_word:电视柜)^0.5",
 "time_in_nanos": 10845,
 "breakdown": {
 "score": 300,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 3548,
 "next_doc": 806,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 6181,
 "advance": 0,
 "advance_count": 0
 }
 }
 ]
 },
 {
 "type": "BooleanQuery",
 "description": "(ConstantScore(title.smart_word:柜))^0.0 (title.smart_word:橱柜)^0.5 (title.smart_word:酒柜)^0.5",
 "time_in_nanos": 145692,
 "breakdown": {
 "score": 3934,
 "build_scorer_count": 10,
 "match_count": 0,
 "create_weight": 42304,
 "next_doc": 8922,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 6,
 "score_count": 3,
 "build_scorer": 90512,
 "advance": 0,
 "advance_count": 0
 },
 "children": [
 {
 "type": "BoostQuery",
 "description": "(ConstantScore(title.smart_word:柜))^0.0",
 "time_in_nanos": 40335,
 "breakdown": {
 "score": 548,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 19903,
 "next_doc": 2305,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 17569,
 "advance": 0,
 "advance_count": 0
 },
 "children": [
 {
 "type": "TermQuery",
 "description": "title.smart_word:柜",
 "time_in_nanos": 22716,
 "breakdown": {
 "score": 0,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 13273,
 "next_doc": 755,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 0,
 "build_scorer": 8679,
 "advance": 0,
 "advance_count": 0
 }
 }
 ]
 },
 {
 "type": "BoostQuery",
 "description": "(title.smart_word:橱柜)^0.5",
 "time_in_nanos": 15172,
 "breakdown": {
 "score": 626,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 4212,
 "next_doc": 912,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 9412,
 "advance": 0,
 "advance_count": 0
 }
 },
 {
 "type": "BoostQuery",
 "description": "(title.smart_word:酒柜)^0.5",
 "time_in_nanos": 16461,
 "breakdown": {
 "score": 662,
 "build_scorer_count": 6,
 "match_count": 0,
 "create_weight": 3340,
 "next_doc": 852,
 "match": 0,
 "create_weight_count": 1,
 "next_doc_count": 2,
 "score_count": 1,
 "build_scorer": 11597,
 "advance": 0,
 "advance_count": 0
 }
 }
 ]
 }
 ]
 }
 ],
 "rewrite_time": 1073750,
 "collector": [
 {
 "name": "CancellableCollector",
 "reason": "search_cancelled",
 "time_in_nanos": 78907,
 "children": [
 {
 "name": "SimpleTopScoreDocCollector",
 "reason": "search_top_hits",
 "time_in_nanos": 22879
 }
 ]
 }
 ]
 }
 ],
 "aggregations": [
]
 }

这个指令是怎么构成的，指令里的词是怎么来的？

我们来看下输入的query的分词：

而我们的词典包含 "卧室","电视机","电视","机柜","组合","沙发", "酒柜", "橱柜","电视柜","电视", "柜"

看到这，就离答案不远了。

实际上，当对“卧室电视机柜” 进行fuzzy query时，es首先对其进行分词，然后针对每个词，进行编辑距离为一的词典词召回。

其中分出来的词“卧室” 与词典中的 “卧室”的Levenshtein Distance都为0，所以都召回；

其中分出来的词“电视机” 与词典中的 “电视”的Levenshtein Distance为1，所以 “电视”被召回，与“电视柜”编辑距离为1，所以“电视柜”也被召回；

其中分出来的词“电视” 与词典中的 “电视”的Levenshtein Distance为0，所以 “电视”被召回，与“电视柜”编辑距离为1，所以“电视柜”也被召回；

其中分出来的词“机柜” 与词典中的 “柜”、“酒柜”、“橱柜”的Levenshtein Distance都为1，所以都被召回了；

所以最后组成的发送给索引的查询语句如下构成：

至于权重是如何设置的，目前还没有具体研究，待续吧。

【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
前端面试题——手写实现 ajax 阿水爱踢中锋 ajax js 前端
凡是和后台有过数据交互的小伙伴肯定都接触过ajax.我们可以通过ajax来实现页面的无刷新请求数据，这样就能在保证良好用户体验的同时，将更多的内容展示给用户ajax在我们的开发工作中已经司空见惯，几乎所有我们频繁使用的库和框架都提供了经过完善封装后的ajax方法，如jQuery、zepto、angular等等，这使得我们的数据请求变得异常简洁明了但是这也带来了很明显的缺陷，就是我们知道如何去使用封
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
MyBatis-Plus 条件构造器详解（QueryWrapper/LambdaQueryWrapper/UpdateWrapper/LambdaUpdateWrapper）野犬寒鸦 MybatisPlus mybatis java 后端 mysql 数据库
MyBatis-Plus提供了强大的条件构造器，用于动态构建SQL语句。以下是四类核心构造器的详细说明和示例：一、QueryWrapper（普通条件构造器）用途：构建SELECT查询条件特点：使用字符串指定字段名适用场景：字段名简单、无复杂嵌套的场景//示例：查询年龄大于25岁、状态为1的用户QueryWrapperwrapper=newQueryWrapper25.eq("status",1)/
MyBatis-Plus的LambdaQuery用法
核心概括：LambdaQueryWrapper本质上是一个条件包装器（与wrapper类似），而Mapper方法（如selectList）负责补充完整的SQL结构在Java后端开发中（特别是使用MyBatis-Plus框架时），LambdaQuery()是一种基于Lambda表达式的类型安全查询方式，它利用Java8的Lambda特性，避免了硬编码字段名，提升了代码可读性和可维护性。核心优势类型安
7.11JS项目：倒计时页面跳转+评论发布椒盐螺丝钉前端
一、页面跳转演示思路构建html框架后，在JS中获取对象：跳转按钮与显示剩余时间文本添加事件监听：检测点击行为->调用跳转函数跳转函数：(1)获取时间戳，(2)延时函数实现跳转，(3)间歇函数显示剩余时间——参考倒计时html框架前往百度接下来是JS部分，获取按钮与显示文本对象，添加事件监听constdiv=document.querySelector('div')constspan=docume
每日MySQL之024：FLUSH TABLES 匿_名_用_户 MYSQL MySQL FLUSH TABLES
FLUSHTABLES作用是flush表，并根据参数加上相应的锁。默认是写日志的，如果不希望写日志，可以设置加上参数NO_WRITE_TO_BINLOG。另外，FLUSHTABLES命令执行前会隐式地发出commit命令，常见语法如下：•FLUSHTABLES关闭所有的表，包括正在使用的表，并且会flushquerycache。如果有正处于活动状态的LOCKTABLES...READ命令，则不允许
前端高频面试题深度解析（JavaScript + Vue + jQuery）
前端高频面试题深度解析（JavaScript+Vue+jQuery）一、JavaScript核心问题解析事件冒泡与捕获机制对比：graphLRA[捕获阶段]-->|Window→父元素|B[目标元素]B-->|子元素→父元素|C[冒泡阶段]阻止方法：//阻止冒泡（常用）event.stopPropagation();//阻止捕获+冒泡+默认行为（慎用）event.stopImmediateProp
queryWapper的时间类型比较方法 Coder-thinking 数据库数据库 mybatis
QueryWrapper是MyBatis-Plus中的一个非常实用的工具类，它可以帮助我们构建更加灵活的查询条件。在QueryWrapper中，我们可以使用各种比较操作符来进行时间比较。以下是一些常用的时间比较操作：等于（eq）：queryWrapper.eq("create_time","2021-08-01");不等于（ne）：queryWrapper.ne("create_time","20
构建高效的jQuery地理选择器组件 Kiki-2189
本文还有配套的精品资源，点击获取简介：本项目展示了如何利用jQuery构建一个在网页中常用的二级和三级城市选择器。这种选择器对于地理位置选择场景尤为重要，例如在线购物和预订服务。组件通过动态DOM操作、JSON数据结构、事件绑定、异步数据加载、插件化、样式美化、响应式设计、性能优化和无障碍访问等技术点，提供了一个高效、易用和适应性强的用户体验。同时，还需注意代码的兼容性、错误处理和全面的测试。1.
Vue 中监测路由变化时，通常不需要开启深度监听（deep: true）咔咔咔索菲斯 vue.js javascript 前端
1.路由变化的本质：引用地址改变Vue路由的核心对象是$route（或通过useRoute()获取的路由对象），当路由发生变化（如跳转页面、参数改变）时，VueRouter会创建一个新的$route对象，而不是修改原有对象的属性。例如：从/home?id=1跳转到/home?id=2时，$route是一个全新的对象（引用地址改变），而非在原对象上修改query.id。这种情况下，普通监听（不开启d
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）MultiQuery retriever详解？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）MultiQueryretriever详解？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）MultiQueryretriever详解？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]
少样本图学习（few-shot learning on graph）知识背景 so.far_away 网络空间安全学习机器学习人工智能
Few-ShotLearningonGraph少样本学习简介少样本图学习简介1.SupportSet和QuerySet（针对单个任务）（1）SupportSet（支持集）（2）QuerySet（查询集）2.BaseData和NovelData（针对整个数据集）（1）BaseData/Classes（基类数据）（2）NovelData/Classes（新类数据）少样本学习简介少样本学习（FSL）旨在
华为OD技术面试高频考点（算法篇、AI方向）
一、Transformer核心机制：自注意力(Self-Attention)公式:Attention=softmax(QK^T/√d_k)v运作原理：1.Q/K/V矩阵：输入向量通过线性变换生成Query(查询）、Key(键）、Value(值)2.注意力权重:Softmax(QKT/√d_k)→计算词与词之间的关联度3.输出：权重与Value加权求和→捕获长距离依赖-优势：并行计算、全局上下文感知
SkyWalking + Logstash全链路追踪系统详细实施方案 @淡定 skywalking
SkyWalking+Logstash全链路追踪系统详细实施方案一、系统架构与数据流向核心流程：数据采集：SkyWalkingAgent埋点收集调用链路数据日志增强：应用程序通过MDC注入TraceID日志收集：Logstash采集应用日志并发送至Elasticsearch数据存储：SkyWalking指标数据与日志数据分别存储可视化分析：SkyWalkingUI展示链路追踪，Kibana分析日志
acc数据库和sql数据库有什么区别？
在数据库技术领域中，ACC和SQL数据库是两种不同类型的数据库，适用于不同的场景和需求。ACC数据库常指MicrosoftAccess数据库（文件扩展名.accdb或.mdb），而SQL数据库通常指基于SQL（StructuredQueryLanguage，结构化查询语言）的数据库管理系统，如MySQL、SQLServer、PostgreSQL等。以下从架构、功能、性能和适用场景等方面对两者进行详
自建ELK vs 云商日志服务：成本对比分析亲爱的非洲野猪 elk
在当今数据驱动的时代，日志管理已成为企业IT基础设施中不可或缺的一部分。面对日益增长的日志数据，许多团队都在纠结：是自建ELK（Elasticsearch、Logstash、Kibana）堆栈，还是直接使用云服务商提供的日志服务？本文将从成本角度对这两种方案进行详细对比分析。自建ELK方案成本分析1.硬件/基础设施成本服务器成本：至少需要3个节点（生产环境推荐）实现高可用中等规模部署：3台16核6
【spring boot】三种日志系统对比：ELK、Loki+Grafana、Docker API ladymorgana 日常工作总结 spring boot elk grafana
文章目录**方案1：使用ELK（Elasticsearch+Logstash+Kibana）****适用场景****搭建步骤****1.修改SpringBoot日志输出****2.创建DockerCompose文件****3.配置Logstash****4.启动服务****方案2：使用Loki+Grafana****适用场景****搭建步骤****1.修改SpringBoot日志驱动****2.配
Semantic text 就是那么强大，还附带一包（ BBQ ）薯片！配有可配置的分块设置和索引选项。 Elastic 中国社区官方博客 Elasticsearch AI 大数据 elasticsearch 搜索引擎全文检索人工智能 ai 图搜索
作者：来自ElasticKathleenDeRusso语义文本搜索现在可以自定义，支持可配置的分块设置和索引选项，用于自定义向量量化，使semantic_text在专业用例中更强大。Elasticsearch拥有大量新功能，帮助你为你的用例构建最佳搜索解决方案。深入查看我们的示例笔记本以了解更多信息，开始免费云试用，或者立即在本地机器上体验Elastic。随着Elasticsearch8.18和9
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
Elasticsearch RESTful API入门：基础搜索与查询DSL 辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful 大数据搜索引擎全文检索 spring boot
ElasticsearchRESTfulAPI入门：基础搜索与查询DSL本文为Elasticsearch初学者详细解析RESTfulAPI的核心操作与查询DSL语法，包含大量实战示例及最佳实践。一、Elasticsearch与RESTfulAPI简介Elasticsearch（ES）作为分布式搜索分析引擎，其RESTfulAPI是与集群交互的核心方式。通过HTTP协议实现：✅索引文档的CRUD操作
Elasticsearch入门（二）：document数据格式、简单的es restful api m0_50134014 Elasticsearch elasticsearch java
目录一、document数据格式1.1面向文档的搜索分析引擎1.1.1对象数据存储到数据库中1.1.2对象数据存储到ES中二、电商网站商品管理案例背景介绍2.1简单的集群管理2.1.1快速检查集群的健康状况:`GET/_cat/health?v`2.1.2快速查看集群中有哪些索引:`GET/_cat/indices?v`2.1.3创建索引：`PUT/test_index?pretty`2.1.4删
Elasticsearch RESTful API入门：全文搜索实战（Java版）辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful java 大数据搜索引擎全文检索
ElasticsearchRESTfulAPI入门：全文搜索实战（Java版）本文结合Java客户端API，深入讲解Elasticsearch全文搜索的实现。包含10+个实战示例及对应的Java代码，涵盖match、multi_match、高亮显示等核心功能。一、环境准备1.添加Maven依赖org.elasticsearch.clientelasticsearch-rest-high-level
注意力机制和小潘一起学AI 深度学习人工智能
第一种注意力机制#注意力机制importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassAttn(nn.Module):def__init__(self,query_size,key_size,value_size1,value_size2,output_size):"""初始化函数中的参数有5个query_size代表query的最
【Elasticsearch】function_score risc123456 Elasticsearch elasticsearch
如果你希望在Elasticsearch查询中降低某些特定`id`的文档评分，可以通过`function_score`查询结合`script_score`函数来实现。`script_score`允许你使用自定义脚本对文档的评分进行调整。以下是一个示例，展示如何降低某些特定`id`的文档评分：示例场景假设我们有一个索引`my_index`，其中包含一些文档，每个文档都有一个`id`字段。我们希望降低某
Elasticsearch RESTful API入门：索引的增删改查完全指南辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful 大数据 java 架构搜索引擎全文检索
ElasticsearchRESTfulAPI入门：索引的增删改查完全指南本文专为Java开发初学者设计，将手把手教你掌握Elasticsearch索引的核心操作一、环境准备与基本概念1.1安装Elasticsearch（Windows版） 1.访问官网下载ZIP包 2.解压后进入bin目录，双击elasticsearch.bat启动 3.验证安装：浏览器访问http://localhost
Spring Data Jpa +alibaba druid+query dsl 实现多数据源下海揽月 spring data jpa java
SpringDataJpa+alibabadruid+querydsl实现多数据源,主要通过配置来实现多个数据源的操作，无需动态切换1.maven配置org.springframework.bootspring-boot-starter-data-jpa2.3.12.RELEASEcom.alibabadruid-spring-boot-starter1.1.24com.querydslquery
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

Elasticsearch - Fuzzy query

引言

例子

fuzzy query的参数

具体的计算流程

你可能感兴趣的:(Elasticsearch - Fuzzy query)