drama_CJL

ElasticSearch基础及常见问题

ElasticSearch-Note-2

核心概念：
- NRT 近实时，从写入数据到可以被搜索到有一个小延迟，基于es执行搜索和分析可以达到秒级

1. 集群健康检查

GET /_cat?health?v

status
- green 每个索引的primaty shard 和replica shard 都是active状态
- yellow 每个索引的primary shard 是active状态，replica shard不是active状态，处于不可用状态
默认配置是给每个index分配5个primary shard和5个replica shard
快速查看集群中有哪些索引

GET /_CAT?indices?v

2. 多种搜索方式

query string search

GET /index/type/_search

GET /index/type/_search?q=name:value&sort=price:desc
- took 耗费毫秒
- _shards：数据拆成了五个分片，搜索请求会达到所有的primary Shard 或replica Shard
- max_score:

query string search无法完成复杂条件的搜索

query DSL（Domain Specified Languages）
query filter

{
    "query":{
        "bool":{
            "must":{
                "match":{
                    "field":"value"
                }
            },
            "filter":{
                "range":{
                    "price":{
                        "gt":25
                    }
                }
            }
        }
    }
}

full-text search
1. 全文检索

{
    "query":{
        "match":{
            "producer":"yagao producer"
        }
    }
}

对某个字段进行拆解，建立倒排索引

//将存储的数据进行拆解
special 4
yagao 4
producer 1,2,3,4
gaolujie 1
zhonghua 3
yagao producer ====》 yagao 和 producer
//再去匹配，根据分数排序

phrase search
1. 全文检索会将输入的搜索串解开，去倒排索引中一一匹配，只要匹配任一个拆解后的单词，就可以作为结果返回
2. phrase search要求输入的搜索串必须在指定的字段文本中包含一模一样的才可以作为结果返回
highlight search

3. 嵌套聚合、下钻分析、聚合分析

聚合

#terms是否有其他字段
{ 
    #不返回数据
  	"size":0,
    "query":{
       "group_by_tags":{
           "terms":{
               "field":"tags"
           }
       }
   }
}

{
    "aggregations":{
        "group_by_tags":{
            "buckets":[
                {
                    "key":"防蛀牙",
                    "doc_count":2
                    #每个分组的数量
                }
            ]
        }
    }
}

先分组，再算每组平均值,并降序

{
    "size":0,
    "aggs":{
        "group_by_tags":{
            "terms":{
                "field":"tags",
                "order":{
                    "avg_price":"desc"
                }
            },
            "aggs":{
                "avg_price":{
                    "avg":{
                        "field":"price"
                    }
                }
            }
        }
    }
}

按照指定的价格范围区间进行分组，在组内再按照tag分组，在计算每组的平均价格

{
    "size":0,
    "aggs":{
        "group_by_price":{
            "range":{
                "field":"price",
                "ranges":[
                    {"from":0,"to":20},
                    {"from":20,"to":40}
                ]
            },
            "aggs":{
                "group_by_tags":{
                    "terms":{
                        "field":"tags"
                    },
                    "aggs":{
                        "average_price":{
                            "avg":{
                                "field":"price"
                            }
                        }
                    }
                }
            }
        }
    }
}

4. ElasticSearch基础分布式架构

4.1 分布式机制透明隐藏特性

分片机制
集群发现机制
shard负载均衡

4.2 扩容方案

垂直扩容
水平扩容

4.3 rebalance

4.4 master节点

管理es集群的元数据，负责索引、创建删除。一般master不承载所有请求

4.5 节点对等分布式架构

每个节点都能接收请求
自动请求路由【如果找不到会帮忙转发请求，找到可以处理的节点】
节点接收到请求会自动去其他服务器收集数据

4.6 Shard知识点

shard都是一个最小工作单元
增减节点时，shard会自动在node负载均衡
每个document肯定只存在于某一个primary shard
replica shard负责容错，以及承担读请求负载
primary shard在创建索引的时候就固定了，replica shard可以随时修改
默认数量：primary:5，replica：1，默认一共10个shard

{
    "settings":{
        "number_of_shards":3,
        "number_of_replicas":1
    }
}

4.7 单node环境中创建index

4.8 两个node中replica shard是如何分配的

4.9 横向扩容过程，如何超出扩容极限以及如何提升容错性

4.9.1 超出扩容极限

六个shard 想用九台服务器提高性能
通过增加replica shard

4.9.1 提升容错性

6个shard，三台服务器，可以容忍一台宕机
9个shard，三台服务器，可以挂两台

4.10 master选举、replica容错、数据恢复

只要有一个primary shard挂了，则集群状态为red
启动master选举，选择一个replica shard 作为primary
宕机服务器重启后作为replica shard ，同步数据

5. 分布式文档系统

5.1 document核心元数据

_index
_type
_id
4. 手动生成id：路径后面带id
5. 自动生成id：
- 长度20个字符
- URL安全，base64编码
- 采用GUID算法方式进行生成，保证分布式系统并行生成时不会发生冲突
_source
1. GET请求返回的文档数据存放在source中
2. 可以自定义返回指定字段
_document
1. document的全量替换
  - 若id存在，则全量替换文档内容
  - 原文档不会立即删除
  - 重新建立索引
2. document的强制创建
  - put /index/type/id?op_type=create
  - put /index/type/id/_create
3. document删除
  - delete /index/type/id
  - 不会立即物理删除，只标记为deleted，当数据越来越多时，在后台自动删除

5.2 并发冲突问题

es默认使用乐观锁
悲观锁
1. 方便、直接加锁，对应用程序来说透明，不需要额外的操作。
2. 缺点：并发能力低，同一时间都只能有一条线程操作数据
乐观锁
1. 并发能力高，不给数据加锁，大量线程并发操作。
2. 缺点：麻烦，每次数据更新时，都要先比对版本号，然后可能需要重新加载数据，再次修改再写
ES使用乐观锁核心原理：
1. 每次修改或删除都会对_version进行加一
2. 由于replica同步的过程是采用多线程异步操作，会出现先修改的数据后到，后修改的数据先到的情况
3. 于是在同步的时候会先对比一下版本号，再进行修改
用外部的版本号进行并发控制
1. PUT /test_index/test_type/8?version=3&version_type=external

5.3 数据修改partial update内部原理

POST /INDEX/type/id?_update
{
	"doc":{
        "field":"value"
    }
}

partial update相较于全量替换的优点
1. 所有的查询、修改、写回操作都发生在es的一个shard内部，比u面所有的网络数据传输的开销，相对于全量替换减少2次网络请求，大大提升的了性能
2. 减少了查询和修改中的时间间隔，可以有效减少并发冲突的情况

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MjWCZ8CP-1571677387066)(F:\工作文档\个人技术框架笔记\ElasticSearch\images\partialUpdate.png)]

原始全量替换的方式：查询 - 展示 - 用户修改 - 再写回去，并发冲突的情况就会发生的比较多

5.3.1 使用groovy实现partial update

可以基于groovy脚本实现各种各样的复杂操作
内置脚本

POST /test_index/test_type/11/_update
{
   "script":"ctx._source.num+=1"
}

外部脚本

#在es的config的script中创建groovy文件 ctx._source.tags+=new_tags 
POST /index/type/11/_update
{
    "script":{
        "lang":"groovy",
        "file":"test-add-grooy",
        "params":{
            "new_tag":"tag1"
        }
    }
}

通过脚本删除

#test-delete-groovy: ctx.op = ctx._source.num ==count? 'delete':'none'
#POST /index/type/11/_update
{
     "script":{
        "lang":"groovy",
        "file":"test-delete-grooy",
        "params":{
            "count":1
        }
    }
}

upsert操作
1. 在已经删除的情况下执行update会出现404错误
2. 通过upsert来先初始化，再更新数据

#POST /index/type/11/_update
{
     "script":"ctx._source.num+=1",
   	 "upsert":{
         "num":0,
         "tags":[]
     }
}

5.3.2 partial update内置乐观锁并发控制

当读到版本号为1，准备写入过程中被其他线程提前修改了，此时partial update会失败
可通过retry_on_confilct
retry_on_confilct

post /index/type/id/_update?retry_on_conflict=5&version=6
1. 再次获取数据和版本号
2. 基于更新的数据再次写入
3. 可设置重复获取次数

5.4 批量查询

减少网络请求的性能开销

#GET /_mget
{
    "docs":[
        {
            "_index":"index",
        	"_type":"type",
            "_id":2
        }
    ]
}

5.5 批量增删改

#POST /_bulk
{"create":{"_index":"index","_type":"type","_id":"id"}}
#附带新增的数据
{"field":"greate"}
#附带修改的数据
{"doc":{"field":"greate"}}

delete
create 强制创建
update
index 普通的put

5.6 深度剖析document数据路由原理

路由算法： shard = hash(routing) % number_of_primary_shards
- routing值是document id，传入hash函数中，产生一个数字
- 求余数
可以手动指定routing的值

put /index/type/id?routing=user_id
- 将document放在某一个shard中
- 优点：
  - 有助于应用级别的负载均衡
  - 提升批量读取的性能
primary shard不可变的谜底
1. 如果变了，会找不到其他数据

5.7 深度剖析document增删改查内部原理

增删改只能在primary shard上进行操作
请求到到协调节点，由协调节点负责转发
primary shard插入数据，并同步数据后才返回给客户端

5.8 在进行写操作的时候，加一个参数 consistency

在进行写操作的时候，加一个参数 consistency

put /index/type/id?consistency=quorum
可选的值
- one: 要求写操作，只要有一个primary shard 是active活跃可用的，就可执行
- all：要求写操作，必须所有的primary shard和replica shard都是活跃的，才可执行
- quirum：默认值，要求所有的shard中，必须是大部分的shard都是活跃的，可用的
quorum的大部分计算公式
- int((primaty+number_of_replicas)/2) +1
- 3个primary shard，number_of_replicas =1 3+3*1=6
- quorum = int((3+1)/2)+1 = 3
- 只有当number_of_replicas的数量大于1的时候才会生效
- 当quorum不齐全时，会等待，默认一分钟。或者手动指定等待时间 timeout=30

5.9 随机轮询算法：round-robin

随机轮询算法：round-robin
将访问同个文档的请求均匀分发的primary或replica
当分发给一个replica shard上时，而数据还在primary shard中建立索引中，则会找不到该文档

6. 初识搜索引擎

6.1 search结果&timeout机制

6.2 multi_index & multi_type

6.3 分页 & deepPaging

6.3.1 情景描述：

总共有60000条数据，每个shard上有20000条数据，每页10条数据。

6.3.2 搜索过程：

将请求发送到一个协调节点上
由协调节点将请求转发到index的三个shard所在的node上
此时若要搜索10001~10010条数据
三个shard每个shard需要都返回10010条数据给协调节点，而不是返回第10001~10010条数据
意味着coordinate节点将收到30030条数据
再对这些数据进行排序，_score，相关分数，然后取最高的10条数据

6.3.3 缺点

深度搜索时，就需要再协调节点中保存大量数据，还要进行大量数据的排序
这个过程耗费网络带宽、耗费内存，耗费cpu

6.4 mapping

可指定字段类型
每个字段使用不同的分词器
指定是否可聚合

6.5 精确搜索&全文搜索

全文搜索
1. 缩写、全称
2. 格式转化，单词形式
3. 大小写
4. 同义词

6.6 如何定位不合法搜索及原因

6.6.1 示例

#GET /INDEX/TYPE/_validate/query?explain
{
    "query":{
        "match":{
            
		}
    }
}

6.7 定制搜索结果的排序规则

sort 关键字

6.7.1 将一个field索引两次来解决字符串排序问题

排序的时候会对string类型进行分词后再排序
关键：
- 建立二次索引
- 使用fielddata
结果：
- 分词使用整个字符串进行排序

6.7.1.1建立二次索引映射

#PUT /index
{
    "mapping":{
        "article":{
            "properties":{
                "title":{
                    "type":"text",
                    "fields":{
                        "raw":{
                           "type":"string",
                        	"index":"not_analyzed" 
                        }
                    },
                    "fielddata":true
                },
                "content":{
                    "type":"text"
				}
            }
        }
    }
}

6.7.1.2查询时候使用field.raw

#GET /index/type/_search
{
    "query":{
        "match_all":{
       }
    },
    "sort":{
        "title.raw":{
            "order":"desc"
        }
    }
}

6.8 相关度评分TF&IDF算法

6.8.1 TF/IDF评分算法

对文档进行相关度评分计算
分数是如何被影响的？
TF&IDF：Term Frequency/inverse document frequency
1. Term frequency：搜索文本中的各个词条再field文本中出现的次数，次数越多，越相关
2. Inverse document frequency：搜索文本的各个词条在整个索引的所有文档中出现了多少次，出现次数越多，越不相关

搜索请求: hello world
doc1: hello,today is very good
doc2: hi world,how are you

一万条document中，hello这个单词在所有document中出现了1000次，world这个单词在所有document中出现了100次
则doc2 更相关

Field-length norm：field长度，field越长，相关度越弱

搜索请求: hello world
doc1:{“title":"hello article","content":"babbababa"}
doc2:{“title":"my article","content":"babbababa,hi,world"}

假设前提：hello、world在整个index出现的次数一样多
doc1更相关，因为关键词所在的域的文本内容更短

6.8.2 _score是如何被计算出来的

get /index/type/_search/explain

6.8.3 分析一个document是如何被匹配上的

get /index/type/1/_explain

6.9 doc value探究

6.9.1 正排索引

搜索的时候，依靠倒排索引
排序的时候依靠正排索引，即doc values
建立索引时：一方面建立倒排索引，一方面建立正排索引供排序、聚合、过滤等操作使用
doc values是被保存在磁盘上的

6.9.2 正排与倒排

倒排

doc1: hello world you and me
doc2: hi, world, how are you

word		doc1		doc2
hello		*
world		*			*
you			*			*
and 		*
me			*
hi						*
how						*

hello you --> hello,you
hello--> doc1
you --> doc1,doc2

正排

doc1: { "name": "jack", "age": 27 }
doc2: { "name": "tom", "age": 30 }

document	name		age
doc1		jack		27
doc2		tom			30

6.10 Query Pharse

6.10.1 搜索请求处理过程

请求发送到某一个coordinate
在协调节点上建立priority queue队列，大小为from+size长度的队列
将请求进行转发
每个shard上也会建立priority queue，并返回给协调节点
协调节点将所有的priority queue进行merge，全局排序后的queue放到自己的queue中
此时协调节点可以将自己的priority queue中的数据取出当前那一页的数据

6.10.2 replica shard如何提升搜索吞吐量

6.11 fetch Phrase

6.11.1 fetch Phrase工作流程

协调节点构建完priority queue之后，就发送mget请求取所有shard上获取对应的document
各个shard将document返回给协调节点
协调节点将合并后的document返回给客户端
一般搜索不加from，size默认搜索前10条，按照score排序

6.12 搜索相关参数梳理及bouncing results问题

6.12.1 参数梳理

timeout: 在指定时间内返回结果，避免查询耗时过长
routing：document文档路由，_id，routing=user_id 可以让同一个user对应的数据到一个shard上去
search_type:
1. 默认： query_then_fetch
2. dfs_query_then_fetch 可以提升revelance sort精准度

6.12.2 bouncing results问题

两个document排序，field值相同，在不同的shard可能排序不同；每次看到的搜索结果的排序都不一样

6.12.2.1 解决方法

将preference设置为一个制度穿，比如user_id，让每个user每次搜索的时候都是用同一个replica shard去执行

6.13 scoll技术滚动搜索

第一次请求

#GET /index/type/_search?scroll=1m
{
    "query":{
        "match_all":{}
    },
    "sort":{"_doc"},
    "size":3
}

滚动请求

 #GET /_search?scroll
{
    "scroll":"1m",
    "scroll_id":""
}

7. 索引管理

7.1 索引增删改

7.1.1 创建

#PUT /INDEX
{
    "settings":{},
    "mappings":{}
}

7.1.2 修改

PUT /index/_settings
{
    "number_of_replicas":1
}

7.2 修改分词器及定制分词器

7.2.1 默认分词器

standard
standard tokenizer：以单词边界进行切分
standard token filter：什么都不做
lowercase token filter：将所有字母转换为小写
stop token filer（默认被禁用）：移除停用词，比如a the it等等

7.2.2 修改分词器的设置

#PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "es_std": {
          "type": "standard",
          "stopwords": "_english_"
        }
      }
    }
  }
}

#GET /my_index/_analyze
{
  "analyzer": "standard", 
  "text": "a dog is in the house"
}

#GET /my_index/_analyze
{
  "analyzer": "es_std",
  "text":"a dog is in the house"
}

7.2.3 定制自己的分词器

#PUT /my_index
{
  "settings": {
    "analysis": {
      "char_filter": {
        "&_to_and": {
          "type": "mapping",
          "mappings": ["&=> and"]
        }
      },
      "filter": {
        "my_stopwords": {
          "type": "stop",
          "stopwords": ["the", "a"]
        }
      },
      "analyzer": {
        "my_analyzer": {
          "type": "custom",
          "char_filter": ["html_strip", "&_to_and"],
          "tokenizer": "standard",
          "filter": ["lowercase", "my_stopwords"]
        }
      }
    }
  }
}

#GET /my_index/_analyze
{
  "text": "tom&jerry are a friend in the house, , HAHA!!",
  "analyzer": "my_analyzer"
}

#PUT /my_index/_mapping/my_type
{
  "properties": {
    "content": {
      "type": "text",
      "analyzer": "my_analyzer"
    }
  }
}

7.3 type底层数据结构

7.4 root Object解析

7.4.1 _source

查询的时候可以拿到完整的document，不需要线拿document id，再发送一次请求
partial update基于_source实现
reindex时，直接基于_source实现，不需要从数据库，（或者其他外部存储）查询数据再修改
debug query更容易，可以直接看到_source

7.4.1.1 可禁用source:

PUT /index
{
    "mappings":{
        "my_types":{
            "_source":{
                "enabled":false
            }
        }
    }
}

7.4.1.2 设置source的字段

#PUT /source_index
{
  "mappings": {
    "source_type":{
      "_source":{
            "includes":["content"]
      },
      "properties": {
        "title":{
          "type": "text"
        },
        "content":{
          "type": "text"
        }
      }
    }
  }
}

7.4.2 _all

将所有field打包在一起，作为一个_all field，建立索引。
没有指定任何field进行搜索时，就是使用_all field在搜索
也可以在field级别设置，对每个字段的映射设置include_in_all参数，设置是否要将field值包含在_all field中
\ _all字段默认是关闭的，如果要开启_all字段，索引增大是不言而喻的。_all字段开启适用于不指定搜索某一个字段，根据关键词，搜索整个文档内容

7.4.3 index,store,all

7.4.3.1 index

index 设置为false，则不索引，也不能检索
其他值
1. no：不对该字段进行索引(无法搜索)
2. analyzied: 分词后索引
3. not_analyzied: 以单个关键词进行索引

7.4.3.2 store

属性store默认false，当某个数据字段很大，我们可以指定其它字段store为true，这样就不用从_source中取数据。 store 的意思是，是否在 _source 之外在独立存储一份
哪些情形下需要显式的指定store属性呢？大多数情况并不是必须的。从_source中获取值是快速而且高效的。如果你的文档长度很长，存储 _source或者从_source中获取field的代价很大，你可以显式的将某些field的store属性设置为yes。缺点如上边所说：假设你存储了10个field，而如果想获取这10个field的值，则需要多次的io，如果从_source中获取则只需要一次，而且_source是被压缩过的。
还有一种情形：reindex from some field，对某些字段重建索引的时候。从source中读取数据然后reindex，和从某些field中读取数据相比，显然后者代价更低一些。这些字段store设置为yes比较合适
总结：
1. 如果对某个field做了索引，则可以查询。如果store：yes，则可以展示该field的值
2. 但是如果你存储了这个doc的数据（source enable），即使store为no，仍然可以得到field的值（client去解析）。
3. 所以一个store设置为no 的field，如果_source被disable，则只能检索不能展示

7.4.3.3 all

7.5 Dynamic Mapping策略

7.5.1 策略规则

true：遇到陌生字段酒精性dynamic mapping
false：遇到陌生字段就忽略
strict：遇到陌生字段就报错

7.5.2 手动关闭日期映射

#PUT /index/_mapping/type
{
    "date_detection":false
}

7.5.3自定义映射模板

PUT /my_index
{
    "mappings": {
        "my_type": {
            "dynamic_templates": [
                { "en": {
                    "match": "*_en", 
                    "match_mapping_type":"string",
                    "mapping": {
                        "type":           "string",
                        "analyzer":       "english"
                    }
                }
              }
            ]
}}}

PUT /my_index/my_type/1
{
  "title": "this is my first article"
}

PUT /my_index/my_type/2
{
  "title_en": "this is my first article"
}

title没有匹配到任何dynamic模板，默认standard分词器，不会过滤停用词，is可以搜索到结果
title_en匹配到dynamic模板，使用english分词，会过滤停用词，无法搜索到

7.6 基于scoll+bulk+索引别名实现零停机重建索引

7.6.1 操作步骤

初始索引：误建了一个date类型的字段，存放在alias_index索引中
此时想将字段变更为字符串类型
重新建立新索引 alias_index_new
利用scoll技术，将数据批量查询出来
利用bulk，将数据导入到新索引中
让java应用指向旧索引的别名，good_index，实际指向alias_index
最后进行嫁接

POST /_aliases
{
    "actions": [
        { "remove": { "index": "my_index", "alias": "goods_index" }},
        { "add":    { "index": "my_index_new", "alias": "goods_index" }}
    ]
}

基于alias对client透明切换index

开发技巧

聚合排序

TermsAggregationBuilder可根据聚合的情况根据不同条件进行排序
_count

按文档数排序。对 terms 、 histogram 、 date_histogram 有效。
_term

按词项的字符串值的字母顺序排序。只在 terms 内使用。

_key

按每个桶的键值数值排序（理论上与 _term 类似）。只在 histogram 和 date_histogram 内使用。

你可能感兴趣的:(ElasticSearch)

Elasticsearch 启动失败？从日志分析到最终解决（磁盘空间不足案例） Leaton Lee elasticsearch 大数据搜索引擎
问题背景最近在本地运行一个SpringBoot项目时，突然遇到Elasticsearch(ES)连接超时的问题：org.springframework.beans.factory.UnsatisfiedDependencyException:Errorcreatingbeanwithname'awardController':Unsatisfieddependencyexpressedthroug
Elasticsearch：基本概念、索引结构与优缺点分析 Leaton Lee elasticsearch 大数据搜索引擎
一、Elasticsearch基本概念Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful搜索引擎，专为云计算环境设计，能够实现近乎实时的数据搜索和分析功能。核心概念解析文档(Document)Elasticsearch中的基本数据单元，使用JSON格式表示每个文档有唯一ID和类型示例：一条产品信息、一篇博客文章或一个客户记录索引(Index)文档的集合，类似于关系数
Elasticsearch 查询统计 A 字段全部为空的 B 字段（qbit）
前言本文对Elasticsearch7.17适用问题是有两个字符串字段app_id和owner，怎么查询app_id全部为空字符串的owner有哪些？查询DSL语句{"size":0,"aggs":{"owners":{"terms":{"field":"owner",//取决于owner字段的基数"size":10000},"aggs":{"non_empty_app_id_docs":{"fi
【123揭秘】Elasticsearch内部数据结构大起底：行存、列存与倒排索引，你选对了吗？墨瑾轩 Java乐园 elasticsearch 数据结构 jenkins
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣第一部分：理解基本概念——构建知识的基础首先，我们需要了解一些基础概念，这对于理解Elasticsearch如何处理和存储数据至关重要。1.1行存储vs列存储行存储：适用于频繁写入和读取整行数据的场景。例如，在关系型数据库中，每一行代表一条记录，所有列的数据都
ElasticSearch中的分片是什么? java1234_小锋 java elasticsearch 大数据搜索引擎
大家好，我是锋哥。今天分享关于【ElasticSearch中的分片是什么?】面试题。希望对大家有帮助；ElasticSearch中的分片是什么?超硬核AI学习资料，现在永久免费了！在Elasticsearch中，分片（Shard）是将数据拆分成更小的部分，允许在分布式环境中并行处理和存储数据的机制。它是Elasticsearch在水平扩展时用于管理大量数据的关键概念。主要概念：主分片（Primar
spring-ai-alibaba 1.0.0.2 学习（十二）——聊天记忆扩展包
学习spring-ai时提到过，spring-ai除了内置的InMemoryChatMemoryRepository，还提供jdbc、cassandra、neo4j三个扩展包。而spring-ai-alibaba则提供了jdbc、redis、elasticsearch三个扩展包。两者都提供了jdbc扩展包，有什么区别呢？spring-aijdbc和spring-ai-alibabajdbc对比sp
基于Elasticsearch的短视频平台个性化推荐系统设计与实现亲爱的非洲野猪 elasticsearch 音视频推荐算法
在当今内容爆炸的时代，个性化推荐系统已成为短视频平台的核心竞争力之一。本文将详细介绍如何利用Elasticsearch（ES）构建一个高效、可扩展的短视频个性化推荐系统。一、系统架构概述我们的推荐系统将采用混合推荐策略，结合协同过滤、内容相似度和热度推荐等多种方法。Elasticsearch作为核心搜索引擎和数据存储，将承担以下职责：用户画像存储与查询视频内容索引与检索实时行为日志分析推荐结果计算
Docker三分钟部署ElasticSearch平替MeiliSearch轻量级搜索引擎
‍个人主页：阿木木AEcru(更多精彩内容可进入主页观看)系列专栏：《Docker容器化部署系列》《Java每日面筋》每一次技术突破，都是对自我能力的挑战和超越。目录一、什么是MeiliSearch？二、对比ElasticSearch有什么好处？三、使用场景有哪些？四、docker部署MeiliSearch4.1创建数据持久化文件夹4.2拉取镜像4.3运行容器五、访问测试5.1访问5.2下载测试文
meilisearch-轻量级搜索引擎 Leon.ENV 大数据搜索引擎
meilisearch是一款开源的轻量级搜索引擎，相比于elasticsearch等重量级搜索引擎，meilisearch注重数据搜索，从而而省去了其它不必要的功能（如支持聚合分析、分布式搜索等特性），以便于快速上手开发和构建应用。meilisearch有以下优点1）非常轻量级，只需500MB内存就可以运行2）支持多种接入方式：http、多种语言SDK3）无其它依赖环境，下载启动即可使用4）非常适
亿级电商搜索引擎基石：Elasticsearch分片、副本与性能调优实战 lingRJ777 Java技术栈应用 java backend elasticsearch springboot microservices searchengine
亿级电商搜索引擎基石：Elasticsearch分片、副本与性能调优实战引言每年的“双十一”大促，海量用户涌入电商平台，搜索请求量瞬时可达平时的数十甚至上百倍。同时，数百万商品的库存、价格、促销信息也在以极高的频率更新。这种“读写混合”的超高并发场景，对商品搜索引擎提出了两大核心挑战：高可用与可扩展性：如何在流量洪峰下保证搜索服务7x24小时不间断，并且能够随着业务增长而平滑扩容？极致的查询性能：
【ES】--Elasticsearch的高亮模式
目录一、高亮策略1、FastVectorHighlighter（快速向量高亮器）2、PostingHighlighter（帖子高亮器）3、UnifiedHighlighter（统一高亮器）4、PlainHighlighter（普通高亮器）5、总结二、高亮参数三、高亮案例解析1、words_one配置解析2、words_two配置解析3、words_three配置解析4、words_four配置解析
Elasticsearch检索高亮不正确，不精确问题
问题场景：搜索“a”高亮"A8A",,,,,分词器：IK分词器确认分词结果：下图说明已经正确分词！确认高亮效果：换一种高亮器查询效果：对应java代码：总结：当高亮显示不精确的时候，要从以下两方面找问题：1.分词器是否分词准确2.高亮器是否满足你的要求，不满足换一种高亮器查看效果我之前原默认的高亮器（plain）不能满足要求，后来使用unified高亮器解决了高亮不精确的问题。
【Elasticsearch】深度分页及其替代方案 G皮T #Elastic elasticsearch 大数据搜索引擎深度分页 search_after scroll 检索
深度分页及其替代方案1.深度分页2.为什么不推荐深度分页2.1性能问题（核心原因）2.2资源消耗对比2.3实际限制3.深度分页的替代方案3.1方案一：SearchAfter（推荐）3.1.1为什么SearchAfter性能更高3.1.2技术原理简化3.1.3关键区别3.1.4适用场景3.2方案二：ScrollAPI（适用于大批量导出）3.2.1详细解释3.2.2类比理解3.2.3注意事项3.3方案
docker安装单机nacos、rocketmq、reids、xxl-job、minio、elasticsearch、kibana、gogs、nginx、mongo 丶会武术的流氓丶 docker rocketmq redis elasticsearch
目录在右侧中部启动容器报错直接删除那个name后边的就可以安装nacos首先需要拉取对应的镜像文件：dockerpullnacos/nacos-server挂载目录：mkdir-p/mydata/nacos/logs/#新建logs目录mkdir-p/mydata/nacos/init.d/vim/mydata/nacos/init.d/custom.properties#修改配置文件修改cust
50个Java+SpringBoot+Vue毕业设计选题（含技术栈+核心功能） 21光年 java spring boot vue.js 毕业设计毕设
适合人群：计算机专业毕业设计/实战项目/求职作品技术亮点：前后端分离、主流技术栈、多领域覆盖一、电商与交易类智能推荐电商平台技术栈：SpringBoot+Vue+Redis+Elasticsearch核心功能：协同过滤推荐算法、秒杀系统、物流跟踪二手商品交易平台技术栈：SpringBoot+Vue+OSS存储核心功能：多维度检索、信用评分、实名认证社区团购管理系统技术栈：SpringBoot+Vu
canal实现Mysql数据同步 BUG指挥官 MySQL数据库相关讲解 mysql 数据库
在当今互联网行业尤其是现在分布式、微服务开发环境下，为了提高搜索效率，以及搜索的精准度，会大量使用Redis、Memcached等NoSQL数据库，也会使用大量的Solr、Elasticsearch等全文检索服务和搜索引擎。那么，这个时候，就会有一个问题需要我们来思考和解决：那就是数据同步的问题！如何将实时变化的数据库中的数据同步到Redis/Memcached或者Solr/Elasticsear
springCloud集成elasticsearch 月光一族吖 spring cloud elasticsearch spring
Elasticsearch是一个分布式、RESTful风格的搜索和数据分析引擎，同时是可扩展的数据存储和矢量数据库，能够应对日益增多的各种用例。作为ElasticStack的核心，Elasticsearch能够集中存储您的数据，实现闪电般的搜索速度、精细的相关性调整以及强大的分析能力，并且能够轻松地进行规模扩展。废话少说，开干一、docker部署ES1、创建网络，让ES与Kibana容器互联doc
docker安装Elasticsearch Uluoyu docker elasticsearch
1.安装版本Elasticsearch（8.18.3）kibana（8.18.3）ik分词器（8.18.3）2.创建网络，让ES与Kibana容器互联dockernetworkcreatees-net3.加载镜像dockerpulldocker.elastic.co/elasticsearch/elasticsearch:8.18.3sudodockerpulldocker.elastic.co/
windows安装ELK
ELK是什么？ELK是Elasticsearch、Logstash和Kibana三款开源软件的组合，主要用于日志收集、存储、分析和可视化。三款软件版本必须保持一致三款软件下载地址通过网盘分享的文件：elasticsearch-9.0.3-windows-x86_64.zip等3个文件链接:https://pan.baidu.com/s/16Y7T6TYIZZ4uAou4ZeoQ4w?pwd=e8x
解决 Spring Boot 对 Elasticsearch 字段没有小驼峰映射的问题大只鹅 spring boot elasticsearch 后端
场景重现在使用MyBatis/Mybatis-Plus框架对MySQL操作时习惯了字段名小驼峰映射，然而在操作Elasticsearch时发现字段名没有小驼峰映射。解决方法1.使用`ObjectMapper`手动转换：这是最直接也最常用的方法。在SpringBoot应用中使用`ObjectMapper`将从Elasticsearch获取的数据进行转换，将下划线命名转换为小驼峰命名。importco
ELK日志分析系统搭建奔跑吧邓邓子高效运维 elk elasticsearch
目录一、ELK是什么？ElasticsearchLogstashKibana二、搭建ELK1.安装Elasticsearch2.安装Logstash3.安装Kibana三、配置实例1.将某个服务器某个目录下的日志收集到系统分析展示（1）修改logstash-sample.conf配置（2）配置Kibana一、ELK是什么？ELK是三个开源项目的首字母缩写，这三个项目分别是：Elasticsearc
按月设置索引名的完整指南：Elasticsearch日期索引实践少林码僧 elasticsearch jenkins 大数据
按月设置索引名的完整指南：Elasticsearch日期索引实践在时序数据场景中，按月设置索引名（如logs-2024-01）是优化查询效率、降低管理成本的关键策略。以下是三种实现方案及详细步骤：方案一：索引模板+日期数学表达式（推荐）原理：利用ES内置的日期数学表达式动态生成索引名，无需额外工具操作步骤：创建索引模板PUT_index_template/monthly_logs{"index_p
Elasticsearch索引模板：自动化索引管理搜索引擎技术搜索引擎实战 elasticsearch 自动化 jenkins ai
Elasticsearch索引模板：自动化索引管理关键词：Elasticsearch、索引模板、自动化管理、索引映射、索引设置、生命周期管理、数据建模摘要：本文深入解析Elasticsearch索引模板的核心原理与实践方法，通过系统化的步骤演示如何利用索引模板实现索引的自动化创建与统一管理。内容涵盖模板结构设计、映射与设置配置、动态字段处理、优先级策略、实战案例及最佳实践，帮助读者掌握高效管理大规
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？ SeaTunnel bug SeaTunnel 开源数据集成大数据
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台 lingRJ777 Java技术栈应用 java backend elasticsearch spring boot microservices elk
Elasticsearch性能调优金字塔：从分片与副本策略构建海量日志分析平台引言在当前的微服务架构体系中，一个复杂的业务流程往往会横跨数十甚至上百个服务。当线上出现问题时，如何从每天产生的TB级海量日志中快速定位根源，成为衡量系统可观测性的关键。传统的日志聚合方案在面对如此巨大的数据量时，普遍会遇到两大核心挑战：高并发写入瓶颈：数千个服务实例同时产生大量日志，要求日志系统具备极高的写入吞吐能力，
Elasticsearch分组后排序，并查询组数量 Gzzz__ Elasticsearch elasticsearch java 大数据
项目场景：Elasticsearch分组后，根据分组后的数量排序，并查询分组后的组数量，通过DSL和javaAPI两种方式解决方案：示例：在单据表中，查询2022-01-19当天每个人提交的单据数量，从高到低排序，并查询提交过单据的总人数。期望实现的SQLselectId,count(Id)ascfromuserbillwheretype='bill'andcreateTime>='2022-01
ES 和 lucene 的区别是什么？晚夜微雨问海棠呀 elasticsearch lucene 大数据
Elasticsearch(ES)和Lucene都是用于全文搜索和分析的工具，但它们在功能和使用场景上有一些重要的区别：基础与角色：Lucene是一个开源的信息检索软件库，提供了一个高性能、全功能的文本搜索引擎。它是许多搜索应用的核心，包括Elasticsearch。Elasticsearch是一个分布式搜索和分析引擎，构建在Lucene之上。它不仅提供了Lucene的所有功能，还增加了分布式计算
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
2023年JAVA面试题【Redis/Elasticsearch】 GJH-JAVA java redis elasticsearch
1.什么是Redis？Redis是一个使用C语言写成的，开源的高性能key-value非关系缓存数据库。它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sortedset--有序集合)和hash（哈希类型）。Redis的数据都基于缓存的，所以很快，每秒可以处理超过10万次读写操作，是已知性能最快的Key-ValueDB。Redis也可以实
后端Spring Data Elasticsearch的集群故障恢复 AI大模型应用实战 spring elasticsearch java ai
后端SpringDataElasticsearch的集群故障恢复关键词：SpringDataElasticsearch、集群故障恢复、分布式系统、故障处理、数据一致性摘要：本文围绕后端SpringDataElasticsearch的集群故障恢复展开深入探讨。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述了核心概念与联系，详细讲解了核心算法原理及具体操作步骤，并结合数学模型和公式进行说明。通
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，