码农-V

一文入门Elasticsearch

大纲

Elasticsearch是什么？

Elasticsearch，分布式，高性能，高可用，可伸缩的搜索和分析系统。

Elasticsearch的适用场景

电商网站搜索
数据分析
BI系统
日志分析 elk 等等

Lucene和Elasticsearch

Lucene

Lucene是apache软件基金会 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）

Elasticsearch

Elasticsearch是对于Lucene进行封装提供更加简易的APi给用户使用。每个Elasticsearch分片都是一个Lucene实例

基本概念

Cluster

集群，包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的。 config目录下的elasticsearch.yml文件

Node

节点，集群中的一个节点，节点也有一个名称（默认是随机分配的），如果直接启动一堆节点，那么它们会自动组成一个elasticsearch集群，一个节点也可以组成一个elasticsearch集群

Document&field：

文档，es中的最小数据单元，一个document可以是一条客户数据，一条商品分类数据，一条订单数据，通常用JSON数据结构表示，每个index下的type中，都可以去存储多个document。一个document里面有多个field，每个field就是一个数据字段。

Index

索引，包含一堆有相似结构的文档数据，比如可以有一个客户索引，商品分类索引，订单索引，索引有一个名称。一个index包含很多document，一个index就代表了一类类似的或者相同的document。比如说建立一个product index，商品索引，里面可能就存放了所有的商品数据，所有的商品document。

Type

类型，每个索引里都可以有一个或多个type，type是index中的一个逻辑数据分类，一个type下的document，都有相同的field，比如博客系统，有一个索引，可以定义用户数据type，博客数据type，评论数据type。再7.0后慢慢舍弃了Type的概念：https://blog.csdn.net/zhanghongzheng3213/article/details/106281436/

样例：

商品index，里面存放了所有的商品数据，商品document

但是商品分很多种类，每个种类的document的field可能不太一样，比如说电器商品，可能还包含一些诸如售后时间范围这样的特殊field；生鲜商品，还包含一些诸如生鲜保质期之类的特殊field

type，日化商品type，电器商品type，生鲜商品type

日化商品type：product_id，product_name，product_desc，category_id，category_name
电器商品type：product_id，product_name，product_desc，category_id，category_name，service_period
生鲜商品type：product_id，product_name，product_desc，category_id，category_name，eat_period

每一个type里面，都会包含一堆document

aliases

别名。索引别名可以指向一个或多个索引，并且可以在任何需要索引名称的API中使用。这个功能很强大，把多个索引合并成一个逻辑视图。

shard

单台机器无法存储大量数据，es可以将一个索引中的数据切分为多个shard，分布在多台服务器上存储。有了shard就可以横向扩展，存储更多数据，让搜索和分析等操作分布到多台服务器上去执行，提升吞吐量和性能。每个shard都是一个lucene index。

replica

任何一个服务器随时可能故障或宕机，此时shard可能就会丢失，因此可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务，保证数据不丢失，多个replica还可以提升搜索操作的吞吐量和性能。primary shard（建立索引时一次设置，不能修改，默认5个），replica shard（随时修改数量，默认1个），默认每个索引10个shard，5个primary shard，5个replica shard，最小的高可用配置，是2台服务器。

基本的API

集群/索引基本API

快速检查集群的健康状况

GET /_cat/health?v

epoch      timestamp cluster status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent
1637731073 05:17:53  my.elk  yellow          1         1     12  12    0    0        3             0                  -                 80.0%

// 这里解释下status字段， status字段是标识集群的健康状态的
green：每个索引的primary shard和replica shard都是active状态的
yellow：每个索引的primary shard都是active状态的，但是部分replica shard不是active状态，处于不可用的状态
red：不是所有索引的primary shard都是active状态的，部分索引有数据丢失了

查看全部索引

GET /_cat/indices?v

health status index                           uuid                   pri rep docs.count docs.deleted store.size pri.store.size
yellow open   test2                           MrmwSSNZQOyElfEZVAm0Bw   1   1          0            0       208b           208b

删除索引

DELETE /test_index?pretty

创建索引注意这里只是创建最基本的索引，有些参数都是默认的，所以demo情况下可以这样操作，实际开发不可这样创建

PUT /test_index?pretty

简单crud
注意代码中有对列的含义的解释

新增

// id 可以指定也可以不指定，不指定的话，es会默认生成分布式id
// es会自动建立index和type，不需要提前创建，而且es默认会对document每个field都建立倒排索引，让其可以被搜索
PUT /index/type/id
{
    "属性"："值"
}


// 样例：
PUT /test/test/1
{
  "name":"xia",
  "age":26
}
// 返回值 
{
  "_index" : "test",            // 索引
  "_type" : "test",             // type
  "_id" : "1",                  // 唯一文档标识符 
  "_version" : 1,               // 老版本的并发控制版本号， es中使用乐观锁实现并发控制
  "result" : "created",         // created 标明本次文档操作是新建
  "_shards" : {                 // 分片信息
    "total" : 2,                // 请求发到不同的分片，大部分分片正常响应，这些就是successful，如果某个分片没有响应，这就是failed
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 0,                // 新版本的并发控制版本号     
  "_primary_term" : 1           // 新版本的并发控制版本号     
}

检索文档

GET /index/type/id

// 返回值
{
  "_index" : "test",
  "_type" : "test",
  "_id" : "1",
  "_version" : 1,
  "_seq_no" : 4,
  "_primary_term" : 1,
  "found" : true,
  "_source" : {     // 文档实体
    "name" : "xia",
    "age" : 26
  }
}

替换文档

// id是已经存在的， 这里会全量替换整个文档， es 底层会把历史文档修改为已删除（逻辑删除），然后新增
PUT /index/type/id

PUT /test/test/1
{
  "name":"xia1",
  "age":28
}

// 返回值
{
  "_index" : "test",
  "_type" : "test",
  "_id" : "1",
  "_version" : 2,           // 版本号变动
  "result" : "updated",     // 本次是修改
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 1,            // 版本号
  "_primary_term" : 1       // 这里是分片变动才会变动
}

更新文档指定字段

POST /test/test/1/_update
{
  "doc": {
    "name": "xia2"
  }
}

// 返回值
{
  "_index" : "test",
  "_type" : "test",
  "_id" : "1",
  "_version" : 3,
  "result" : "updated",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 2,
  "_primary_term" : 1
}

删除文档

DELETE /test/test/1

// 返回值
{
  "_index" : "test",
  "_type" : "test",
  "_id" : "1",
  "_version" : 4,
  "result" : "deleted",   // 标识为删除
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 3,
  "_primary_term" : 1
}

query DSL

查询全部

GET /test/test/_search

or 

GET /test/test/_search
{
  "query": { "match_all": {} }
}

// 返回值
{
  "took" : 1,                       // 耗费了几毫秒
  "timed_out" : false,              // 是否超时 false没有
  "_shards" : {                     // 数据有几个分片，搜索请求就会会打到几个primary shard（或者是它的某个replica shard也可以）
    "total" : 1,                    // 总量
    "successful" : 1,               // 成功响应的
    "skipped" : 0,                  // 跳过的
    "failed" : 0                    // 未响应的
  },
  "hits" : {
    "total" : {
      "value" : 1,                  // 查询结果的数量
      "relation" : "eq"
    },
    "max_score" : 1.0,              // score的含义，就是document对于一个search的相关度的匹配分数，越相关，就越匹配，分数也高
    "hits" : [                      // 包含了匹配搜索的document的详细数据
      {
        "_index" : "test",
        "_type" : "test",
        "_id" : "1",
        "_score" : 1.0,             // 当前文档的匹配值
        "_source" : {
          "name" : "xia",
          "age" : 26
        }
      }
    ]
  }
}

条件查询、排序、分页

GET /test/test/_search
{
    "query" : {
        "match" : {
            "name" : "xia"   // 匹配某个属性 
        }
    },
    "sort": [
        { "age": "desc" }   // 排序
    ],
    "from":2,               // 分页初始偏移量
    "size":1                // 分页本次偏移量
}

// 返回值 同上

query filter

GET /test/test/_search
{
    "query" : {
        "bool" : {
            "must" : {
                "match" : {
                    "name" : "xia" 
                }
            },
            "filter" : {
                "range" : {
                    "age" : { "gt" : 25 } 
                }
            }
        }
    }
}

// and 
GET /test/test/_search
{
    "query":{
        "bool":{
            "must":[
                {
                    "term":{
                        "name":"xia"
                    }
                },
                {
                    "term":{
                        "age":"2"
                    }
                }
            ]
        }
    },
    "from":0,
    "size":10
}

full-text search（全文检索）

GET /test/test/_search
{
    "query" : {
        "match" : {
            // 先对’xia’进行分词， 然后和库里面的数据进行匹配
            "name": "xia"
        }
    }
}

phrase search（短语搜索）

GET /test/test/_search
{
    "query" : {
        "match_phrase" : {
            // 要求输入的搜索串，必须在指定的字段文本中，完全包含一模一样的，才可以算匹配，才能作为结果返回
            "name" : "xia"
        }
    }
}

定制返回结果

GET /test/test/_search
{
    "query" : {
        "bool" : {
            "must" : {
                "match" : {
                    "name" : "xia" 
                }
            },
            "filter" : {
                "range" : {
                    "age" : { "gt" : 25 } 
                }
            }
        }
    },
    "_source":["age"]  // 这里写你想要查询的属性
}

highlight search（高亮搜索结果）。去百度吧，当作作业

聚合聚合是Elasticsearch非常强的功能

简单聚合注意文本字段聚合需要将文本field的fielddata属性设置为true

GET /test/test/_search
{
  "aggs": {                                         // 简单分桶
    "group_by_tags": {                              // 分桶的返回值属性
      "terms": { "field": "age" }                   
    }
  },
  
   "query" : {                                      // 查询条件
        "match" : {
            "name": "xia"
        }
    },
  
  "from":"0","size":2                               // 这里是控制返回值 hits 的偏移量
}

// 返回值
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {                                        // 查询结果
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 0.6931471,
    "hits" : [
      {
        "_index" : "test",
        "_type" : "test",
        "_id" : "1",
        "_score" : 0.6931471,
        "_source" : {
          "name" : "xia",
          "age" : 26
        }
      }
    ]
  },
  "aggregations" : {                                // 聚合结果
    "group_by_tags" : {                             // 请求中定义分桶的返回值属性
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [                                 // 聚合后的桶
        {
          "key" : 26,                               // key 已什么分桶， 同Mysql groupBy age
          "doc_count" : 1                           // 桶内文档的数量
        }
      ]
    }
  }
}

先分组，再算每组的平均值

GET /test/test/_search
{
    "size": 0,
    "aggs" : {
        "group_by_tags" : {
            "terms" : { "field" : "name" },
            "aggs" : {
                "avg_price" : {
                    "avg" : { "field" : "age" }
                }
            }
        }
    }
}

// 返回值
{
  "took" : 27,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : [ ]
  },
  "aggregations" : {
    "group_by_tags" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "xia",
          "doc_count" : 1,
          "avg_price" : {
            "value" : 26.0
          }
        }
      ]
    }
  }
}

3.排序

GET /test/test/_search
{
    "size": 0,
    "aggs" : {
        "group_by_tags" : {
             "terms" : { "field" : "name", "order": { "avg_price": "desc" } },
            "aggs" : {
                "avg_price" : {
                    "avg" : { "field" : "age" }
                }
            }
        }
    }
}

Elasticsearch中支持嵌套桶，日期直方图。。。。感兴趣的可以参考官网进行学习，https://www.elastic.co/guide/en/elasticsearch/reference/7.15/search-aggregations-bucket.html

Elasticsearch-SQL

在Elasticsearch高版本官方中已经支持sql了，虽然对sql支持度很高了，但是由于NoSql本身的限制，仍然有很多限制，例如：不支持JOIN， JDBC连接收费等。

简单使用

简单查询

GET /_sql?format=txt
{
  "query": """ SELECT * FROM "test" limit 10 """
}
// 返回值 
age            |name      
---------------+---------------
26             |xia            


GET /_sql
{
  "query": """ SELECT * FROM "test" limit 10 """    // " sql 语句 " 这样也行， 但是只能使用'' 
}
// 返回值
{
  "columns" : [     、              // 表头
    {
      "name" : "age",               // 属性
      "type" : "long"               // 类型
    },
    {
      "name" : "name",
      "type" : "text"
    }
  ],
  "rows" : [
    [
      26,
      "xia"
    ]
  ]
}

将SQL转化为DSL

GET /_sql/translate 
{
  "query": """
  SELECT * FROM "test" limit 10
  """
}
// 返回值
{
  "size" : 10,
  "_source" : false,
  "fields" : [                          // 查询的字段
    {
      "field" : "age"
    },
    {
      "field" : "name"
    }
  ],
  "sort" : [
    {
      "_doc" : {
        "order" : "asc"
      }
    }
  ]
}

混用

GET /_sql 
{
  "query": """
  SELECT * FROM "test" limit 10
  """,
  "filter":{
        "range": {
            "age": {
                "gte" : 20,
                "lte" : 35
            }
        }
    },
    "fetch_size": 10

}
// 返回值同上

嵌套对象

PUT /test_index/sql_type/1
{
  "name":"xia",
  "info":{
    "iphone":"1352468487"
  }
}

GET /_sql 
{
  "query": """
  SELECT name, info.iphone FROM "test_index" limit 10           // 如果直接查询* 就会报错
  """
}

// 对数组支持并不友好，暂时未找到解决方式

语法

SELECT select_expr [, …]
[ FROM table_name ]
[ WHERE condition ]
[ GROUP BY grouping_element [, …] ]
[ HAVING condition]
[ ORDER BY expression [ ASC | DESC ] [, …] ]
[ LIMIT [ count ] ]
[ PIVOT ( aggregation_expr FOR column IN ( value [ [ AS ] alias ] [, …] ) )]

脚本

语言	沙盒	必需的插件	目的
painless	支持	内置	专为 Elasticsearch 而构建
expression	支持	内置	快速自定义排名和排序
mustache	支持	内置	模板
Java		自己写	API

介绍

通过编写脚本，用户可以在 Elasticsearch 中计算自定义表达式，所以在解决复杂问题（自定义评分、自定义文本相关度、自定义过滤、自定义聚合分析）时，脚本依然是Elasticsearch强悍的利器之一。下文以painless 来进行讲解。

Painless是一种简单，安全的脚本语言，专为与Elasticsearch一起使用而设计。它是Elasticsearch的默认脚本语言，可以安全地用于内联和存储脚本。

高效：Painless直接编译成JVM字节码，以利用JVM提供的所有可能的优化。此外，Painless 通常避免在运行时需要额外进行较慢检查的功能。
安全性强：使用白名单来限制函数与字段的访问，避免了可能的安全隐患。
可选输入：变量和参数可以使用显式类型或动态def类型。
简单：：Painless实现了一种语法，对于任何具有一些基本编码经验的人来说，它都是天生熟悉的。Painless使用Java语法的子集，并进行了一些额外的改进，以增强可读性并删除样板

使用

GET test/_search
{
  "script_fields": {
    "my_doubled_field": {                                       // 返回的属性值
      "script": { 
        "source": "doc['age'].value * params['multiplier']",   // 把age字段 * 输入参数 'multiplier'
        "params": {
          "multiplier": 2  // 输入参数 可以多个输入参数
        }
      }
    }
  }
}

// 返回值
{
  "took" : 30,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 1.0,
    "hits" : [
      {
        "_index" : "test",
        "_type" : "test",
        "_id" : "1",
        "_score" : 1.0,
        "fields" : {
          "my_doubled_field" : [    // 结果
            52
          ]
        }
      }
    ]
  }
}

// 聚合
1GET test/_search
{
    "aggs" : {
        "groups" : {
            "terms" : {
                "script" : {
                    "source": "doc['age'].value",
                    "lang": "painless"
                }
            }
        }
    }
}

存储脚本

POST _scripts/calculate-score                   // calculate-score 标识符，类似方法名
{
  "script": {
    "lang": "painless",
    "source": "Math.log(_score * 2) + params['my_modifier']"
  }
}

// 获取
GET _scripts/calculate-score

自定义评分

GET test/_search
{
  "query": {
    "script_score": {                       // 脚本评分
      "query": {
        "match": {
            "name": "xia"
        }
      },
      "script": {                           // 使用脚本
        "id": "calculate-score",            // 存储的脚本id
        "params": {                         // 输入参数
          "my_modifier": 2      
        }
      }
    }
  }
}
// 返回值
{
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 2.3266342,    // 这里
    "hits" : [
      {
        "_index" : "test",
        "_type" : "test",
        "_id" : "1",
        "_score" : 2.3266342,  // 结果
        "_source" : {
          "name" : "xia",
          "age" : 26
        }
      }
    ]
  }
}

为什么可以用于搜索引擎快？快在哪里

Elasticsearch 使用一种称为倒排索引的结构，它适用于快速的全文搜索。一个倒排索引由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表。

倒排索引

什么是倒排索引？

我的理解就是把属性的值当作索引，然后指向具体的地址，形如mysql 的普通索引就是反向索引，先找key 再找行记录。key可以对应多个行记录，只是匹配值不同。

官网详解倒排索引

例如，假设我们有两个文档，每个文档的 content 域包含如下内容：

The quick brown fox jumped over the lazy dog
Quick brown foxes leap over lazy dogs in summer

为了创建倒排索引，es首先将每个文档的 content 域拆分成单独的词（一般称为为词条或 tokens ），创建一个包含所有不重复词条的排序列表，然后列出每个词条出现在哪个文档。结果如下所示：

Term      Doc_1  Doc_2
-------------------------
Quick   |       |  X
The     |   X   |
brown   |   X   |  X
dog     |   X   |
dogs    |       |  X
fox     |   X   |
foxes   |       |  X
in      |       |  X
jumped  |   X   |
lazy    |   X   |  X
leap    |       |  X
over    |   X   |  X
quick   |   X   |
summer  |       |  X
the     |   X   |
------------------------

现在，如果我们想搜索 quick brown ，我们只需要查找包含每个词条的文档：

Term      Doc_1  Doc_2
-------------------------
brown   |   X   |  X
quick   |   X   |
------------------------
Total   |   2   |  1

两个文档都匹配，但是第一个文档比第二个匹配度更高。如果我们使用仅计算匹配词条数量的简单相似性算法，那么，我们可以说，对于我们查询的相关性来讲，第一个文档比第二个文档更佳。

这就完美了吗？并不是，现有如下问题

Quick 和 quick 以独立的词条出现，然而用户可能认为它们是相同的词。
fox 和 foxes 非常相似, 就像 dog 和 dogs ；他们有相同的词根。
jumped 和 leap, 尽管没有相同的词根，但他们的意思很相近。他们是同义词。

使用前面的索引搜索 +Quick +fox 不会得到任何匹配文档。（记住，+ 前缀表明这个词必须存在。）只有同时出现 Quick 和 fox 的文档才满足这个查询条件，但是第一个文档包含 quick fox ，第二个文档包含 Quick foxes 。

如果我们希望能匹配到对应的两个文档，应该如何做？

例如：

Quick 可以小写化为 quick 。
foxes 可以词干提取 --变为词根的格式-- 为 fox 。类似的， dogs 可以为提取为 dog 。
jumped 和 leap 是同义词，可以索引为相同的单词 jump 。

那么现在索引是这样的

Term      Doc_1  Doc_2
-------------------------
brown   |   X   |  X
dog     |   X   |  X
fox     |   X   |  X
in      |       |  X
jump    |   X   |  X
lazy    |   X   |  X
over    |   X   |  X
quick   |   X   |  X
summer  |       |  X
the     |   X   |  X
------------------------

这样其实我们搜索+Quick +fox 仍然会失败，因为在我们的索引中，已经没有 Quick 了。所以我们需要在搜索输入时，和创建倒排索引时使用相同的分词方法。再下文笔者将讲解分词器。

工作中分词粒度

建立倒排索引的时候细粒度分词搜索的输入短语进行分词时时候用粗粒度分词，这样能有效的匹配到需要匹配的数据。

分词器&分析器&字符过滤器&令牌过滤器

什么是分词器 (Tokenizer)

字符串分解成单个词条或者词汇组的代码，标准分析器里使用的标准分词器把一个字符串根据单词边界分解成单个词条，并且移除掉大部分的标点符号。例如：我是中国人，通过分词器规则分成词组我是、中国、人。

一个分析器包含一个分词器

2.字符过滤器(character filter)

字符过滤器用来整理一个尚未被分词的字符串。
例如，如果我们的文本是HTML格式的，它会包含像

或者

这样的HTML标签，这些标签是我们不想索引的。
我们可以使用 html清除字符过滤器来移除掉所有的HTML标，
并且像把 Á 转换为相对应的Unicode字符 Á 这样，来转换HTML实体。

一个分析器可能有0个或者多个字符过滤器。

3.令牌过滤器

经过分词，作为结果的词组会按照指定的顺序通过指定的令牌过滤器。
令牌过滤器可以修改、添加或者移除词组元素。

在 Elasticsearch里面还有很多可供选择的令牌过滤器。词干过滤器把单词遏制为词干。
ascii_folding 过滤器移除变音符，把一个像 “très” 这样的词转换为 “tres” 。
ngram 和 edge_ngram 词单元过滤器可以产生适合用于部分匹配或者自动补全的词单元。

什么是分析器 (Analyzer)

把一个未处理的文本字段，进行标准化处理，形成倒排索引需要的词组。

内置分词器&分析器&字符过滤器&令牌过滤器。

分析器

标准分析器（默认）：standard分析器将文本分为在字边界条件，如通过Unicode文本分割算法定义。它删除了大多数标点符号、小写术语，并支持删除停用词。
简单分析器：简单分析器在任何不是字母的地方分隔文本，将词条小写。
空格分析器：空格分析器在空格的地方划分文本。
空白分析器：文本每当遇到任何空白字符进行划分。它不使用小写术语。
停止分析器：停止分析仪和简单分析器，但增加了对移除停止字的支持。它默认使用_english_停止词。
关键字分析器：该分析器非常简单，它只是将提供的取值全部放行。也可以把相应的字段指定为not_analyzed达到相同的目的。
模式分析器：该分析器允许利用正则表达式对文本进行灵活的划分。
语言分析器：为特定语言设计的分析器，例如english或 french。

分词器

标准分词器：将文本分为单词边界条件，由Unicode文本分割算法定义。它删除了大多数标点符号。默认分词
小写分词器：在遇到不是字母的字符时将文本分成词条，但它也会将所有词条小写。
空白分词器：每次遇到空格进行分词
N-Gram 分词器：所述ngram分词器可以分解文本成单词，当它遇到任何指定的字符的列表（例如，空格或标点），则它返回的n-gram的每个单词的：连续字母的滑动窗口，例如quick→ [qu, ui, ic, ck]。

在Elasticsearch内置了很多的分词器，感兴趣的可以去官网查看
https://www.elastic.co/guide/en/elasticsearch/reference/7.15/analysis-tokenizers.html

字符过滤器

HTML字符过滤器：可以对html符号进行预处理
正则替换字符过滤器：通过正则表达式进行预处理
映射字符过滤器：可以对配置的字符进行处理

令牌过滤

小写: 将结果文本小写，例如，把THE Lazy DoG更改为the lazy dog。
删除重复词：删除相同位置的重复词。

在Elasticsearch内置了很多的过滤器，感兴趣的可以去官网查看
https://www.elastic.co/guide/en/elasticsearch/reference/7.15/analysis-tokenfilters.html

自定义分词器之IK分词器

在elasticsearch中查询数据，使用默认的分词器，分词效果不太理想。会把字段分成一个一个汉字，搜索时会把搜索到的句子进行分词，非常不智能，所以出现了替换产品【IK分词器】
gitHub地址：https://github.com/medcl/elasticsearch-analysis-ik/releases

分词核心字典树

单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高

Trie树的三个性质：
根节点不包含字符，除根节点外每一个节点都只包含一个字符
从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串
每个节点的所有子节点包含的字符都不相同

分析器工作流程

首先，字符过滤器对分析（analyzed）文本进行过滤和处理，例如从原始文本中移除HTML标记，根据字符映射替换文本等，
过滤之后的文本被分词器接收，分词器把文本分割成标记流，也就是一个接一个的标记，
然后，令牌过滤器对标记流进行过滤处理，例如，移除停用词，把词转换成其词干形式，把词转换成其同义词等，
最终，过滤之后的标记流被存储在倒排索引中；
ElasticSearch引擎在收到用户的查询请求时，会使用分析器对查询条件进行分析，根据分析的结构，重新构造查询，以搜索倒排索引，完成全文搜索请求，

分布式执行搜索

在ElasticSearch中，分布式存储和执行也是提升效率的一大方式，毕竟单点系统的瓶颈是客观存在的。那么ElasticSearch中是如何对数据进行分布式查询的呢？

在ElasticSearch中执行分为两个阶段，在ElasticSearch中称之为 query then fetch

1. 查询阶段

查询阶段包含以下三个步骤:

客户端发送一个 search 请求到 Node 3 ， Node 3 会创建一个大小为 from + size 的空优先队列。
Node 3 将查询请求转发到索引的每个主分片或副本分片中。每个分片在本地执行查询并添加结果到大小为 from + size 的本地有序优先队列中。
每个分片返回各自优先队列中所有文档的 ID和排序值给协调节点，也就是 Node 3，它合并这些值到自己的优先队列中来产生一个全局排序后的结果列表。

当一个搜索请求被发送到某个节点时，这个节点就变成了协调节点。这个节点的任务是广播查询请求到所有相关分片并将它们的响应整合成全局排序后的结果集合，这个结果集合会返回给客户端。

第一步是广播请求到索引中每一个节点的分片拷贝。查询请求可以被某个主分片或某个副本分片处理，这就是为什么更多的副本（当结合更多的硬件）能够增加搜索吞吐率。协调节点将在之后的请求中轮询所有的分片拷贝来分摊负载。

每个分片在本地执行查询请求并且创建一个长度为 from + size 的优先队列—也就是说，每个分片创建的结果集足够大，均可以满足全局的搜索请求。分片返回一个轻量级的结果列表到协调节点，它仅包含文档 ID 集合以及任何排序需要用到的值，例如 _score 。

协调节点将这些分片级的结果合并到自己的有序优先队列里，它代表了全局排序结果集合。至此查询过程结束。

2. 取回阶段

取回阶段由以下步骤构成：

协调节点辨别出哪些文档需要被取回并向相关的分片提交多个 GET 请求。
每个分片加载并丰富文档，如果有需要的话，接着返回文档给协调节点。
一旦所有的文档都被取回了，协调节点返回结果给客户端。

协调节点首先决定哪些文档确实需要被取回。例如，如果我们的查询指定了 { “from”: 90, “size”: 10 } ，最初的90个结果会被丢弃，只有从第91个开始的10个结果需要被取回。这些文档可能来自和最初搜索请求有关的一个、多个甚至全部分片。

协调节点给持有相关文档的每个分片创建一个 multi-get request ，并发送请求给同样处理查询阶段的分片副本。

分片加载文档体-- _source 字段—如果有需要，用元数据和 search snippet highlighting 丰富结果文档。一旦协调节点接收到所有的结果文档，它就组装这些结果为单个响应返回给客户端。

当然Elasticsearch远远不止这些，希望大家多去研究，看官网

官网地址：https://www.elastic.co/cn/

关注我的公众号，领取海量学习资料、面试资料，交流技术方案

你可能感兴趣的:(java,开发语言,后端,elasticsearch)

JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
Java 调用 HTTP 接口的 7 种方式：全网最全指南
Java调用HTTP接口的7种方式：全网最全指南在开发过程中，调用HTTP接口是最常见的需求之一。本文将详细介绍Java中7种主流的调用HTTP接口的方式，包括每种工具的优缺点和完整代码实现。1.使用RestTemplateRestTemplate是Spring提供的同步HTTP客户端，适用于传统项目。尽管从Spring5开始被标记为过时，它仍然是许多开发者的首选。示例代码importorg.sp
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
javascript高级程序设计第3版——第12章 DOM2与DOM3 weixin_30687587 javascript 数据结构与算法 ViewUI
12章——DOM2与DOM3为了增强D0M1，DOM级规范定义了一些模块。DOM2核心：为不同的DOM类型引入了一些与XML命名空间有关的方法，还定义了以编程方式创建Document实例的方法；DOM2级样式：针对操作元素的样式而开发；其特性总结：1.每个元素都有一个关联的style对象，可用来确定和修改行内样式；2.要确定某个元素的计算样式，可使用getComgetComputedStyle（）
Java设计模式实战：高频场景解析与避坑指南 mckim_ 笔记学习 java 设计模式
引言设计模式是软件开发的基石，但许多开发者面对23种模式时容易陷入“学完就忘”或“滥用模式”的困境。本文从工业级项目视角出发，精选10种高频设计模式，结合真实代码案例与主流框架应用，帮你建立模式思维，拒绝纸上谈兵。一、创建型模式：告别new的暴力美学1.工厂方法模式（FactoryMethod）核心痛点：对象创建逻辑散落各处，难以统一管理。场景案例：电商平台需要支持多种支付方式（支付宝、微信、银联
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
《Java前端开发全栈指南：从Servlet到现代框架实战》
前言在当今Web开发领域，Java依然是后端开发的主力语言，而随着前后端分离架构的普及，Java开发者也需要掌握前端技术栈。本文将全面介绍JavaWeb前端开发的核心技术，包括传统Servlet/JSP体系、现代前端框架集成方案，以及全栈开发的最佳实践。通过本文，您将了解如何构建现代化的JavaWeb应用前端界面。一、JavaWeb前端技术演进1.1传统技术栈Servlet：JavaWeb基础，处
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
JAVA 高频八股文 Day03 Conqueror675 java 开发语言
12.TCP和Http的区别是什么TCP是传输层协议，负责建立可靠的点对点连接，确保数据有序、完整地传输（如铁路轨道）；HTTP是应用层协议，基于TCP构建，定义了Web服务交互的报文格式和规则（如货运订单）。TCP关注数据如何可靠送达，通过三次握手建立连接、流量控制等机制保证传输；HTTP关注传输内容的意义，提供请求/响应语义（GET/POST等）和无状态通信。补充：说一下什么是三次握手四次挥手
JVM字节码加载与存储中的细节
问题引出：为什么Java定义int型变量为32767时使用的是bipush32767，而定义int型变量为32768时使用的是ldc#4？在Java中，如果这样定义int型变量：publicclassTest{publicstaticvoidmain(String[]args){inti=0;intj=5;intk=6;intm=32768;intn=32767;}}变量对应的字节码文件内容是这样
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
HashMap的Get(),Put()源码解析 Ttang23 哈希算法散列表算法
1、什么是HashMap？HashMap是Java中用于存储键值对（Key-Value）的集合类，它实现了Map接口。其核心特点是：无序性：不保证元素的存储顺序，也不保证顺序恒定不变。唯一性：键（Key）不能重复，若插入重复键会覆盖原有值。允许null：允许一个null键和任意数量的null值。非线程安全：相比HashTable，HashMap不支持同步，性能更高。2.核心数据结构：哈希表（Has
Java中的Tomcat，开启Web应用腾飞【基础版】
目录一、Tomcat初登场：揭开神秘面纱（一）啥是Tomcat（二）为啥要有Tomcat二、Tomcat的安装与启动：开启第一步（一）下载Tomcat（二）启动Tomcat三、Tomcat的目录结构：探秘内部布局（一）核心目录介绍（二）目录间的协同工作四、部署JavaWeb应用到Tomcat：让应用上线（一）打包Web应用为WAR文件（二）部署WAR文件到Tomcat五、Tomcat的配置优化：让
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
JavaScript之DOM操作与事件处理详解 AA-代码批发V哥 JavaScript javascript
JavaScript之DOM操作与事件处理详解一、DOM基础：理解文档对象模型二、DOM元素的获取与访问2.1基础获取方法2.2集合的区别与注意事项三、DOM元素的创建与修改3.1创建与插入元素3.2修改元素属性与样式3.2.1属性操作3.2.2样式操作3.3元素内容的修改四、DOM元素的删除与替换4.1删除元素4.2替换元素五、事件处理：实现页面交互5.1事件绑定的三种方式5.1.1HTML属性
V少JS基础班之第五弹 V少在逆向 JS基础班 javascript 开发语言 ecmascript
文章目录一、前言二、本节涉及知识点三、重点内容1-函数的定义2-函数的构成1.函数参数详解1）参数个数不固定2）默认参数3）arguments对象（类数组）4）剩余参数（Rest参数）5）函数参数是按值传递的6）解构参数传递7）参数校验技巧（JavaScript没有类型限制，需要手动校验）2.函数返回值详解3-函数的分类1-函数声明式：2-函数表达式：3-箭头函数：4-构造函数：5-IIFE：6-
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他