悟空聊架构

别只会搜日志了，求你懂点检索原理吧

本篇主要内容如下：

前言

项目中我们总是用 Kibana 界面来搜索测试或生产环境下的日志，来看下有没有异常信息。Kibana 就是我们常说的 ELK 中的 K。

Kibana 界面如下图所示：

但这些日志检索原理是什么呢？这里就该我们的 Elasticsearch 搜索引擎登场了。

我会分为三篇来讲解 Elasticsearch（简称ES）的原理、实战及部署。

上篇： 讲解 ES 的原理、中文分词的配置。
中篇： 实战 ES 应用。
下篇： ES 的集群部署。

为什么要分成三篇，因为每一篇都很长，而且侧重点不一样，所以分成三篇来讲解。

一、Elasticsearch 简介

1.1 什么是 Elasticsearch?

Elasticsearch 是一个分布式的开源搜索和分析引擎，适用于所有类型的数据，包括文本、数字、地理空间、结构化和非结构化数据。简单来说只要涉及搜索和分析相关的， ES 都可以做。

1.2 Elasticsearch 的用途？

Elasticsearch 在速度和可扩展性方面都表现出色，而且还能够索引多种类型的内容，这意味着其可用于多种用例：

比如一个在线网上商店，您可以在其中允许客户搜索您出售的产品。在这种情况下，您可以使用Elasticsearch 存储整个产品目录和库存，并为它们提供搜索和自动完成建议。

比如收集日志或交易数据，并且要分析和挖掘此数据以查找趋势，统计信息，摘要或异常。在这种情况下，您可以使用 Logstash（Elasticsearch / Logstash / Kibana堆栈的一部分）来收集，聚合和解析数据，然后让 Logstash 将这些数据提供给 Elasticsearch。数据放入 Elasticsearch 后，您可以运行搜索和聚合以挖掘您感兴趣的任何信息。

1.3 Elasticsearch 的工作原理？

Elasticsearch 是在 Lucene 基础上构建而成的。ES 在 Lucence 上做了很多增强。

Lucene 是apache软件基金会 4 的 jakarta 项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。（来自百度百科）

Elasticsearch 的原始数据从哪里来？

原始数据从多个来源 ( 包括日志、系统指标和网络应用程序 ) 输入到 Elasticsearch 中。

Elasticsearch 的数据是怎么采集的？

数据采集指在 Elasticsearch 中进行索引之前解析、标准化并充实这些原始数据的过程。这些数据在 Elasticsearch 中索引完成之后，用户便可针对他们的数据运行复杂的查询，并使用聚合来检索自身数据的复杂汇总。这里用到了 Logstash，后面会介绍。

怎么可视化查看想要检索的数据？

这里就要用到 Kibana 了，用户可以基于自己的数据进行搜索、查看数据视图等。

1.4 Elasticsearch 索引是什么？

Elasticsearch 索引指相互关联的文档集合。Elasticsearch 会以 JSON 文档的形式存储数据。每个文档都会在一组键 ( 字段或属性的名称 ) 和它们对应的值 ( 字符串、数字、布尔值、日期、数值组、地理位置或其他类型的数据 ) 之间建立联系。

Elasticsearch 使用的是一种名为倒排索引的数据结构，这一结构的设计可以允许十分快速地进行全文本搜索。倒排索引会列出在所有文档中出现的每个特有词汇，并且可以找到包含每个词汇的全部文档。

在索引过程中，Elasticsearch 会存储文档并构建倒排索引，这样用户便可以近实时地对文档数据进行搜索。索引过程是在索引 API 中启动的，通过此 API 您既可向特定索引中添加 JSON 文档，也可更改特定索引中的 JSON 文档。

1.5 Logstash 的用途是什么？

Logstash 就是 ELK 中的 L。

Logstash 是 Elastic Stack 的核心产品之一，可用来对数据进行聚合和处理，并将数据发送到 Elasticsearch。Logstash 是一个开源的服务器端数据处理管道，允许您在将数据索引到 Elasticsearch 之前同时从多个来源采集数据，并对数据进行充实和转换。

1.6 Kibana 的用途是什么？

Kibana 是一款适用于 Elasticsearch 的数据可视化和管理工具，可以提供实时的直方图、线性图等。

1.7 为什么使用 Elasticsearch

ES 很快，近实时的搜索平台。
ES 具有分布式的本质特质。
ES 包含一系列广泛的功能，比如数据汇总和索引生命周期管理。

官方文档：https://www.elastic.co/cn/what-is/elasticsearch

二、ES 基本概念

2.1 Index ( 索引 )

动词：相当于 Mysql 中的 insert

名词：相当于 Mysql 中的 database

与 mysql 的对比

序号	Mysql	Elasticsearch
1	Mysql 服务	ES 集群服务
2	数据库 Database	索引 Index
3	表 Table	类型 Type
4	记录 Records ( 一行行记录 )	文档 Document ( JSON 格式 )

2.2 倒排索引

假如数据库有如下电影记录：

1-大话西游

2-大话西游外传

3-解析大话西游

4-西游降魔外传

5-梦幻西游独家解析

分词：将整句分拆为单词

序号	保存到 ES 的词	对应的电影记录序号
A	西游	1,2, 3,4, 5
B	大话	1,2, 3
C	外传	2,4, 5
D	解析	3,5
E	降魔	4
F	梦幻	5
G	独家	5

检索：独家大话西游

将 独家大话西游 解析拆分成 独家、大话、西游

ES 中 A、B、G 记录都有这三个词的其中一种，所以 1,2, 3,4, 5 号记录都有相关的词被命中。

1 号记录命中 2 次， A、B 中都有 ( 命中 2 次 ) ，而且 1 号记录有 2 个词，相关性得分：2 次/2 个词=1

2 号记录命中 2 个词 A、B 中的都有 ( 命中 2 次 ) ，而且 2 号记录有 2 个词，相关性得分：2 次/3 个词= 0.67

3 号记录命中 2 个词 A、B 中的都有 ( 命中 2 次 ) ，而且 3 号记录有 2 个词，相关性得分：2 次/3 个词= 0.67

4 号记录命中 2 个词 A 中有 ( 命中 1 次 ) ，而且 4 号记录有 2 个词，相关性得分：1 次/3 个词= 0.33

5 号记录命中 2 个词 A 中有 ( 命中 2 次 ) ，而且 4 号记录有 4 个词，相关性得分：2 次/4 个词= 0.5

所以检索出来的记录顺序如下：

1-大话西游 ( 想关性得分：1 )

2-大话西游外传 ( 想关性得分：0.67 )

3-解析大话西游 ( 想关性得分：0.67 )

5-梦幻西游独家解析 ( 想关性得分：0.5 )

4-西游降魔 ( 想关性得分：0.33 )

三、Docker 搭建环境

3.1. 搭建 Elasticsearch 环境

搭建虚拟机环境和安装 docker 可以参照之前写的文档：

[01. 快速搭建 Linux 环境-运维必备] ( http://www.jayh.club/#/05. 安装部署篇/01. 环境搭建篇 )
[02. 配置虚拟机网络] ( http://www.jayh.club/#/05. 安装部署篇/02. 配置虚拟机网络 )
[03. 安装 Docker] ( http://www.jayh.club/#/05. 安装部署篇/03. 安装 docker )

1 ) 下载镜像文件

docker pull elasticsearch:7.4.2

2 ) 创建实例

1. 映射配置文件

配置映射文件夹
mkdir -p /mydata/elasticsearch/config

配置映射文件夹
mkdir -p /mydata/elasticsearch/data

设置文件夹权限任何用户可读可写
chmod 777 /mydata/elasticsearch -R

配置 http.host
echo "http.host: 0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml

1. 启动 elasticsearch 容器

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
-e "discovery.type"="single-node" \
-e ES_JAVA_OPTS="-Xms64m -Xmx128m" \
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
-d elasticsearch:7.4.2

1. 访问 elasticsearch 服务

访问：http://192.168.56.10:9200

返回的 reponse

{
  "name" : "8448ec5f3312",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "xC72O3nKSjWavYZ-EPt9Gw",
  "version" : {
    "number" : "7.4.2",
    "build_flavor" : "default",
    "build_type" : "docker",
    "build_hash" : "2f90bbf7b93631e52bafb59b3b049cb44ec25e96",
    "build_date" : "2019-10-28T20:40:44.881551Z",
    "build_snapshot" : false,
    "lucene_version" : "8.2.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

访问：http://192.168.56.10:9200/_cat 访问节点信息

127.0.0.1 62 90 0 0.06 0.10 0.05 dilm * 8448ec5f3312

3.2. 搭建 Kibana 环境

docker pull kibana:7.4.2

docker run --name kibana -e ELASTICSEARCH_HOSTS=http://192.168.56.10:9200 -p 5601:5601 -d kibana:7.4.2

访问 kibana: http://192.168.56.10:5601/

四、初阶检索玩法

4.1._cat 用法

GET /_cat/nodes: 查看所有节点
GET /_cat/health: 查看 es 健康状况
GET /_cat/master: 查看主节点
GET /_cat/indices: 查看所有索引

查询汇总：
/_cat/allocation
/_cat/shards
/_cat/shards/{index}
/_cat/master
/_cat/nodes
/_cat/tasks
/_cat/indices
/_cat/indices/{index}
/_cat/segments
/_cat/segments/{index}
/_cat/count
/_cat/count/{index}
/_cat/recovery
/_cat/recovery/{index}
/_cat/health
/_cat/pending_tasks
/_cat/aliases
/_cat/aliases/{alias}
/_cat/thread_pool
/_cat/thread_pool/{thread_pools}
/_cat/plugins
/_cat/fielddata
/_cat/fielddata/{fields}
/_cat/nodeattrs
/_cat/repositories
/_cat/snapshots/{repository}
/_cat/templates

4.2. 索引一个文档 ( 保存 )

例子：在 customer 索引下的 external 类型下保存标识为 1 的数据。

使用 Kibana 的 Dev Tools 来创建

PUT member/external/1

{
"name":"jay huang"
}

Reponse:

{
    "_index": "member", //在哪个索引
    "_type": "external",//在那个类型
    "_id": "2",//记录 id
    "_version": 7,//版本号
    "result": "updated",//操作类型
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 9,
    "_primary_term": 1
}

也可以通过 Postman 工具发送请求来创建记录。

注意：

PUT 和 POST 都可以创建记录。

POST：如果不指定 id，自动生成 id。如果指定 id，则修改这条记录，并新增版本号。

PUT：必须指定 id，如果没有这条记录，则新增，如果有，则更新。

4.3 查询文档

请求：http://192.168.56.10:9200/member/external/2

Reposne:
{
    "_index": "member",   //在哪个索引
    "_type": "external",  //在那个类型
    "_id": "2",           //记录 id
    "_version": 7,        //版本号
    "_seq_no": 9,         //并发控制字段，每次更新就会+1，用来做乐观锁
    "_primary_term": 1,   //同上，主分片重新分配，如重启，就会变化
    "found": true,
    "_source": { //真正的内容
        "name": "jay huang"
 }
}

_seq_no 用作乐观锁

每次更新完数据后，_seq_no 就会+1，所以可以用作并发控制。

当更新记录时，如果_seq_no 与预设的值不一致，则表示记录已经被至少更新了一次，不允许本次更新。

用法如下：

请求更新记录 2: http://192.168.56.10:9200/member/external/2?if_seq_no=9&&if_primary_term=1
返回结果：
{
    "_index": "member",
    "_type": "external",
    "_id": "2",
    "_version": 9,
    "result": "updated",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 11,
    "_primary_term": 1
}

_seq_no 等于 10，且_primary_term=1 时更新数据，执行一次请求后，再执行上面的请求则会报错：版本冲突

{
    "error": {
        "root_cause": [
 {
                "type": "version_conflict_engine_exception",
                "reason": "[2]: version conflict, required seqNo [10], primary term [1]. current document has seqNo [11] and primary term [1]",
                "index_uuid": "CX6uwPBKRByWpuym9rMuxQ",
                "shard": "0",
                "index": "member"
 }
        ],
        "type": "version_conflict_engine_exception",
        "reason": "[2]: version conflict, required seqNo [10], primary term [1]. current document has seqNo [11] and primary term [1]",
        "index_uuid": "CX6uwPBKRByWpuym9rMuxQ",
        "shard": "0",
        "index": "member"
    },
    "status": 409
}

4.4 更新文档

用法

POST 带 _update 的更新操作，如果原数据没有变化，则 repsonse 中的 result 返回 noop ( 没有任何操作 ) ，version 也不会变化。

请求体中需要用 doc 将请求数据包装起来。

POST 请求：http://192.168.56.10:9200/member/external/2/_update
{
    "doc":{
        "name":"jay huang"
 }
}
响应：
{
    "_index": "member",
    "_type": "external",
    "_id": "2",
    "_version": 12,
    "result": "noop",
    "_shards": {
        "total": 0,
        "successful": 0,
        "failed": 0
    },
    "_seq_no": 14,
    "_primary_term": 1
}

使用场景：对于大并发更新，建议不带 _update。对于大并发查询，少量更新的场景，可以带_update，进行对比更新。

更新时增加属性

请求体中增加 age 属性

http://192.168.56.10:9200/member/external/2/_update
request:
{
    "doc":{
        "name":"jay huang",
        "age": 18
 }
}
response:
{
    "_index": "member",
    "_type": "external",
    "_id": "2",
    "_version": 13,
    "result": "updated",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 15,
    "_primary_term": 1
}

4.5 删除文档和索引

删除文档

DELETE 请求：http://192.168.56.10:9200/member/external/2
response:
{
    "_index": "member",
    "_type": "external",
    "_id": "2",
    "_version": 2,
    "result": "deleted",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 1,
    "_primary_term": 1
}

删除索引

DELETE 请求：http://192.168.56.10:9200/member
repsonse:
{
    "acknowledged": true
}

没有删除类型的功能

4.6 批量导入数据

使用 kinaba 的 dev tools 工具，输入以下语句

POST /member/external/_bulk
{"index":{"_id":"1"}}
{"name":"Jay Huang"}
{"index":{"_id":"2"}}
{"name":"Jackson Huang"}

执行结果如下图所示：

拷贝官方样本数据

https://raw.githubusercontent.com/elastic/elasticsearch/master/docs/src/test/resources/accounts.json

在 kibana 中执行脚本

POST /bank/account/_bulk
{"index":{"_id":"1"}}
{"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"[email protected]","city":"Brogan","state":"IL"}
{"index":{"_id":"6"}}
......

查看所有索引

可以从返回结果中看到 bank 索引有 1000 条数据，占用了 440.2kb 存储空间。

五、高阶检索玩法

5.1 两种查询方式

5.1.1 URL 后接参数

GET bank/_search?q=*&sort=account_number: asc

``/_search?q=*&sort=account_number: asc

查询出所有数据，共 1000 条数据，耗时 1ms，只展示 10 条数据 ( ES 分页 )

属性值说明：

took – ES 执行搜索的时间 ( 毫秒 )
timed_out – ES 是否超时
_shards – 有多少个分片被搜索了，以及统计了成功/失败/跳过的搜索的分片
max_score – 最高得分
hits.total.value - 命中多少条记录
hits.sort - 结果的排序 key 键，没有则按 score 排序
hits._score - 相关性得分
参考文档：
https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started-search.html

5.1.2 URL 加请求体进行检索 ( QueryDSL )

请求体中写查询条件

语法：

GET bank/_search
{
  "query":{"match_all": {}},
  "sort": [
    {"account_number": "asc" }
 ]
}

示例：查询出所有，先按照 accout_number 升序排序，再按照 balance 降序排序

5.2 详解 QueryDSL 查询

DSL: Domain Specific Language

5.2.1 全部匹配 match_all

示例：查询所有记录，按照 balance 降序排序，只返回第 11 条记录到第 20 条记录，只显示 balance 和 firstname 字段。

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
 {
      "balance": {
        "order": "desc"
 }
 }
  ],
  "from": 10,
  "size": 10,
  "_source": ["balance", "firstname"]
}

5.2.2 匹配查询 match

基本类型 ( 非字符串 ) ，精确匹配

GET bank/_search
{
  "query": {
    "match": {"account_number": "30"}
 }
}

字符串，全文检索

GET bank/_search
{
  "query": {
    "match": {
      "address": "mill road"
 }
 }
}

全文检索按照评分进行排序，会对检索条件进行分词匹配。

查询 address 中包含 mill 或者 road 或者 mill road 的所有记录，并给出相关性得分。

查到了 32 条记录，最高的一条记录是 Address = "990 Mill Road"，得分：8.926605. Address="198 Mill Lane" 评分 5.4032025，只匹配到了 Mill 单词。

5.2.3 短语匹配 match_phase

将需要匹配的值当成一个整体单词 ( 不分词 ) 进行检索

GET bank/_search
{
  "query": {
    "match_phrase": {
      "address": "mill road"
 }
 }
}

查出 address 中包含 mill road 的所有记录，并给出相关性得分

5.2.4 多字段匹配 multi_match

GET bank/_search
{
  "query": {
    "multi_match": {
      "query": "mill land",
      "fields": [
        "state",
        "address"
 ]
 }
 }
}

multi_match 中的 query 也会进行分词。

查询 state 包含 mill 或 land 或者 address 包含 mill 或 land 的记录。

5.2.5 复合查询 bool

复合语句可以合并任何其他查询语句，包括复合语句。复合语句之间可以相互嵌套，可以表达复杂的逻辑。

搭配使用 must,must_not,should

must: 必须达到 must 指定的条件。 ( 影响相关性得分 )

must_not: 必须不满足 must_not 的条件。 ( 不影响相关性得分 )

should: 如果满足 should 条件，则可以提高得分。如果不满足，也可以查询出记录。 ( 影响相关性得分 )

示例：查询出地址包含 mill，且性别为 M，年龄不等于 28 的记录，且优先展示 firstname 包含 Winnie 的记录。

GET bank/_search
{
  "query": {
    "bool": {
      "must": [
 {
          "match": {
            "address": "mill"
 }
        },
 {
          "match": {
            "gender": "M"
 }
 }
      ],
      "must_not": [
 {
          "match": {
            "age": "28"
 }
 }
      ],
      "should": [
 {
          "match": {
            "firstname": "Winnie"
 }
 }
 ]
 }
 }
}

5.2.6 filter 过滤

不影响相关性得分，查询出满足 filter 条件的记录。

在 bool 中使用。

GET bank/_search
{
  "query": {
    "bool": {
      "filter": [
 {
          "range": {
            "age": {
              "gte":18,
              "lte":40
 }
 }
 }
 ]
 }
 }
}

5.2.7 term 查询

匹配某个属性的值。

全文检索字段用 match，其他非 text 字段匹配用 term

keyword：文本精确匹配 ( 全部匹配 )

match_phase：文本短语匹配

非 text 字段精确匹配
GET bank/_search
{
  "query": {
    "term": {
      "age": "20"
 }
 }
}

5.2.8 aggregations 聚合

聚合：从数据中分组和提取数据。类似于 SQL GROUP BY 和 SQL 聚合函数。

Elasticsearch 可以将命中结果和多个聚合结果同时返回。

聚合语法：

"aggregations" : {
    "<聚合名称 1>" : {
        "<聚合类型>" : {
            <聚合体内容>
        }
        [,"元数据" : {  [] }]?
        [,"aggregations" : { []+ }]?
    }
    [,"聚合名称 2>" : { ... }]*
}

示例 1：搜索 address 中包含 big 的所有人的年龄分布 ( 前 10 条 ) 以及平均年龄，以及平均薪资

GET bank/_search
{
  "query": {
    "match": {
      "address": "mill"
 }
  },
  "aggs": {
    "ageAggr": {
      "terms": {
        "field": "age",
        "size": 10
       }
    },
    "ageAvg": {
      "avg": {
        "field": "age"
      }
    },
    "balanceAvg": {
      "avg": {
        "field": "balance"
      }
   }
 }
}

检索结果如下所示：

hits 记录返回了，三种聚合结果也返回了，平均年龄 34 随，平均薪资 25208.0，品骏年龄分布：38 岁的有 2 个，28 岁的有一个，32 岁的有一个

如果不想返回 hits 结果，可以在最后面设置 size:0

GET bank/_search
{
  "query": {
    "match": {
      "address": "mill"
 }
  },
  "aggs": {
    "ageAggr": {
      "terms": {
        "field": "age",
        "size": 10
      }
    }
  },
  "size": 0
}

示例 2：按照年龄聚合，并且查询这些年龄段的平均薪资

从结果可以看到 31 岁的有 61 个，平均薪资 28312.9，其他年龄的聚合结果类似。

示例 3：按照年龄分组，然后将分组后的结果按照性别分组，然后查询出这些分组后的平均薪资

GET bank/_search
{
  "query": {
    "match_all": {
 }
  },
  "aggs": {
    "ageAggr": {
      "terms": {
        "field": "age",
        "size": 10
      },
      "aggs": {
        "genderAggr": {
          "terms": {
            "field": "gender.keyword",
            "size": 10
          },
          "aggs": {
            "balanceAvg": {
              "avg": {
                "field": "balance"
          }
        }
      }
    }
  }
 }
  },
  "size": 0
}

从结果可以看到 31 岁的有 61 个。其中性别为 M 的 35 个，平均薪资 29565.6，性别为 F 的 26 个，平均薪资 26626.6。其他年龄的聚合结果类似。

5.2.9 Mapping 映射

Mapping 是用来定义一个文档 ( document ) ，以及它所包含的属性 ( field ) 是如何存储和索引的。

定义哪些字符串属性应该被看做全文本属性 ( full text fields )
定义哪些属性包含数字，日期或地理位置
定义文档中的所有属性是否都能被索引 ( _all 配置 )
日期的格式
自定义映射规则来执行动态添加属性

Elasticsearch7 去掉 tpye 概念：

关系型数据库中两个数据库表示是独立的，即使他们里面有相同名称的列也不影响使用，但 ES 中不是这样的。elasticsearch 是基于 Lucence 开发的搜索引擎，而 ES 中不同 type 下名称相同的 field 最终在 Lucence 中的处理方式是一样的。

为了区分不同 type 下的同一名称的字段，Lucence 需要处理冲突，导致检索效率下降

ES7.x 版本：URL 中的 type 参数为可选。

ES8.x 版本：不支持 URL 中的 type 参数

所有类型可以参考文档：https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html

查询索引的映射

如查询 my-index 索引的映射

GET /my-index/_mapping
返回结果：
{
  "my-index" : {
    "mappings" : {
      "properties" : {
        "age" : {
          "type" : "integer"
        },
        "email" : {
          "type" : "keyword"
        },
        "employee-id" : {
          "type" : "keyword",
          "index" : false
        },
        "name" : {
          "type" : "text"
      }
    }
  }
 }
}

创建索引并指定映射

如创建 my-index 索引，有三个字段 age,email,name，指定类型为 interge, keyword, text

PUT /my-index
{
  "mappings": {
    "properties": {
      "age": { "type": "integer" },
      "email": { "type": "keyword"  },
      "name": { "type": "text" }
    }
 }
返回结果：
{
  "acknowledged" : true,
  "shards_acknowledged" : true,
  "index" : "my-index"
}

添加新的字段映射

如在 my-index 索引里面添加 employ-id 字段，指定类型为 keyword

PUT /my-index/_mapping
{
  "properties": {
    "employee-id": {
      "type": "keyword",
      "index": false
    }
 }
}

更新映射

我们不能更新已经存在的映射字段，必须创建新的索引进行数据迁移。

数据迁移


POST _reindex
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
 }
}

六、中文分词

ES 内置了很多种分词器，但是对中文分词不友好，所以我们需要借助第三方中文分词工具包。

6.1 ES 中的分词的原理

6.1.1 ES 的分词器概念

ES 的一个分词器 ( tokenizer ) 接收一个字符流，将其分割为独立的词元 ( tokens ) ，然后输出词元流。

ES 提供了很多内置的分词器，可以用来构建自定义分词器 ( custom ananlyzers )

6.1.2 标准分词器原理

比如 stadard tokenizer 标准分词器，遇到空格进行分词。该分词器还负责记录各个词条 ( term ) 的顺序或 position 位置 ( 用于 phrase 短语和 word proximity 词近邻查询 ) 。每个单词的字符偏移量 ( 用于高亮显示搜索的内容 ) 。

6.1.3 英文和标点符号分词示例

查询示例如下：

POST _analyze
{
  "analyzer": "standard",
  "text": "Do you know why I want to study ELK? 2 3 33..."
}

查询结果：

do, you, know, why, i, want, to, study, elk, 2,3,33

从查询结果可以看到：

（1）标点符号没有分词。

（2）数字会进行分词。

6.1.4 中文分词示例

但是这种分词器对中文的分词支持不友好，会将词语分词为单独的汉字。比如下面的示例会将 悟空聊架构 分词为 悟,空,聊,架,构，期望分词为 悟空，聊，架构。

POST _analyze
{
  "analyzer": "standard",
  "text": "悟空聊架构"
}

我们可以安装 ik 分词器来更加友好的支持中文分词。

6.2 安装 ik 分词器

6.2.1 ik 分词器地址

ik 分词器地址：

https://github.com/medcl/elasticsearch-analysis-ik/releases

先检查 ES 版本，我安装的版本是 7.4.2，所以我们安装 ik 分词器的版本也选择 7.4.2

http://192.168.56.10:9200/
{
  "name" : "8448ec5f3312",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "xC72O3nKSjWavYZ-EPt9Gw",
  "version" : {
    "number" : "7.4.2",
    "build_flavor" : "default",
    "build_type" : "docker",
    "build_hash" : "2f90bbf7b93631e52bafb59b3b049cb44ec25e96",
    "build_date" : "2019-10-28T20:40:44.881551Z",
    "build_snapshot" : false,
    "lucene_version" : "8.2.0",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

6.2.2 安装 ik 分词器的方式

6.2.2.1 方式一：容器内安装 ik 分词器

进入 es 容器内部 plugins 目录

docker exec -it <容器 id> /bin/bash

获取 ik 分词器压缩包

wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.4.2/elasticsearch-analysis-ik-7.4.2.zip

解压缩 ik 压缩包

unzip 压缩包

删除下载的压缩包

rm -rf *.zip

6.2.2.2 方式二：映射文件安装 ik 分词器

进入到映射文件夹

cd /mydata/elasticsearch/plugins

下载安装包

wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.4.2/elasticsearch-analysis-ik-7.4.2.zip

解压缩 ik 压缩包

unzip 压缩包

删除下载的压缩包

rm -rf *.zip

6.2.2.3 方式三：Xftp 上传压缩包到映射目录

先用 XShell 工具连接虚拟机 ( 操作步骤可以参考之前写的文章 [02. 快速搭建 Linux 环境-运维必备] ( http://www.jayh.club/#/05. 安装部署篇/01. 环境搭建篇 )) ，然后用 Xftp 将下载好的安装包复制到虚拟机。

6.3 解压 ik 分词器到容器中

如果没有安装 unzip 解压工具，则安装 unzip 解压工具。

apt install unzip

解压 ik 分词器到当前目录的 ik 文件夹下。

命令格式：unzip

实例：

unzip ELK-IKv7.4.2.zip -d ./ik

修改文件夹权限为可读可写。

chmod -R 777 ik/

删除 ik 分词器压缩包

rm ELK-IKv7.4.2.zip

6.4 检查 ik 分词器安装

进入到容器中

docker exec -it <容器 id> /bin/bash

查看 Elasticsearch 的插件

elasticsearch-plugin list

结果如下，说明 ik 分词器安装好了。是不是很简单。

ik

然后退出 Elasticsearch 容器，并重启 Elasticsearch 容器

exit
docker restart elasticsearch

6.5 使用 ik 中文分词器

ik 分词器有两种模式

智能分词模式 ( ik_smart )
最大组合分词模式 ( ik_max_word )

我们先看下 智能分词 模式的效果。比如对于 一颗小星星 进行中文分词，得到的两个词语：一颗、小星星

我们在 Dev Tools Console 输入如下查询

POST _analyze
{
  "analyzer": "ik_smart",
  "text": "一颗小星星"
}

得到如下结果，被分词为一颗和小星星。

再来看下 最大组合分词模式。输入如下查询语句。

POST _analyze
{
  "analyzer": "ik_max_word",
  "text": "一颗小星星"
}

一颗小星星 被分成了 6 个词语：一颗、一、颗、小星星、小星、星星。

我们再来看下另外一个中文分词。比如搜索悟空哥聊架构，期望结果：悟空哥、聊、架构三个词语。

实际结果：悟、空哥、聊、架构四个词语。ik 分词器将悟空哥分词了，认为 空哥 是一个词语。所以需要让 ik 分词器知道 悟空哥 是一个词语，不需要拆分。那怎么办做呢？

6.5 自定义分词词库

6.5.1 自定义词库的方案

方案

新建一个词库文件，然后在 ik 分词器的配置文件中指定分词词库文件的路径。可以指定本地路径，也可以指定远程服务器文件路径。这里我们使用远程服务器文件的方案，因为这种方案可以支持热更新 ( 更新服务器文件，ik 分词词库也会重新加载 ) 。
修改配置文件

ik 分词器的配置文件在容器中的路径：

/usr/share/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml。

修改这个文件可以通过修改映射文件，文件路径：

/mydata/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

编辑配置文件：

vim /mydata/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml

配置文件内容如下所示：




    IK Analyzer 扩展配置
    
    custom/mydict.dic;custom/single_word_low_freq.dic
     
    custom/ext_stopword.dic
     
    location
     
    http://xxx.com/xxx.dic

修改配置 remote_ext_dict 的属性值，指定一个远程网站文件的路径，比如 http://www.xxx.com/ikwords.text。

这里我们可以自己搭建一套 nginx 环境，然后把 ikwords.text 放到 nginx 根目录。

6.5.2 搭建 nginx 环境

方案：首先获取 nginx 镜像，然后启动一个 nginx 容器，然后将 nginx 的配置文件拷贝到根目录，再删除原 nginx 容器，再用映射文件夹的方式来重新启动 nginx 容器。

通过 docker 容器安装 nginx 环境。

docker run -p 80:80 --name nginx -d nginx:1.10

拷贝 nginx 容器的配置文件到 mydata 目录的 conf 文件夹

cd /mydata
docker container cp nginx:/etc/nginx ./conf

mydata 目录里面创建 nginx 目录

mkdir nginx

移动 conf 文件夹到 nginx 映射文件夹

mv conf nginx/

终止并删除原 nginx 容器

docker stop nginx
docker rm <容器 id>

启动新的容器

docker run -p 80:80 --name nginx \
-v /mydata/nginx/html:/usr/share/nginx/html \
-v /mydata/nginx/logs:/var/log/nginx \
-v /mydata/nginx/conf:/etc/nginx \
-d nginx:1.10

访问 nginx 服务

192.168.56.10

报 403 Forbidden, nginx/1.10.3 则表示 nginx 服务正常启动。403 异常的原因是 nginx 服务下没有文件。

cd /mydata/nginx/html
vim index.html
hello passjava

再次访问 nginx 服务

浏览器打印 hello passjava。说明访问 nginx 服务的页面没有问题。
创建 ik 分词词库文件

cd /mydata/nginx/html
mkdir ik
cd ik
vim ik.txt

填写 悟空哥，并保存文件。

访问词库文件

http://192.168.56.10/ik/ik.txt

浏览器会输出一串乱码，可以先忽略乱码问题。说明词库文件可以访问到。

修改 ik 分词器配置

cd /mydata/elasticsearch/plugins/ik/config
vim IKAnalyzer.cfg.xml

重启 elasticsearch 容器并设置每次重启机器后都启动 elasticsearch 容器。

docker restart elasticsearch
docker update elasticsearch --restart=always

再次查询分词结果

可以看到 悟空哥聊架构 被拆分为 悟空哥、聊、架构 三个词语，说明自定义词库中的 悟空哥 有作用。

七、写在最后

中篇和下篇继续肝，加油冲呀！

中篇：实战 ES 应用。
下篇： ES 的集群部署。

你好，我是悟空哥，「7年项目开发经验，全栈工程师，开发组长，超喜欢图解编程底层原理」。
我还手写了 2 个小程序，Java 刷题小程序，PMP 刷题小程序，点击我的公众号菜单打开！
另外有 111 本架构师资料以及 1000 道 Java 面试题，都整理成了PDF。
可以关注公众号 「悟空聊架构」 回复 悟空 领取优质资料。

「转发->在看->点赞->收藏->评论！！！」 是对我最大的支持！

我是悟空哥，努力变强，变身超级赛亚人！我们下期见！

你可能感兴趣的:(分布式,ELK,搜索引擎)

GEO + SEO+SMO：AI时代全域组合营销智***O 人工智能 GEO优化大数据 GEO AI搜索
在信息爆炸的时代，用户每一次搜索的背后，都是一次决策的起点。当AI工具逐渐成为人们获取答案的首选，如何让你的品牌在AI生成的回答中占据核心位置？如何让用户在不同平台搜索时，始终选择你？智火营销SEO+GEO+SMO组合营销策略，让品牌成为用户与“搜索”之间的桥梁。智火营销GEO服务一、SEO：巩固搜索生态的信任基石在AI工具与社交平台崛起的当下，传统搜索引擎仍是用户验证信息的重要场景。SEO（搜索
Agent架构解析及分布式Agent协作方案
来源：AI大模型应用实践AIAgent（智能体）系统发展迅猛，且关注点已经不再局限在Agent的规划推理等基本能力，智能体系统在扩展性、互操作、安全性等工程化方面的挑战也越来越引起重视，比如最近的MCP和A2A。上一篇我们介绍了A2A，今天接着再聊聊分布式Agent系统的话题。Agent模式架构解析Agent有效减少人类工作总量，人与AI协作才是最终形态。人类与AI交互可大致分为三种模式。Embe
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
2018-04-08 viper44
科技就是将复杂的事情简单化，所以智能手机的出现显著降低了我们学习的难度，只要善于使用搜索引擎，几乎能够获得所有的知识，而我们利用这些工具的姿势，会反过来决定我们未来的走向，所以一定不能做伸手党，能查到东西尽量自己去搜索，网上有很多现成的成功，我们要善于搜索，把节约的时间拿去干别的事生活中会面临很多突发状况，要如何才能从容面对呢，培养急智的最简单的方法就是列举出所有可能出现的问题，并对它们制定一些相
RabbitMQ深度解析：从核心概念到实战应用 JouJz rabbitmq ruby 分布式
RabbitMQ深度解析：从核心概念到实战应用引言：现代分布式系统的通信枢纽在当今复杂的分布式系统架构中，消息队列已成为不可或缺的基础组件。作为最受欢迎的开源消息代理之一，RabbitMQ以其可靠性、灵活性和跨平台能力赢得了广泛青睐。本文将全面剖析RabbitMQ的核心机制、工作模式及高级特性，帮助开发者掌握这一强大的异步通信工具。一、RabbitMQ核心概念解析1.1基本架构模型RabbitMQ
Kafka深度解析：架构、原理与应用实践 JouJz kafka 架构 linq
Kafka深度解析：架构、原理与应用实践引言在现代分布式系统架构中，消息队列作为系统解耦、异步通信的核心组件发挥着至关重要的作用。而在众多消息队列解决方案中，ApacheKafka凭借其卓越的性能、高吞吐量和可靠性，已成为企业级数据管道的首选技术。本文将深入剖析Kafka的核心架构、工作原理以及实践应用，帮助开发者全面掌握这一强大的分布式消息系统。一、Kafka概述与核心概念1.1Kafka的诞生
深入理解红锁未来并未来 redis 数据库缓存
在构建高并发、高可用的分布式系统时，我们常常会遇到这样一个核心挑战：如何确保多个服务实例能够安全、有序地访问共享资源，避免竞态条件（RaceCondition）和数据不一致？传统单机环境下的锁机制（如Java的synchronized或ReentrantLock）在分布式场景下显得力不从心。于是，分布式锁应运而生，而基于Redis的分布式锁因其高性能和简单性而被广泛应用。然而，单节点Redis锁在
Redis分布式锁深度剖析：从原理到高可用实践 JouJz redis 分布式 wpf
Redis分布式锁深度剖析：从原理到高可用实践引言：分布式环境下的锁之殇在分布式系统中，共享资源互斥访问是保证数据一致性的核心挑战。传统单机锁（如synchronized）在跨进程场景下完全失效，这就是分布式锁的用武之地。Redis凭借其高性能、原子操作等特性，成为实现分布式锁的主流方案。本文将深入解析Redis分布式锁的实现原理、典型问题及工业级解决方案。一、分布式锁的本质要求1.1必须满足的核
JAVA中分布式环境中如何实现单点登录与session共享在远方的你等我
在单服务器web应用中，登录用户信息只需存在该服务的session中，这是我们几年前最长见的办法。而在当今分布式系统的流行中，微服务已成为主流，用户登录由某一个单点服务完成并存储session后，在高并发量的请求（需要验证登录信息）到达服务端的时候通过负载均衡的方式分发到集群中的某个服务器，这样就有可能导致同一个用户的多次请求被分发到集群的不同服务器上，就会出现取不到session数据的情况，于是
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
使用 DeepSeek R1 和 Ollama 开发 RAG 系统使用 DeepSeek R1 和 Ollama 构建强大的 RAG 系统。了解开发智能 AI 解决方案的设置过程、最佳实践和技巧。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介DeepSeekR1和Ollama提供了用于构建检索增强生成(RAG)系统的强大工具。本指南介绍了使用这些技术开发RAG应用程序的设置、实施和最佳实践。为什么RAG系统会改变游戏规则检索增强生成(RAG)系统结合了搜索和生成AI的优点，可实现精确且准确的情境感知响应。借助DeepSeekR1和Ollama等工具，创建RAG系统不再令人生畏。无论您是构建聊天机器人、知识助手还是AI驱动的搜索引擎
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Windows下的redis 517 redis 数据库缓存
1:在配置path后：redis-cli默认16个数据库2然后再验证set和get命令，如果一切正常便安装部署成功。一、键（Key）的增删改查操作命令示例说明增SETkeyvalueSETusername"john"设置字符串键值删DELkeyDELusername删除键（可多键：DELk1k2）改SETkeynew_valueSETusername"mike"覆盖原有值查GETke
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam