ElasticSearch-全文检索技术

简介

全文搜索属于最常见的需求,开源的 Elasticsearch 是目前全文搜索引擎的首选。 它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它 Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene,必须自己写代码去调用它的 接口。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。REST API:天然的跨平台。

官方文档:

https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

官方中文:

https://www.elastic.co/guide/cn/elasticsearch/guide/current/foreword_id.html

社区中文:

https://es.xiaoleilu.com/index.html

http://doc.codingdict.com/elasticsearch/0/

基本概念

1、Index(索引) 动词,相当于 MySQL 中的 insert; 名词,相当于 MySQL 中的 Database

2、Type(类型) 在 Index(索引)中,可以定义一个或多个类型。 类似于 MySQL 中的 Table;每一种类型的数据放在一起;

3、Document(文档) 保存在某个索引(Index)下,某种类型(Type)的一个数据(Document),文档是 JSON 格 式的,Document 就像是 MySQL 中的某个 Table 里面的内容

安装 

下载镜像文件

下载存储和检索数据

     输入下载命令(前提安装好docker docker安装与简易使用可以查看本博主的上一篇docker文章)

docker pull elasticsearch:7.4.2

下载可视化检索数据

docker pull kibana:7.4.2

 创建实例

   依次执行命令代码

mkdir -p /mydata/elasticsearch/config
mkdir -p /mydata/elasticsearch/data
echo "http.host: 0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \
-e "discovery.type=single-node" \
-e ES_JAVA_OPTS="-Xms64m -Xmx512m" \
-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \
-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \
-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \
-d elasticsearch:7.4.2

 ElasticSearch-全文检索技术_第1张图片

在浏览器输入服务器ip+9200端口号进行访问:

ElasticSearch-全文检索技术_第2张图片

 安装Kibana(可视化界面)

docker run --name kibana -e ELASTICSEARCH_HOSTS=http://192.168.56.10:9200 -p 5601:5601 \
-d kibana:7.4.2

注意:http://192.168.56.10:9200 一定改为自己虚拟机或者服务器的地址

ElasticSearch-全文检索技术_第3张图片

 

 浏览器输入ip+5601访问Kibana的ui界面

Kibana在6.7以后的版本,支持了多种语言。并且自带在安装包里。

默认的kibana页面是英文的,可以在配置文件中调整为中文

   找到kibana.yml配置文件

locate kibana.yml

 

编辑配置文件 在文件最后添加

i18n.locale: "zh-CN"

保存后重启kibana即可,再次通过浏览器访问就是中文版本

 

 ElasticSearch-全文检索技术_第4张图片

 

初步检索

1、_cat

GET /_cat/nodes:查看所有节点

GET /_cat/health:查看 es 健康状况

GET /_cat/master:查看主节点

GET /_cat/indices:查看所有索引 show databases;

2、索引一个文档(保存)

保存一个数据,保存在哪个索引的哪个类型下,指定用哪个唯一标识

PUT customer/external/1;在 customer 索引下的 external 类型下保存 1 号数据为

PUT customer/external/1

{

    "name": "John Doe"

}

PUT 和 POST 都可以, POST 新增。如果不指定 id,会自动生成 id。指定 id 就会修改这个数据,并新增版本号 PUT 可以新增可以修改。PUT 必须指定 id;由于 PUT 需要指定 id,我们一般都用来做修改 操作,不指定 id 会报错。

3、查询文档

GET customer/external/1

结果:

{

    "_index": "customer", //在哪个索引

   "_type": "external", //在哪个类型

   "_id": "1", //记录 id     

   "_version": 2, //版本号

  "_seq_no": 1, //并发控制字段,每次更新就会+1,用来做乐观锁

  "_primary_term": 1, //同上,主分片重新分配,如重启,就会变化

  "found": true, "_source": { //真正的内容

                                               "name": "John Doe"

}

更新携带 ?if_seq_no=0&if_primary_term=1

4、更新文档

POST customer/external/1/_update

{ "doc":{ "name": "John Doew" } }

或者

POST customer/external/1

{ "name": "John Doe2" } 或者

PUT customer/external/1 { "name": "John Doe" }

不同:POST 操作会对比源文档数据,如果相同不会有什么操作,文档 version 不增加 PUT 操作总会将数据重新保存并增加 version 版本; 带_update 对比元数据如果一样就不进行任何操作。 看场景; 对于大并发更新,不带 update; 对于大并发查询偶尔更新,带 update;对比更新,重新计算分配规则。

更新同时增加属性

POST customer/external/1/_update

{ "doc": { "name": "Jane Doe", "age": 20 } }

PUT 和 POST 不带_update 也可以

5、删除文档&索引

DELETE customer/external/1

DELETE customer

6、bulk 批量 API

POST customer/external/_bulk

{"index":{"_id":"1"}}

{"name": "John Doe" }

{"index":{"_id":"2"}}

{"name": "Jane Doe" }

语法格式:

{ action: { metadata }}\n

{ request body }\n

{ action: { metadata }}\n

{ request body }\n

复杂实例:

POST /_bulk

{ "delete": { "_index": "website", "_type": "blog", "_id": "123" }}

{ "create": { "_index": "website", "_type": "blog", "_id": "123" }}

{ "title": "My first blog post" }

{ "index": { "_index": "website", "_type": "blog" }}

{ "title": "My second blog post" }

{ "update": { "_index": "website", "_type": "blog", "_id": "123", "_retry_on_conflict" : 3} }

{ "doc" : {"title" : "My updated blog post"} }

bulk API 以此按顺序执行所有的 action(动作)。如果一个单个的动作因任何原因而失败, 它将继续处理它后面剩余的动作。当 bulk API 返回时,它将提供每个动作的状态(与发送 的顺序相同),所以您可以检查是否一个指定的动作是不是失败了。

7、样本测试数据 准备一份顾客银行账户信息的虚构的 JSON 文档样本。每个文档都有下列的 schema (模式):

{

  "account_number": 0,

  "balance": 16623,

  "firstname": "Bradshaw",

  "lastname": "Mckenzie",

  "age": 29,

  "gender": "F",

  "address": "244 Columbus Place",

  "employer": "Euron",

  "email": "[email protected]",

  "city": "Hobucken",

  "state": "CO"

}

https://github.com/elastic/elasticsearch/blob/master/docs/src/test/resources/accounts.json?raw =true 导入测试数据

POST bank/account/_bulk 测试数据

你可能感兴趣的:(lucene,搜索引擎,elasticsearch)