Elasticsearch的简单使用

一、介绍

Elasticsearch是一个实时分布式搜索和分析引擎。维基百科、卫报、Stack Overflow、GitHub都使用了Elasticsearch。Elasticsearch 是一个开源的搜索引擎,建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。Elasticsearch 是使用 Java语言 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API。(Lucene的工作原理非常复杂。)Elasticsearch具有以下特点:

1.一个分布式的实时文档存储,每个字段 可以被索引与搜索 
2.一个分布式实时分析搜索引擎
3.能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据

二、面向文档

Elasticsearch 是面向文档的,它存储整个对象或者文档。Elasticsearch 不仅存储文档,而且索引每个文档的内容,使之可以被检索。在 Elasticsearch 中,我们对文档进行索引、检索、排序和过滤,而不是对行列数据。这是一种完全不同的思考数据的方式,也是 Elasticsearch 能支持复杂全文检索的原因。Elasticsearch 使用 JavaScript Object Notation(或者 JSON)作为文档的序列化格式。JSON 序列化为大多数编程语言所支持,并且已经成为 NoSQL 领域的标准格式。

三、索引

一个Elasticsearch集群可以包含多个索引 ,相应的每个索引可以包含多个类型 。 这些不同的类型存储着多个文档 ,每个文档又有多个属性。索引一个文档就是存储一个文档到一个索引(名词)中以便被检索和查询。这非常类似于SQL语句中的INSERT关键词,除了文档已存在时,新文档会替换旧文档情况之外。关系型数据库通过增加一个索引,比如一个B树(B-tree)索引到指定的列上,以便提升数据检索速度。Elasticsearch和Lucene使用了一个叫做倒排索引的结构来达到相同的目的。

四、创建文档

PUT /alibaba/employee/1
{
    "first_name" : "John",
    "last_name" :  "Smith",
    "age" :        25,
    "about" :      "I love to go rock climbing",
    "interests": [ "sports", "music" ]
}

其中alibaba为索引名称,employee是类型名称,1表示特定的雇员(id),id不指定时自动生成。请求体(json文档)表示该雇员的具体信息。如果在alibaba/employee下已经有一个id为1的文档了,那么此次操作为更新。为了避免误操作,url可以写成PUT /alibaba/employee/1/_create,如果成功创建了一个新文档,Elasticsearch响应状态码201 created,如果在包含相同的_index、_type和_id的文档,则返回409 conflict错误。
继续添加其它雇员:

PUT /alibaba/employee/2
{
    "first_name" :  "Jane",
    "last_name" :   "Smith",
    "age" :         32,
    "about" :       "I like to collect rock albums",
    "interests":  [ "music" ]
}

PUT /alibaba/employee/3
{
    "first_name" :  "Douglas",
    "last_name" :   "Fir",
    "age" :         35,
    "about":        "I like to build cabinets",
    "interests":  [ "forestry" ]
}

命令行下从json文件中批量导入:

curl -H 'Content-Type: application/x-ndjson' -XPOST 'localhost:9200/alibaba/employee/_bulk?pretty' --data-binary @employes.json

 employes.json文件格式如下:

{"index":{"_id":"3"}}
{"first_name" : "Zuo","last_name" : "Sweeney", "age":23, "about":"I like to collect rock albums", "interests":  [ "music" ]}
{"index":{"_id":"4"}}
{"first_name" : "Zuo","last_name" : "Shaowen", "age":23, "about":"I like to collect rock albums", "interests":  [ "music" ]}

批量(_bulk)操作的请求体格式必须严格遵照如下格式 :

{ action: { metadata }}
{ request body        }
{ action: { metadata }}
{ request body        }

action有四种:create、index、udpate、delete 

五、检索文档

1、在alibaba/employee下搜索id=1的员工。 

GET /alibaba/employee/1

返回内容

{
  "_index" :   "alibaba",
  "_type" :    "employee",
  "_id" :      "1",
  "_version" : 1,
  "found" :    true,
  "_source" :  {
      "first_name" :  "John",
      "last_name" :   "Smith",
      "age" :         25,
      "about" :       "I love to go rock climbing",
      "interests":  [ "sports", "music" ]
  }
}

2、在alibaba/employee下搜索所有员工,默认只返回前10个结果。

GET /alibaba/employee/_search

3、 搜索last name为Smith的员工。

GET /alibaba/employee/_search?q=last_name:Smith

4、搜索内容可以用json来表示,例如“搜索last name为Smith的员工”用json表示,可以用from和size参数设置返回的结果。

GET /alibaba/employee/_search
{
    "from":0,
    "size":2,
    "query" : {
        "match" : {
            "last_name" : "Smith"
        }
    }
}

5、搜索last name为Smith,并且age大于30的员工。

GET /alibaba/employee/_search
{
    "query" : {
        "bool": {
            "must": {
                "match" : {
                    "last_name" : "smith" 
                }
            },
            "filter": {
                "range" : {
                    "age" : { "gt" : 30 } 
                }
            }
        }
    }
}

 6、搜索所有喜欢攀岩(rock climbing)的员工。

GET /alibaba/employee/_search
{
    "query" : {
        "match" : {
            "about" : "rock climbing"
        }
    }
}

7、使用match_phrase匹配“rock climbing”短语,而不是匹配同时包含“rock”和“climbing”。

GET /alibaba/employee/_search
{
    "query" : {
        "match_phrase" : {
            "about" : "rock climbing"
        }
    }
}

8、使用highlight参数做高亮标记,返回的结果中匹配上的单词会做高亮显示。

GET /alibaba/employee/_search
{
    "query" : {
        "match_phrase" : {
            "about" : "rock climbing"
        }
    },
    "highlight": {
        "fields" : {
            "about" : {}
        }
    }
}

六、分析

1、分析在同一兴趣下的人数,为避免显示原始数据,将“size”参数设为0。

GET /alibaba/employee/_search
{
  "size":0,
  "aggs": {
    "all_interests": {
      "terms": { "field": "interests" }
    }
  }
}

返回的内容:喜欢music的有2人,forestry的有1人,sports的有1人。

{
  "took": 5,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "all_interests": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "music",
          "doc_count": 2
        },
        {
          "key": "forestry",
          "doc_count": 1
        },
        {
          "key": "sports",
          "doc_count": 1
        }
      ]
    }
  }
}

有的Elasticsearch版本不能执行该语句,需要执行下面请求手动设置。

POST /alibaba/_mapping/employee
{
  "properties":{
    "interests":{
      "type":"text",
      "fielddata":true
    }
  }
}

2、对last name为smith的员工的兴趣进行分析。

GET /alibaba/employee/_search
{
  "query": {
    "match": {
      "last_name": "smith"
    }
  },
  "aggs": {
    "all_interests": {
      "terms": {
        "field": "interests"
      }
    }
  }
}

3、分析在各种兴趣下员工的平均年龄。

GET /alibaba/employee/_search
{
    "aggs" : {
        "all_interests" : {
            "terms" : { "field" : "interests" },
            "aggs" : {
                "avg_age" : {
                    "avg" : { "field" : "age" }
                }
            }
        }
    }
}

七、更新

1、更新整个文档,下面语句既可以新建也可以更新,更新之后的“_version”属性值+1。

PUT /website/blog/1
{
  "title": "My first blog entry",
  "text":  "I am starting to get the hang of this...",
  "date":  "2014/01/02"
}

2、部分更新,"doc"字段表示用json的形式更新文档。

POST /website/blog/1/_update
{
   "doc" : {
      "tags" : [ "testing" ],
      "views": 0
   }
}

3、部分更新,“script”表示用脚本形式更新文档。

POST /website/blog/1/_update
{
   "script" : "ctx._source.views+=1"
}

八、删除文档

DELETE /website/blog/123

 

你可能感兴趣的:(ElasticSearch)