一、介绍
Elasticsearch是一个实时分布式搜索和分析引擎。维基百科、卫报、Stack Overflow、GitHub都使用了Elasticsearch。Elasticsearch 是一个开源的搜索引擎,建立在一个全文搜索引擎库 Apache Lucene™ 基础之上。Elasticsearch 是使用 Java语言 编写的,它的内部使用 Lucene 做索引与搜索,但是它的目的是使全文检索变得简单, 通过隐藏 Lucene 的复杂性,取而代之的提供一套简单一致的 RESTful API。(Lucene的工作原理非常复杂。)Elasticsearch具有以下特点:
1.一个分布式的实时文档存储,每个字段 可以被索引与搜索
2.一个分布式实时分析搜索引擎
3.能胜任上百个服务节点的扩展,并支持 PB 级别的结构化或者非结构化数据
二、面向文档
Elasticsearch 是面向文档的,它存储整个对象或者文档。Elasticsearch 不仅存储文档,而且索引每个文档的内容,使之可以被检索。在 Elasticsearch 中,我们对文档进行索引、检索、排序和过滤,而不是对行列数据。这是一种完全不同的思考数据的方式,也是 Elasticsearch 能支持复杂全文检索的原因。Elasticsearch 使用 JavaScript Object Notation(或者 JSON)作为文档的序列化格式。JSON 序列化为大多数编程语言所支持,并且已经成为 NoSQL 领域的标准格式。
三、索引
一个Elasticsearch集群可以包含多个索引 ,相应的每个索引可以包含多个类型 。 这些不同的类型存储着多个文档 ,每个文档又有多个属性。索引一个文档就是存储一个文档到一个索引(名词)中以便被检索和查询。这非常类似于SQL语句中的INSERT关键词,除了文档已存在时,新文档会替换旧文档情况之外。关系型数据库通过增加一个索引,比如一个B树(B-tree)索引到指定的列上,以便提升数据检索速度。Elasticsearch和Lucene使用了一个叫做倒排索引的结构来达到相同的目的。
四、创建文档
PUT /alibaba/employee/1
{
"first_name" : "John",
"last_name" : "Smith",
"age" : 25,
"about" : "I love to go rock climbing",
"interests": [ "sports", "music" ]
}
其中alibaba为索引名称,employee是类型名称,1表示特定的雇员(id),id不指定时自动生成。请求体(json文档)表示该雇员的具体信息。如果在alibaba/employee下已经有一个id为1的文档了,那么此次操作为更新。为了避免误操作,url可以写成PUT /alibaba/employee/1/_create,如果成功创建了一个新文档,Elasticsearch响应状态码201 created,如果在包含相同的_index、_type和_id的文档,则返回409 conflict错误。
继续添加其它雇员:
PUT /alibaba/employee/2
{
"first_name" : "Jane",
"last_name" : "Smith",
"age" : 32,
"about" : "I like to collect rock albums",
"interests": [ "music" ]
}
PUT /alibaba/employee/3
{
"first_name" : "Douglas",
"last_name" : "Fir",
"age" : 35,
"about": "I like to build cabinets",
"interests": [ "forestry" ]
}
命令行下从json文件中批量导入:
curl -H 'Content-Type: application/x-ndjson' -XPOST 'localhost:9200/alibaba/employee/_bulk?pretty' --data-binary @employes.json
employes.json文件格式如下:
{"index":{"_id":"3"}}
{"first_name" : "Zuo","last_name" : "Sweeney", "age":23, "about":"I like to collect rock albums", "interests": [ "music" ]}
{"index":{"_id":"4"}}
{"first_name" : "Zuo","last_name" : "Shaowen", "age":23, "about":"I like to collect rock albums", "interests": [ "music" ]}
批量(_bulk)操作的请求体格式必须严格遵照如下格式 :
{ action: { metadata }}
{ request body }
{ action: { metadata }}
{ request body }
action有四种:create、index、udpate、delete
五、检索文档
1、在alibaba/employee下搜索id=1的员工。
GET /alibaba/employee/1
返回内容
{
"_index" : "alibaba",
"_type" : "employee",
"_id" : "1",
"_version" : 1,
"found" : true,
"_source" : {
"first_name" : "John",
"last_name" : "Smith",
"age" : 25,
"about" : "I love to go rock climbing",
"interests": [ "sports", "music" ]
}
}
2、在alibaba/employee下搜索所有员工,默认只返回前10个结果。
GET /alibaba/employee/_search
3、 搜索last name为Smith的员工。
GET /alibaba/employee/_search?q=last_name:Smith
4、搜索内容可以用json来表示,例如“搜索last name为Smith的员工”用json表示,可以用from和size参数设置返回的结果。
GET /alibaba/employee/_search
{
"from":0,
"size":2,
"query" : {
"match" : {
"last_name" : "Smith"
}
}
}
5、搜索last name为Smith,并且age大于30的员工。
GET /alibaba/employee/_search
{
"query" : {
"bool": {
"must": {
"match" : {
"last_name" : "smith"
}
},
"filter": {
"range" : {
"age" : { "gt" : 30 }
}
}
}
}
}
6、搜索所有喜欢攀岩(rock climbing)的员工。
GET /alibaba/employee/_search
{
"query" : {
"match" : {
"about" : "rock climbing"
}
}
}
7、使用match_phrase匹配“rock climbing”短语,而不是匹配同时包含“rock”和“climbing”。
GET /alibaba/employee/_search
{
"query" : {
"match_phrase" : {
"about" : "rock climbing"
}
}
}
8、使用highlight参数做高亮标记,返回的结果中匹配上的单词会做高亮显示。
GET /alibaba/employee/_search
{
"query" : {
"match_phrase" : {
"about" : "rock climbing"
}
},
"highlight": {
"fields" : {
"about" : {}
}
}
}
六、分析
1、分析在同一兴趣下的人数,为避免显示原始数据,将“size”参数设为0。
GET /alibaba/employee/_search
{
"size":0,
"aggs": {
"all_interests": {
"terms": { "field": "interests" }
}
}
}
返回的内容:喜欢music的有2人,forestry的有1人,sports的有1人。
{
"took": 5,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"skipped": 0,
"failed": 0
},
"hits": {
"total": 3,
"max_score": 0,
"hits": []
},
"aggregations": {
"all_interests": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "music",
"doc_count": 2
},
{
"key": "forestry",
"doc_count": 1
},
{
"key": "sports",
"doc_count": 1
}
]
}
}
}
有的Elasticsearch版本不能执行该语句,需要执行下面请求手动设置。
POST /alibaba/_mapping/employee
{
"properties":{
"interests":{
"type":"text",
"fielddata":true
}
}
}
2、对last name为smith的员工的兴趣进行分析。
GET /alibaba/employee/_search
{
"query": {
"match": {
"last_name": "smith"
}
},
"aggs": {
"all_interests": {
"terms": {
"field": "interests"
}
}
}
}
3、分析在各种兴趣下员工的平均年龄。
GET /alibaba/employee/_search
{
"aggs" : {
"all_interests" : {
"terms" : { "field" : "interests" },
"aggs" : {
"avg_age" : {
"avg" : { "field" : "age" }
}
}
}
}
}
七、更新
1、更新整个文档,下面语句既可以新建也可以更新,更新之后的“_version”属性值+1。
PUT /website/blog/1
{
"title": "My first blog entry",
"text": "I am starting to get the hang of this...",
"date": "2014/01/02"
}
2、部分更新,"doc"字段表示用json的形式更新文档。
POST /website/blog/1/_update
{
"doc" : {
"tags" : [ "testing" ],
"views": 0
}
}
3、部分更新,“script”表示用脚本形式更新文档。
POST /website/blog/1/_update
{
"script" : "ctx._source.views+=1"
}
八、删除文档
DELETE /website/blog/123