概述
开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。
它可以快速地储存、搜索和分析海量数据。Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene,必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。
安装
Elastic 需要 Java 8 环境。如果你的机器还没安装 Java,可以参考这篇文章,注意要保证环境变量JAVA_HOME正确设置。
安装完 Java,就可以跟着官方文档安装 Elastic。直接下载压缩包比较简单。
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.5.1.zip
unzip elasticsearch-5.5.1.zip #解压
cd elasticsearch-5.5.1/ #前往安装目录
./bin/elasticsearch #启动服务
#./bin/elasticsearch在前台启动服务,若出错会直接显示处理。但启动成功,会使得命令行无法执行命令。
#因此./bin/elasticsearch -d可以在后台启动,但后台启动可能经常失败。
启动出现错误:
ERROR: [1] bootstrap checks failed
执行以下命令解决:
sudo sysctl -w vm.max_map_count=262144
注:机器每次重启,都最好执行一次。
相关错误
curl localhost:9200 #Elastic默认在9200端口运行,这是访问服务的命令
访问成功结果如下,返回一个JSON对象。
{
"name" : "qhnoMSW",
"cluster_name" : "elasticsearch",
"cluster_uuid" : "7lC0QcTZSxGXO5aknY8clw",
"version" :{
"number" :"5.5.1",
"build_hash" : "19c13d0",
"build_date" : "2017-07-18T20:44:24.823Z",
"build_snapshot" : false,
"lucene_version" : "6.6.0"
},
"tagline" : "You Know, for Search"
}
默认的,Elastic只允许本机访问,若要远程访问,需要修改以修改 Elastic 安装目录的config/elasticsearch.yml文件(config目录和bin目录同级。去掉network.host的注释,将它的值改成0.0.0.0(设成0.0.0.0让任何人都可以访问。线上服务不要这样设置,要设成具体的IP),然后重新启动 Elastic。修改结果如下:
network.host: 0.0.0.0 #注意冒号后面有一个空格
若修改时冒号后面没有空格,则启动会出现下面的错误:
Exception in thread "main" ElasticsearchParseException[malformed, expected settings to start with 'object', instead was [VALUE_STRING]]
相关错误
启动时出现以下警告:
OpenJDK 64-Bit Server VM warning: Option UseConcMarkSweepGC was deprecated in version 9.0 and will likely be removed in a future release.
解决:修改安装目录下config/jvm.options
-XX:+UseConcMarkSweepGC 改为 -XX:+UseG1GC
参考文章
基本概念
Node和Cluster
Elastic 本质上是一个分布式数据库,允许多台服务器协同工作,每台服务器可以运行多个 Elastic 实例。
单个 Elastic 实例称为一个节点(node)。一组节点构成一个集群(cluster)。
Index
Elastic 会索引所有字段,经过处理后写入一个反向索引(Inverted Index)。查找数据的时候,直接查找该索引。
所以,Elastic 数据管理的顶层单位就叫做 Index(索引)。它是单个数据库的同义词。每个 Index (即数据库)的名字必须是小写。
$ curl -X GET 'http://localhost:9200/_cat/indices?v' #查看当前节点的所有 Index。
Document
Index 里面单条的记录称为 Document(文档)。许多条 Document 构成了一个 Index。每个Document使用JSON格式表示,如下是一个简单的Document:
{
"user": "张三",
"title": "工程师",
"desc": "数据库管理"
}
Type
Document(数据库中的单条记录)可以按不同的标准分组。这种分组叫Type,这是虚拟的逻辑分组,用来过滤Document。
不同的 Type 应该有相似的结构(schema),举例来说,id字段不能在这个组是字符串,在另一个组是数值。这是与关系型数据库的表的一个区别。性质完全不同的数据(比如products和logs)应该存成两个 Index,而不是一个 Index 里面的两个 Type(虽然可以做到)。
列出每个Index所包含的Type
$ curl 'localhost:9200/_mapping?pretty=true'
根据规划,Elastic 6.x 版只允许每个 Index 包含一个 Type,7.x 版将会彻底移除 Type。
新建和删除Index
新建 Index,可以直接向 Elastic 服务器发出 PUT 请求。下面的例子是新建一个名叫weather的 Index。
$ curl -X PUT 'localhost:9200/weather'
执行结果返回一个 JSON 对象,里面的acknowledged字段表示操作成功。
{
"acknowledged":true,
"shards_acknowledged":true
}
然后,我们发出 DELETE 请求,删除这个 Index。
$ curl -X DELETE 'localhost:9200/weather'