ElasticSearch是面向文档型数据库,一条数据在这里就是一个文档,用JSON作为文档序列化的格式;基于Lucene的搜索服务器。他提供了一个分布式的全文搜索引擎和数据分析引擎,能够实现全文检索,结构化检索,数据分析,对海量数据进行近实时处理,安装使用方便,本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据
- 天然分片、天然集群:es把数据分成多个shard,这些shard可以分布在集群中的各个机器节点中。随着数据的不断增加,集群可以增加多个分片,把多个分片放到多个机子上,以达到负载均衡,横向扩展
- 天然索引:ES所有的数据都是默认进行索引的,这点和mysql正好相反,mysql是默认不加索引,要加索引必须特别说明,ES只有不加索引才需要说明,而ES使用的是倒排索引和Mysql的B+Tree索引
不同
1、场景一:使用ElasticSearch作为主要的后端
传统项目中,搜索引擎是部署在成熟的数据存储的顶部,以提供快速且相关的搜索能力
2、场景二:在现有系统中增加ElasticSearch
由于ElasticSearch不能提供存储的所有功能,一些场景下需要在现有系统数据存储的基础上支持Es支持 *
3、场景三:使用ElasticSearch和现有的工具
在一些使用情况下,您不必写一行代码就能通过ElasticSearch完成一项工作。很多工具都可以与ElasticSearch一起工作,所以你不必到你从头开始编写
如果自己的文档字段没有指定,那么es就会给我们默认配置字段类型
1、string类型: 在ElasticSearch 旧版本中使用较多,从ElasticSearch5.x开始不再支持string,由text和keyword类型替代。
2、text 类型:当一个字段是要被全文搜索的,比如Email内容、产品描述,应该使用text类型。设置text类型以后,字段内容会被分析,在生成倒排索引以前,字符串会被分析器分成一个一个词项。text类型的字段不用于排序,很少用于聚合。
3、keyword类型:keyword类型适用于索引结构化的字段,比如email地址、主机名、状态码和标签。如果字段需要进行过滤(比如查找已发布博客中status属性为published的文章)、排序、聚合。keyword类型的字段只能通过精确值搜索到。
1、byte - 取值范围:-127~127
2、short - 取值范围 : -32768~32767
3、integer - 取值范围 : -231~230
4、short - 取值范围:-263~262
1、doubledoule 64位双精度IEEE 754浮点类型
2、float 32位单精度IEEE754浮点类型
3、half_float 16位半精度IEEE 754浮点类型
4、scaled_float 缩放类型的的浮点数
1、日期格式的字符串,比如 “2018-01-13” 或 “2018-01-13 12:10:30”
2、long类型的毫秒数( milliseconds-since-the-epoch,epoch就是指UNIX诞生的UTC时间1970年1月1日0时0分0秒)
3、integer的秒数(seconds-since-the-epoch)
true
false
进制字段是指用base64来表示索引中存储的二进制数据,可用来存储二进制形式的数据,例如图像。默认情况下,该类型的字段只存储不索引。二进制类型只支持index_name属性。
1、字符数组: [ “one”, “two” ]
2、整数数组: productid:[ 1, 2 ]
3、对象(文档)数组: “user”:[ { “name”: “Mary”, “age”: 12 }, { “name”: “John”, “age”: 10 }],
注意:lasticSearch不支持元素为多个数据类型:[ 10, “some string” ]
JSON对象,文档会包含嵌套的对象
ip类型的字段用于存储IPv4或者IPv6的地址
PUT /索引名/~类型名~/文档id
{请求体}
PUT /test1/type1/1
{
"name":"zyf"
"age":3
}
PUT /test2
{
"mappings":{
"properties":{
"name":{
"type":"text"
},
"age":{
"type":"long"
},
"birthday":{
"type":"date"
}
}
}
}
POST /test3/_doc/1/_update
{
"doc":{ //固定值doc,说明你要修改哪些文档
"name":"213"
}
}
DELETE test1(/...) //(根据你的请求来判断是删除索引还是删除文档记录)
GET test2(/...)
GET _cat/health
GET _cat/indices?v
使用GET /index/_search和POST /index/_search 的区别?
post可以带body,get不能带body,post一般用于提交数据,get是获取数据,这是http协议的内容,rest是基于http的,所以在你用get时,你的body写了也没啥用,都被忽略了,而使用post的话,es会把你的数据上传到索引里。
PUT /zyf/user/1
{
"name":"zyf",
"age":23,
"desc":"没有伞的孩子,必须努力奔跑!"
"tags":["高端","大气","上档次"]
}
GET zyf/user/1
PUT /zyf/user/1
{
"name":"test",
"age":23,
"desc":"没有伞的孩子,必须努力奔跑!"
"tags":["高端","大气","上档次"]
}
POST /zyf/user/1/_update
{
"doc":{
"name":"111"
}
}
GET zyf/user/1
GET zyf/user/1/_search?q=name:zyf
语法
GET 247_2018_xiaomi/_search
{
"query": {
"match": {
"rootCategoryName": "小米圈铁耳机"
}
}
}
返回结果中有一个_score属性,意思就是查询结果的匹配度,我们可以通过score判断谁更加符合结果;hits索引和文档的信息,查询的结果总数,然后就是查询出来的具体的文档,数据中的东西都可以遍历出来
GET 247_2018_xiaomi/_search
{
"query": {
"match": {
"rootCategoryName": "小米圈铁耳机"
}
},
"_source":["name","desc"]
}
GET 247_2018_xiaomi/_search
{
"query": {
"match": {
"rootCategoryName": "小米圈铁耳机"
}
},
"_source":["name","desc"]
"sort":[ // sort代表排序
"age":{ // 要排序的属性
"order":"asc" //order表示是降序还是升序
}
]
}
GET 247_2018_xiaomi/_search
{
"query": {
"match": {
"rootCategoryName": "小米圈铁耳机"
}
}
"_source":["name","desc"]
"sort":[ // sort代表排序
"age":{ // 要排序的属性
"order":"asc" //order表示是降序还是升序
}
],
"from":0, // 从第几个数据开始
"size":20 // 返回多少条数据(单页面的数据)
}
GET 247_2018_xiaomi/_search
{
"query": {
"bool":{
"must":[ // 使用must来多条件精确匹配,所有的条件都要复合,相当于 and
{
"match""{
"name":"zyf"
}
},
{
"match":{
"age":23
}
}
]
}
}
}
GET 247_2018_xiaomi/_search
{
"query": {
"bool":{
"should":[ // 使用should来多条件精确匹配,两个条件满足其一即可,相当于 or
{
"match""{
"name":"zyf"
}
},
{
"match":{
"age":23
}
}
]
}
}
}
GET 247_2018_xiaomi/_search
{
"query": {
"bool":{
"must_not":[ // 使用must_not来多条件精确匹配,查询不符合条件的属性,相当于 not
{
"match""{
"name":"zyf"
}
},
{
"match":{
"age":23
}
}
]
}
}
}
GET 247_2018_xiaomi/_search
{
"query": {
"bool":{
"must":[
{
"match""{
"name":"zyf"
}
}
],
"filter":{ // 可以使用filter进行数据过滤
"range":{ // 表示拦截的范围
"age":{ // 要拦截的属性值
"gte":1 // gt大于,lt小于,gte大于等于,lte小于等于,eq等于,ne、neq不等于
"lte":25 //可以使用多条件过滤,也是没有问题的
}
}
}
}
}
}
GET 247_2018_xiaomi/_search
{
"query": {
"match": {
"tags": "小米 圈铁 耳机" // 多个条件使用空格隔开,只要满足其中一个结果即可以被查出,这个时候可以通过分值基本的判断
}
}
}
GET 247_2018_xiaomi/_search
{
"query": {
"term": {
"tags": "小米 圈铁 耳机" // keyword类型不会被分词器解析
}
}
}
GET 247_2018_xiaomi/_search
{
"query": {
"bool":{
"should":[ // 使用should来多条件精确匹配,两个条件满足其一即可,相当于 or
{
"match""{
"name":"zyf"
}
},
{
"match":{
"age":23
}
}
]
}
}
}
GET 247_2018_xiaomi/_search
{
"query": {
"match": {
"tags": "小米 圈铁 耳机"
}
},
"highlight":{
"pre_tags":""
, // 自定义搜索高亮条件,前缀
"post_tags":"", // 后缀
"fields":{ // 搜索相关的结果可以高亮显示
"name":{}
}
}
}
GET 247_2018_xiaomi/_search
{
"size" : 0, // 设置size=0的意思就是,仅返回聚合查询结果,不返回普通query查询结果。
"aggs" : { // 聚合查询语句的简写
"popular_colors" : { // 给聚合查询取个名字,叫popular_colors
"terms" : {// 聚合类型为,terms,terms是桶聚合的一种,类似SQL的group by的作用,根据字段分组,相同字段值的文档分为一组。 "field" : "color" // terms聚合类型的参数,这里需要设置分组的字段为color,根据color分组
}
}
}
}
GET 247_2018_xiaomi/_search
{
"hits": { // 因为size=0,所以query查询结果为空
"hits": []
},
"aggregations": { // 聚合查询结果
"popular_colors": { // 这个就是popular_colors聚合查询的结果,这就是为什么需要给聚合查询取个名字的原因,如果有多个聚合查询,可以通过名字查找结果
"buckets": [ // 因为是桶聚合,所以看到返回一个buckets数组,代表分组的统计情况,下面可以看到每一种颜色的销量情况
{
"key": "red",
"doc_count": 4 // 红色的汽车销量为4
},
{
"key": "blue",
"doc_count": 2
},
{
"key": "green",
"doc_count": 2
}
]
}
}
}