Elasticsearch 7.x 深入 数据准备

1. 借鉴

使用ElasticSearch在bulk导入json数据时,The bulk request must be terminated by a newline [\n]
Curl命令的data, data-ascii, data-binary, data-raw和data-urlencode选项详解
tmdb movie

2. 开始

以后有关该系列的数据准备都会在这里指明

如何导入数据

到数据的当前目录,使用curl发送post请求到es,使用bulk api进行批量操作,但是需要注意文件的格式,否则会出现我借鉴部分提示的\n问题。以下是可执行的curl

curl -X POST -H "Content-Type:application/json" http://localhost:9200/_bulk --data-binary @tmdb_movie.txt

注意以下的点:

  • 加载json文件时如果使用普通的-d方法加载文件会造成空行被忽略,–data-binary数据二进制格式的加载方式
  • 书写文件路径时,须以@开头

所有的数据都在github上:elasticsearch7.x-data,以下则是对这个仓库的数据说明

【数据1:tmdb_movies】

感谢tmdb开源的数据,再次感谢。我将数据做了整理,只保留了overview,id,title三列,对我们来说足够了,数据可以从下面这个链接下载

  • tmdb_movie.txt

【数据2:notes】

note索引是自建用来测试function score的

  • note.txt

【数据3:store_sugguest】

store_sugguest文件,是自建用来测试Suggester API的

  • store_sugguest.txt

【数据4:aggs_order】

aggs_order文件,里面除了order还有hotel,user_envelope等索引,用来测试aggregation的

  • aggs_order.txt

【数据5:rebuild_index】

rebuild_index文件,里面是索引重建部分的样例。

  • rebuild_index.txt

【数据6:pipeline_hotel】

pipeline_hotel文件,里面是pipeline章节的索引。

  • pipeline_hotel.txt

3. 大功告成

to be continued

你可能感兴趣的:(Elasticsearch 7.x 深入 数据准备)