NEO4J importer工具使用

导入的基本格式

neo4j-admin import [--mode=csv] [--database=]
                          [--additional-config=]
                          [--report-file=]
                          [--nodes[:Label1:Label2]=<"file1,file2,...">]
                          [--relationships[:RELATIONSHIP_TYPE]=<"file1,file2,...">]
                          [--id-type=]
                          [--input-encoding=]
                          [--ignore-extra-columns[=]]
                          [--ignore-duplicate-nodes[=]]
                          [--ignore-missing-nodes[=]]
                          [--multiline-fields[=]]
                          [--delimiter=]
                          [--array-delimiter=]
                          [--quote=]
                          [--max-memory=]
                          [--f=]
                          [--high-io=]

例子

neo4j_home$ bin/neo4j-admin import --nodes "import/movies_header.csv,import/movies.csv" \
--nodes "import/actors_header.csv import/actors.csv" \
--relationships "import/roles_header.csv,import/roles.csv"

CSV header 的格式

csv 的header中需要包含每个字段的信息使用格式:

数据类型

使用int，long，float，double，boolean，byte，short，char，string，point，date，localtime，time，localdatetime，datetime和duration中的一种来指定属性的数据类型。如果没有给出数据类型，则默认为字符串。

下面是一个csv header的例子

:ID,name,joined:date,active:boolean,points:int
user01,Joe Soap,2017-05-05,true,10
user02,Jane Doe,2017-08-21,true,15
user03,Moe Know,2018-02-17,false,7

node 文件

包含node数据的文件拥有一个ID 字段，一个Label字段，还有一些属性字段。

每个node必须具有唯一的ID。这些ID用于在创建relationship时查找正确的node。该ID在导入中的所有node之间必须是唯一的；即使是带有不同标签的节点。如果未指定ID，则将导入该节点，但是在导入过程中将无法通过任何关系连接该节点。

Label

从此字段读取一个或多个标签。像数组值一样，多个标签用分号';'字符分隔。
下面是一个csv的header 的例子

movieId:ID,title,year:int,:LABEL

它的header下的内容如下


tt0133093,"The Matrix",1999,Movie
tt0234215,"The Matrix Reloaded",2003,Movie;Sequel
tt0242653,"The Matrix Revolutions",2003,Movie;Sequel

Relationship 文件

12.6.2.4. Relationship files
包含关系数据的文件包含下面3个字段它们分别是：

TYPE
这个文件包含的关系类型

START_ID

关系起点的node ID

END_ID

关系终点的node ID

START_ID 都指向END_ID node数据中的ID

下面是一个Relationship文件的例子

:START_ID,role,:END_ID,:TYPE
keanu,"Neo",tt0133093,ACTED_IN
keanu,"Neo",tt0234215,ACTED_IN
keanu,"Neo",tt0242653,ACTED_IN
laurence,"Morpheus",tt0133093,ACTED_IN
laurence,"Morpheus",tt0234215,ACTED_IN
laurence,"Morpheus",tt0242653,ACTED_IN
carrieanne,"Trinity",tt0133093,ACTED_IN
carrieanne,"Trinity",tt0234215,ACTED_IN
carrieanne,"Trinity",tt0242653,ACTED_IN

命令选项介绍

--database=
数据库名称默认: graph.db
--additional-config=
额外配置文件位置
--mode=
模式默认: csv
--report-file=
保存 csv-import报告文件的位置 Default: import.report
--nodes[:Label1:Label2]=<"headerfile,file1,file2,…">
包含node header与数据的csv文件的位置，第一行必须包含header, 如果是多个文件，每个文件都要有其自己的 header

--relationships[:RELATIONSHIP_TYPE]=<"headerfile,file1,file2,…">
Relationship csv的header与数据文件

--id-type=
id类型默认: STRING
--input-encoding=
输入文件编码默认: UTF-8
--ignore-extra-columns=
忽视额外的列 Default: false
--ignore-duplicate-nodes=
导入时如有重复自动忽视. Default: false
--ignore-missing-nodes=
两个关系数据中有空的node自动忽视 Default: false
--multiline-fields=
是否运行一个字段包含多行既一个字段文本中包含换行符 Default: false
--delimiter=
分割符号 Default: ,
--array-delimiter=
一个数组字段的分割符 Default: ;
--quote=
引号字符 Default: "
--max-memory=
importer能使用的最大内存 Default: 90%
--f=
包含使用参数的文件
--high-io=
是否存储设备支持并行IO，通常使用SSD时设置为true