图数据库neo4j学习的几点建议

1、入门建议

  • 注重应用场景,图数据库擅长处理深度关联的数据分析。
  • 呆在有一定图数据库方面经验的团队
  • 不要错过neo4j培训或者技术大会
  • 不要死磕,多和同事或者社区的同志交流
  • 采用关系数据库的逻辑和思维来学习

2、模型设计的建议

  • 属性是建模成节点还是作为属性是需要考虑的,主要看属性的应用场景是否多,比如频繁作为过滤条件。
  • 由于neo4j支持字节和字节数组存储,一个属性可以存放达到数G的内容,但是一个属性文件太大,在neo4j底层存储时由于某属性太大往往会打乱整个文件的存储,导致读写性能急剧降低。
  • 考虑数据的内在分类性质:比如将一个人的国家作为人的属性,其实最终还是没有利用好neo4j的标签机制。
  • 尽量不要用物理id
    由于根据物理id删除物理节点后,在下次生成新的节点时,会分配原来释放的id空位,会导致一些意向不到的问题(旧id引用一些过期数据)

3、关于建立索引

(1)尽量使用shema index,
(2)索引是读性能和写性能的结合,尽量不要对无效字段进行索引,避免增加写成本。

4、关于数据去重

merge是可以做到数据的去重,但是在多个并发请求时,并不能保证唯一性,还是用关键词UNIQUE最好。

5、关于数据导入

  • PERIODIC COMMIT 理论值为1000-10000行
  • 尽量节点和关系分开导入,避免cypher出现饥饿加载模式,导致数据加载过多导致内存溢出
  • 数据导入先导入部分数据,测试cypher的可用性及导入的速度。
  • Merge会扫描所有的属性
    Merge需要先检查是否有重复节点(扫描所有属性),然后再创建新节点,因此添加数据的速度比CREATE慢,适合初次导入使用
    (6)仅使用一次Merge语句,比如创建人的节点,不要给每个属性分别Merge,然后就是Merge Key主键)
MERGE (company:Company {companyNumber:line1.CompanyNumber,
                        companyName:line1.CompanyName,
                        uri:line1.URI
                          })
改为
MERGE (company:Company {companyNumber: line1.CompanyNumber})
SET company.companyName = line1.CompanyName,
    company.uri = line1.URI;
  • 使用Constraint 和 index,来提高搜索速度
  • 使用Distinct来过滤数据,避免后续可能的笛卡尔积
  • 设置Periodic commit来批量提交,可以尽可能多提交数据,但是不要超过内
  • 导入命令脚本化:通过neo4j-shell完成导入操作
  • Apoc Load CSV 命令只适合导入中等规模数据(千万级别)
  • MERGE一般用于创建节点,对于关系要用CREATE

6、关于数据查询

  • 对于场景使用到节点集合N,需要N和N之间进行笛卡尔积,如果(n1,n2)和(n2,n1)是重复数据,可通过id在where语句进行过滤(如id(n1)>id(n2))

https://neo4j.com/blog/dark-side-neo4j-worst-practices/

你可能感兴趣的:(图数据库neo4j学习的几点建议)