www.thutmose.cn

「JanusGraph」图形数据库 - 技术选型调研

JanusGraph各组件版本兼容性匹配表

JanusGraph

JanusGraph提供多种后端存储和后端索引，使其能够更灵活的部署。本章介绍了几种可能的部署场景，以帮助解决这种灵活性带来的复杂性。

在讨论部署场景之前，理解JanusGraph本身的角色定位和后端存储的角色定位是非常重要的。首先，应用程序与JanusGraph进行交互大多数情况下都是进行Gremlin遍历，然后，JanusGraph把遍历请求发给配置好的后端（存储后端、索引后端）执行遍历处理。当JanusGraph以服务的形式被使用的时候，将不会有主服务（master JanusGraph Server）。应用程序可以连接任何一个JanusGraph服务实例。这样就可以使用负载均衡把请求分配到不同的实例上。JanusGraph服务实例之间本身是没有之间联系的，当遍历处理增大的时候这更容易扩容。

JanusGraph与Apache Cassandra的好处

连续可用，没有单点故障。
由于没有主/从架构，因此图形没有读/写瓶颈。
弹性可扩展性允许引入和移除机器。
缓存层可确保内存中可连续访问的数据。
通过向群集添加更多计算机来增加缓存的大小。
与Apache Hadoop集成。

Cassandra本身优点：

适合做数据分析或数据仓库这类需要迅速查找且数据量大的应用
存储结构比Key-Value数据库（像Redis）更丰富
Cassandra 的数据模型是基于Column族的四维或五维模型（聚合查询在列表上执行得更快）

Cassandra本身缺点：

不能简单增加服务器解决请求量增长的问题，需要数据架构师精细的规划
数据先缓存到Mentable，再刷新到磁盘，
Memtable

JanusGraph与HBase的好处

与Apache Hadoop生态系统紧密集成。
本机支持强一致性。
通过添加更多机器实现线性可扩展性。
严格一致的读写操作。
方便的基类，用于使用HBase表支持Hadoop MapReduce作业。
支持通过JMX导出指标。

JanusGraph和CAP定理

使用数据库时，应充分考虑CAP定理（C =一致性，A =可用性，P =可分区性）

HBase以产量为代价优先考虑一致性，即完成请求的概率。
Cassandra以收获为代价优先考虑可用性，即查询答案的完整性（可用数据/完整数据）。

JanusGraph的CAP

CAP定理说的是：一个分布式计算机系统无法同时满足以下三点（定义摘自Wikipedia）：

一致性（Consistency) ，所有节点访问同一份最新的数据副本
可用性（Availability)，每次请求都能获取到非错的响应——但是不保证获取的数据为最新数据
分区容错性（Partition tolerance），以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A之间做出选择。

关于JanusGraph在CAP理论上的侧重，是要看底层存储的。如果底层是Cassandra，那么就是偏向于AP（Cassandra是最终一致性的）；如果底层是HBase，就是偏向于CP（强一致性）；BerkleyDB单机不存在这个问题。

JG. Version 0.3.1各依赖组件版本兼容性 (Release Date: October 2, 2018)

org.janusgraph

janusgraph-core

0.3.1

Tested Compatibility:

Apache Cassandra 2.1.20, 2.2.10, 3.0.14, 3.11.0
Apache HBase 1.2.6, 1.3.1, 1.4.4
Google Bigtable 1.0.0, 1.1.2, 1.2.0, 1.3.0, 1.4.0
Oracle BerkeleyJE 7.4.5
Elasticsearch 1.7.6, 2.4.6, 5.6.5, 6.0.1
Apache Lucene 7.0.0
Apache Solr 5.5.4, 6.6.1, 7.0.0
Apache TinkerPop 3.3.3
Java 1.8

有关0.3.1中的功能和错误修复的更多信息，请参阅GitHub milestone:

https://github.com/JanusGraph/janusgraph/milestone/7?closed=1

JG安装配置

JanusGraph0.3.1 OLAP开发环境搭建

https://blog.csdn.net/qq_37286005/article/details/85071050

安装zookeeper

这里安装的是单机模式。版本是zookeeper-3.4.9.tar.gz。已装，步骤略。（看我博客-集群安装）

安装Hbase单机模式

配置Hbase

1.下载：https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.1.2/hbase-2.1.2-bin.tar.gz

2.~$ gedit .bashrc

# hbase
export HBASE_HOME=/home/raini/app/hbase
export PATH=${HBASE_HOME}/bin:$PATH

3.~$ source .bashrc

hbase-env.sh

## 追加：
export JAVA_HOME=/home/raini/app/jdk
export HBASE_CLASSPATH=/home/raini/app/hbase/conf/
export HBASE_PID_DIR=/home/raini/app/tmp/pids

# 不使用HBase自带的zookeeper
export HBASE_MANAGES_ZK=false

zoo.cfg

在这里我们使用的不是HBase自带的zookeeper，而是之前已经装好的，所以需要将我们现在的zookeeper的zoo.cfg文件复制到hbase的conf目录下

hbase-site.xml

#添加如下内容:

  
    hbase.rootdir   
    hdfs://biyuzhe:9000/hbase
  
  
    hbase.cluster.distributed   
    true
  
  
    hbase.zookeeper.quorum   
    127.0.0.1
  

  
           dfs.replication
           1
  
  
        hbase.master.maxclockskew
        150000

一些注意点：


	
		hbase.rootdir
		file:///usr/local/hbase-1.4.0/data-tmp
	
  	
		hbase.zookeeper.quorum  
		localhost  
	

	
		hbase.zookeeper.property.clientPort
		2181
	

	
		hbase.zookeeper.property.dataDir  
		/tmp/zookeeper  
	

	
		hbase.cluster.distributed
		true
	

	
		zookeeper.znode.parent
		/hbase

注意的环节：

一定要加上“伪分布：hbase.cluster.distributed”的这个标签，否则即使是单机的分布【虽然是单机，但是并没有使用HBase自带的zookeeper】，所以理论上还是应该使用伪分布式的搭配。
hbase.rootdir这个属性的值在笔者的环境下是file:///usr/local/hbase-1.4.0/data-tmp，并没有使用hdfs来存储。也就意味着不需要事先启动hdfs。但是如果将这个目录改为hdfs的对应目录，则是需要在启用hbase之前启用hdfs。
hbase.zookeeper.quorum指的是zookeeper服务器的地址，因为这里是单机版，所以直接填写localhost即可。有些博客建议写与hostname不同的主机ip。
hbase.zookeeper.property.clientPort指的是zookeeper的端口号，如果没有修改的话，默认的则是2181。
zookeeper.znode.parent ZooKeeper中的Hbase的根ZNode。所有的Hbase的ZooKeeper会用这个目录的值来配置相对路径。【znode存放root region的地址】默认情况下，所有的Hbase的ZooKeeper文件路径是用相对路径，所以他们会都去这个目录下面。默认: /hbase

---------------------

regionservers

#修改为主机名 <----建议写与hostname不同的主机ip

启动HBase

[raini@biyuzhe ~]# start-all.sh #启动hadoop

[raini@biyuzhe ~]# zkServer.sh start #启动zookeeper

[raini@biyuzhe ~]# zkServer.sh status #查看zookeeper状态以及角色

[raini@biyuzhe ~]# start-hbase.sh #启动Hbase

启动报错：Caused by: java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder

解决：

cp $HBASE_HOME/lib/client-facing-thirdparty/htrace-core-3.1.0-incubating.jar $HBASE_HOME/lib/

[raini@biyuzhe ~]# JPS 查看hbase进程

Hbase简单操作

raini@biyuzhe:~$ hbase shell

hbase(main):001:0> status #查看HBase运行状态

1 active master, 0 backup masters, 1 servers, 0 dead, 0.0000 average load

Took 0.3634 seconds

hbase(main):002:0> exit #退出

遇到问题

hbase集群[部分]节点HRegionServer启动后自动关闭的问题

注释掉hbase-size.xml这部分得以解决：

：应该是旧数据的影响，可删除掉这些临时文件

JG+HBase+Caching+ES config

设置JanusGraph使用远程运行的HBase存储引擎，为了获取更好的性能，同时使用JanusGraph的缓存组件。

janusgarph.properties：

storage.backend=hbase

storage.hostname=100.100.101.1

storage.port=2181

cache.db-cache = true

cache.db-cache-clean-wait = 20

cache.db-cache-time = 180000

cache.db-cache-size = 0.5

index.search.backend=elasticsearch

index.search.hostname=100.100.101.1, 100.100.101.2

index.search.elasticsearch.client-only=true

使用该配置遇到问题：

janusGraph（Hbase客户端）连不上Hbase服务器，zookeeperNode我们在Hbase安装时hbase-site.xml设置成了/hbase-jg，所以这里需要明确指定：

storage.hbase.ext.hbase.zookeeper.property.clientPort=2181
storage.hbase.ext.zookeeper.znode.parent=/hbase-jp

JanusGraph单机部署-2法

注：

[1] ElasticSearch因为是压缩包的方式，只能以非root用户启动，所以需要使用普通用户安装

[2] Linux下JanusGraph自带了一个JanusGraph Server的配置和脚本，可以直接启动JanusGraph Server;

Linux下JanusGraph的安装步骤

注意：这里假设用户名为raini，不能用root，前面已说明。

[2] 修改权限

修改安装包的权限，以便raini用户能够访问/opt下的janusgraph包

raini@biyuzhe:~/app$ sudo chown -R raini:raini janusgraph-0.3.1-hadoop2

JanusGraph的启动

本文采用的是JanusGraph+Berkeley+ES的部署模式，也就是说后端存储采用BerkeleyDB、外部索引采用ElasticSearch。因此，BerkeleyDB是嵌入式的，不需要单独启动，但ElasticSearch需要在JanusGraph之前启动。

启动ElasticSearch

JanusGraph自带了ElasticSearch的安装包，先进入该目录，加上&以便在后台启动

raini@biyuzhe:~/app/janusgraph$ elasticsearch/bin/elasticsearch &

JanusGraph的基本使用

JanusGraph的使用方式通常包括：

[1] 以嵌入式开发(Java)的方式访问;

[2] 通过Gremlin Console控制台访问；

[3] 通过JanusGraph Server的方式访问;

这里先只介绍Gremlin Console的方式，其他方式将在后面陆续介绍。

JanusGraph Gremlin Console

[1] 启动Gremlin Console

[raini@biyuzhe: janusgraph-0.3.1-hadoop2]$ bin/gremlin.sh

[2] 开启一个图数据库实例

gremlin> graph = JanusGraphFactory.open('conf/janusgraph-berkeleyje-es.properties')

==>standardjanusgraph[berkeleyje:/opt/janusgraph-0.3.1-hadoop2/conf/../db/berkeley]

JanusGraph默认有很多种配置，这里采用文前提到的配置模式。

[3] 获取图遍历句柄

gremlin> g = graph.traversal()

==>graphtraversalsource[standardjanusgraph[berkeleyje:/opt/janusgraph-0.3.1-hadoop2/conf/../db/berkeley], standard]

[4] 通过图遍历句柄来进行各种图操作

新增一个顶点(vertex)

gremlin> g.addV('person').property('name','Dennis')

==>v[4104]

查询刚刚创建的顶点

gremlin> g.V().has('name', 'Dennis').values()

参考资料：

[1] http://janusgraph.org/

启动janusGraph（gremlin-server）

备注：不要直接启动bin目录下的gremlin-server.sh，会缺少初始化，elasticsearch和cassandra等配置。

cd /path_to/janusgraph-0.3.1-hadoop2 使用：

bin/janusgraph.sh start

启动ElasticSearch

JanusGraph自带了ElasticSearch的安装包，先进入该目录，加上&以便在后台启动

raini@biyuzhe:~/app/janusgraph$ elasticsearch/bin/elasticsearch &

raini@biyuzhe:~/app/janusgraph$ bin/janusgraph.sh stop

启动janusgraph server:

bin/gremlin-server.sh ./conf/gremlin-server/byz-gremlin-server.yaml

JanusGraph Server

JanusGraph通过gremlin-server提供服务，有两种模式：WebSocket和HTTP，两种模式无法同时存在于同一个实例上，但是可以通过创建两个实例达到共存的目的---（0.3以后貌似可以共存了，接下来测试一下）。官网描述略长，这里总结得简单一些。默认后端使用HBase+ElasticSearch。

具体步骤如下：

1. 从Github release页下载 janusgraph-{VERSION}-hadoop2.zip ，并解压

2. 准备 .properties 文件

cp conf/janusgraph-hbase-es.properties conf/gremlin-server/janusgraph-hbase-es-server.properties

并在新文件开始添加

gremlin.graph=org.janusgraph.core.JanusGraphFactory

3. 准备 gremlin-server.yaml ，这里写了两个实例配置

cp conf/gremlin-server/gremlin-server.yaml conf/gremlin-server/socket-gremlin-server.yaml

cp conf/gremlin-server/gremlin-server.yaml conf/gremlin-server/http-gremlin-server.yaml

3.1 修改 socket-gremlin-server.yaml

// host和port不爽也可以改，默认8182

graphs: {

graph: conf/gremlin-server/janusgraph-hbase-es-server.properties

}

channelizer: org.apache.tinkerpop.gremlin.server.channel.WebSocketChannelizer

3.2 修改 http-gremlin-server.yaml

// port一定不要和websocket模式的冲突了…… 我设置的8183

graphs: {

graph: conf/gremlin-server/janusgraph-hbase-es-server.properties

}

channelizer: org.apache.tinkerpop.gremlin.server.channel.HttpChannelizer

4. 启动server

bin/gremlin-server.sh ./conf/gremlin-server/socket-gremlin-server.yaml

bin/gremlin-server.sh ./conf/gremlin-server/http-gremlin-server.yaml

成功后会在屏幕上打log

[gremlin-server-boss-1] INFO org.apache.tinkerpop.gremlin.server.GremlinServer - Channel started at port XXXX.

Ps:因为我配置的host是[0.0.0.0]，所以service启动的机器可能不确定，我这里是node3。

所以如下conf/remote.yaml中也需要配置为node3才能连接上

5.1 测试WebSocket

使用gremlin测试，打开 bin/gremlin.sh

~/Setups/janusgraph-0.3.1-hadoop2/bin> bin/gremlin.sh

\,,,/

(o o)

-----oOOo-(3)-oOOo-----

plugin activated: janusgraph.imports

plugin activated: tinkerpop.server

plugin activated: tinkerpop.utilities

plugin activated: tinkerpop.hadoop

plugin activated: tinkerpop.spark

plugin activated: tinkerpop.tinkergraph

gremlin> :remote connect tinkerpop.server conf/byz-remote.yaml

==>Configured localhost/127.0.0.1:8182

gremlin> :remote console (如果不执行这一步，往下每一个操作的命令前都要加上 :> 如 :>g.V().values('name'))

gremlin>

==>yiz96

:> 符号是立即执行的意思。如果修改过port，同时也要修改一下 conf/remote.conf 。

5.2 测试HTTP

1	curl -XPOST -Hcontent-type:application/json -d '{"gremlin":"g.V().values(\"name\")"}' http://localhost:8183

注意不要使用单引号，会报错

1	{"requestId":"6542a2b5-15bb-4b8e-82cd-50ea1d12e586","status":{"message":"","code":200,"attributes":{}},"result":{"data":["yiz96"],"meta":{}}}%

失败了：

问题：（启动remote服务报错）

java.lang.IllegalStateException: javax.script.ScriptException: javax.script.ScriptException: groovy.lang.MissingPropertyException: No such property: graph for class: Script1

使用：

gremlin> :remote connect tinkerpop.server conf/byz-remote.yaml

==>Configured localhost/127.0.0.1:8182

gremlin> :remote console

==>All scripts will now be sent to Gremlin Server - [localhost/127.0.0.1:8182] - type ':remote console' to return to local mode

gremlin> map = new HashMap();

gremlin> map

No such property: map for class: Script4

Type ':help' or ':h' for help.

Display stack trace? [yN]

gremlin>

解决：

（错误的解决）：

scripts/empty-sample.groovy定义了默认图形“图形”上的绑定，该图形不可用。

需要从配置中更新或删除scripts/empty-sample.groovy。或者注释掉：
//定义默认的TraversalSource来绑定查询 - 这个将被命名为“g”。
// globals << [g：graph.traversal（）]

正解：

不能去掉：scripts/empty-sample.groovy中～～ {files: [scripts/empty-sample.groovy]

如下加入正确的依赖即可：

问题：remote connect gremlin-server No such property: for class: Script

解决：

很简单，是自己使用问题。因为一般的教程、博客、官网都不会提到这个，还是去国外网站找到的。

加上session就行。

:remote connect tinkerpop.server conf/byz-remote.yaml session

:remote console

问题：GraphFactory could not instantiate this Graph implementation

1042 [main] WARN org.apache.tinkerpop.gremlin.server.GremlinServer - Graph [graph] configured at [conf/gremlin-server/ws-janusgraph-hbase-es.properties] could not be instantiated and will not be available in Gremlin Server. GraphFactory message: GraphFactory could not instantiate this Graph implementation [class org.janusgraph.core.JanusGraphFactory]
java.lang.RuntimeException: GraphFactory could not instantiate this Graph implementation [class org.janusgraph.core.JanusGraphFactory]
at org.apache.tinkerpop.gremlin.structure.util.GraphFactory.open(GraphFactory.java:82)
at org.apache.tinkerpop.gremlin.structure.util.GraphFactory.open(GraphFactory.java:70)
at org.apache.tinkerpop.gremlin.structure.util.GraphFactory.open(GraphFactory.java:104)
at org.apache.tinkerpop.gremlin.server.util.DefaultGraphManager.lambda$new$0(DefaultGraphManager.java:57)
at java.util.LinkedHashMap$LinkedEntrySet.forEach(LinkedHashMap.java:671)
at org.apache.tinkerpop.gremlin.server.util.DefaultGraphManager.(DefaultGraphManager.java:55)
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
at org.apache.tinkerpop.gremlin.server.util.ServerGremlinExecutor.(ServerGremlinExecutor.java:80)
at org.apache.tinkerpop.gremlin.server.GremlinServer.(GremlinServer.java:120)
at org.apache.tinkerpop.gremlin.server.GremlinServer.(GremlinServer.java:84)
at org.apache.tinkerpop.gremlin.server.GremlinServer.main(GremlinServer.java:343)
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.tinkerpop.gremlin.structure.util.GraphFactory.open(GraphFactory.java:78)
... 13 more
Caused by: java.lang.IllegalArgumentException: Could not instantiate implementation: org.janusgraph.diskstorage.hbase.HBaseStoreManager
at org.janusgraph.util.system.ConfigurationUtil.instantiate(ConfigurationUtil.java:64)
at org.janusgraph.diskstorage.Backend.getImplementationClass(Backend.java:476)
at org.janusgraph.diskstorage.Backend.getStorageManager(Backend.java:408)
at org.janusgraph.graphdb.configuration.GraphDatabaseConfiguration.(GraphDatabaseConfiguration.java:1254)
at org.janusgraph.core.JanusGraphFactory.open(JanusGraphFactory.java:160)
at org.janusgraph.core.JanusGraphFactory.open(JanusGraphFactory.java:131)
at org.janusgraph.core.JanusGraphFactory.open(JanusGraphFactory.java:111)
... 18 more
Caused by: java.lang.reflect.InvocationTargetException
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
at org.janusgraph.util.system.ConfigurationUtil.instantiate(ConfigurationUtil.java:58)
... 24 more
Caused by: java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/protobuf/generated/MasterProtos$MasterService$BlockingInterface
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:264)
at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:228)
at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:218)
at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:119)
at org.janusgraph.diskstorage.hbase.HBaseCompat1_0.createConnection(HBaseCompat1_0.java:43)
at org.janusgraph.diskstorage.hbase.HBaseStoreManager.(HBaseStoreManager.java:334)
... 29 more
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.protobuf.generated.MasterProtos$MasterService$BlockingInterface
at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 36 more

解决：

引入hbase-protocol-1.4.9.jar与protobuf-java-2.5.0.jar包即可。

(必要时也可将hbase-hadoop2-compat-1.4.9.jar--hbase与hadoop的兼容性包引入)

JanusGraph与TinkerPop的Hadoop-Gremlin整合

本章介绍如何利用Apache Hadoop和Apache Spark配置JanusGraph以进行分布式图形处理。这些步骤将概述如何开始这些项目，但请参考这些项目社区以更熟悉它们。

JanusGraph-Hadoop与TinkerPop的hadoop-gremlin包一起用于通用OLAP。

对于下面示例的范围，Apache Spark是计算框架，Apache Cassandra是存储后端。可以使用其他包进行指示，并对配置属性进行微小更改。

注意	本章中的示例基于在本地模式或独立群集模式下运行Spark。在YARN或Mesos上使用Spark时，需要进行其他配置。

配置Hadoop以运行OLAP

要从Gremlin控制台运行OLAP查询，需要满足一些先决条件。您需要将Hadoop配置目录添加到其中CLASSPATH，配置目录需要指向实时Hadoop集群。

Hadoop提供分布式访问控制的文件系统。运行在不同计算机上的Spark工作程序使用Hadoop文件系统来获得基于文件的操作的公共源。各种OLAP查询的中间计算可以保留在Hadoop文件系统上。

有关配置单节点Hadoop集群的信息，请参阅官方Apache Hadoop文档

一旦启动并运行Hadoop集群，我们将需要在中指定Hadoop配置文件CLASSPATH。下面的文档希望您将这些配置文件放在下面/etc/hadoop/conf。

验证后，按照以下步骤将Hadoop配置添加到CLASSPATH并启动Gremlin控制台，它将扮演Spark驱动程序的角色。

主要配置(bin/gremlin.sh)

在前边加入：

export HADOOP_HOME=/home/raini/app/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export JAVA_OPTIONS="$JAVA_OPTIONS -Djava.library.path=$HADOOP_HOME/lib/native"
export CLASSPATH=$HADOOP_CONF_DIR

一旦添加了Hadoop配置的路径CLASSPATH，我们就可以通过以下快速步骤验证Gremlin控制台是否可以访问Hadoop集群：

从janusGraph中启动：

$ bin/gremlin.sh

在终端输入：

gremlin> hdfs

==>storage[org.apache.hadoop.fs.LocalFileSystem@65bb9029] // BAD(没配置之前)

gremlin> hdfs

==>storage[DFS[DFSClient[clientName=DFSClient_NONMAPREDUCE_1229457199_1, ugi=user (auth:SIMPLE)]]] // GOOD（配置之后，可见使用hdfs进行存储）

OLAP遍历（使用Spark）

JanusGraph-Hadoop使用TinkerPop的hadoop-gremlin包进行通用OLAP遍历图，并通过利用Apache Spark并行化查询。

配置使用Spark作为OLAP执行引擎+Hbase后端

将需要特定于该存储后端的附加配置。配置由gremlin.hadoop.graphReader属性指定，该属性指定从存储后端读取数据的类。

如JanusGraph的Hbase graphReader类：

HBaseInputFormat和HBaseSnapshotInputFormatHBase一起使用

以下属性文件可用于连接Hbase中的JanusGraph实例，以便它可以与HadoopGraph一起使用来运行OLAP查询。

Github地址：

https://github.com/JanusGraph/janusgraph/blob/d12adfbf083f575fa48860daa37bfbd0e6095369/janusgraph-dist/src/assembly/static/conf/hadoop-graph/read-hbase-snapshot.properties

conf/hadoop-graph/read-hbase-snapshot.properties

# Hadoop Graph Configuration

gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph

gremlin.hadoop.graphReader=org.janusgraph.hadoop.formats.hbase.HBaseSnapshotInputFormat

gremlin.hadoop.graphWriter=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat

gremlin.hadoop.jarsInDistributedCache=true

gremlin.hadoop.inputLocation=none

gremlin.hadoop.outputLocation=output

# JanusGraph HBaseSnapshotInputFormat configuration

janusgraphmr.ioformat.conf.storage.backend=hbase

janusgraphmr.ioformat.conf.storage.hostname=localhost

janusgraphmr.ioformat.conf.storage.hbase.table=janusgraph

janusgraphmr.ioformat.conf.storage.hbase.snapshot-name=janusgraph-snapshot

janusgraphmr.ioformat.conf.storage.hbase.snapshot-restore-dir=/tmp

janusgraphmr.ioformat.conf.storage.hbase.ext.hbase.rootdir=/hbase

# SparkGraphComputer Configuration

spark.master=local[4]

spark.serializer=org.apache.spark.serializer.KryoSerializer

conf/hadoop-graph/read-hbase.properties

# Hadoop Graph Configuration

gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph

gremlin.hadoop.graphReader=org.janusgraph.hadoop.formats.hbase.HBaseInputFormat

gremlin.hadoop.graphWriter=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat

gremlin.hadoop.jarsInDistributedCache=true

gremlin.hadoop.inputLocation=none

gremlin.hadoop.outputLocation=output

# JanusGraph HBase InputFormat configuration

janusgraphmr.ioformat.conf.storage.backend=hbase

janusgraphmr.ioformat.conf.storage.hostname=localhost

janusgraphmr.ioformat.conf.storage.hbase.table=janusgraph

# SparkGraphComputer Configuration

spark.master=local[4]

spark.serializer=org.apache.spark.serializer.KryoSerializer

。。。更多看文档：https://github.com/JanusGraph/janusgraph/blob/dee1400a3ab953ed5f4bd43eec8a38f2d7b6ff3c/docs/hadoop.adoc

使用Spark Standalone Cluster进行OLAP遍历

上一节中遵循的步骤也可以与Spark独立群集一起使用，只需进行少量更改：

更新spark.master属性以指向Spark主URL而不是本地URL

更新spark.executor.extraClassPath以启用Spark执行程序以查找JanusGraph依赖项jar

将JanusGraph依赖项jar复制到每个Spark执行器计算机上一步中指定的位置

注意	我们将janusgraph-distribution / lib下的所有jar复制到/ opt / lib / janusgraph /中，并在所有worker中创建相同的目录结构，并在所有worker中手动复制jar。

用于OLAP遍历的最终属性文件如下：

。。。

参考文档：

https://github.com/JanusGraph/janusgraph/blob/dee1400a3ab953ed5f4bd43eec8a38f2d7b6ff3c/docs/hadoop.adoc

小例子:

（gremlin以及其它参考配置：janusgraph/janusgraph-dist/src/assembly/static/conf/hadoop-graph/

g.V().hasLabel('NewsPaper').has('identifier', 'xyz').inE('belongsTo').outV().hasLabel('NewsDocument')

.has('publishedDate', between(begin.getTime, end.getTime))

数据类型

（导入数据第一步，首先去掉空行、缺失顶点、重复顶点等，然后将数据做成这种格式-GraphSon）

多条：

{"id":2000,"label":"message","inE":{"link":[{"id":5,"outV":2000}]},"outE":{"link":[{"id":4,"inV":2001},{"id":5,"inV":2000}]},"properties":{"name":[{"id":2,"value":"a"}]}}
{"id":2001,"label":"message","inE":{"link":[{"id":4,"outV":2000}]},"properties":{"name":[{"id":3,"value":"b"}]}}
{"id":1000,"label":"loops","inE":{"self":[{"id":1,"outV":1000}]},"outE":{"self":[{"id":1,"inV":1000}]},"properties":{"name":[{"id":0,"value":"loop"}]}}

单条：

{
  "id": 2000,
  "label": "message",
  "inE": {
    "link": [
      {
        "id": 5,
        "outV": 2000
      }
    ]
  },
  "outE": {
    "link": [
      {
        "id": 4,
        "inV": 2001
      },
      {
        "id": 5,
        "inV": 2000
      }
    ]
  },
  "properties": {
    "name": [
      {
        "id": 2,
        "value": "a"
      }
    ]
  }
}

图形配置

janusgraph-hbase.properties：

gremlin.graph=org.janusgraph.core.JanusGraphFactory
storage.backend=hbase
storage.hostname=localhost
cache.db-cache=true
cache.db-cache-clean-wait=20
cache.db-cache-time=180000
cache.db-cache-size=0.5
index.search.backend=elasticsearch
index.search.hostname=localhost
#storage.hbase.ext.zookeeper.znode.parent=/hbase-unsecure
storage.hbase.table=Medical-POC
index.search.index-name=Medical-POC

hadoop-graphson.properties

#gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph
#gremlin.hadoop.graphReader=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoInputFormat
#gremlin.hadoop.graphWriter=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat
#gremlin.hadoop.jarsInDistributedCache=true
gremlin.hadoop.defaultGraphComputer=org.apache.tinkerpop.gremlin.spark.process.computer.SparkGraphComputer

gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph
gremlin.hadoop.graphInputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.graphson.GraphSONInputFormat
gremlin.hadoop.graphOutputFormat=org.apache.hadoop.mapreduce.lib.output.NullOutputFormat
gremlin.hadoop.inputLocation=./data/byz/test-modern.json
gremlin.hadoop.outputLocation=output
gremlin.hadoop.jarsInDistributedCache=true

#####################################
# GiraphGraphComputer Configuration
#####################################
giraph.minWorkers=2
giraph.maxWorkers=2
giraph.useOutOfCoreGraph=true
giraph.useOutOfCoreMessages=true
mapred.map.child.java.opts=-Xmx1024m
mapred.reduce.child.java.opts=-Xmx1024m
giraph.numInputThreads=4
giraph.numComputeThreads=4
giraph.maxMessagesInMemory=100000

#
# SparkGraphComputer Configuration
#
#spark.master=local[4]
spark.master=spark://localhost:7077
spark.executor.memory=1g
spark.serializer=org.apache.spark.serializer.KryoSerializer
spark.kryo.registrator=org.apache.tinkerpop.gremlin.spark.structure.io.gryo.GryoRegistrator
spark.driver.memory=1g
# 为了executor能找到janus相关包
spark.executor.extraClassPath=/home/raini/app/janusgraph/lib/*

编写数据Schema:

janusgraph-schema.groovy

def defineGratefulDeadSchema(janusGraph) {
    m = janusGraph.openManagement()
    //人信息节点label
    person = m.makeVertexLabel("person").make()
    //properties
    //使用IncrementBulkLoader导入时，去掉下面注释
    //blid = m.makePropertyKey("bulkLoader.vertex.id").dataType(Long.class).make()
    birth = m.makePropertyKey("birth").dataType(Date.class).make()
    age = m.makePropertyKey("age").dataType(Integer.class).make()
    name = m.makePropertyKey("name").dataType(String.class).make()
    //index
    index = m.buildIndex("nameCompositeIndex", Vertex.class).addKey(name).unique().buildCompositeIndex()
    //使用IncrementBulkLoader导入时，去掉下面注释
    //bidIndex = m.buildIndex("byBulkLoaderVertexId", Vertex.class).addKey(blid).indexOnly(person).buildCompositeIndex()
    m.commit()
}

执行Gremlin数据导入语句：

raini@biyuzhe:~/app/janusgraph$ bin/gremlin.sh

(1)
:load /home/raini/pro/GraphDatabase/test/src/main/scala/janusgraph-load/test-janusgraph-schema.groovy
graph = JanusGraphFactory.open('/home/raini/pro/GraphDatabase/test/src/main/scala/janusgraph-load/janusgraph-test.properties')
defineGratefulDeadSchema(graph)

(2)
graph = GraphFactory.open('data/zl/hadoop-graphson.properties')
blvp = BulkLoaderVertexProgram.build().bulkLoader(OneTimeBulkLoader).writeGraph('data/zl/janusgraph-test.properties').create(graph)
graph.compute(SparkGraphComputer).program(blvp).submit().get()
报错：
java.lang.InstantiationException

(3)
graph = JanusGraphFactory.open('data/zl/janusgraph-test.properties')
g = graph.traversal()
g.V().valueMap()

Configuring JanusGraph Server for ConfiguredGraphFactory

(配置JanusGraph的默认图形配置）

配置在：/home/raini/app/janusgraph/conf/gremlin-server/gremlin-server-configuration.yaml

文档说明：https://docs.janusgraph.org/latest/configuredgraphfactory.html

为了能够使用ConfiguredGraphFactory，您必须配置服务器以使用ConfigurationManagementGraphAPI。为此，您必须在服务器的YAML graphs映射中注入名为“ConfigurationManagementGraph”的图形变量。例如：

graphManager: org.janusgraph.graphdb.management.JanusGraphManager
graphs: {
ConfigurationManagementGraph: <--(修改这里文件为默认配置，如后端改为Hbase

conf/JanusGraph-configurationmanagement.properties
}

在此示例中，我们的ConfigurationManagementGraph图形将使用存储在conf/JanusGraph-configurationmanagement.properties其中的属性进行配置，例如，如下所示：

gremlin.graph=org.janusgraph.core.JanusGraphFactory
storage.backend=cql
graph.graphname=ConfigurationManagementGraph
storage.hostname=127.0.0.1

PS:（如上几个参数一定为必填项）

JG的3中使用方式

[1] 以嵌入式开发(Java)的方式访问;

[2] 通过Gremlin Console控制台访问；

[3] 通过JanusGraph Server的方式访问;

小测试例子

1.使用JanusGraph Gremlin Console方式

gremlin> graph = JanusGraphFactory.open('conf/janusgraph-berkeleyje-es.properties')

gremlin>graph.io(IoCore.graphson()).readGraph('/home/raini/app/janusgraph/data/tinkerpop-sink-v2d01.json')

gremlin> dennis = graph.addVertex(T.label, "person", "name", "Dennis","city", "Chengdu")

jady = graph.addVertex(T.label, "person", "name", "Jady","city", "Beijing")

dennis.addEdge("knows", jady, "date", "20121201")

或者gremlin> g.addV('person').property('name','Dennis')

执行图遍历：

gremlin> g = graph.traversal()

使用Spark:gremlin> g=graph.traversal().withComputer(SparkGraphComputer)

gremlin> g.V().has('name', 'Dennis').values()

// ==>Dennis

// ==>Chengdu

gremlin> g.V().count()

// ==>2

gremlin> g.V().hasLabel('person')

// ==>v[4296]

// ==>v[4232] <---- lable是节点唯一值

2.使用GraphFactory Gremlin Console方式

graph = GraphFactory.open(...)

g = graph.traversal()

jupiter = g.addV("god").property("name", "jupiter").property("age", 5000).next()

sky = g.addV("location").property("name", "sky").next()

g.V(jupiter).as("a").V(sky).addE("lives").property("reason", "loves fresh breezes").from("a").next()

g.tx().commit()

g.V().has("name", "jupiter").valueMap(true).tryNext()

3.使用Gremlin io 录入GraphSon数据

gremlin> graph = JanusGraphFactory.open('conf/janusgraph-hbase-spark.properties')

gremlin>graph.io(IoCore.graphson()).readGraph('/home/raini/app/janusgraph/data/tinkerpop-sink-v2d01.json')

gremlin> dennis = graph.addVertex(T.label, "person", "name", "Dennis","city", "Chengdu")

jady = graph.addVertex(T.label, "person", "name", "Jady","city", "Beijing")

dennis.addEdge("knows", jady, "date", "20121201")

//g = graph.traversal() 需要在.properties配置使用Spark
g=graph.traversal().withComputer(SparkGraphComputer)

问题：

远程使用

:load ../schema.groovy

时，请注意其中

.cardinality(Cardinality.SINGLE)

的

Cardinality

使用的类：

正确为应为janusgraph中的类：

gremlin> Cardinality.SINGLE

==>SINGLE

gremlin> Cardinality

==>class org.janusgraph.core.Cardinality

而remote的为tinkerpop中的类：

gremlin> :remote connect tinkerpop.server conf/byz-remote.yaml session
==>Configured biyuzhe/127.0.0.1:8182-[2ed42d86-882c-42b6-af31-6ca4fb5ee712]
gremlin> :remote console
==>All scripts will now be sent to Gremlin Server - [biyuzhe/127.0.0.1:8182]-[2ed42d86-882c-42b6-af31-6ca4fb5ee712] - type ':remote console' to return to local mode
gremlin> Cardinality.SINGLE
No such property: SINGLE for class: org.apache.tinkerpop.gremlin.structure.VertexProperty$Cardinality
Type ':help' or ':h' for help.
Display stack trace? [yN]
gremlin> Cardinality
==>class org.apache.tinkerpop.gremlin.structure.VertexProperty$Cardinality

解决：

name = mgmt.makePropertyKey("name").dataType(String.class).cardinality(Cardinality.SINGLE).make()

改为明确类：

.cardinality(org.janusgraph.core.Cardinality.SINGLE)

还有BulkLoader：

gremlin> BulkLoaderVertexProgram

==>class org.apache.tinkerpop.gremlin.process.computer.bulkloading.BulkLoaderVertexProgram

你可能感兴趣的:(JanusGraph,图形数据库)

非关系型数据库（NoSQL）：MongoDB和Redis 檐角小猫 nosql 数据库 sql
非关系型数据库（NoSQL）在大数据和分布式计算环境中广泛使用，主要用于处理海量、结构化不统一的数据。NoSQL数据库种类包括文档型、键值型、列族型和图形数据库等。下面我将以MongoDB（一种流行的文档型NoSQL数据库）以及Redis为例，通过代码和案例讲解如何使用它。MongoDB简介MongoDB是一种基于文档存储模式的NoSQL数据库，数据以BSON格式（类似JSON）存储。它支持灵活的
【neo4j】neo4j和Cypher 查询语言相关知识点杰九 neo4j
【neo4j】neo4j和Cypher查询语言相关知识点1.什么是neo4jNeo4j是一个广泛使用的图形数据库管理系统（GraphDatabaseManagementSystem）。它是一种NoSQL数据库，专为存储和查询图形数据而设计。Neo4j支持图形数据模型，允许用户以节点（Nodes）和关系（Relationships）的形式存储数据，并通过属性（Properties）来丰富这些节点和关
非关系型数据库NoSQL（Not Only SQL）（非关系型数据库非常灵活） Dontla 数据库 nosql sql 数据库
文章目录NoSQL的本质NoSQL的主要类型1.文档型数据库（DocumentStore）2.键值存储（Key-ValueStore）3.列式存储（ColumnStore）4.图形数据库（GraphDatabase）NoSQL的优势1.灵活的数据模型：2.高性能：3.可扩展性：适用场景使用建议1.数据一致性要求2.查询复杂度3.数据规模NoSQL的本质NoSQL是对非关系型数据库的统称。这个术语最
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
Nightingale滴滴夜莺监控系统入门（四）--聊聊夜莺的后端储存运维翁 Nightingale linux 运维服务器
Nightingale滴滴夜莺监控系统入门（四）—聊聊夜莺的后端储存1-默认版本默认是使用夜莺的两个组件来实现：TSDB+INDEXTSDB实际上使用的是老牌的图形数据库rrdtool，记录ts和value，有很多老牌的监控使用比如Cacti；INDEX是索引模块，夜莺把监控metric记录在这里，查询数据的时候是通过索引去查询；存储目录分别对应TSDB:/home/n9e/dataINDEX:/
Redis概述 AC编程
一、为什么需要NoSQLHighperformance高并发读写HugeStorage海量数据的高效率存储和访问HighScalability&&HighAvailability高可拓展性和高可用性二、NoSQL数据库的四大分类键值（Key-Value）存储列存储文档数据库图形数据库三、四类NoSQL数据库比较键值（Key-Value）存储相关产品：Redis、Voldemort、TokyoCab
图数据库Neo4j从入门到精通视频教程（含Neo4j+D3.js完整实战项目）菜花小噗噗
图数据库Neo4j从入门到精通视频教程（含Neo4j+D3.js完整实战项目）课程观看地址：http://www.xuetuwuyou.com/course/302课程出自学途无忧网：http://www.xuetuwuyou.com图数据库是目前大数据领域最火热的方向，Neo4j则是图数据库中的领军者，占有过半的行业采用率。Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络
主流图数据库Neo4j的知识大全，全网最新埠渝23 数据库
1.主流图数据库对比对比了3个主流开源图数据库：Neo4j/JanusGraph和HugeGraph的一些特性，共比较了30多个指标，包括生态、功能、性能、工具链等维度。2.Cypher基本语法2.1类型Cypher支持的数据类型有：数值型、字符型、布尔型、节点、关系、路径、映射（map）和列表（list）。2.2表达式2.2.1Case表达式2.2.1.1简单的case表达式计算表达式的值，然后
在 Spark 数据导入中的一些实践细节 NebulaGraph
best-practices-import-data-spark-nebula-graph本文由合合信息大数据团队柳佳浩撰写1.前言图谱业务随着时间的推移愈发的复杂化，逐渐体现出了性能上的瓶颈：单机不足以支持更大的图谱。然而，从性能上来看，Neo4j的原生图存储有着不可替代的性能优势，这一点是之前调研的JanusGraph、Dgraph等都难以逾越的鸿沟。即使JanusGraph在OLAP上面非常
【9】知识存储铁盒薄荷糖知识图谱实战6+3天知识图谱
一、图数据库neo4jNeo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。单节点的服务器可承载上亿级的节点和关系，单节点性能不够时也可进行分布式集群部署。Neo4j有自己的后端存储，不必如同JanusGraph等一样还要依赖另外的数据库存储。Neo4j在每个节点中存储了每个边的指针，因而遍历时效
neo4j下载安装最新教程 2024.02 Cachel wood 软件安装教程 neo4j
文章目录neo4j简介neo4j与jdk版本对应neo4j历史版本下载地址配置环境变量命令行启动验证安装结果neo4j简介Neo4j是一个高性能的NoSQL图形数据库，它将结构化数据存储在网络（从数学角度叫做图）上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。neo4j与jdk版本对应neo4j的版本需要与jdk版本相适配，否则容易出现安装失败。最新的ne
RedisGraph概述简vae graph redisgraph redis 数据库
1RedisGraph简介RedisGraph是高性能内存数据库Redis的图模块，它由Redis实验室开发，用于向Redis添加图形数据库功能。RedisGraph创新地将图数据表示为稀疏矩阵并利用GraphBLAS将图形操作转换为对矩阵的操作，同时还保留了完全基于内存的特点，这些特别之处为RedisGraph带来了独特的性能优势。redismodule是一种动态库，可以用与redis内核相似的
Python爬虫之非关系型数据库存储#5 仲君Johnny python爬虫逆向教程 python 爬虫 nosql 数据库网络爬虫
NoSQL，全称NotOnlySQL，意为不仅仅是SQL，泛指非关系型数据库。NoSQL是基于键值对的，而且不需要经过SQL层的解析，数据之间没有耦合性，性能非常高。非关系型数据库又可细分如下。键值存储数据库：代表有Redis、Voldemort和OracleBDB等。列存储数据库：代表有Cassandra、HBase和Riak等。文档型数据库：代表有CouchDB和MongoDB等。图形数据库：
图形数据库长腿叔叔JAVA
图形数据库介绍https://blog.csdn.net/xlgen157387/article/details/79085901
图数据库之 Neo4j - Browser 介绍(3) magic_kid_2010 图数据库 neo4j 图数据库
Neo4jBrowser介绍Neo4jBrowser中有3个模块，侧边栏，Cypher编辑器与结果栏，在进入Neo4jBrowser时结果栏会展示欢迎界面。Cypher编辑器Cypher是一种图形查询语言，用于查询和操作图形数据库。它是Neo4j图形数据库的查询语言，也被其他一些图形数据库所支持。Cypher的语法简洁易懂，类似于SQL，但是专门设计用于图形数据的查询和操作。它允许用户以图形的方式
图数据库（一）：Neo4j入门程序员易小雨 Neo4J neo4j 数据库
什么是Neo4j我们可以看一下百度百科对其的定义：Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。Neo4j图数据库的主要组成：节点：实体，可以表示一个单
NoSQL（非关系型数据库） Smiling Mr. Rui DATABASES nosql 数据库
目录前言：一、NoSQL的类别1.1键值（key-value）存储数据库1.2列存储数据库1.3文档型数据库1.4图形数据库二、NoSQL适应场景三、在分布式数据库中的CAP原理3.1传统的ACID3.2CAP四、什么是BASE前言：NoSQL（NotOnlySQL）即不仅仅是SQL，泛指非关系型的数据库，它可以作为关系型数据库的良好补充。随着互联网web2.0网站的兴起，非关系型的数据库现在成了
图数据库Neo4j Java牛马 neo4j 数据库图数据结构
图数据库Neo4j官网：https://neo4j.com/try-neo4j/可以在官网网页端熟悉数据结构及相关的neo4j命令，可网页端执行，直接显示图形化结果；步骤：LaunchtheFreeSandbox-->newproject-->Movies简介：Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的J
Neo4j介绍 less more neo4j oracle 数据库
1.Neo4j概述Neo4j是一个开源的无Shcema的基于java开发的图形数据库，它将结构化数据存储在图中而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。程序数据是在一个面向对象的、灵活的网络结构下，而不是严格、静态的表中,但可以享受到具备完全的事务特性、企业级的数据库的所有好处。https://db-engines.com/en/ranking2.图形数据库
SpringBoot整合Neo4j简单操作天天Plus neo4j spring boot 数据库
Neo4j-SpringBoot简单操作Neo4jNeo4j安装数据导入Neo4jSpringBoot整合neo4jNeo4j字符串转列表持续学习Neo4jNeo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一
秋招过程中的一些还不错的问题面经 ZhangBlossom java java
文章目录希音小天才小米某低代码独角兽公司小红书（实习）某图形数据库开发公司及时设计某教育独角兽必问面试题这里面记录的是一些基于我当初简历问到的一些我认为比较有意义的问题，没有意义的问题我就忽略了。希音一面自我介绍对称加密与非对称加密的区别和使用场景？将一下简历上的数字签名和URL动态加密的实现方式？如果你暴露给前端的接口其他人也能请求，那么你如何保证之后接收到的密钥是来自于你的前端而非攻击者呢？你
使用“时间序列数据库”的案例魂斗驴
一种根据特定的业务需求和用例，从关系型数据库中衍生出了许多新数据库。从内存中的键值存储到图形数据库，从地理空间数据库到时间序列数据库。所有这些不同类型的数据库都有特定的用途，其中使用关系数据库的一般解决方案不是很有效。尽管有许多不同类型的数据库，但在这里我们将研究时间序列数据库-处理时间序列数据所需的数据库。由时间间隔内某物的连续测量组成的数据是时间序列数据。随着现代化金融交易与物联网的出现，需要
1、Windows 安装Neo4j 046e4c41fa5d
一、简介Neo4j是目前最流行的图形数据库，支持完整的事务，在属性图中，图是由顶点（Vertex），边（Edge）和属性（Property）组成的，顶点和边都可以设置属性，顶点也称作节点，边也称作关系，每个节点和关系都可以由一个或多个属性。Neo4j创建的图是用顶点和边构建一个有向图，其查询语言cypher已经成为事实上的标准。其他的图形数据库还包括OracleNoSQL数据库，OrientDB，
超详细neo4j安装教程至少我有我a 工具安装知识图谱 neo4j nlp 数据库
一、neo4j简介最近开始学习知识图谱，所以首先想先学习一下neo4j的使用。Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。由于知识图谱中存在大量的关系型信息（实体—关系—实体）,使用结构化数据库进行存储将产生大量的冗余存储信息,因此将图数据库作为知识图谱的存储容器成为流行的选择。当前较为常用的图数据库主要有Neo4j等。二、neo4j的安装本人的使用环境是
Neo4j是什么？艳Yansky 知识图谱数据库 Neo4j 图数据库查询语言cypher
一、什么是图数据库图数据库用图来存储数据，是最接近高性能的一种用于存储数据的数据结构方式之一。图形数据库是以图形结构的形式存储数据的数据库。它以节点，关系和属性的形式存储应用程序的数据。正如RDBMS以表的“行，列”的形式存储数据，GDBMS以“图形”的形式存储数据。1.1一个图由无数的节点和关系组成最简单的图是单节点的，一个记录，记录了一些属性。一个节点可以从单属性开始，成长为成千上亿，虽然会有
Neo4j搭建在线数据库小小的小帅
Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性
C# CAD二次开发之基本图形 Chiva Chen CAD二次开发 CAD CAD二次开发二次开发 C#
autoCAD二次开发之基本图形（二）文章目录autoCAD二次开发之基本图形（二）图形数据库直线进一步封装圆和圆弧多段线凸度面域文字总结本文章基础知识：C#基础面向对象编程事务概念本文章开发环境：autoCAD2016VS2017.NET4.5在上一篇文章中介绍了最基本的CAD开发的概念，工具，和写了一个HelloWorld程序，在这一篇文章中将做一些真正有趣，看得见的东西。我们将在CAD的图形
每天学习时间安排表夏天_f806
早上9点起来到9点30背单词9.30到10.30看一小时网络书10.30到11.30看一小时安全知识2.0-3.30图形数据库学习4.0到5.30java基础7.30-9.00算法offer哈哈开始学习开始开始学习开始学习开始学习开始学习开始学习开始学习
JanusGraph简介娃娃学软件
JanusGraph的优点JanusGraph支持对大图(单机往往难以处理的大图)进行实时的分析和遍历。主要有以下优点：JanusGraph可以通过扩展集群中的机器数量来进行弹性的扩展，从而能够实现对非常大的图数据处理。JanusGraph支持对图的高并发处理以及事务处理，并且能力能够随着机器的扩展而弹性扩展。JanusGraph支持Hadoop框架，并能够利用Hadoop对图进行大批量的处理和分
图形数据库 _oP_i 数据库
图形数据库是一种专门用于存储和查询图形数据结构的数据库系统。图形数据结构由节点（顶点）和边（连接节点的关系）组成，这种结构非常适合表示实体之间的复杂关系和网络。图形数据库的主要目标是提供高效的图形数据管理和查询功能。以下是一些图形数据库的关键特点和用途：1.图形模型：图形数据库采用图形模型，其中节点表示实体，边表示实体之间的关系。这种模型非常适用于表示社交网络、推荐系统、网络拓扑、知识图谱等。2.
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts