GraphLab图数据文件格式

GraphLab支持的文件格式包括tsv, snap, adj三类常见格式,GraphLab特定格式bintsv4, 两类Non-portable Format:graphjrl和 bin,共6类格式,下面一一简要介绍。

图1. 由定点和边构成的图 

1.tsv
tsv是一种边表格式(edge list),主要存储边数据,格式如下所示:
[src ID]
[target ID]
1 2
1 5
7 5


2.snap
snap是带有注释的tsv,每行带有“#”标记,则视为注释内容不予处理,如下所示:
# example graph
# vertices: 4 edges: 5
1 2
1 5
7 5
5 7
7 1

3.adj
adj是邻接表,按边存储。
[vertex ID]  [number of target vertices] [target ID 1] [target ID 2] [target ID 3] ...
1 2 2 5
7 2 7 1
5 1 7


4.bintsv4
bintsv4是一种二进制边表文件,它的基本单元由2个8字节的Block构成,每个block是32位的无符号整型变量,Vertex 的取值不能为2^32-1。
 
---------------------------------
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
---------------------------------
|   src VID   |   dest VID   |
---------------------------------

5.graphjrl
将节点和边序列化为持久化数据结构。

6.bin
分布式二进制图数据格式,是一种序列化的分布式图数据格式,高效省时。
bin格式的局限性:载入bin格式图数据的节点数量需要与保存时的节点数量一致。

你可能感兴趣的:(数据格式,graphlab)