名字上就可猜测这是一个表示图的XML文件。它的结构设计的非常简单自然。最近做图的存储就选择了它,结合Prefuse绘制交互型可视化图。
GraphML目的就是用来定义图。我们举个简单例子:
上图包含11个节点和12个边。我们就可以用下面的XML来描述它:
<?xml version="1.0" encoding="UTF-8"?> <graphml xmlns="" xmlns:xsi="" xsi:schemaLocation=" "> <graph id="G" edgedefault="undirected"> <node id="n0"/> <node id="n1"/> <node id="n2"/> <node id="n3"/> <node id="n4"/> <node id="n5"/> <node id="n6"/> <node id="n7"/> <node id="n8"/> <node id="n9"/> <node id="n10"/> <edge source="n0" target="n2"/> <edge source="n1" target="n2"/> <edge source="n2" target="n3"/> <edge source="n3" target="n5"/> <edge source="n3" target="n4"/> <edge source="n4" target="n6"/> <edge source="n6" target="n5"/> <edge source="n5" target="n7"/> <edge source="n6" target="n8"/> <edge source="n8" target="n7"/> <edge source="n8" target="n9"/> <edge source="n8" target="n10"/> </graph> </graphml>
XML中有三个元素:graphml,graph,node和edge。
第一行说明此XML遵循和标准的版本和使用的字符集。第二行定义了Graph的根元素、namespace和Schema。感兴趣的可以查看格格说明书。
graph元素是我们定义的图。它可以指定图是有向的(edgedefault="directed"),还是无向的(edgedefault="undirected")。edgedefault真正生效的时机是在定义边的时候没有指定方向时。graph还有一个属性是id,它用来标识一个图,在存在多个图时,可以用id来进行引用。
node的定义需要一个标识符id,在同一个图中,我们需要保证id是不重复的。
edge的定义需要两个属性:source和target。它们的值都是node的的标识符,我们需要保证边的节点id是存在的。如果边的source和target是同一个节点,即selfloop,这也是允许的。edge还存在两个属性。一是id,即标识;二是directed,值可取true和false。可以在一个图中是允许同时存在有向边和无向边的。如果没有设置directed属性,graph和edgedefault属性生效。
虽然上面的实例将node定义在前,edge定义在后,但实际上node和edge的顺序是可以任意放的。出于人阅读的考虑(对XML的解析,有无顺序无关紧要),才有了上面的顺序。
图仅仅有结点和边,往往是不够的,我们可能还需要结点和边上携带的数据。Graph提供了一种定义自己结点和边数据的方法:GraphML-Attributes。
举个例子,我们想给上面的图定义节点的颜色和边的权重,我们可以key元素。
<?xml version="1.0" encoding="UTF-8"?> <graphml xmlns="http://graphml.graphdrawing.org/xmlns" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd"> <key id="d0" for="node" attr.name="color" attr.type="string"> <default>yellow</default> </key> <key id="d1" for="edge" attr.name="weight" attr.type="double"/> <graph id="G" edgedefault="undirected"> <node id="n0"> <data key="d0">green</data> </node> <node id="n1"/> <node id="n2"> <data key="d0">blue</data> </node> <node id="n3"> <data key="d0">red</data> </node> <node id="n4"/> <node id="n5"> <data key="d0">turquoise</data> </node> <edge id="e0" source="n0" target="n2"> <data key="d1">1.0</data> </edge> <edge id="e1" source="n0" target="n1"> <data key="d1">1.0</data> </edge> <edge id="e2" source="n1" target="n3"> <data key="d1">2.0</data> </edge> <edge id="e3" source="n3" target="n2"/> <edge id="e4" source="n2" target="n4"/> <edge id="e5" source="n3" target="n5"/> <edge id="e6" source="n5" target="n4"> <data key="d1">1.1</data> </edge> </graph> </graphml>
key元素定义了数据的标识、名字、类型和域(结点或边)。GraphML支持的类型包括boolean,int,long,float,double和string。跟Java语言的类型差不多。
有了这些基本的了解后,应该可以满足我们的简单的应用。如果你对下面的主题还感兴趣,可以参考后面的网址。
Topic 1:解析优化,提供图的元数据,以帮助Graph文件的解析
Topic 2:嵌套图,图中的结点又是一个子图
Topic 3:超级边(Hyperedges),一条边链接了多于两个的结点
Topic 4:端口,每个结点可以有多个端口,边链接到端口,而不是直接链接结点
Topic 5:GraphML扩展,添加元素和复杂类型的支持
参考Graph Home:http://graphml.graphdrawing.org/