Spark GraphX 对图进行可视化

Spark 和 GraphX 对并不提供对数据可视化的支持, 它们所关注的是数据处理. 但是, 一图胜千言, 尤其是在数据分析时. 接下来, 我们构建一个可视化分析图的 Spark 应用. 需要用到的第三方库有:

  • GraphStream: 用于画出网络图
  • BreezeViz: 用户绘制图的结构化信息, 比如度的分布.

这些第三方库尽管并不完美, 而且有些限制, 但是相对稳定和易于使用.

安装 GraphStream 和 BreezeViz

因为我们只需要绘制静态网络, 所以下载 core 和 UI 两个 JAR 就可以了.

  • gs-core-1.2.jar
  • gs-ui-1.2.jar

breeze 也需要两个 JAR:

  • breeze_2.10-0.9.jar
  • breeze-viz_2.10-0.9.jar

由于 BreezeViz 是一个 Scala 库, 它依赖了另一个叫做 JfreeChart 的 Java 库, 所以也需要安装:

  • jcommon-1.0.16.jar
  • jfreechart-1.0.13.jar

可以到 maven 仓库去下载, 下载完成后放到项目根目录下 lib 文件夹下即可. 用 sbt 来管理依赖比较方便, 所以我使用 sbt 来安装这些依赖:

// Graph Visualization
libraryDependencies += "org.graphstream" % "gs-core" % "1.2"
libraryDependencies += "org.graphstream" % "gs-ui" % "1.2"

libraryDependencies += "org.scalanlp" % "breeze_2.11" % "0.12"
libraryDependencies += "org.scalanlp" % "breeze-viz_2.11" % "0.12"

libraryDependencies += "org.jfree" % "jcommon" % "1.0.24"

libraryDependencies += "org.jfree" % "jfreechart" % "1.0.19"
在导入环节需要注意的是, 如果是与 GraphX 的 Graph 一同使用, 在导入时将 graphstream 的 Graph 重命名为 GraphStream, 否则都叫 Graph 会有命名空间上的冲突. 当然, 如果只使用一个就无所谓了.

import org.graphstream.graph.{Graph => GraphStream}
首先是使用 GraphX 加载一个图, 然后将这个图的信息导入 graphstream 的图中进行可视化. 具体是:

  1. 创建一个 SingleGraph 对象, 它来自 graphstream:

    val graph: SingleGraph = new SingleGraph("visualizationDemo")
  2. 我们可以调用 SingleGraph 的 addNode 和 addEdge 方法来添加节点和边, 也可以调用 addAttribute 方法来给图, 或是单独的边和顶点来设置可视化属性. graphsteam API 非常好的一点是, 它将图的结构和可视化用一个类 CSS 的样式文件完全分离了开来, 我们可以通过这个样式文件来控制可视化的方式. 比如, 我们新建一个 stylesheet 文件并放到用户目录下的 style 文件下面:

    node {
       fill-color: #a1d99b;
       size: 20px;
       text-size: 12;
       text-alignment: at-right;
       text-padding: 2;
       text-background-color: #fff7bc;
    edge {
       shape: cubic-curve;
       fill-color: #dd1c77;
       z-index: 0;
       text-background-mode: rounded-box;
       text-background-color: #fff7bc;
       text-alignment: above;
       text-padding: 2;
object Visualization {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf()
      .set("spark.master", "local[*]")

    val sc = new SparkContext(sparkConf)

    val graph: SingleGraph = new SingleGraph("graphDemo")

    val vertices: RDD[(VertexId, String)] = sc.parallelize(List(
      (1L, "A"),
      (2L, "B"),
      (3L, "C"),
      (4L, "D"),
      (5L, "E"),
      (6L, "F"),
      (7L, "G")))

    val edges: RDD[Edge[String]] = sc.parallelize(List(
      Edge(1L, 2L, "1-2"),
      Edge(1L, 3L, "1-3"),
      Edge(2L, 4L, "2-4"),
      Edge(3L, 5L, "3-5"),
      Edge(3L, 6L, "3-6"),
      Edge(5L, 7L, "5-7"),
      Edge(6L, 7L, "6-7")))

    val srcGraph = Graph(vertices, edges)

    graph.setAttribute("ui.stylesheet", "url(file:/home/hadoop/style/stylesheet)")

//    load the graphx vertices into GraphStream
    for ((id, _) <- srcGraph.vertices.collect()){
      val node = graph.addNode(id.toString).asInstanceOf[SingleNode]

//    load the graphx edges into GraphStream edges
    for (Edge(x, y, _) <- srcGraph.edges.collect()){
      val edge = graph.addEdge(x.toString ++ y.toString, x.toString, y.toString, true).asInstanceOf[AbstractEdge]



至此, 一个简单的示例完成. 更多实用的内容可自行研究.

目前, 如果不消耗大量的计算资源, 对于大规模的网络图绘制仍然缺乏一个有力的工具. 类似的工具有:

  • snap: 基于 GraphViz 引擎.
  • Gephi: 它是交互式的可视化工具, 尽管它有写多级布局和内置 3D 渲染引擎这样的特色, 但是仍然有些高 CPU 和内存的需求.

另外, zeepelin 也可与 Spark 集成, 可自行了解.

