【图神经网络】多核卷积拓扑图(TAGCN)

本文为图神经网络的学习笔记,讲解多核卷积拓扑图 TAGCN。欢迎在评论区与我交流

前言

用 Tensorflow 构建 GCN 的变体 TAGCN 模型进行节点分类任务。

TAGCN 简介

TAGCN 是 GCN的变体之一,全称 TOPOLOGY ADAPTIVE GRAPH CONVOLUTIONAL NETWORKS(TAGCN)。相比于 GCN 对卷积核进行 Chebyshev 多项式近似后取 k=1,TAGCN 用 k 个图卷积核来提取不同尺寸的局部特征,并且将 k 保留下来作为超参数。其中的 K 个卷积核的感受野分别为 1 到 K,类似于 GoogleNet 中每一个卷积层都有大小不同的卷积核提取特征。

卷积过程如下:

  1. 对邻接矩阵进行归一化处理: A = D − 0.5 ( I + A ) D − 0.5 A=D^{-0.5}(I+A)D^{-0.5} A=D0.5(I+A)D0.5
  2. G j ( l ) G_j^{(l)} Gj(l) 多项式卷积核, g j , k ( l ) g_{j,k}^{(l)} gj,k(l) 是多项式系数,相比于 GCN 保留了超参数 K K K G j ( l ) = ∑ k = 0 K g j , k ( l ) A k G_j^{(l)}=\sum\limits_{k=0}^K g_{j,k}^{(l)}A^k Gj(l)=k=0Kgj,k(l)Ak
  3. k 个卷积核在图结构数据上提取特征,进行线性组合: y f ( l ) = G j ( l ) x c ( l ) + b f 1 N t y_f^{(l)}=G_j^{(l)}x_c^{(l)}+b_f1_{N_t} yf(l)=Gj(l)xc(l)+bf1Nt
  4. 仿照CNN结构,添加非线性操作: x f l + 1 = σ ( y f ( l ) ) x_f^{l+1}=\sigma(y_f^{(l)}) xfl+1=σ(yf(l))

下图展示了 TAGCN 在 k=3 时的卷积过程,类似 CNN 中的每一个卷积层中由多个卷积核提取 feature map 形成多个channel:

【图神经网络】多核卷积拓扑图(TAGCN)_第1张图片

总结:

  1. TAGCN 仿照 CNN 在每一层使用 K 个图卷积核分别提取不同尺寸的局部特征,避免了之前对卷积核进行近似而不能完整、充分地提取图信息的缺陷,提高了模型的表达能力。
  2. TAGCN 可用于无向图和有向图,由于只需计算邻接矩阵的系数,降低了计算复杂度。

TAGCN 的实现

首先对图的邻接矩阵添加自环,进行归一化处理: D − 0.5 ( I + A ) D − 0.5 D^{-0.5}(I+A)D^{-0.5} D0.5(I+A)D0.5

# xs 存储 k 个多项式卷积核提取的 feature map
xs = [x]
    updated_edge_index, normed_edge_weight = gcn_norm_edge(edge_index, x.shape[0], edge_weight, renorm, improved, cache)

分别计算 k 个多项式卷积核提取图节点的邻域信息,即计算 k 阶多项式,并以此将结果存储到 xs 中:

for k in range(K):
        h = aggregate_neighbors( # 计算多项式卷积核提取图节点的邻域信息
            xs[-1], updated_edge_index, normed_edge_weight,
            gcn_mapper,
            sum_reducer,
            identity_updater
        )

        xs.append(h) # 将结果存储到 xs 中

将K个多项式卷积核提取的 feature_map 拼接,然后线性变换输出结果:

h = tf.concat(xs, axis=-1)

    out = h @ kernel
    if bias is not None: # feature_map 拼接
        out += bias

    if activation is not None: # 线性变换
        out = activation(out)

    return out

模型构建

本教程使用的核心库是 tf_geometric,我们用它进行图数据导入、预处理及图神经网络构建。模型具体实现已经在上面详细介绍,我们使用 keras.metrics.Accuracy 评估模型性能。

导入相关库:

# coding=utf-8
import os

os.environ["CUDA_VISIBLE_DEVICES"] = "0"
import tensorflow as tf
import numpy as np
from tensorflow import keras
from tf_geometric.layers.conv.tagcn import TAGCN
from tf_geometric.datasets.cora import CoraDataset

使用 tf_geometric 自带的图结构数据接口加载Cora数据集:

graph, (train_index, valid_index, test_index) = CoraDataset().load_data()

定义模型,引入 keras.layers 中的 Dropout 层随机关闭神经元缓解过拟合。由于 Dropout 层在训练和预测阶段的状态不同,因此通过参数 training 来决定是否需要 Dropout 发挥作用:

tagcn0 = TAGCN(16)
tagcn1 = TAGCN(num_classes)
dropout = keras.layers.Dropout(0.3) # dropout 层随机关闭神经元缓解过拟合

def forward(graph, training=False): # 前向传播
    h = tagcn0([graph.x, graph.edge_index, graph.edge_weight], cache=graph.cache)
    h = dropout(h, training=training) # 训练和预测阶段状态不同,用 training 控制
    h = tagcn1([h, graph.edge_index, graph.edge_weight], cache=graph.cache)

    return h

TAGCN训练

模型的训练与其他基于 Tensorflow 框架的模型训练基本一致,主要步骤有定义优化器,计算误差与梯度,反向传播等。TAGCN 论文用模型在第 100 轮训练后的表现来评估模型,因此设置 epoches=100:

optimizer = tf.keras.optimizers.Adam(learning_rate=0.01) # 定义优化器

best_test_acc = tmp_valid_acc = 0
for step in range(1, 101):
    with tf.GradientTape() as tape:
        logits = forward(graph, training=True) # 前向传播
        loss = compute_loss(logits, train_index, tape.watched_variables()) # 计算损失

    vars = tape.watched_variables()
    grads = tape.gradient(loss, vars) # 计算梯度
    optimizer.apply_gradients(zip(grads, vars)) # 使用优化器

    valid_acc = evaluate(valid_index)
    test_acc = evaluate(test_index)
    if test_acc > best_test_acc: # 计算测试准确率
        best_test_acc = test_acc
        tmp_valid_acc = valid_acc
    print("step = {}\tloss = {}\tvalid_acc = {}\tbest_test_acc = {}".format(step, loss, tmp_valid_acc, best_test_acc))

计算损失与【GCN】相同。

用交叉熵损失函数计算模型损失。注意在加载 Cora 数据集时,返回值是整个图数据以及相应的 train_indexvalid_indextest_index。TAGCN 在训练时输入整个Graph,计算损失时通过 train_index 计算模型在训练集上的迭代损失。因此,此时传入的 mask_indextrain_index。由于是多分类任务,需要将节点的标签转换为 one-hot 向量以便与模型输出的结果维度对应。由于图神经模型在小数据集上很容易过拟合,所以这里用 L 2 L_2 L2 正则化缓解过拟合:

def compute_loss(logits, mask_index, vars):
    masked_logits = tf.gather(logits, mask_index) # 前向传播(预测)的结果,取训练数据部分
    masked_labels = tf.gather(graph.y, mask_index) # 真实结果,取训练数据部分
    losses = tf.nn.softmax_cross_entropy_with_logits(
        logits=masked_logits,
        labels=tf.one_hot(masked_labels, depth=num_classes) # 真实结果,即标签
    )
		# 用 L_2 正则化缓解过拟合
    kernel_vals = [var for var in vars if "kernel" in var.name]
    l2_losses = [tf.nn.l2_loss(kernel_var) for kernel_var in kernel_vals]

    # reduce_mean 计算张量的平均值;tf.add_n 列表对应元素相加
    return tf.reduce_mean(losses) + tf.add_n(l2_losses) * 5e-4

TAGCN 评估

评估模型性能时只需传入 valid_masktest_mask,通过 tf.gather 函数可以拿出验证集或测试集在模型上的预测结果与真实标签,用 keras自带的 keras.metrics.Accuracy 计算准确率:

def evaluate(mask):
    logits = forward(graph) # 前向传播结果
    logits = tf.nn.log_softmax(logits, axis=-1) # 假设函数处理
    masked_logits = tf.gather(logits, mask) # 预测结果
    masked_labels = tf.gather(graph.y, mask) # 真实标签

    # 返回预测结果向量最大值的索引
    y_pred = tf.argmax(masked_logits, axis=-1, output_type=tf.int32)

    accuracy_m = keras.metrics.Accuracy()
    accuracy_m.update_state(masked_labels, y_pred)
    return accuracy_m.result().numpy()  # 准确度结果转换为 numpy 返回

运行结果

step = 1	loss = 1.9458770751953125	valid_acc = 0.5120000243186951	test_acc = 0.5389999747276306
step = 2	loss = 1.8324840068817139	valid_acc = 0.722000002861023	test_acc = 0.7350000143051147
step = 3	loss = 1.7052000761032104	valid_acc = 0.4740000069141388	test_acc = 0.4729999899864197
step = 4	loss = 1.6184687614440918	valid_acc = 0.5580000281333923	test_acc = 0.5360000133514404
...
step = 97	loss = 0.9681359529495239	valid_acc = 0.7919999957084656	test_acc = 0.8130000233650208
step = 98	loss = 0.9678354263305664	valid_acc = 0.7919999957084656	test_acc = 0.8100000023841858
step = 99	loss = 0.9675441384315491	valid_acc = 0.7919999957084656	test_acc = 0.8100000023841858
step = 100	loss = 0.967261791229248	valid_acc = 0.7919999957084656	test_acc = 0.8100000023841858

有帮助的话点个赞加关注吧

完整代码见【demo_tagcn.py】,完成教程见【Tensorflow-TAGCN-Tutorial】,论文见【TAGCN】。

你可能感兴趣的:(#,深度学习,卷积,机器学习,深度学习,tensorflow,神经网络)