本案例将包含以下内容:
一. 图机器学习(GML:Graph Machine Learning)
首先我们导入需要的包
import numpy as np
import random
import networkx as nx
from IPython.display import Image
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
图学习中包含三种主要的任务:
在链接预测中,给定图G,我们的目标是预测新边。例如,当图未被完全观察时,或者当新客户加入平台(例如,新的LinkedIn用户)时,预测未来关系或缺失边是很有用的。
知乎回答:如何理解链接预测(link prediction)
新LinkedIn用户的链接预测只是给出它可能认识的人的建议。
在链路预测中,我们只是尝试在节点对之间建立相似性度量,并链接最相似的节点。现在的问题是识别和计算正确的相似性分数!
为了说明图中不同链路的相似性差异,让我们通过下面这个图来解释:
设 N ( i ) N(i) N(i)是节点 i i i的一组邻居。在上图中,节点 i i i和 j j j的邻居可以表示为:
i i i的邻居:
我们可以根据它们的邻居为这两个节点建立几个相似度分数。
交集是共同的邻居,并集是:
因此,Jaccard系数由粉红色与黄色的比率计算出:
值是 1 6 \frac {1} {6} 61。
我们如何进行链接预测的评估?我们必须隐藏节点对的子集,并根据上面定义的规则预测它们的链接。这相当于监督学习中的train/test的划分。
然后,我们评估密集图的正确预测的比例,或者使用稀疏图的标准曲线下的面积(AUC)。
这里继续用空手道俱乐部图来举例:
# 我们导入空手道俱乐部图
n=34
m = 78
G_karate = nx.karate_club_graph()
pos = nx.spring_layout(G_karate)
nx.draw(G_karate, cmap = plt.get_cmap('rainbow'), with_labels=True, pos=pos)
# 我们首先把有关图的信息打印出来:
n = G_karate.number_of_nodes()
m = G_karate.number_of_edges()
print("Number of nodes : %d" % n)
print("Number of edges : %d" % m)
print("Number of connected components : %d" % nx.number_connected_components(G_karate))
Number of nodes : 34
Number of edges : 78
Number of connected components : 1
plt.figure(figsize=(12,8))
nx.draw(G_karate, pos=pos)
plt.gca().collections[0].set_edgecolor("#000000")
# 现在,让我们删除一些连接,例如25%的边:
# Take a random sample of edges
edge_subset = random.sample(G_karate.edges(), int(0.25 * G_karate.number_of_edges()))
# remove some edges
G_karate_train = G_karate.copy()
G_karate_train.remove_edges_from(edge_subset)
# 绘制部分观察到的图,可以对比上图发现,去掉了一些边
plt.figure(figsize=(12,8))
nx.draw(G_karate_train, pos=pos)
# 你可以打印我们删除的边数和剩余边数:
edge_subset_size = len(list(edge_subset))
print("Deleted : ", str(edge_subset_size))
print("Remaining : ", str((m - edge_subset_size)))
Deleted : 19
Remaining : 59
# 我们可以先使用Jaccard系数进行预测:
# Make prediction using Jaccard Coefficient
pred_jaccard = list(nx.jaccard_coefficient(G_karate_train))
score_jaccard, label_jaccard = zip(*[(s, (u,v) in edge_subset) for (u,v,s) in pred_jaccard])
# 打印前10组结果
print(pred_jaccard[0:10])
# 预测结果如下,其中第一个是节点,第二个是节点,最后一个是Jaccard分数(用来表示两个节点之间边预测的概率)
[(0, 5, 0.07142857142857142), (0, 8, 0.07142857142857142), (0, 9, 0.0), (0, 10, 0.07692307692307693), (0, 13, 0.15384615384615385), (0, 14, 0.0), (0, 15, 0.0), (0, 16, 0.07692307692307693), (0, 18, 0.0), (0, 20, 0.0)]
# 然后我们可以使用ROC-AUC标准来比较不同模型的性能,因为我们既有真实的边(label),也有预测边的概率(score)
# Compute the ROC AUC Score
# 其中,FPR是False Positive Rate, TPR是True Positive Rate
fpr_jaccard, tpr_jaccard, _ = roc_curve(label_jaccard, score_jaccard)
auc_jaccard = roc_auc_score(label_jaccard, score_jaccard)
print(auc_jaccard)
0.6610548109403944
# 我们现在计算Adamic-Adar指数和对应的ROC-AUC分数
# Prediction using Adamic Adar
pred_adamic = list(nx.adamic_adar_index(G_karate_train))
score_adamic, label_adamic = zip(*[(s, (u,v) in edge_subset) for (u,v,s) in pred_adamic])
print(pred_adamic[0:10])
# Compute the ROC AUC Score
fpr_adamic, tpr_adamic, _ = roc_curve(label_adamic, score_adamic)
auc_adamic = roc_auc_score(label_adamic, score_adamic)
print(auc_adamic)
[(0, 5, 0.9102392266268373), (0, 8, 0.48089834696298783), (0, 9, 0), (0, 10, 1.4426950408889634), (0, 13, 1.039008973514235), (0, 14, 0), (0, 15, 0), (0, 16, 0.9102392266268373), (0, 18, 0), (0, 20, 0)]
0.764519995641277
# 同样,我们可以计算Preferential Attachment得分和对应的ROC-AUC分数
# Compute the Preferential Attachment
pred_pref = list(nx.preferential_attachment(G_karate_train))
score_pref, label_pref = zip(*[(s, (u,v) in edge_subset) for (u,v,s) in pred_pref])
print(pred_pref[0:10])
fpr_pref, tpr_pref, _ = roc_curve(label_pref, score_pref)
auc_pref = roc_auc_score(label_pref, score_pref)
print(auc_pref)
[(0, 5, 36), (0, 8, 36), (0, 9, 12), (0, 10, 24), (0, 13, 36), (0, 14, 24), (0, 15, 24), (0, 16, 24), (0, 18, 12), (0, 20, 12)]
0.7859867058951726
plt.figure(figsize=(12, 8))
plt.plot(fpr_jaccard, tpr_jaccard, label='Jaccard Coefficient - AUC %.2f' % auc_jaccard, linewidth=4)
plt.plot(fpr_adamic, tpr_adamic, label='Adamic-Adar - AUC %.2f' % auc_adamic, linewidth=4)
plt.plot(fpr_pref, tpr_pref, label='Preferential Attachment - AUC %.2f' % auc_pref, linewidth=4)
plt.plot([0, 1], [0, 1], 'k--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title("ROC AUC Curve")
plt.legend(loc='lower right')
plt.show()
关于更多性能评价介绍,可以阅读博客模型评估指标AUC和ROC
给定一个未标记某些节点的图,我们希望对这些节点的标签进行预测。这在某种意义上是一种半监督的学习问题。
处理这些问题的一种常见方法是假设图上有一定的平滑度。平滑度假设指出通过数据上的高密度区域的路径连接的点可能具有相似的标签。这是标签传播算法背后的主要假设。
标签传播算法(Label Propagation Algorithm,LPA)是一种快速算法,仅使用网络结构作为指导来发现图中的社区,而无需任何预定义的目标函数或关于社区的先验信息。
单个标签在密集连接的节点组中迅速占据主导地位,但是在穿过稀疏连接区域时会遇到问题。
半监督标签传播算法是如何工作?
首先,我们有一些数据: x 1 , . . . , x l , x l + 1 , . . . , x n ∈ R p x_1, ..., x_l, x_{l+1}, ..., x_n \in R^p x1,...,xl,xl+1,...,xn∈Rp,,以及前 l l l个点的标签: y 1 , . . . , y l ∈ 1... C y_1, ..., y_l \in 1...C y1,...,yl∈1...C.
我们定义初始标签矩阵 Y ∈ R n × C Y \in R^{n \times C} Y∈Rn×C,如果 x i x_i xi具有标签 y i = j y_i=j yi=j则 Y i j = 1 Y_{ij} = 1 Yij=1,否则为0。
该算法将生成预测矩阵 F ∈ R n × C F \in R^{n \times C} F∈Rn×C,我们将在下面详述。然后,我们通过查找最可能的标签来预测节点的标签:
Y i ^ = a r g m a x j F i , j \hat{Y_i} = argmax_j F_{i,j} Yi^=argmaxjFi,j
预测矩阵 F F F是什么?
预测矩阵是矩阵 F ⋆ F^{\star} F⋆,其最小化平滑度和准确度。因此,我们的结果在平滑性和准确性之间进行权衡。
问题的描述非常复杂,所以我将不会详细介绍。但是,解决方案是:
F ⋆ = ( ( 1 − α ) I + L s y m ) − 1 Y F^{\star} = ( (1-\alpha)I + L_{sym})^{-1} Y F⋆=((1−α)I+Lsym)−1Y
其中:
如果您想进一步了解这个主题,请关注图函数的平滑度和流形正则化的概念。
接下来我们用python来实现节点标签的预测。
为了给我们使用到的标签添加更多的特征,我们需要使用来自Facebook的真实数据。你可以再这里下载,然后放到facebook路径下。
G_fb = nx.read_edgelist("facebook/414.edges")
n = G_fb.number_of_nodes()
m = G_fb.number_of_edges()
print("Number of nodes: %d" % n)
print("Number of edges: %d" % m)
print("Number of connected components: %d" % nx.number_connected_components(G_fb))
Number of nodes: 150
Number of edges: 1693
Number of connected components: 2
我们使用到的414号数据,图中有150个节点和1693个边。其中,有2个连通分支构成,这意味着这个图中的两块是分开来的。
# 我们把图数据显示出来:
mapping=dict(zip(G_fb.nodes(), range(n)))
nx.relabel_nodes(G_fb, mapping, copy=False)
pos = nx.spring_layout(G_fb)
plt.figure(figsize=(12,8))
nx.draw(G_fb, node_size=200, pos=pos)
plt.gca().collections[0].set_edgecolor("#000000")
这个图中包含了不同的特征。在这些可用的特征中,我们将利用第34组特征来进行实验。这组特征描述了这个某个facebook用户(节点)是否是一所学校的学生。
这里我们两种标签(1是红色的,代表改用户是这所学校的学生,反正,0则用蓝色表示)
with open('facebook/414.featnames') as f:
for i, l in enumerate(f):
pass
n_feat = i+1
features = np.zeros((n, n_feat))
f = open('facebook/414.feat', 'r')
for line in f:
if line.split()[0] in mapping:
node_id = mapping[line.split()[0]]
features[node_id, :] = list(map(int, line.split()[1:]))
features = 2*features-1
feat_id = 43
labels = features[:, feat_id]
plt.figure(figsize=(12,8))
nx.draw(G_fb, cmap = plt.get_cmap('bwr'), nodelist=range(n), node_color = labels, node_size=200, pos=pos)
plt.gca().collections[0].set_edgecolor("#000000")
plt.show()
这个所选择的特征,在图中相对平滑,因此拥有较好的学习传播性能。
为了阐述节点标签预测是如何进行的,我们首先要删掉一些节点的标签,作为要预测的对象。这里我们只保留了30%的节点标签:
random.seed(5)
proportion_nodes = 0.3
labeled_nodes = random.sample(G_fb.nodes(), int(proportion_nodes * G_fb.number_of_nodes()))
known_labels = np.zeros(n)
known_labels[labeled_nodes] = labels[labeled_nodes]
plt.figure(figsize=(12,8))
nx.draw(G_fb, cmap = plt.get_cmap('bwr'), nodelist=range(n), node_color = known_labels, node_size=200, pos=pos)
plt.gca().collections[0].set_edgecolor("#000000") # set node border color to black
plt.show()
然后,我们就可以进行标签的传播预测:
alpha = 0.7
L_sym = nx.normalized_laplacian_matrix(G_fb)
Y = np.zeros((n,2))
Y[known_labels==-1, 0] = 1
Y[known_labels==1, 1] = 1
I = np.identity(n)
# Create the F-pred matrix
F_pred = np.linalg.inv(I*(1-alpha) + L_sym) * Y
# Identify the prediction as the argmax
pred = np.array(np.argmax(F_pred, axis=1)*2-1).flatten()
# Compute the accuracy score
succ_rate = accuracy_score(labels, pred)
# 我们把结果打印出来
plt.figure(figsize=(18, 6))
f, axarr = plt.subplots(1, 2, num=1)
# Plot true values
plt.sca(axarr[0])
nx.draw(G_fb, cmap = plt.get_cmap('bwr'), nodelist=range(n), node_color = labels, node_size=200, pos=pos)
axarr[0].set_title('True labels', size=16)
plt.gca().collections[0].set_edgecolor("#000000")
# Plot predicted values
plt.sca(axarr[1])
nx.draw(G_fb, cmap = plt.get_cmap('bwr'), nodelist=range(n), node_color = pred, node_size=200, pos=pos)
axarr[1].set_title('Predicted labels (Success Rate: %.2f)' % succ_rate, size=16)
plt.gca().collections[0].set_edgecolor("#000000")
这就是我们得到的预测结果,如右图所示。
在处理NLP或计算机视觉问题时,我们习惯在深度神经网络中对图像或文本进行嵌入(embedding)。到目前为止,我们所看到的图的一个局限性是没有向量特征。但是,我们可以学习图的嵌入!图有不同几个级别的嵌入:
这部分将在后续案例中结合PGL代码实现讲解。
我们现在已经覆盖了图的介绍,图的主要类型,不同的图算法,在Python中使用Networkx来实现它们,以及用于节点标记,链接预测和图嵌入的图学习技术。
毋庸置疑,这只是冰山一角。图论不断扩展,我认为列出一些资源以进一步学习是有用的: