GNN 将深度学习的预测能力应用于丰富的数据结构,这些数据结构将对象及其关系描述为图中由线连接的点。
当两种技术融合时,它们可以创造出新奇而美妙的东西——比如手机和浏览器融合在一起打造智能手机。
如今,开发人员正在将 AI 寻找模式的能力应用于存储有关各种数据点之间关系信息的海量图形数据库。 他们共同创造了一种强大的新工具,称为图神经网络。
图神经网络将深度学习的预测能力应用于丰富的数据结构,这些数据结构将对象及其关系描述为图中由线连接的点。
在 GNN 中,数据点称为节点,它们由线(称为边)连接,元素以数学方式表示,因此机器学习算法可以在节点、边或整个图的级别做出有用的预测。
越来越多的公司正在应用 GNN 来改进药物发现、欺诈检测和推荐系统。 这些应用程序以及更多应用程序依赖于在数据点之间的关系中寻找模式。
研究人员正在探索 GNN 在计算机图形学、网络安全、基因组学和材料科学中的用例。 最近的一篇论文报告了 GNN 如何使用交通地图作为图表来改进到达时间的预测。
许多科学和工业分支已经将有价值的数据存储在图形数据库中。 通过深度学习,他们可以训练预测模型,从他们的图表中挖掘出新的见解。
“GNN 是深度学习研究中最热门的领域之一,我们看到越来越多的应用程序利用 GNN 来提高性能,”AWS 高级首席科学家 George Karypis 在今年早些时候的一次演讲中说。
其他人同意。 斯坦福大学副教授 Jure Leskovec 在最近的一次演讲中表示,GNN“因其对复杂关系建模的灵活性而火起来,这是传统神经网络无法做到的”,他在最近的一次演讲中展示了下图提到它们的 AI 论文 .
亚马逊在 2017 年报告了其使用 GNN 检测欺诈的工作。 2020 年,它推出了一项公共 GNN 服务,其他人可以将其用于欺诈检测、推荐系统和其他应用。
为了保持客户的高度信任,Amazon Search 使用 GNN 来检测恶意卖家、买家和产品。 使用 NVIDIA GPU,它能够探索具有数千万个节点和数亿个边的图形,同时将训练时间从 24 小时缩短到 5 小时。
生物制药公司葛兰素史克 (GSK) 维护着一个包含近 5000 亿个节点的知识图谱,该知识图谱用于其许多机器语言模型,该公司人工智能全球负责人金布兰森 (Kim Branson) 在 GNN 研讨会的小组讨论会上表示。
LinkedIn 使用 GNN 进行社交推荐,并了解人们的技能与职位之间的关系,该公司的高级软件工程师 Jaewon Yang 在研讨会的另一个小组中发言时说。
“GNN 是通用工具,每年我们都会为它们开发大量新应用,”NVIDIA 杰出工程师 Joe Eaton 说,他领导着一个将加速计算应用于 GNN 的团队。 “我们甚至还没有触及 GNN 可以做什么的皮毛。”
对 GNN 感兴趣的另一个迹象是,Leskovec 在斯坦福大学教授的关于 GNN 的课程视频已获得超过 700,000 次观看。
GNN 如何工作?
迄今为止,深度学习主要集中在图像和文本以及可以描述为单词序列或像素网格的结构化数据类型。 相比之下,图是非结构化的。 它们可以采用任何形状或大小,并包含任何类型的数据,包括图像和文本。
GNN 使用称为消息传递的过程组织图形,以便机器学习算法可以使用它们。
消息传递将有关其邻居的信息嵌入到每个节点中。 人工智能模型利用嵌入的信息来寻找模式并做出预测。
例如,推荐系统使用一种在 GNN 中嵌入节点的形式来匹配客户和产品。 欺诈检测系统使用边缘嵌入来发现可疑交易,药物发现模型比较整个分子图以了解它们如何相互反应。
GNN 在另外两个方面是独一无二的:它们使用稀疏数学,并且模型通常只有两层或三层。 其他 AI 模型通常使用密集数学并具有数百个神经网络层。
意大利研究人员在 2009 年发表的一篇论文首次为图神经网络命名。 但花了八年时间,阿姆斯特丹的两名研究人员才用他们称为图卷积网络 (GCN) 的变体证明了他们的能力,这是当今最流行的 GNN 之一。
GCN 的工作启发了 Leskovec 和他的两个斯坦福研究生创建了 GraphSage,这是一个 GNN,展示了消息传递功能的新工作方式。 2017 年夏天,他在 Pinterest 担任首席科学家,对其进行了测试。
他们的实施 PinSage 是一个推荐系统,包含 30 亿个节点和 180 亿条边,其性能优于当时的其他 AI 模型。
Pinterest 今天将其应用于全公司的 100 多个用例。 “如果没有 GNN,Pinterest 就不会像今天这样引人入胜,”该公司高级机器学习工程师 Andrew Zhai 在在线座谈会上说。
同时,出现了其他变体和混合体,包括图形循环网络和图形注意力网络。 GAT 借用了 Transformer 模型中定义的注意力机制来帮助 GNN 专注于最感兴趣的数据集部分。
展望未来,GNN 需要在所有维度上进行扩展。
尚未维护图形数据库的组织需要工具来简化创建这些复杂数据结构的工作。
使用图数据库的人都知道,在某些情况下,它们会发展到在单个节点或边上嵌入数千个特征。 这就提出了通过网络将海量数据集从存储子系统高效加载到处理器的挑战。
Eaton 表示:“我们提供的产品可以最大限度地提高加速系统的内存和计算带宽以及吞吐量,以解决这些数据加载和扩展问题。”
作为这项工作的一部分,NVIDIA 在 GTC 上宣布,除了深度图库 (DGL) 之外,它现在还支持 PyTorch Geometric (PyG)。 这是两个最流行的 GNN 软件框架。