许多科学问题都要求以几何图形(geometric graphs)的形式处理数据。与一般图数据不同,几何图显示平移、旋转和反射的对称性。研究人员利用这种对称性的归纳偏差(inductive bias),开发了几何等变图神经网络(GNN),以更好地描述几何图的几何特性和拓扑。尽管取得了丰硕的成果,但它仍然缺乏一项survey来描述等变GNN是如何发展的,这反过来又阻碍了等变GNNs的进一步发展。为此,基于必要但简明的数学预备知识,我们下面分析并将现有方法分为三组,以了解如何表示GNN中的消息传递和聚合。另外还举例了相关应用,以便于以后的方法开发和实验评估研究。
归纳偏差or归纳偏置(inductive bias),归纳是自然科学研究中的一种方法,指的是从一些例子中寻找共性,形成一个通用的规则,bias是指我们对模型的偏好。因此归纳偏置可以理解为:
关于等变与不变:
等变,不变与CNN:
许多问题,尤其是物理和化学问题,需要以几何图的形式处理数据。与一般图数据不同,几何图不仅为每个节点分配一个特征,还分配一个几何矢量。例如,分子或蛋白质可以被视为几何图,其中原子的3D位置坐标是几何矢量;或者在一般的多体物理系统中,3D状态(位置、速度或自旋)是粒子的几何矢量。值得注意的是,几何图显示了平移、旋转和反射的对称性。这是因为无论我们如何将分子(或一般物理系统)从一个地方平移或旋转到另一个地方,控制原子(或粒子)动力学的物理定律是相同的。在处理这类数据时,必须将对称性的归纳偏差纳入模型的设计中,这推动了几何等变图神经网络(GNN)的研究。
GNN最初由Sperduti和Starita于1997提出,在深度学习的发展下,GNN在图结构建模方面表现出了突出的优势。虽然已经开发了丰富的结构,但大多数以前的GNN在几何上并不是等变的,因此不适合用于几何图。为了实现几何等变,人们提出了大量工作来改进GNN中的消息传递和聚合机制。
然而,鉴于取得了丰硕的成就,仍然没有一份survey来描述等变GNN是如何发展的。这不仅阻碍了外部研究人员迅速进入这一领域,还可能阻碍从现有论文中提取经验教训和新想法,供那些想进一步推动这一领域的研究人员使用。
在本节中,将介绍两个关键因素,即图神经网络(GNN)和等变,作为讨论几何等变GNN的基础。
GNNs已经被广泛用于处理关系数据。考虑 G = ( V , E ) G=(V,E) G=(V,E),每个节点 i i i都被分配一个特征 h i h_{i} hi,我们也可以为连接 i , j i,j i,j的边设置edge feature e i j e_{ij} eij。Gilmer在2017年改进了一个开创性的消息传递方案,以将主流GNN统一到一个通用架构中。它迭代地为每个节点(或边)进行消息计算和邻域聚合。一般来说,我们有: m i j = ψ m ( h i , h j , e i j ) (1) m_{ij}=\psi_{m}(h_{i},h_{j},e_{ij})\tag{1} mij=ψm(hi,hj,eij)(1) h i ′ = ψ h ( { m i j } j ∈ N ( i ) , h i ) (2) h_{i}'=\psi_{h}(\left\{m_{ij}\right\}_{j\in N(i)},h_{i})\tag{2} hi′=ψh({mij}j∈N(i),hi)(2)其中, N ( i ) N(i) N(i)是 i i i的邻居节点集合(默认不包括自环), ψ m \psi_{m} ψm和 ψ h \psi_{h} ψh是带参数的函数。Eq.1描述了消息的生成,Eq.2描述了消息的聚合与节点的特征更新。
设 X X X和 Y Y Y分别为输入和输出的向量空间,这两个空间之间赋予一组变换 G G G: G × X → X , G × Y → Y G\times X\rightarrow X,G\times Y\rightarrow Y G×X→X,G×Y→Y函数 “ ϕ : X → Y \phi:X\rightarrow Y ϕ:X→Y” 被称为对应 G G G的等变量(如果当我们对输入应用任何变换时,输出也会存在相同的变换或在某种可预测的行为下发生变化),我们可以定义:
定义1(等变性):函数 “ ϕ : X → Y \phi:X\rightarrow Y ϕ:X→Y” 是G-equivariant,当: ϕ ( ρ X ( g ) x ) = ρ Y ( g ) ϕ ( x ) , ∀ g ∈ G (3) \phi(\rho_{X}(g)x)=\rho_{Y}(g)\phi(x),\forall g\in G\tag{3} ϕ(ρX(g)x)=ρY(g)ϕ(x),∀g∈G(3)其中, ρ X \rho_{X} ρX和 ρ Y \rho_{Y} ρY分别是输入和输出空间中的群表示(group representations),特别的,如果 ρ Y \rho_{Y} ρY是恒等式(比如常量)则 ϕ \phi ϕ被称为不变量。
定义2(Group representation):群的表示是可逆线性映射 ρ ( g ) : G → V \rho(g):G\rightarrow V ρ(g):G→V, g ∈ G g\in G g∈G是群中的元素,同时它是线性的: ρ ( g ) ρ ( h ) = ρ ( g ⋅ h ) , ∀ g , h ∈ G \rho(g)\rho(h)=\rho(g\cdot h),\forall g,h\in G ρ(g)ρ(h)=ρ(g⋅h),∀g,h∈G。
群表示可以理解为变换的表示。比如:
本节首先描述几何图,然后总结有望处理此类数据的几何等变GNN。
在许多应用中,我们处理的图不仅包含拓扑连接和节点特征,还包含某些几何信息。以分子为例,每个原子都有一个特征 h i ∈ R H h_{i}\in R^{H} hi∈RH(比如,电荷,质量等)和一个几何矢量 x i ∈ R 3 \textbf{x}_{i}\in R^{3} xi∈R3(比如位置或速度坐标)。当通过GNN处理此类数据时,我们可以将等变的归纳偏差注入到图模型中。
对于几何图,应用场景决定是否需要等变性,例如:
为了更好地区分,在下文中,用粗体表示几何矢量,用普通符号表示非几何量。
Eq.1-2被改为: m i j = ψ m ( x i , x j , h i , h j , e i j ) (4) m_{ij}=\psi_{m}(\textbf{x}_{i},\textbf{x}_{j},h_{i},h_{j},e_{ij})\tag{4} mij=ψm(xi,xj,hi,hj,eij)(4) m i j = ψ m ( x i , x j , h i , h j , e i j ) (5) \textbf{m}_{ij}=\psi_{\textbf{m}}(\textbf{x}_{i},\textbf{x}_{j},h_{i},h_{j},e_{ij})\tag{5} mij=ψm(xi,xj,hi,hj,eij)(5) h i ′ = ψ h ( { m i j } j ∈ N ( i ) , h i ) (6) h'_{i}=\psi_{h}(\left\{m_{ij}\right\}_{j\in N(i)},h_{i})\tag{6} hi′=ψh({mij}j∈N(i),hi)(6) x i ′ = ψ x ( { m i j } j ∈ N ( i ) , x i ) (7) \textbf{x}'_{i}=\psi_{\textbf{x}}(\left\{\textbf{m}_{ij}\right\}_{j\in N(i)},\textbf{x}_{i})\tag{7} xi′=ψx({mij}j∈N(i),xi)(7)其中, m i j m_{ij} mij和 m i j \textbf{m}_{ij} mij分别是通过边 ( i , j ) (i,j) (i,j)传递的标量和方向输出, ψ h \psi_{h} ψh和 ψ x \psi_{\textbf{x}} ψx分别是用于标量特征和几何矢量特征的消息聚合函数。另外:
目前已经提出了多种等变GNNs,它们通常是不同Group上的 Eq.4-7 的不同具体对象。根据消息的表示方式,将当前的方法分为三类:不可约表示(irreducible representation),正则表示(regular representation),标量化(scalarization)。
在大多数情况下,由于相对位置 x i − x j \textbf{x}_{i}-\textbf{x}_{j} xi−xj是平移不变量(translation invariant),因此,下面讨论主要涉及旋转和除了平移的其他变换。
这类模型基于表示论中关于紧群的线性表示可以拆解为一系列不可约表示这一理论。从而在 S O ( 3 ) SO(3) SO(3)群( S O ( n ) SO(n) SO(n)是一个只包含旋转的特殊正交群)中构建满足等变性的消息传递模型,例如: m i j l = ∑ k ≥ 0 W l k ( x i − x j ) x j k \textbf{m}_{ij}^{l}=\sum_{k\geq 0 }\textbf{W}^{lk}(\textbf{x}_{i}-\textbf{x}_{j})\textbf{x}_{j}^{k} mijl=k≥0∑Wlk(xi−xj)xjk x i ′ l = w l l x i l + ∑ j ∈ N ( i ) m i j l \textbf{x}_{i}'^{l}=w_{ll}\textbf{x}_{i}^{l}+\sum_{j\in N(i)}\textbf{m}_{ij}^{l} xi′l=wllxil+j∈N(i)∑mijl上面模型对任意属于 S O ( 3 ) SO(3) SO(3)的旋转操作等变。其中, x i l ∈ R 2 l + 1 \textbf{x}_{i}^{l}\in R^{2l+1} xil∈R2l+1表示节点 i i i的 degree l l l 几何向量。 x i ∈ R 3 \textbf{x}_{i}\in R^{3} xi∈R3是节点的坐标, w l l w_{ll} wll是self-interaction权重, W l k ( x ) ∈ R ( 2 l + 1 ) × ( 2 k + 1 ) \textbf{W}^{lk}(\textbf{x})\in R^{(2l+1)\times(2k+1)} Wlk(x)∈R(2l+1)×(2k+1)是旋转可变的,具体实现为: W l k ( D 1 ( r ) x ) = D l ( r ) W l k ( x ) ( D k ( r ) ) − 1 \textbf{W}^{lk}(\textbf{D}^{1}(r)\textbf{x})=\textbf{D}^{l}(r)\textbf{W}^{lk}(\textbf{x})(\textbf{D}^{k}(r))^{-1} Wlk(D1(r)x)=Dl(r)Wlk(x)(Dk(r))−1
另一类的工作尝试利用群的正则表示来构建群卷积操作。比如Lie卷积: m i j = φ ( l o g ( u i − 1 u j ) ) h j m_{ij}=\varphi(log(u_{i}^{-1}u_{j}))h_{j} mij=φ(log(ui−1uj))hj h i ′ = 1 ∣ N ( i ) ∣ + 1 ( h i + ∑ j ∈ N ( i ) m i j ) h_{i}'=\frac{1}{|N(i)|+1}(h_{i}+\sum_{j\in N(i)}m_{ij}) hi′=∣N(i)∣+11(hi+j∈N(i)∑mij)其中, u i u_{i} ui是 x i \text{x}_{i} xi在群中的映射元素,log将群元素映射到对应的Lie代数。 φ \varphi φ是一个MLP。通过这种构造,Lie卷积中对于 h i h_i hi的更新实现了对于任意Lie群以及其离散子群的不变性。
除了基于群表示论的途径外,很多工作采用了基于标量化的建模等变性的方法。这类标量化的方法将几何特征转化为一些不变的标量,然后利用MLP网络结构来得到一个标量的变换,最后将这个变换加回到原有的几何特征上从而得到等变性。比如: m i j = φ m ( h i , h j , ∣ ∣ x i − x j ∣ ∣ 2 , e i j ) m_{ij}=\varphi_{m}(h_{i},h_{j},||\textbf{x}_{i}-\textbf{x}_{j}||^{2},e_{ij}) mij=φm(hi,hj,∣∣xi−xj∣∣2,eij) x i ′ = x i + ∑ j ≠ i ( x i − x j ) φ x ( m i j ) \textbf{x}_{i}'=\textbf{x}_{i}+\sum_{j\neq i}(\textbf{x}_{i}-\textbf{x}_{j})\varphi_{x}(m_{ij}) xi′=xi+j=i∑(xi−xj)φx(mij) h i ′ = φ h ( h i , ∑ j ∈ N ( i ) m i j ) h_{i}'=\varphi_{h}(h_{i},\sum_{j\in N(i)}m_{ij}) hi′=φh(hi,j∈N(i)∑mij)其中, ∣ ∣ x i − x j ∣ ∣ ||\textbf{x}_{i}-\textbf{x}_{j}|| ∣∣xi−xj∣∣是对几何特征的标量化, φ \varphi φ代表不同的MLP,通过将几何信息与非几何信息关联: ( x i − x j ) φ x ( m i j ) (\textbf{x}_{i}-\textbf{x}_{j})\varphi_{x}(m_{ij}) (xi−xj)φx(mij),可以同时保证非几何特征和几何特征传播过程中的等变性。这个构造结合了物理知识,可以看成是对两个粒子的库伦力 / 重力的计算的建模。
等变GNN在从物理系统到化学物质的各种类型的real-world几何数据上有着广泛的应用。
对复杂物理系统的动力学建模一直是一个具有挑战性的课题,神经网络已经被用于推断相互作用和动力学。在物理系统中,像带电粒子这样的物体通过遵循物理定律的力相互作用。通常任务是在初始条件下预测粒子的动力学,包括位置、速度和电荷。这样的任务是E(3)-等变的,因为粒子的动力学与整个系统一起平移、旋转和反射。
E ( n ) E(n) E(n)是由旋转、反射和平移组成的 n n n维欧几里得群
另一个重要的应用场景是分子数据,其中分子中的原子受到复杂的化学相互作用的影响。对于分子数据,标量节点特征 h i h_i hi通常是原子的特征,节点之间的连接性要么由化学键提供,要么基于距离阈值获取。下面回顾分子的等变GNN,包括预测和生成。
预测
2022 年 7月18日腾讯 AI Lab发表了题为 “3D Equivariant Molecular Graph pretraining” 的文章,开发了基于能量表示的等变分子图神经网络预训练模型,在下游能量和力预测上均达到了最优的效果。
使用3D backbone模型,设计3D感知预训练任务,并针对下游任务进行评估,存在如下挑战:
生成
Axelrod和Gomez Bombarelli引入了大规模未标记数据,将其分为两个子集GEOM-QM9和GEOM Drugs。这些数据集包含大量小分子构象的不同样本,并作为分子构象生成任务中的无监督训练集。ConfGF和DGSM使用旋转平移等变GNN参数化基于分数的生成模型中的分数函数,从而生成学习构象条件分布的生成模型。GeoDiff进一步将生成模型推广到去噪扩散模型。
蛋白质与小分子docking
预测药物样分子如何与特定蛋白质靶标结合是药物发现的核心问题。一种极快的计算binding方法将实现快速虚拟筛选或成为药物工程等关键应用。现有方法的计算成本很高,因为它们依赖于大量候选采样以及评分、排名和微调步骤。
“EquiBind:Geometric Deep Learning for Drug Binding Structure Prediction” 挑战了这一范式,这是一种 SE(3)-等变 几何深度学习模型,对:
与传统和最近的基线相比,EquiBind 实现了1200倍的加速。