yyl424525

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017

文章目录

Abstract
1.Intruduction
2.Fast Approximate Convolutions on Graphs（图的快速近似卷积）

2.1 Spectral Graph Convolutins（谱图卷积）
2.2 Layer-wise Linear Model（逐层线性模型）

简化：K=1（2个参数的模型）
简化：1个参数的模型
推广：特征映射公式

3. Semi-supervised Node Classfication（半监督节点分类）
3.1 Example（例子）

预处理操作
交叉熵误差
训练

3.2 Implementation（实现）
4. Related Work（相关工作）

4.1 Graph-based Semi-supervised Learning（基于图的半监督学习）
4.2 Neural NetWorks on Graph（图神经网络）

5. Experiments（实验）

5.1 Datasets（数据集）

Citation networks
NELL
Random graphs

5.2 Experimental set-up（实验设置）

引文网络数据集
随机图数据集

5.3 Baselines(基准模型)

6. Results（结果）

6.1 Semi-supervised Node Classfication （半监督节点分类）
6.2 Evaluation of Propagation Model（传播模型的评价）
6.3 Training Time Per Epoch (训练时间)

7. Discusion（讨论）

7.1 Semi-supervised Model（半监督模型）
7.2 Limitations and future work（限制和未来工作）

Memory requirement（内存要求）
Directed edges and edge features
Limiting assumptions

8. Conclusion（结论）
9.附录

Relation to Weisfeiler-Lehman (WL-1) Algorithm

Node Embeddings with Random Weights
Semi-supervised Node Embeddings

Experiments on Model Depth（**残差连接**）

10.补充（Graph classification）
参考
资料下载

论文：Semi-Supervised Classification with Graph Convolutional Networks
使用图卷积网络进行半监督节点分类

作者：Thomas N. Kipf, Peter Bloem, Rianne van den Berg, Ivan Titov, Max Welling
荷兰阿姆斯特丹大学

来源：ICLR 2017

论文链接：https://arxiv.org/abs/1609.02907

Github链接： https://github.com/tkipf/gcn

Abstract

本文提出了一种可扩展的基于图数据结构的半监督学习方法，该方法基于一个有效的卷积神经网络变形，这种变形能够直接对图进行操作（卷积层变为了图卷积层）。文中通过谱图卷积（spectral graph convolution）的局部一阶近似（localized first-order approximation） 来确定卷积网络结构的选择。图卷积的模型在图的边的数量上呈线性关系，并可以学习隐藏层表示，这些表示既编码局部图结构，也能够编码节点的特征。在大量关于引用网络和知识图谱网络数据集的实验后，作者认为他们的方法显著优于相关方法。

通过图结构数据中部分有标签的节点数据对卷积神经网络结构模型训练，使网络模型对其余无标签的数据进行进一步分类。

1.Intruduction

考虑对图（例如引文网络）中的节点（如引文网络中的文章）进行分类的问题，其中仅有一小部分节点有标签（即明确知道该节点属于哪一类）。这个问题可以被定义为基于图的半监督学习，(Zhu et al., 2003; Zhou et al., 2004; Belkin et al., 2006; Weston et al., 2012)等人在处理该问题时借助基于图的正则化形式将标签信息与图结构数据平滑的结合，其具体操作是在代价函数中加入图形化的拉普拉斯正则项如下式（1）所示：

$\mathcal{L = L_0 + \lambda L_{reg}} , with \quad L_{reg} = \sum_{i, j}{A_{i,j}||f(X_i) - f(X_j)||^2 = f(X)^T \Delta f(X)} \qquad (1)$

$\mathcal{L_0}$ 表示图中有label部分的监督损失
$f (\cdot)$ 是一个可微函数,为传播规则
$λ$ 是一个加权因子
$X$ 是节点特征向量 Xi的矩阵，即特征矩阵
$A∈\mathbb{R}^{N×N}$ （权重为0，1或者加权）表示邻接矩阵
$D_{ii}=∑_jA_{ij}$ 表示度矩阵
$Δ = D - A$ 表示无向图 G=(V,E)的非标准图拉普拉斯算子

式（1）的局限性在于它依赖于图中的相连节点有着相同标签这个假设。而实际情况下，图中的边可能并不一定能够反应出节点之间的相似性而可能是一些其他的信息，因此这个假设可能会限制模型的效果。

在本文中，作者直接使用神经网络模型 $f (X, A)$ 对图结构进行编码，并对所有带标签的节点进行有监督 loss $\mathcal{L_0}$ 训练，从而避免在损失函数中进行基于显示的图的正则化。在图的邻接矩阵上调节f(⋅) 将允许模型从监督损失 $\mathcal{L_0}$ 中分配梯度信息，并使其能够学习带标签用和不带标签的节点的表示。

本文做了两方面的工作。首先，对于直接操作于图结构数据的网络模型根据频谱图卷积(Hammond等人于2011年提出的Wavelets on graphs via spectral
graph theory)使用一阶近似简化计算的方法，提出了一种简单有效的层式传播方法。其次，验证了为什么可以将这种基于图形的神经网络模型可用于快速可扩展式的处理图数据中节点半监督分类问题。对许多数据集进行的研究表明，本文的模型在分类准确性和效率上与半监督学习的最新方法相比有优势（作者通过在一些公开数据集上验证了自己的方法的效率和准确率能够媲美现有的顶级半监督方法）。

小结：

使用神经网络模型 $f (X, A)$ 对所有带标签节点进行基于监督损失的训练。X为输入数据，A为图的邻接矩阵。 $f ()$ 或 $f (x)$ 或 $f (X, A)$ 都可以理解为传播规则。
在图的邻接矩阵上调整 $f ()$ 将允许模型从监督损失 L0中分配梯度信息，并使其能够学习所有节点（带标签或不带标签）的表示。
GSP（graph signal processing）图形信号处理，顾名思义就是将图当做信号，然后运用信号处理的方法去分析与处理Graph的特征。借助于图的拉普拉斯矩阵的特征值和特征向量来研究Graph的性质。
图的性质可以表示在拉普拉斯矩阵之中，即图的性质可以通过拉普拉斯矩阵体现出来。这样，对图的分析，可以变为对拉普拉斯矩阵的分析。

创新有两点：

对直接操作于图结构数据的网络模型根据频谱图卷积(Hammond等人于2011年提出的Wavelets on graphs via spectral graph theory)使用一阶近似简化计算的方法，提出了一种简单有效的层式传播方法。
验证了图结构神经网络模型可用于快速可扩展式的处理图数据中节点半监督分类问题，作者通过在一些公有数据集上验证了自己的方法的效率和准确率能够媲美现有的顶级半监督方法。

2.Fast Approximate Convolutions on Graphs（图的快速近似卷积）

每一个神经网络层可以写成 $H^{l+1}=f(H^l,A)$ ,这个模型主要依赖于函数f和参数化的选择。在本节中，作者为特定的基于图的神经网络模型f(X,A)提供本文后面用到的理论机制，考虑具有以下分层传播规则的多层图形卷积网络（GCN）（即考虑一个简单的例子，这里的f取σ激活函数）：

$^{(l+1)} =f(H^l,A)=\sigma (\tilde D^{-1/2} \tilde A \tilde D^{ − 1/2} H^{(l)}W^{(l)} ) \qquad (2)$

A是图的邻接矩阵
$\tilde A = A + I_N$ 是带有自环的无向图的邻接矩阵。
$I_N$ 是单位矩阵。
$\tilde D_{ii} = \sum_j \tilde A_{ij}$ 是带有自环的无向图的度矩阵，是一个对角矩阵。
$W^{(l)}$ 是一个可训练权重矩阵或参数矩阵。
σ(⋅) 激活函数，例如Relu。
$H^{(l)}∈\mathbb{R}^{N×D}$ 是第l层的激活矩阵,第l层的结点的特征（可以理解为第l-1层的输出）； $H^{(0)}=X$ 。
输入：结点特征X（N×D，其中N是节点数，D是输入的特征数），图的邻接矩阵A
输出：节点层面的矩Z（ N×F，F是每个节点的输出特征数）
乘矩阵A：对于每个节点，把除自身（除了有自循环外）外相邻节点的特征全加起来接下来

接下来，文中证明了这种传播规则的形式可以通过图上局域谱滤波器的一阶近似得到。(Hammond et al.(2011)和 Defferrard et al. 2016)。

下面介绍的谱图卷积其实就是Chebyshev谱CNN（ChebNet）。

2.1 Spectral Graph Convolutins（谱图卷积）

考虑信号 $x∈\mathbb{R}^N$ （x就是graph上对应于每个顶点的feathure vector，即由数据集提取特征构成的向量，而不是和线性代数中常说的特征向量，注意区别）与以参数为 $θ∈\mathbb{R}^N $的滤波器 $g_θ=diag(θ) $在傅里叶域的谱卷积。

$g_\theta * x = Ug_\theta U^Tx \qquad (3)$
其中

U 是对称归一化的拉普拉斯(normalized graph Laplacian)算子 $L=I_N−D^{−1/2}AD^{−1/2}=UΛU^T$ 的特征向量矩阵，Λ是由L的特征向量构成的对角矩阵。

$\begin{aligned} L &= D^{-\frac{1}{2}}(D - A)D^{-\frac{1}{2}} \\ &= D^{-\frac{1}{2}} D D^{-\frac{1}{2}} - D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \\ &= I_N - D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \end{aligned}$
由于normalized graph Laplacian矩阵L是实对称矩阵, 因此其特征向量矩阵U是正交矩阵,即 $UU^T=I_N$

$U^Tx$ 是x的傅里叶变换。
$g_θ$ 是由参数θ构成的对角矩阵diag(θ)。由于参数θ的确定与L的特征值有关,作者认为 $g_θ$ 是特征值 Λ的一个函数，即令

$g_θ=g_θ(Λ)$

式3的计算量很大，因为特征向量矩阵U 的复杂度是 $O(N^2)$ 。此外，对于大型图来说，L特征值分解的计算量也很大。
为了解决这个问题，Hammond et al.(2011) ：Wavelets on graphs via spectral graph theory指出 $g_θ(Λ)$ 可以很好的通过Chebyshev多项式 $T_k(x)$ 的Kth-阶截断展开来拟合，并对Λ进行scale使其元素位于[−1,1]：

$g_{\theta}(Λ) \approx \sum^{K}_{k=0} \theta_kT_K(\tilde Λ) \qquad (4)$
其中

$\tilde Λ = 2Λ / λ_{max}− I_N$ (为缩放后的特征向量矩阵,缩放后范围是[−1,1]，单位矩阵的特征值是n重1)，缩放的目的是为了满足Chebyshev多项式 $T_k(x)$ 的 $K^{th}$ 阶截断展开的条件：自变量范围需要在[−1,1]之间
$λ_{max}$ 是L 的最大特征值，也叫谱半径。
$θ∈\mathbb{R}^K$ 是切比雪夫系数的向量
Chebyshev多项式递归定义为 $T_k(x) = 2xT_{k−1}(x) − T_{k−2}(x)$ ，其中 $T_0(x)=1， T_1(x)=x$ 。

回到对信号x与滤波器 $g_{θ}$ 的卷积的定义，现在有：

$g_{\theta} * x = \sum^{K}_{k=0} \theta_kT_K(\tilde L)x \qquad (5)$
其中

$\tilde L= 2L / λ_{max}− I_N=U \tilde \Lambda U^T$
易证 $UΛU^T)^k=UΛ^kU^T$

注意，此表达式现在是K-localized，因为它是拉普拉斯算子中的Kth-阶多项式，即它仅取决于离中央节点(Kth阶邻域)最大K步的节点。式5的复杂度是O(|E|)，即与边数呈线性关系。Defferrard et al. 2016：Toward an Architecture for Never-Ending Language Learning使用这个K-localized卷积来定义图上的卷积神经网络。

公式4到公式5的补充证明如下：
（1）先用数学归纳法证明

$T_k (\tilde{\Lambda}) U^T = T_k (U \tilde{\Lambda} U^T)$
数学归纳法思路：当n=1时显然成立，假设n=k时成立，只需证n=k+1时成立

证明：
根据切比雪夫多项式的定义, 已知
$\begin{aligned} &U T_0(\tilde{\Lambda}) U^T = UU^T =1 = T_0(U \tilde{\Lambda} U^T) \\ &U T_1(\tilde{\Lambda}) U^T = U\tilde{\Lambda}U^T = T_1(U \tilde{\Lambda} U^T) \end{aligned}$
假设对于任意k>1, 满足
$T_{k-2} (\tilde{\Lambda}) U^T= T_{k-2} (U \tilde{\Lambda} U^T)$
与

$T_{k-1} (\tilde{\Lambda}) U^T= T_{k-1} (U \tilde{\Lambda} U^T)$
则

$\begin{aligned} U T_k (\tilde{\Lambda}) U^T &= 2U \tilde{\Lambda} T_{k-1}(\tilde{\Lambda})U^T - U T_{k-1}(\tilde{\Lambda}) U^T \\ &= 2 (U \tilde{\Lambda} U^T) \left[U T_{k-1}(\tilde{\Lambda})U^T \right] - U T_{k-1}(\tilde{\Lambda}) U^T \\ &= 2 (U \tilde{\Lambda} U^T) T_{k-1} (U \tilde{\Lambda} U^T) - T_{k-1} (U \tilde{\Lambda} U^T) \\ &= T_k (U \tilde{\Lambda} U^T) \end{aligned}$
因此,根据数学归纳法, 证毕。

(2)已知

$\tilde L= U \tilde{\Lambda} U^T$

（3）将（1）、（2）两式带入卷积公式：

$\begin{aligned} g_\theta * x & = Ug_\theta U^Tx \\ & = U g_{\theta}(Λ) U^Tx \\ & =U (\sum^{K}_{k=0} \theta_kT_K(\tilde Λ)) U^Tx \\ & = (\sum^{K}_{k=0} \theta_kT_K(U\tilde Λ U^T)) x \\ & = \sum^{K}_{k=0} \theta_k T_K(\tilde L) x \qquad (5) \end{aligned}$

2.2 Layer-wise Linear Model（逐层线性模型）

简化：K=1（2个参数的模型）

因此可以通过堆叠多个形式为式5的卷积层来建立基于图卷积的神经网络模型。现在，文中将分层卷积操作限制为K=1（式5），即关于L是线性的，因此在图拉普拉斯谱上具有线性函数。

(以上展示了改进后的卷积的形式，都是前人的工作，本文的工作如下)

在GCN的这个线性公式中，作者进一步近似 $λ_{max}≈2$ , 可以预测到GCN的参数能够在训练中适应这一变化。根据这些近似，式5简化为：

$\begin{aligned} g_\theta * x & = \sum^{K}_{k=0} \theta_k T_K(\tilde L) x \\ & = \sum_{k=0}^K \theta_k^{'} T_k(\frac{2}{\lambda_{max}} L - I_N )x \\ & = \sum_{k=0}^K \theta_k^{'} T_k( L - I_N )x \quad\quad\quad\quad（λ_{max}≈2） \\ & = \left[ \theta_0^{'} T_0 (L-I_N) + \theta_1^{'} T_1 (L-I_N) \right] x \\ & = \theta_0^{'} x + \theta_1^{'} (L-I_N)x \\ & = \theta_0^{'} x + \theta_1^{'} (I_N - D^{-\frac{1}{2}} A D^{-\frac{1}{2}} - I_N)x \quad\quad\quad\quad (L=I_N - D^{-\frac{1}{2}} A D^{-\frac{1}{2}} )\\ & = \theta_0^{'} x - \theta_1^{'} D^{-\frac{1}{2}} A D^{-\frac{1}{2}} x \end{aligned}$

即
$g_{θ^{'}} * x ≈ θ_0^{'} x + θ_1^{'} (L − I_N ) x = θ_0^{'} x − θ_1^{'} D^{− 1/2} AD^{− 1 /2} x \qquad (6)$
有两个自由参数 $θ_0^{'}$ 和 $θ_1^{'}$ 。滤波器参数可以被整个图上共享。连续应用这种形式的滤波器，然后有效地卷积节点的kth-阶邻域，其中k是神经网络模型中连续滤波操作或卷积层的数目。

简化：1个参数的模型

实际上，进一步限制参数的数量以解决过拟合并最小化每层的操作数量（例如矩阵乘法）会是有益的。具体来说, 文中令 $θ=θ_0^{'}=-θ_1^{'}$ (假设参数共享), 则有：

$g_θ * x ≈ θ (I_N + D^{− 1 /2} AD^{− 1 /2} ) x \qquad (7)$
其中

而 $I_N+D^{−1/2}AD^{−1/2}$ 是有范围[0,2]的特征值。因此，如果在深度神经网络模型中使用该算子，则反复应用该算子会导致数值不稳定（发散）和梯度爆炸/消失。

为了解决该问题, 引入了一个renormalization trick（归一化技巧）：

$I_N+D^{−1/2}AD^{−1/2} \stackrel{\tilde A=A+I_N}{\longrightarrow} \tilde D^{−1/2} \tilde A \tilde D^{−1/2}$
其中

$\tilde A=A+I_N,\tilde D_{ii}=∑_j \tilde A_{ij}$ ，即图中加上自环

再加上一个激活函数，最后就可以得到公式（2）的快速卷积公式了：
$^{(l+1)} =f(H^l,A)=\sigma (\tilde D^{-1/2} \tilde A \tilde D^{ − 1/2} H^{(l)}W^{(l)} ) \qquad (2)$

$W$ 就是参数 $\theta$ 参数矩阵

推广：特征映射公式

可以将这个定义推广到具有C个输入通道（即每个节点的C维特征向量）的信号 $X∈\mathbb{R}^{N×C}$ 和 F 个滤波器或特征映射如下：

$\tilde D^{− 1 /2} \tilde A \tilde D^{− 1/ 2} XΘ \qquad (8)$
其中

$Θ∈\mathbb{R}^{C×F}$ 是一个滤波器参数矩阵
$Z∈\mathbb{R}^{N×F}$ 是卷积信号参数矩阵。

这个滤波操作复杂度是 $O (∣ E ∣ F C)$ ，因为 $\tilde AX$ 可以有效地实现为密集矩阵和稀疏矩阵的乘积。（在源代码中使用了稀疏矩阵和稠密矩阵乘法）

3. Semi-supervised Node Classfication（半监督节点分类）

前面介绍了一个简单灵活的可以在图上有效地传播信息模型 $f (X, A)$ ，现重新回到半监督节点分类的问题上。

如前言所述，可以通过调整作者的模型 $f (X, A)$ 来放松通常在基于图的半监督学习中所做的某些假设，此文希望这种设置可以在邻接矩阵种包含信息但数据 $X$ 没有表现出来的情况下更有用( $X$ 没有特征，通常输入单位矩阵)，例如引用网络中文档之间的引用链接或知识图谱中的关系。整体半监督学习的多层GCN模型，如图1所示。

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第1张图片

上图中，左(a)是一个GCN网络示意图，在输入层拥有CC个输入，中间有若干隐藏层，在输出层有 $F$ 个特征映射；图的结构（边用黑线表示）在层之间共享；标签用 $Y_i$ 表示。
右图(b)是一个两层GCN在Cora数据集上（使用了5%的标签）训练得到的隐藏层激活值的形象化表示，颜色表示文档类别。

3.1 Example（例子）

接下来，考虑一个两层的半监督节点分类GCN模型，在对称邻接矩阵A(binary or weighted) 上操作。

预处理操作

在预处理步骤中，首先计算
$\hat A=\tilde D^{−1/2}A \tilde D^{−1/2}$
因此，前向计算变成一个简单的形式：

$softmax(\hat A ReLU(\hat AXW^ {(0)}) W^{(1)}) \qquad (9)$

$W^{(0)}∈\mathbb{R}^{C×H}$ 是输入层到隐藏层的权重矩阵，隐藏层有H个特征。
$W^{(1)}∈\mathbb{R}^{H×F}$ 是隐藏层到输出层的权重矩阵。
softmax定义为 $softmax(x_i)=\frac{1}{Z}\exp(x_i),Z=\sum_i\exp(x_i)$ ，softmax作用在每一行上

交叉熵误差

对于半监督多类别分类，评估所有标记标签的交叉熵误差：

$\mathcal L = -\sum_{l \in y_L}\sum^{F}_{f=1}{Y_{lf}lnZ_{lf}} \qquad (10)$
其中， $y_L$ 为带标签的节点集。

训练

神经网络的权重 $W^{(0)}，W^{(1)}$ 通过梯度下降来进行训练。
使用完整的数据集对每个训练迭代执行批量梯度下降（ batch gradient descent）。只要数据集适合内存，这就是一个可行的选择。
邻接矩阵A使用稀疏表示法，内存需求是O(E)，E为边数，即和边数呈线性关系。
通过Dropout引入训练过程中的随机性（srivastava等人，2014）。
将内存效率扩展与小批随机梯度下降（mini-batch stochastic
gradient descent）留作以后的工作。

3.2 Implementation（实现）

在实践中，利用TensorFlow，使用稀疏-密集矩阵乘法在GPU上高效实现了公式(9)。
$softmax(\hat A ReLU(\hat AXW^ {(0)}) W^{(1)}) \qquad (9)$
计算式9的计算复杂度为 $O （ ∣ E ∣ C H F ）$ ，即图边数的线性。

4. Related Work（相关工作）

本文的模型从基于图的半监督学习领域和最近对基于图的神经网络的研究中得到了启发。在下面的内容中文中者简要概述了这两个领域的相关工作。

4.1 Graph-based Semi-supervised Learning（基于图的半监督学习）

近年来提出了大量的基于图形表示的半监督学习方法，其中大部分方法分为两大类：使用某种形式的图拉普拉斯正则化和基于图嵌入的方法。图形拉普拉斯正则化的显著例子包括标签传播（Zhu et al., 2003）、manifold
regularization (Belkin et al., 2006)和deep semi-supervised embedding (Weston et al., 2012)。

最近，人们的注意力转移到了学习graph embeddings 方法的模型上，这些方法受到了 skip-gram模型的启发（Mikolov et al., 2013年）。DeepWalk（Perozzi et al., 2014）通过在图上随机游走地采样来预测节点的局部邻域来学习embedding。LINE (Tang et al., 2015) and node2vec (Grover & Leskovec, 2016)使用更复杂的随机游走或BFS模式扩展了DeepWalk。然而，对于所有这些方法，需要一个multi-step pipeline，包括随机游走生成和半监督训练，其中每个步骤必须单独优化。Plantoid（Yang et al., 2016）通过在学习embedding过程中注入标签信息来缓解这种情况。

4.2 Neural NetWorks on Graph（图神经网络）

在Gori等人的研究中，已经引入了对图形进行操作的神经网络（2005年）；Scarselli等人（2009）提出一种循环神经网络。他们的框架要求重复应用压缩映射（contraction map）作为传播函数，直到节点表示达到稳定的固定点。这一限制后来被Li等人（2016）得到了缓解。他们提出在原有的图形神经网络框架中引入了现代的神经网络训练实践。Duvenaud等人（2015）引入类似于卷积的传播规则和针对graph-level分类的方法。他们的方法要求学习特定节点的度的权重矩阵，这些权重矩阵不适用于具有很多节点的度分布的大型图。相反，此文的模型每层使用一个权重矩阵，通过适当的邻接矩阵normalization处理不同的节点的度（见第3.1节）。

Atwood & Towsley（2016）最近推出了一种基于图的神经网络的节点分类相关方法。它们认为复杂度为 $O(n^2)$ ，限制了可能的应用范围。在另一个相关的模型中，Niepert等人（2016）将图局部转换为序列，这些序列被送入传统的一维卷积神经网络，这需要在预处理步骤中定义节点顺序。

此文的方法是基于谱图卷积神经网络，由Bruna等人提出（2014年），后来由Deffarrard等人进行了扩展（2016），具有快速局部化卷积。与这些工作相比，作者在这里考虑的是大规模网络中的节点分类任务。实验表明，在这种情况下，可以对Bruna等人的原始框架进行一些简化（见第2.2节）（2014）和Deffrard等人（2016）提高了大规模网络的可扩展性和分类性能。

5. Experiments（实验）

本文通过下列实验对模型进行测试：

半监督文本分类-引文网络
半监督实体分类-知识图谱中提取的二部图
多种图传播模型评估
随机图运行时间分析

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第2张图片

5.1 Datasets（数据集）

Citation networks

本文考虑三个引文网络数据集：Citeseer、Cora和PubMed（Sen等人，2008）。数据集包含每个文档的稀疏bag-of-words特征向量和文档之间的引用链接列表。本文将引用链接视为（无向）边，并构造一个二元对称邻接矩阵A。每个文档都有一个类标签。在训练时，每个类只使用20个标签。

NELL

NELL是从中引入的知识图中提取的数据集（Carlson，2010年）。知识图是一组与有向标记边（关系）相连的实体。实验中遵循Yang等人所述的预处理方案（2016年）。文中为每个实体对（E1，R，E2）分配单独的关系节点R1和R2作为（E1，R1）和（E2，R2）。其中，实体节点由稀疏特征向量描述。通过为每个关系节点分配一个唯一的one-hot表示来扩展NELL中的特征数量，从而有效地为每个节点生成61278维稀疏特征向量。这里的半监督任务只考虑训练集中每个类一个标记示例的极端情况。如果节点i和j之间存在一条或多条边，作者通过设置 $A_{ij}=1$ ，从图中构造一个二元对称邻接矩阵（binary, symmetric adjacency matrix）。

Random graphs

文中模拟各种大小的随机图数据集进行实验，测量每个epoch的训练时间。对于一个具有n个节点的数据集，创建一个随机图，随机均匀地分配2n条边。将单位矩阵 $I_N$ 作为输入特征矩阵x，从而隐式地采用一种无特征的方法，其中模型只知道每个节点的标识，由唯一的one-hot向量指定。文中为每个节点添加dummy标签 $y_i=1$ 。

5.2 Experimental set-up（实验设置）

实验部分按照第3.1节的描述训练两层GCN，并评估1000个标记示例的测试集的预测精度。在附录B中提供了使用最多10层的更深层次模型的额外实验。文中按照Yang等人的方法选择相同的数据集（2016），并采用额外的500个标记超参数优化示例验证集（所有层的dropout rate、第一个GCN层的L2正则化因子和隐藏单元数量）。文中没使用验证集标签进行训练。

引文网络数据集

最大200迭代期
Adam算法
学习率为0.01
停止条件：验证集loss连续十个迭代期没有下降
权重初始化方法：Xavier Glorot and Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks. In AISTATS, volume 9, pp. 249–256, 2010.
-（按行）对输入特征向量归一化

随机图数据集

隐藏层32个单元
省略dropout和L2正则化

5.3 Baselines(基准模型)

比较了与Yang等人相同的基线模型（2016年）；

label propagation(LP)
semi-supervised embedding(SemiEmb)
manifold regularization(ManiReg)
DeepWalk
iterative classification algorithm(ICA)
Planetoid

一些对比：

进一步比较了Lu &Getoor（2003）提出的迭代分类算法（ICA），并结合两个逻辑回归分类器，一个单独用于局部节点特征，另一个用于使用局部特征和聚集运算符的关系分类。
首先，使用所有标记的训练集节点训练局部分类器，并使用它为关系分类器训练引导未标记节点的类标签。
在所有未标记的节点（使用本地分类器引导）上运行10次迭代（关系分类器）的随机节点排序迭代分类（relational classifier）。
二级正则化参数与聚合算子（count与prop，seesenetal.（2008））根据每个数据集的验证集性能分别选择。
最后，将其与Planetoid（Yang等人，2016）进行比较，总是选择其最佳性能的模型变体（转导型与感应型）作为基准。

6. Results（结果）

6.1 Semi-supervised Node Classfication （半监督节点分类）

结果汇总在表2中。表中数字以百分比表示分类准确度。对于ICA，计算了100次随机节点排序运行的平均精度。所有其他基线方法的结果均取自论文（Yang等人，2016）。Planetoid*表示在其论文中提出的变体之外的各自数据集的最佳模型。

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第3张图片

6.2 Evaluation of Propagation Model（传播模型的评价）

文中比较了在引文网络数据集上提出的每层传播模型的不同变体并按照前一节中描述的实验设置进行操作。结果汇总在表3中。作者最初的GCN模型的传播模型用renormalization
trick（粗体）表示。在所有其他情况下，两个神经网络层的传播模型都将替换为传播模型下指定的模型。表中数字表示100次随机权重矩阵初始化重复运行的平均分类精度。在每层有多个变量的情况下，文中对第一层的所有权重矩阵施加L2正则化。

6.3 Training Time Per Epoch (训练时间)

文中使用了100个epochs在模拟的随机图上每一个epoch的平均训练时间（前向传播、交叉熵计算、后向传播）的结果，以wall-clock时间测量。有关这些实验中使用的随机图数据集的详细描述，可参见第5.1节。文中比较了TensorFlow中GPU和Abadi等人仅CPU实现的结果（2015）。

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第5张图片

Wall-clock time：就是响应时间，指计算机完成某一个任务所花的全部时间，也叫墙上时间（wall clock）或流逝时间(elapsed time)。

7. Discusion（讨论）

7.1 Semi-supervised Model（半监督模型）

本文提出的半监督节点分类输出器的方法在很大程度上形成了最新的相关方法。基于图拉普拉斯正则化的方法（Zhu et al.，2003；Belkin et al.，2006；Weston et al.，2012）最有可能受到限制，因为它们假设边缘编码节点的相似性。另一方面，Skip-gram由于其基于一条难以优化的multi-step pipeline而受到限制。本文提出的模型可以克服这两个限制，同时在效率（以wall clock时间测量）方面仍优于相关方法。与ICA（Lu & Getoor，2003）等仅聚合标签信息的方法相比，从每层相邻节点特征信息的传播提高了分类性能。

文中进一步证明，与简单的一阶模型（公式6）或使用切比雪夫多项式的高阶图卷积模型（式5）相比，所提出的传播模型（公式8）既提高了效率（减少了参数和运算，如乘法或加法），也提高了对许多数据集的预测性能。

高阶模型
$g_{\theta} * x = \sum^{K}_{k=0} \theta_kT_K(\tilde L)x \qquad (5)$

一阶模型
$g_{θ^{'}} * x ≈ θ_0^{'} x + θ_1^{'} (L − I_N ) x = θ_0^{'} x − θ_1^{'} D^{− 1/2} AD^{− 1 /2} x \qquad (6)$

$\tilde D^{− 1 /2} \tilde A \tilde D^{− 1/ 2} XΘ \qquad (8)$

7.2 Limitations and future work（限制和未来工作）

在这里，文中描述了当前模型的几个局限性，并概述了如何在未来的工作中克服这些局限性。

Memory requirement（内存要求）

在当前setup中，采用批量梯度下降（full-batch gradient descent），内存需求在数据集的大小上呈线性增长。文中已经证明，对于不适合GPU内存的大型图形，采用CPU训练仍然是一个可行的选择。小批量随机梯度下降（Mini-batch stochastic gradient descent）可以缓解这一问题。然而，生成Mini-batch的过程应该考虑到GCN模型中的层数，因为具有k层的GCN的k阶邻居必须存储在内存中，以便进行精确的过程。对于非常大且紧密相连的图数据集，可能需要进一步的近似。

Directed edges and edge features

文中的框架目前不支持边的特征（edge features）（即有向还是无向），只限于无向图（加权或不加权）。然而，NELL上的结果表明，通过将原始有向图表示为无向二部图，以及表示原始图中边缘的附加节点，可以处理有向边和边缘特征（详细信息见第5.1节）。

Limiting assumptions

通过第2节中介绍的近似，文中隐式地假定局部性（依赖于k层的gcn的k阶邻域）和自连接对相邻节点边的重要性相等。但是，对于某些数据集，在A的定义中引入一个权衡参数λ可能是有益的：

$\tilde A=A+\lambda I_N \qquad (11)$
在典型的半监督设置中，该参数现在扮演着与监督和非监督损失之间的权衡参数类似的角色（见等式1）。然而，在这里，它可以通过梯度下降来学习。

8. Conclusion（结论）

本文提出了一种新的图结构数据半监督分类方法，所提出的GCN模型使用了一种基于图上谱卷积的一阶近似的高效层传播规则。对多个网络数据集的实验表明，所提出的GCN模型能够以一种对半监督分类有用的方式对图结构和节点特征进行编码。在这种情况下，文中的模型在很大程度上优于最近提出的几种方法，同时具有不错的计算效率。

本文提出了一种图卷积神经网络，该网络可以被有效地用于处理图结构的数据。图卷积神经网络具有几个特点：

局部特性：图卷积神经网络关注的是图中以某节点为中心，K阶邻居之内的信息，这一点与GNN有本质的区别；
一阶特性：经过多种近似之后，GCN变成了一个一阶模型。也就是说，单层的GCN可以被用于处理图中一阶邻居上的信息；若要处理K阶邻居，可以采用多层GCN来实现；
参数共享：对于每个节点，其上的滤波器参数 W 是共享的，这也是其被称作图卷积网络的原因之一。

9.附录

Relation to Weisfeiler-Lehman (WL-1) Algorithm

图结构数据的神经网络模型最好能够学习图中节点的表示，同时考虑节点的图结构和特征描述。1-dim Weisfeiler-Lehman (WL-1)算法(Weisfeiler & Lehmann, 1968)提供了一个经过深入研究的框架，用于给定图和(可选的)离散初始节点标签的唯一分配。

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第6张图片

其中

$h_i^{(t)}$ 定义为节点 $v_i$ 在第 $t$ 次迭代的coloring（标签分配）
$\mathcal{N}_i$ 表示节点 $v_i$ 的邻居集合的索引
$hash(\cdot)$ 是哈希函数
关于WL-1算法的深入数学讨论见，例如Douglas(2011)。

可以将算法1中的哈希函数替换为具有可训练参数的神经网络层状可微函数:

$h_i^{(l+1)}=\sigma(\sum_{j \in \mathcal{N}_i} \frac{1}{c_{ij}}h_j^{(l)}W^{(l)}) \qquad(12)$
其中

$c_{ij}$ 是边 $v_i,v_j)$ 的一个归一化常量
$W^{(l)}$ 是第 $l$ 层的参数矩阵
$\sigma(\cdot)$ 是一个可微的非线性激活函数
$h_i^{(l)}$ 是节点 $i$ 在第 $l$ 层网络的激活向量

通过选择 $c_{ij}=\sqrt{d_i d_j}$ （ $d_i=|\mathcal{N}_i|$ ，定义为节点 $v_i$ 的度），可以更新GCN的传播公式（2）为（12）。

$^{(l+1)} =f(H^l,A)=\sigma (\tilde D^{-1/2} \tilde A \tilde D^{ − 1/2} H^{(l)}W^{(l)} ) \qquad (2)$

粗略地说，可以将GCN模型解释为图上1-dim Weisfeiler-Lehman (WL-1)算法的可微参数化泛化。

Node Embeddings with Random Weights

通过与Weisfeiler-Lehman算法的类比，可以发现，即使是一个未经训练的随机权重GCN模型，也可以作为一个强大的特征提取器来提取图中的节点。以3层GCN模型为例:

$tanh(\hat A tanh(\hat A tanh(\hat AXW^ {(0)}) W^{(1)})W^{(2)}) \qquad (13)$

$W^{(l)}$ 是用Glorot & Bengio(2010)随机初始化的第 $l$ 层的参数矩阵

文中将该模型应用于Zachary的空手道俱乐部网络(Zachary, 1977)。此图包含34个节点，由154条(无向和未加权的)边连接。每个节点都由四个类中的一个标记，通过基于模块的聚类得到(Brandes et al.， 2008)。如图3a所示。

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第7张图片

左图：Zachary的空手道俱乐部网络图，每个颜色表示一个聚类
有图：由公式（13）构成的3层GCN得到的Embeddings

实验设置

此实验中采用的是使用单位矩阵 $I_N$ 代替特征矩阵 $X$
节点无序
隐含层是4维（最初是2，单发现维数为4时，tanh(·)单元的饱和频率较低），最后输出是2维的，因此便于在图上显示

图3b显示了一个应用于空手道俱乐部网络的未训练的GCN模型得到的节点嵌入(输出Z)的典型示例。这些结果可与DeepWalk (Perozzi et al.， 2014)的embeddings进行比较，DeepWalk使用了代价更高的无监督训练过程。

Semi-supervised Node Embeddings

在这个简单的GCN应用于空手道俱乐部网络的例子中，观察embeddings在训练半监督分类任务时的反应是很有趣的。这种可视化(参见图4)提供了关于GCN模型如何利用图结构(以及从图结构中提取后面的层的特征)来学习embeddings的深入的理解，这对分类任务有用的。

考虑以下半监督学习设置

在公式（13）基础上添加一个softmax层
每个类只使用一个带标记的示例进行训练(即总共有4个带标记的节点)
使用Adam (Kingma & Ba, 2015)对300个训练迭代进行训练
交叉熵损失的学习率为0.01。

图4显示了节点嵌入在许多训练迭代中的演化。该模型成功地实现了基于最小监督和图结构的社区线性分离。整个训练过程的视频可以在作者的网站上找到：http://tkipf.github.io/graph-convolutional-networks/

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第8张图片

Experiments on Model Depth（残差连接）

文中还考虑了模型深度，也就是卷积层层数对分类性能的影响。实验中对Cora, Citeseer和Pubmed数据集的所有的标签使用吴冲交叉验证。除了公式2的标准GCN模型以外，文中还进行了一个模型的变种的实验：残差连接。隐含层之间使用残差连接，可以使模型能够传递来自前一层输入的信息，从而促进更深层次模型的训练。

$^{(l+1)} =\sigma (\tilde D^{-1/2} \tilde A \tilde D^{ − 1/2} H^{(l)}W^{(l)} ) + H^{(l)} \qquad(14)$

实验设置

训练400个epochs
使用Adam优化器
学习率0.001
第一层和最后一层dropout率为0.5
第一层，L2正则化， $\cdot 10^{-4}$
每个隐含层units数：16

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第9张图片

对于上述数据集，仅使用2层或3层模型可获得最佳结果。实验可以观察到，对于深度超过7层的模型，不使用残差连接的训练会变得非常困难。两个原因：

每个节点的有效的context size随着其K阶邻域的大小的增加而增加
过度拟合可能成为一个问题，因为参数的数量随着模型深度的增加而增加。

10.补充（Graph classification）

此文的github表明，此框架还支持使用每个邻接矩阵对多个图实例(大小可能不同)进行批量分类。将各自的特征矩阵串联起来，构建一个(稀疏的)块对角矩阵，其中每个块对应于一个图实例的邻接矩阵。对于pooling(如果是图级输出而不是节点级输出)，最好指定一个简单的pooling矩阵，从各自的图实例中收集特征，如下图所示:

GCN - Semi-Supervised Classification with Graph Convolutional Networks 用图卷积进行半监督节点分类 ICLR 2017_第10张图片

有错误的地方还望不吝指出，欢迎进群交流GNNs&GCNs（入群备注信息!!!，格式：姓名 -（学校或其他机构信息）- 研究方向）。

参考

[1] (本文参考文献) Thomas N. Kipf, Max Welling. Semi-Supervised Classification with Graph Convolutional Networks. ICLR 2017.
[2] 官方博客:Graph Convolutional Networks
[3] 知乎：图卷积网络(GCN)新手村完全指南
[4] GCN (Graph Convolutional Network)图卷积网络解析
[5] 关于图卷积网络GCN的一点理解
[6] 浅析图卷积神经网络
[7] Graph Convolutional Network介绍及简单实现

资料下载

图卷积相关ppt下载

你可能感兴趣的:(GNN&GCN论文笔记)

论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor 入门打工人笔记 slam 定位算法
论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation文章摘要~~~~~~~在GPS挑战的环境中，自动驾驶对基于3D点云的地点识别有很高的要求，并且是基于激光雷达的SLAM系统的重要组成部分（即闭环检测）。本文提出了一种名为NDT-Transf
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization 愤怒的可乐 #文本匹配[论文]论文翻译/笔记自然语言处理论文阅读人工智能
引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
[论文笔记] LLaVA 心心喵论文笔记论文阅读
一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。Contribution:这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Followingab
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
【论文笔记】Training language models to follow instructions with human feedback B部分 Ctrl+Alt+L 大模型论文整理论文笔记论文阅读语言模型人工智能自然语言处理
TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实
【论文笔记】：LAYN：用于小目标检测的轻量级多尺度注意力YOLOv8网络 hhhhhhkkkyyy 论文阅读目标检测 YOLO
背景针对嵌入式设备对目标检测算法的需求，大多数主流目标检测框架目前缺乏针对小目标的具体改进，然后提出的一种轻量级多尺度注意力YOLOv8小目标检测算法。小目标检测精度低的原因随着网络在训练过程中的加深，检测到的目标容易丢失边缘信息和灰度信息等。获得高级语义信息也较少，图像中可能存在一些噪声信息，误导训练网络学习不正确的特征。映射到原始图像的感受野的大小。当感受野相对较小时，空间结构特征保留较多，但
激光SLAM--(8) LeGO-LOAM论文笔记 lonely-stone slam 激光SLAM 论文阅读
论文标题：LeGO-LOAM：LightweightandGround-OptimizedLidarOdometryandMappingonVariableTerrain应用在可变地形场景的轻量级的、并利用地面优化的LOAMABSTRACT轻量级的、基于地面优化的LOAM实时进行六自由度位姿估计，应用在地面的车辆上。强调应用在地面车辆上是因为在这里面要求雷达必须水平安装，而像LOAM和LIO-SA
论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库：用于 BabelNet Synsets 义元预测... 开放知识图谱机器学习人工智能知识图谱自然语言处理深度学习
论文笔记整理：潘锐，天津大学硕士。来源：AAAI2020链接：https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库（KBs）是一种包含义原标注词汇的知识库，它已成功地应用于许多自然语言处理任务中。然而，现有的义原知识库建立在少数几种语言上，阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一
[论文笔记] LLM数据集——LongData-Corpus 心心喵论文笔记服务器 ubuntu linux
https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载：#!/bin/bash#BaseURLbase_url="https://cloud.tsinghua.edu.cn/d/0670fcb14d294c97b5cf/fi
[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu，并保证端口未被使用心心喵论文笔记 restful 后端
1.5B在eval时候两个任务一个gpu是可以的。7B+在evalbelebele时会OOM，所以分配时脚本不同。eval_fast.py：importsubprocessimportargparseimportosimportsocket#参数列表task_name_list=["flores_mt_en_to_id","flores_mt_en_to_vi","flores_mt_en_to_
【论文笔记】Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language xhyu61 机器学习学习笔记论文笔记论文阅读
Abstract提出了DenseAV，一种新颖的双编码器接地架构，仅通过观看视频学习高分辨率、语义有意义和视听对齐的特征。在没有明确的本地化监督的情况下，DenseAV可以发现单词的"意义"和声音的"位置"。此外，它在没有监督的情况下自动发现并区分这两种类型的关联。DenseAV的定位能力源于一种新的多头特征聚合算子，该算子直接比较稠密的图像和音频表示进行对比学习。相比之下，许多其他学习"全局"音
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【视觉三维重建】【论文笔记】Deblurring 3D Gaussian Splatting CS_Zero 论文阅读
去模糊的3D高斯泼溅，看Demo比3D高斯更加精细，对场景物体细节的还原度更高，[官网]（https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/）背景技术Volumetricrendering-basednerualfields：NeRF.Rasterizationrendering:3D-GS.Rasterization比vol
[论文笔记] Transformer-XL 心心喵论文笔记 transformer 深度学习人工智能
这篇论文提出的Transformer-XL主要是针对Transformer在解决长依赖问题中受到固定长度上下文的限制，如Bert采用的Transformer最大上下文为512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。Transformer-XL能学习超过固定长度的依赖性，而不破坏时间一致性。它由段级递归机制和一种新的位置编码方案组成。该方法不仅能够捕获长期
SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning 论文笔记头柱碳只狼小样本学习
前言目前大多数小样本学习器首先使用一个卷积网络提取图像特征，然后将元学习方法与最近邻分类器结合起来，以进行图像识别。本文探讨了这样一种可能性，即在不使用元学习方法，而仅使用最近邻分类器的情况下，能否很好地处理小样本学习问题。本文发现，对图像特征进行简单的特征转换，然后再进行最近邻分类，也可以产生很好的小样本学习结果。比如，使用DenseNet特征的最近邻分类器，在结合均值相减（meansubtra
多模态相关论文笔记靖待大模型人工智能论文阅读
(cilp)LearningTransferableVisualModelsFromNaturalLanguageSupervision从自然语言监督中学习可迁移的视觉模型openAI2021年2月48页PDFCODECLIP(ContrastiveLanguage-ImagePre-Training)对比语言图像预训练模型引言它比ImageNet模型效果更好，计算效率更高。尤其是zero-sho
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting lokol. 论文笔记论文阅读 llama
Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律（smoothlybrokenpower-laws）。介绍目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数
【论文笔记】Unsupervised Learning of Video Representations using LSTMs 奶茶不加糖え lstm 深度学习自然语言处理
摘要翻译我们使用长短时记忆（LongShortTermMemory,LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LST
MOSSE算法论文笔记以及代码解释 five days 计算机视觉深度学习机器学习
论文《VisualObjectTrackingusingAdaptiveCorrelationFilters》代码github1.论文idea提出以滤波器求相关的形式，找到最大响应处的位置，也就是我们所跟踪的目标的中心，进而不断的更新跟踪目标框和滤波器。2.跟踪策略如图，根据初始帧圈出的目标框训练滤波器，最大响应处为目标框的中心点，当移动到下一帧时，根据滤波器求相关的算法获得最大响应值，进而得出下
Attention Is All Your Need论文笔记 xiaoyan_lu 论文笔记论文阅读
论文解决了什么问题？提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolution
论文笔记：相似感知的多模态假新闻检测图学习的小张论文笔记论文阅读 python
整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图
[论文总结] 深度学习在农业领域应用论文笔记12 落痕的寒假论文总结深度学习论文阅读人工智能
文章目录1.3D-ZeF:A3DZebrafishTrackingBenchmarkDataset(CVPR,2020)摘要背景相关研究所提出的数据集方法和结果个人总结2.Automatedflowerclassificationoveralargenumberofclasses(ComputerVision,Graphics&ImageProcessing,2008)摘要背景分割与分类数据集和实
论文笔记之LINE:Large-scale Information Network Embedding 小弦弦喵喵喵
原文：LINE:Large-scaleInformationNetworkEmbedding本文提出一种新的networkembeddingmodel：LINE.能够处理大规模的各式各样的网络，比如：有向图、无向图、有权重图、无权重图.文中指出对于networkembedding问题，需要保留localstructure和globalstructure，分别对应first-orderproximi
打败一切NeRF！ 3D Gaussian Splatting 的简单入门知识 Ci_ci 17 3d python
新手的论文笔记3DGaussianSplatting的笔记introductionRelatedwork预备知识Gaussiansplatting3D高斯泼溅原理Overview3DGaussianSplatting的笔记每次都是在csdn上找救命稻草，这是第一次在csdn上发东西。确实是个不错的笔记网站，还能同步，保存哈哈哈。印象笔记，Onenote逊爆了。研一刚开学两个月，导师放养，给的方向还
《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记 m_buddy #General Object Detection Bi-Fusion
参考代码：无1.概述导读：在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能，但是只通过top-down的FPN网络是很难去重建由于特征图的漂移（水平或是垂直方向运动）在经过pooling操作（pooling不具有平移不变性）带来结果相差很大的问题（特别针对小目标），而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释（卷积的平移不变形），进而会导致一些小目标定位性能降低。对此可以通过
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
论文笔记：NIPS 2020 Graph Contrastive Learning with Augmentations 饮冰l 图弱监督数据挖掘机器学习神经网络深度学习
前言本文主要提出在图对比学习大框架下的图数据增强的若干方法。概括来说，本文提出了一种图对比学习框架来无监督的完成图表示学习，首先作者提出了基于各种先验信息的四种图数据增强方法。然后，作者分析了在四种不同的图数据增强条件下，不同组合对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。作者为GNN的预训练提出了基于图数据增强的对比学习框架来解决图中数据异质性的挑战，本文的主要贡献如下：作者提出
论文笔记-vChain: Enabling Verifiable Boolean Range Queries over Blockchain Databases qq_40431700 笔记区块链
核心方法：提出了一种基于累加器的可认证数据结构，可以动态聚合任意查询属性提出块内和块间索引，聚合块内和块间数据，可以做高效查询验证倒排前缀树结构，加速同时处理大量数据的订阅查询提出问题：1.range查询2.布尔查询3.没有可靠第三方、而且不能保证查询的完整性图中元素有：①全节点②矿工节点：是全节点，而且负责构建共识证明，比如计算nonce③轻节点：存nonce、区块的哈希，不存数据记录提出的Vc
论文笔记--Improving Language Understanding by Generative Pre-Training Isawany 论文阅读论文阅读自然语言处理 chatgpt 语言模型 nlp
论文笔记GPT1--ImprovingLanguageUnderstandingbyGenerativePre-Training1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1无监督预训练2.2.2有监督微调2.2.3不同微调任务的输入3.Bert&GPT4.文章亮点5.原文传送门6.References1.文章简介标题：ImprovingLanguageUnderstandingb
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr