Good_Ly

《Simple and Deep Graph Convolutional Networks》--论文阅读笔记

《Simple and Deep Graph Convolutional Networks》

简单和深度图卷积网络目录

- 《Simple and Deep Graph Convolutional Networks》
- Abstract
- 1. Introduction
- 2. Preliminaries
- 3. GCNII Model
- 4. Spectral Analysis
- - 4.1. Spectral analysis of multi-layer GCN.
  - 4.2. Spectral analysis of GCNII
- 5. Other Related Work
- 6. Experiments
- - 6.1. Semi-supervised Node Classification
  - 6.2. Full-Supervised Node Classification
- 6.3. Inductive Learning
- 6.4. Over-Smoothing Analysis for GCN
- 6.5. Ablation Study
- 7. Conclusion

作者：魏哲巍、Ming Chen、Zengfeng Huang、Bolin Ding、Yaliang Li
时间：2020年 ICML
篇幅：11页
魏老师简介：http://www.weizhewei.com/

Abstract

图卷积网络(GCNS)是一种强大的图结构数据深度学习方法。最近，GCNS及其后续变体在真实数据集上的各个应用领域都显示出了优异的性能。尽管取得了成功，但由于过度平滑的问题，目前的大多数GCN模型都很浅。本文研究了深图卷积网络的设计与分析问题。我们提出了GCNII模型，它是对vanilla GCN 型的扩展，使用了两个简单而有效的技术：初始残差和单位映射。我们提供了理论和经验证据，证明这两种技术有效地缓解了过平滑问题。我们的实验表明，深度GCNII模型在各种半监督和全监督任务上的性能优于最先进的方法。

注：

**- vanilla GCN（原版GCN）：Kipf, T. N. and Welling, M. Semi-supervised
classification with graph convolutional networks. In ICLR, 2017.
vanlilla GCN的解读可以点击查看:vanlilla GCN 论文解读

现有GCN大多数是浅层结构（GCN、GAT；2层结构），如果做深，将会出现过平滑现象（随着层数增加，节点的表示趋于某一个值，节点变得无法区分），ResNet使用残差连接解决了计算机深层网络训练问题。但是在GCN中增加残差连接只能缓解过平滑问题，所以GCN、GAT浅层结构的性能超过深层GCN。**本文研究了深图卷积网络的设计与分析问题，提出了GCNII模型，使用了两个简单而有效的技术（初始残差和单位映射）实现了对vanilla GCN 型的扩展，有效解决了过平滑问题，并随着GCNII网络深度的增加而不断提高其性能。特别是，深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

1. Introduction

图形卷积网络将卷积神经网络(CNNs)推广到图结构数据。为了了解图形表示，“图形卷积”操作将相同的线性变换应用于节点的所有邻居，后跟非线性激活函数。近年来，GCN及其变体已成功地应用于广泛的应用包括社会分析、交通预测、生物学、推荐系统、交通预测、推荐系统、交通预测、推荐系统。

尽管取得了巨大的成功，但目前的大多数GCN模式都很肤浅。大多数最近的型号，如gcn和gat，都在2层模型上实现了最佳性能。这种浅层体系结构限制了它们从高阶邻居中提取信息的能力。但是，堆叠更多的层和添加非线性往往会降低这些模型的性能。这种现象被称为过平滑，这表明随着层数的增加，GCN中节点的表示倾向于收敛到某个值，因此变得无法区分。RESNET解决了具有残余连接的计算机视觉中的类似问题，这对于训练非常深的神经网络是有效的。不幸的是，在；深层GCN模型的表现仍然被GCN或GAT等2层模型所超越。

最近，有几项工作试图解决超平滑问题。JKNet(Xu等人，2018年)使用密集跳过连接来组合每层的输出，以保持节点表示的局部性。最近，DropEdge(Rong等人，2020)建议通过从输入图中随机删除一些边，可以减轻过度平滑的影响。实验(Rong等人，2020)表明，随着网络深度的增加，这两种方法可以减缓性能下降。然而，对于半监督任务，最先进的结果仍然是通过浅层模型实现的，因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面，有几种方法将深度传播和浅层神经网络相结合。SGC(Wu等人，2019年)试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息。PPNP和APPNP(Klicpera等人，2019a)用个性化PageRank矩阵取代了图的卷积矩阵的幂，以解决过平滑问题。GDC(Klicpera等人，2019b)通过将个性化PageRank(Page等人，1999)推广到任意图扩散过程，进一步扩展了APPNP。然而，这些方法在每一层中对相邻特征进行线性组合，失去了深层非线性结构的强大表达能力，这意味着它们仍然是浅层模型。

总之，如何设计一个GCN模型来有效地防止过度平滑，并通过真正深入的网络结构实现最先进的结果，仍然是一个悬而未决的问题。由于这一挑战，在设计新的图神经网络时，网络深度是一种资源还是一种负担甚至是不清楚的。在本文中，我们通过证明Vanilla GCN(Kipf&Well，2017)可以通过两个简单而有效的修改将其扩展到深度模型，从而给出了这个开放问题的肯定答案。特别地，我们提出了基于初始残差和单位映射的图卷积网络(GCNII)，这是一种解决过平滑问题的深层GCN模型。在每一层，初始残差从输入层构建跳过连接，而单位映射将单位矩阵添加到权重矩阵。实证研究表明，这两种简单得令人惊讶的技术可以防止过度平滑，并随着GCNII网络深度的增加而不断提高其性能。特别是，深度GCNII模型在各种半监督和全监督任务上取得了新的最先进的结果。

其次，对GCN和GCNII模型进行了理论分析。众所周知(Wu等人，2019年)，通过堆叠k层，其次，对GCN和GCNII模型进行了理论分析。众所周知(Wu等人，2019年)，通过堆叠k层，香草GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人，2019年)指出，这样的滤波器模拟懒惰的随机行走，最终收敛到静止向量，从而导致过度平滑。另一方面，我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式，并分析了香草GCN的收敛速度。我们的分析表明，在多层GCN模型中，度数越高的节点更有可能遭受过平滑，并通过实验证实了这一理论猜想。GCN实质上模拟具有预定系数的K阶多项式滤波器。(Wang等人，2019年)指出，这样的滤波器模拟懒惰的随机行走，最终收敛到静止向量，从而导致过度平滑。另一方面，我们证明了K层GCNII模型可以表示任意系数的K阶多项式谱滤波器。这一性质对于设计深度神经网络是必不可少的。我们还推导了平稳向量的闭合形式，并分析了香草GCN的收敛速度。我们的分析表明，在多层GCN模型中，度数越高的节点更有可能遭受过平滑，并通过实验证实了这一理论猜想。

注解：
面对过平滑问题前人的研究：

1.2018年JKNet使用密集跳过连接来组合每层的输出，以保持节点表示的局部性。

2.2020年DropEdge等人建议通过从输入图中随机删除一些边，可以减轻过度平滑的影响。效果：随着网络深度的增加，这两种方法可以减缓性能下降。

问题： 对于半监督任务，最先进的结果仍然是通过浅层模型实现的，因此增加网络深度所带来的好处仍然是值得怀疑的。

另一方面的研究，将深度传播和浅层神经网络相结合解决过平滑问题：

1.2019年 Wu等人提出的SGC试图通过在单个神经网络层中应用图形卷积矩阵的K次方来捕获图形中的高阶信息；
2.2019a年Klicpera等人的PPNP和APPNP用个性化PageRank矩阵取代了图的卷积矩阵的幂，以解决过平滑问题。
3.2019b年Klicpera等人提出的GDC通过将个性化PageRank推广到任意图扩散过程，进一步扩展了APPNP。

**问题：**这些方法在每一层中对相邻特征进行线性组合，失去了深层非线性结构的强大表达能力，这意味着它们仍然是浅层模型。

因此，如何设计一个GCN模型来有效地防止过度平滑，并通过真正深入的网络结构实现最先进的结果，仍然是一个悬而未决的问题。

**设计新图神经网络挑战：**理论较少，网络深度是一种资源还是一种负担甚至是不清楚的。
在此贡献：对GCN和GCNII模型进行了理论分析。还推导了平稳向量的闭合形式，并分析了原始GCN的收敛速度。

2. Preliminaries

符号。给出一个有n个结点和m条边的简单连通无向图G=(V，E)。定义自环图 $\tilde{G}=(V, \tilde{E})$ 为G中每个结点都有一个自环的图，用{1，…，n}表示G和 $\tilde{G}$ 的节点ID，用dj和dj+1表示G和 $\tilde{G}$ 中的节点j的度.。设A表示邻接矩阵，D表示对角度矩阵。因此， $\tilde{G}$ 的邻接矩阵和对角度矩阵分别定义为 $\tilde{A}=A+I$ 和 $\tilde{D}=D+I$ 。设 $\mathbf{X} \in \mathbf{R}^{n \times d}$ 表示节点特征矩阵，即每个节点v有一个d维特征向量 $X_v$ 相关联。规范图拉普拉斯矩阵定义为 $\mathbf{L}=\mathbf{I}_{n}-\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}$ ，L的对称特征分解矩阵 $UΛU^T$
Λ是L的特征值的对角矩阵， $\mathbf{U} \in \mathbf{R}^{n \times n}$ 是由L的特征向量组成的酉矩阵.,信号x与滤波器gγ(Λ)=diag(γ)之间的图形卷积运算被定义为 $gγ(L)∗x=Ugγ(Λ)U^{T}x$ ，其中参数 $\mathbf{γ} \in\mathbf{R}^{n \times n}$ 对应于谱滤波器系数的向量。

Vanilla GCN. 建议可以进一步用拉普拉斯的K次多项式来逼近图的卷积运算: $\mathbf{U} g_{\theta}(\Lambda) \mathbf{U}^{T} \mathbf{x} \approx \mathbf{U}\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{\Lambda}^{\ell}\right) \mathbf{U}^{\top} \mathbf{x}=\left(\sum_{\ell=0}^{K} \theta_{\ell} \mathbf{L}^{\ell}\right) \mathbf{x}$
其中 $\mathbf{ θ} \in\mathbf{R }^{K+1}$ 对应于多项式系数的向量。

其中 $\theta \in \mathbf{R}^{K+1}$ 对应于多项式系数的向量。vanilla GCN设置 $\theta_{0}=2 \theta$ and $\theta_{1}=-\theta$ 来获得卷积运算 $\mathbf{g}_{\theta} * \mathbf{x}=\theta\left(\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}\right) \mathbf{x} .$ 。最后，通过重整化技巧，用归一化版本 $\tilde{\mathbf{P}}=$ $\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}=\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}\left(\mathbf{A}+\mathbf{I}_{n}\right)\left(\mathbf{D}+\mathbf{I}_{n}\right)^{-1 / 2}$ 替换矩阵 $\mathbf{I}+\mathbf{D}^{-1 / 2} \mathbf{A} \mathbf{D}^{-1 / 2}$ 得到图的卷积层:
$\mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right)$ 其中σ:表示RELU操作。

SGC: 证明了在 $\bar{G}$ .的图谱域上， $\tilde{\mathbf{L}}=\mathbf{I}_{n}-\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 表示自环图˜G的归一化图拉普拉斯矩阵。因此，对信号x应用K层GCN $\left(\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}\right)^{K} \mathbf{x}=\left(\mathbf{I}_{n}-\tilde{\mathbf{L}}\right)^{K} \mathbf{x} .$ 中。(Wu等人，2019年)还表明，通过向每个节点添加自循环， $\mathbf{L}$ 有效地缩小了底层图谱。

APPNP 使用 PageRank获得K阶的固定滤波器。设 $f_θ(X)$ 表示特征矩阵X上的两层全连接层的输出，PPNP的模型被定义为:
$\mathbf{H}=\alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1} f_{\theta}(\mathbf{X})$ 由于个性化PageRank的特性，这种过滤器保持了局部性，因此适合于分类任务。也提出了APPNP，它取代了 $\alpha\left(\mathbf{I}_{n}-(1-\alpha) \tilde{\mathbf{A}}\right)^{-1} )$ 中，用截断幂迭代法得到一个近似值。形式上，K跳聚合的APPNP定义为:
$\boldsymbol{H}^{(\ell+1)}=(1-\alpha) \tilde{\boldsymbol{P}} \boldsymbol{H}^{(\ell)}+\alpha \boldsymbol{H}^{(0)}$ 其中 $H^{(0)}=f_θ(X)$ 。通过解耦特征变换和传播，PPNP和APPNP可以在不增加神经网络层数的情况下聚合来自多跳邻居的信息。

JKNet: 第一个深度GCN框架是由Xu等人(Xu等人，2018年)提出的。在最后一层，JKNet组合前面所有的表示(H(1)，…，H(K))来学习针对不同图子结构的不同阶的表示。(Xu等，2018年)证明了：K层Vanilla gcn模型模拟了自循环图˜G中K步的随机行走；通过组合前面层的所有表示，JKnet缓解了过度平滑的问题。

DropEdge 最近的一项工作(Rong等人，2020年)表明，从 $\tilde{G}$ 中随机删除一些边会延缓超平滑的收敛速度。设 $\tilde{\mathbf{P}}_{\text {drop }}$ 表示任意去掉某条边的重整化图的卷积矩阵，则带有DropEdge 的Vanilla GCN被定义为：

$\mathbf{H}^{(\ell+1)}=\sigma\left(\tilde{\mathbf{P}}_{\mathrm{drop}} \mathbf{H}^{(\ell)} \mathbf{W}^{(\ell)}\right)$

3. GCNII Model

众所周知(Wu等，2019年)，通过堆叠K层vanilla GCN 模拟多项式滤波器 $\left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x}$ 在 $\tilde{G}$ 的图谱域上具有固定系数的K阶 $\theta$ 。固定系数限制了多层GCN模型的表达能力，从而导致过平滑。为了将GCN扩展到真正的深度模型，我们需要使GCN能够表示任意系数的K阶多项式滤波器。我们证明了这可以通过两个简单的技术来实现：初始剩余连接和恒等映射。形式上，我们将GCNII的第 $\ell$ 层定义为: $\mathbf{H}^{(\ell+1)}=\sigma\left(\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\alpha_{\ell} \mathbf{H}^{(0)}\right)\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)}\right)\right)$

其中 $\alpha_{\ell}$ 和 ${\beta_{\ell}}$ 是两个超参数。 $\tilde{P} =\tilde{D}^{−1/2}\tilde{A}D^{−1/2}$ 是具有重整化技巧的图形卷积矩阵。
注意，与Vanilla GCN模型(方程(1))相比，我们做了两点修改：

1)我们组合了平滑表示 $\tilde{P}H^{(\ell)}$ 与到第一层 $H^{(0)}$ 的初始残差连接相结合；
2)我们增加了一个恒等式映射 $I n$ 到 $\ell$ 层权重矩阵 $W(\ell)$ 中。

初始剩余连接。 为了模拟Resnet中的跳过连接(他等人，2016年)，(Kipf&Well，2017年)提出了将平滑表示 $\tilde{P}H\ell)$ 与 $H^{(\ell)}$ 相结合的剩余连接。然而，在(Kipf&Wling，2017)中也表明，这种剩余连接仅部分缓解了过度平滑问题；随着堆叠的层越多，模型的性能仍会降低。

我们建议，不使用剩余连接来携带来自上一层的信息，而是构造到初始表示 $H^{(0)}$ 的连接。即使我们堆叠了许多层,初始剩余连接确保每个节点的最终表示至少保留输入层的一小部分 $α^\ell$ ，实际上，我们可以简单地设置 $α^\ell$ =0.1或0.2，以便每个节点的最终表示至少包含输入特征的一小部分。我们还注意到， $H^{(0)}$ 不一定是特征矩阵X。如果特征维数d大，我们可以在 $X$ 上应用全连接神经网络，以在前向传播之前获得较低维的初始表示 $H^{(0)}$ 。

最后，我们记得APPNP(Klicpera等人，2019a)在个性化PageRank的上下文中采用了类似的方法来处理初始剩余连接。然而，(Klicpera等人，2019a)也表明，对特征矩阵执行多次非线性运算将导致过拟合，从而导致性能下降。因此，APPNP在不同层之间采用线性组合，因此仍然是一个浅层模型。这表明，仅有初始残差的想法不足以将GCN扩展到更深的模式。

恒等映射。 为了弥补APPNP的不足，我们借鉴了ResNet中身份映射的思想。在第 $\ell层，我们将单位矩阵$ $I n$ 添加到权重矩阵 $W^{(\ell)}$ 中。在下文中，我们总结了将恒等映射引入到我们的模型中的动机。

与ResNet(他等人，2016)的动机类似，恒等映射确保深层GCNII模型至少实现与其浅层版本相同的性能。特别地，通过将 $β_\ell$ 设置得足够小，深度GCNII忽略权重矩阵 $W^{(\ell)}$ ，并且本质上模拟APPNP(公式(3))。
已经观察到特征矩阵不同维度之间的频繁交互(Klicpera等人，2019a)降低了模型在半监督任务中的性能。将平滑表示 $\tilde{P}H^{(\ell)}$ 直接映射到输出减少了这种交互。
恒等映射被证明在半监督任务中特别有用。Hardt&Ma，2017)证明了形式为 $H^{(\ell+1)}=H^{(\ell)}$ ( $W^{(\ell)}$ $+ I n$ )的线性ResNet满足以下性质：
1)最优权矩阵 $W^{(\ell)}$ 具有小范数； 2)唯一的临界点是全局极小值。第一个性质允许我们将强正则化
$W^{(\ell)}$ 避免过度拟合，而后者在训练数据有限的半监督任务中是可取的。
(Oono&Suzuki，2020)从理论上证明了K层GCNS的节点特征会收敛到一个子空间，从而导致信息丢失。特别地，收敛速度依赖于 $S^K$ ，其中s是权矩阵 $W^{(\ell)}，\ell=0，…，K−1$ 的最大奇异值。通过将 $W^{(\ell)}$ 替换为 $((1−β^\ell W^{(\ell)}) In + β_\ell W^{(\ell)}$ 并对
W^{(\ell)}施加正则化，我们强制 $W^{(\ell)}$ 的范数小。因此， $\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)}$ 的奇异值将接近1。因此，最大奇异值s也将接近1，这意味着 $s^K$ 过大，信息损失得到缓解。

设置 $β_\ell$ 的原则是确保权重矩阵的衰减随着层数的增加而自适应地增加。在实践中，我们设置 $\beta_{\ell}=\log \left(\frac{\lambda}{\ell}+1\right) \approx \frac{\lambda}{\ell}$ ，其中λ是一个超参数。

与迭代收缩阈值的连接。最近，已经有了以优化为灵感的网络结构设计工作(Zhang&Ghanem，2018年；Papyan等人，2017年)。其思想是，前馈神经网络可以被视为最小化某些函数的迭代优化算法，并且假设更好的优化算法可能会导致更好的网络结构(Li等人，2018a)。因此，数值优化算法中的理论可能会启发设计出更好、更易解释的网络结构。正如我们接下来将展示的，在我们的结构中使用恒等映射也是出于这个原因。我们认为套索是客观的：

$\min _{x \in \mathcal{R}^{n}} \frac{1}{2}\|\mathbf{B} \mathbf{x}-\mathbf{y}\|_{2}^{2}+\lambda\|\mathbf{x}\|_{1}$

与压缩感知类似，我们认为x是我们试图恢复的信号，B是测量矩阵，y是我们观察到的信号。在我们的设置中，y是节点的原始特征，x是嵌入网络尝试学习的节点。与标准回归模型不同，设计矩阵B是未知参数，将通过反向传播学习。因此，这与稀疏编码问题的精神相同，稀疏编码问题已被用于设计和分析CNN(Papyan等人，2017年)。迭代收缩阈值算法是解决上述优化问题的有效算法，其中第(t+1)次迭代的更新为：

$\mathbf{x}^{t+1}=P_{\mu_{t} \lambda}\left(\mathbf{x}^{t}-\mu_{t} \mathbf{B}^{T} \mathbf{B} \mathbf{x}^{t}+\mu_{t} \mathbf{B}^{T} \mathbf{y}\right)$

这里 $µ_t$ 是步长， $P_{β}(·)(β>0)$ 是入门级软阈值函数：

$P_{\theta}(z)=\left\{\begin{array}{lr} z-\theta, & \text { if } z \geq \theta \\ 0, & \text { if }|z|<\theta \\ z+\theta, & \text { if } z \leq-\theta \end{array}\right.$
现在，如果我们用W重新参数化 $B^TB$ ，上述更新公式将变得非常类似于我们的方法中使用的公式。更具体地说，我们有 $X^{t+1}=P_{µtλ}((I+µ_tW)X_t+µ_tB^Ty)$ ，其中，术语 $µ_tB^Ty$ 对应于初始残差，而 $I+µ_tW)X_t$ 对应于我们模型(5)中的恒等映射。软阈值算子作为非线性激活函数，类似于RELU的激活效果。总之，我们的网络结构，特别是恒等映射的使用，是从迭代收缩阈值算法求解套索中得到很好解决 LASSO。

注解：
1.GCNII的第 $\ell$ 层定义为: $\mathbf{H}^{(\ell+1)}=\sigma\left(\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\alpha_{\ell} \mathbf{H}^{(0)}\right)\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}^{(\ell)}\right)\right)$
对vanilla GCN 模型公式 (equation(1))进行修改而来：

增加残链接
恒等映射

设计灵感：
1.ResNet的残差连接、恒等映射进行修改。
2.为了弥补APPN的不足，增加恒等映射。

4. Spectral Analysis

4.1. Spectral analysis of multi-layer GCN.

我们考虑以下具有残差连接的GCN模型：
$\mathbf{H}^{(\ell+1)}=\sigma\left(\left(\tilde{\mathbf{P}} \mathbf{H}^{(\ell)}+\mathbf{H}^{(\ell)}\right) \mathbf{W}^{(\ell)}\right)$
回想一下， $\tilde{\mathbf{P}}=$ $\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \tilde{\mathbf{D}}^{-1 / 2}$ 是具有重整化技巧的图形卷积矩阵。(Wang等，2019年)指出，方程(6)用转移矩阵
$\frac{1_{n}+\bar{D}^{-1 / 2} \bar{A} \bar{D}^{-1 / 2}}{2} .$ 模拟了贪婪的随机行走。这种贪婪的随机行走最终收敛到静止状态，从而导致过度平滑。现在我们推导出平稳向量的闭合形式，并分析这种收敛速度。我们的分析表明，单个节点的收敛速度取决于其度，并通过实验支持了这一理论发现。特别地，我们有以下定理。

定理1. 假设自环图 $\tilde{G}$ 是连通的。设 $\mathbf{h}^{(K)}=\left(\frac{\mathbf{I}_{n}+\overline{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \overline{\mathbf{D}}^{-1 / 2}}{2}\right)^{K} \cdot \mathbf{x}$ 表示对图信号x应用具有残差连接的K层重整化图卷积的表示。设λ $\tilde{G}$ 表示自环图 $\tilde{G}$ 的谱间隙，即归一化拉普拉斯算子的最小非零本征值 $\tilde{\mathbf{L}}=\mathbf{I}_{n}-\tilde{\mathbf{D}}^{-1 / 2} \tilde{\mathbf{A}} \overline{\mathbf{D}}^{-1 / 2} .$ 我们有：

1)当K趋于无穷大时， $h^{(K)}$ 收敛到 $\boldsymbol{\pi}=\frac{\left\langle\tilde{\mathbf{D}}^{1 / 2} \mathbf{1}, \mathbf{x}\right\rangle}{2 m+n}$ $\tilde{\mathbf{D}}^{1 / 2} \mathbf{1},$ ，其中1表示全一向量。

2)收敛速度由下式决定:
$\mathbf{h}^{(K)}=\pi \pm\left(\sum_{i=1}^{n} x_{i}\right) \cdot\left(1-\frac{\lambda_{\tilde{G}}^{2}}{2}\right)^{K} \cdot \mathbf{1}$

回想一下，m和n是原始图G中的节点数和边数。我们使用运算符±来表示对于每个条目 $h^{(K)}(J)$ 和 $π (J) ， j = 1 ， . . . ， n ，$
$\left|\mathbf{h}^{(K)}(j)-\pi(j)\right| \leq\left(\sum_{i=1}^{n} x_{i}\right) \cdot\left(1-\frac{\lambda_{\tilde{G}}^{2}}{2}\right)^{K}$

定理1的证明可以在补充材料中找到。

定理1有两个推论：第一， $GCNh^{(K)}$ 的第K次表示收敛到向量 $\boldsymbol{\pi}=\frac{\left\langle\tilde{\mathbf{D}}^{1 / 2} \mathbf{1}, \mathbf{x}\right\rangle}{2 m+n}$ $\tilde{\mathbf{D}}^{1 / 2} \mathbf{1},$ 。这种收敛导致过度平滑，因为矢量π仅携带两种信息：每个节点的程度以及初始信号x和矢量 $D^{1/2}1$ 之间的内积。

收敛速度和节点度。公式(7)表明收敛速度取决于整个特征项的和 $\sum_{i=1}^{n} x_{i}$ 和谱间隙 $\lambda_{\tilde{G}}$ 。如果我们仔细观察单个节点j的相对收敛速度，我们可以将其最终表示 $\mathbf{h}^{(K)}(j)$ 为：

$\mathbf{h}^{(K)}(j)=\sqrt{d_{j}+1}\left(\sum_{i=1}^{n} \frac{\sqrt{d_{i}+1}}{2 m+n} x_{i} \pm \frac{\sum_{i=1}^{n} x_{i}\left(1-\frac{\lambda^{2}}{2}\right)^{K}}{\sqrt{d_{j}+1}}\right)$

这表明，如果节点j具有较高的dj度(并且因此具有较大的 $\sqrt{d_{j}+1})$ ，则其表示 $h^{(K)}(J)$ 更快地收敛到稳态 $π (J)$ 。基于这一事实，我们作出以下猜想。

猜想1： - 阶数越高的节点越容易出现过度平滑。

在我们的实验中，我们将在真实世界的数据集上验证猜想1。

4.2. Spectral analysis of GCNII

我们考虑自环图 $\tilde{G}$ 的谱域。回想一下，图信号x上的K阶多项式滤波定义为 $\left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x}$ ，其中 $\tilde{L}$ 是 $\tilde{G}$ 的归一化拉普拉斯矩阵， $θ_{k}$ 是多项式系数。(Wu等人，2019年)证明了K层GCN模拟具有固定系数θ的K阶多项式滤波器。正如我们稍后将证明的那样，这种固定的系数限制了GCN的表达能力，从而导致过度平滑。另一方面，我们证明了K层GCNII模型可以表示任意系数的K阶多项式滤波器。

定理2. 考虑自环图 $\tilde{G}$ 和一个图信号x，K层GCNII可以表示一个K阶多项式滤波器 $\left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x}$ 具有任意系数θ的X。定理2的证明可以在补充材料中找到。直观地，参数β允许GCNII模拟多项式滤波器的系数 $θ_{\ell}$ 。

表现力强，过平滑。 用任意系数表示多项式滤波器的能力对于防止过平滑是必不可少的。要了解为什么会出现这种情况，请回想一下定理1建议K层 vanilla GCN模拟固定的K阶多项式滤波器 $\tilde{P}^{K}x$ ，其中 $\tilde{P}$ 是重整化的图卷积矩阵。过平滑是由于 $\tilde{P}^{K}x$ 收敛到与输入特征x隔离的分布的事实而引起的，从而导致梯度消失。,DropEdge(Rong等人，2020)放慢了收敛速度，但最终会随着K变得无穷大而失败。

另一方面，定理2认为深度GCNII收敛到一个分布，该分布携带来自输入特征和图结构的信息。仅此属性就可以确保GCNII不会受到过度平滑的影响，即使层的数量达到无穷大也是如此。,更确切地说，定理2指出K层GCNII可以用任意系数θ表示 $h (K)$ = $\left(\sum_{\ell=0}^{K} \theta_{\ell} \tilde{\mathbf{L}}^{\ell}\right) \mathbf{x}$ 。由于重整化图的卷积矩阵 $\tilde{P}=In−\tilde{L}$ 中，因此可以表示 $\mathbf{h}^{(K)}=\left(\sum_{\ell=0}^{K} \theta_{\ell}^{\prime} \tilde{\mathbf{P}}^{\ell}\right) \cdot \mathbf{x}$ 。请注意，通过适当选择 $\theta^{\prime}$ ，即使K为无穷大，h(K)也可以同时携带来自输入特征和图形结构的信息。例如，APPNP(Klicpera等人，2019a)和GDC(Klicpera等人，2019b)将 $\theta_{i}^{\prime}=\alpha(1-\alpha)^{i}$ 设置为某个常数0<α<1。当K变为无穷大时， $\mathbf{h}^{(K)}=\left(\sum_{\ell=0}^{K} \theta_{\ell}^{\prime} \tilde{\mathbf{P}}^{\ell}\right) \cdot \mathbf{x}$ 收敛到x的个性化页面排名向量，它是邻接矩阵 $\tilde{A}$ 和输入特征向量x的函数。

GCNII和APPNP/GDC的不同之处在于：,
1)我们的模型中的系数向量θ是从输入特征和标签中学习的；
2)我们在每一层都实施了RELU操作。

5. Other Related Work

基于谱的GCN在过去几年中得到了广泛的研究。
1.2018c Li等人《Adaptive graph convolutional neural networks》
通过在训练时为每个图形数据学习任务驱动的自适应图来提高灵活性。

2.2019年Xu等人《Graph wavelet neural network》使用图形小波基代替傅立叶基来提高稀疏性和局部性。

3.2018年Veliˇckovi‘c等人《 Graph Attention Networks》全球认知模型，该模型基于节点特征学习每层的边权重。

4.2019年Abu-El-Haija等人，《A. Mixhop: Higher-order graph convolutional architec-
tures via sparsified neighborhood mixing.》通过混合不同距离的邻居信息来学习邻居混合关系，但仍然使用两层模型。

5.2019年Gao&J等人《 Graph u-nets》致力于将汇集操作扩展到图神经网络。对于无监督信息，通过最大化互信息训练图形卷积编码器。

6.2020年Pei在图嵌入的潜在空间中建立结构邻域进行聚集，以提取更多的结构信息。

7.2019年Dave等人，《A. Neuralbrane: Neural bayesian personalized ranking for at-
tributed network embedding.》使用单个表示向量来捕获两个拓扑图嵌入中的信息和节点属性。许多基于抽样的方法都是为了提高GCN的可扩展性而提出的。

8.2017年Hamilton等人，《 Inductive representation learning on large graphs.》通过层使用固定大小的邻域样本。

9.2018年Huang等人提出了《Fastgcn: Fast learning with graph convolutional networks via importance sampling.》基于重要性采样的有效变体。

10.2019年Chiang等人《Cluster-gcn: An efficient algorithm for training deep
and large graph convolutional networks.》。

6. Experiments

在这一部分中，我们将评估GCNII在各种开放图形数据集上与最先进的图形神经网络模型的性能。
Dataset and experimental setup.
我们使用三个标准引文网络数据集Cora、Citeseer和Pubmed进行半监督节点分类。在这些引文数据集中，节点对应于文档，边对应于引文；每个节点特征对应于文档的词袋表示，属于一个学术主题。对于全监督节点分类，我们还包括Chameleon、Cornell, Texas, and Wisconsin。这些数据集是Web网络，其中节点和边分别表示网页和超链接。每个节点的特征是相应页面的词袋表示。对于归纳学习，我们使用蛋白质-蛋白质相互作用(PPI)网络(Hamilton等人，2017年)，它包含24个图。在之前的工作(VELIˇCckovi‘c等人，2018年)的设置之后，我们使用20个图表进行训练，2个图表用于验证，其余的用于测试。表1汇总了数据集的统计数据。

除了GCNII(5)之外，我们还包括GCNII*，它是GCNII的一个变体，它对平滑的表示使用不同的权重矩阵 $\tilde{P}$ $H^{(\ell)}$ 。形式上，GCNII*的第 $KaTeX parse error: Undefined control sequence: \elld at position 2: (\̲e̲l̲l̲d̲+1)$ 层定义为:
$\begin{aligned} \mathbf{H}^{(\ell+1)}=& \sigma\left(\left(1-\alpha_{\ell}\right) \tilde{\mathbf{P}} \mathbf{H}^{(\ell)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{1}^{(\ell)}\right)+\right.\\ &\left.+\alpha_{\ell} \mathbf{H}^{(0)}\left(\left(1-\beta_{\ell}\right) \mathbf{I}_{n}+\beta_{\ell} \mathbf{W}_{2}^{(\ell)}\right)\right) \end{aligned}$

如第3节所述，我们设置了 $\beta_{\ell}=\log \left(\frac{\lambda}{\ell}+1\right) \approx \lambda / \ell$ ，其中λ是一个超参数。

6.1. Semi-supervised Node Classification

Setting and baselines.
对于半监督节点分类任务，我们在三个数据集Cora、Citeseer和Pubmed上应用标准的固定训练/验证/测试分裂(Yang等人，2016)，每个类有20个节点用于训练，500个节点用于验证，1000个节点用于测试。对于基线，我们包括最近的两个深度GNN模型：JKNet(Xu等人，2018年)和DropEdge(Rong等人，2020年)。正如Rong等人(Rong等人，2020)所建议的那样，我们在三个主干上配备了DropEdge：GCN(Kipf&Well，2017)、JKNet(Xu等人，2018年)和IncepGCN(Rong等人，2020)。我们还包括三种最先进的浅层模式：APPNP(KIPF&WELING，2017年)、GAT(VELIˇckovi‘c等人，2018年)和APPNP(Klicpera等人，2019a)。

我们使用学习率为0.01的Adam SGD优化器(Kingma&Ba，2015)，以100个epoch的提前停止训练GCNII和GCNII*。对于所有数据集上的全连接层，我们将α‘=0.1和L2正则化设置为0.0005。我们根据验证集上的精度执行网格搜索来调整不同深度模型的其他超参数。补充材料中列出了超参数的更多详细信息。

Comparison with SOTA.
表2报告了GCN和GCNII测试节点100次运行后的平均分类精度和标准差。我们为GCN、GAT和APPNP重用了(Fey&Lenssen，2019年)中报告的指标，为JKNet、JKNet(Drop)和incep(Drop)重用了(Rong等人，2020)中报告的最佳指标。我们的结果成功地证明了GCNII和GCNII*在所有三个数据集上都实现了最先进的性能。值得注意的是，GCNII的性能比以前最先进的方法至少高出2%。还值得注意的是，最近的两个深层模型-JKNet和IncepGCN with DropEdge-似乎没有提供比浅层模型APPNP更大的优势。另一方面，我们的方法通过64层模型实现了这一结果，展示了深层网络结构的优势。

Adetailedcomparisonwithotherdeepmodels.
表3总结了不同层数的深部模式的结果。我们对JKNet、JKNet(Drop)和incep(Drop)1重复使用了最好的报告结果。我们观察到，在CORA和Citeseer上，GCNII和GCNII的性能随着层数的增加而不断提高。在Pubmed上，GCNII和GCNII在16层时达到最佳效果，并且在我们将网络深度增加到64层时保持相似的性能。我们将这一品质归功于身份映射技术。总体而言，结果表明，通过初始残差和恒等式映射，我们可以解决过平滑问题，并将香草GCN扩展为真正深入的模型。另一方面，当层数超过32时，DropEdge和JKNet的GCN的性能会迅速下降，这意味着它们仍然存在过度平滑的问题。

6.2. Full-Supervised Node Classification

我们现在评估GCNII在全监督节点分类任务中的性能。根据(Pei et al.，2020)中的设置，我们使用7个数据集：Cora、Citeseer、Pubmed、Cornell, Texas, and Wisconsin.对于每个数据集，我们将每个类的节点随机分为60%、20%和20%用于训练、验证和测试，并按照Pei等人的建议，在10个随机拆分上测量测试集上所有模型的性能(Pei等人，2020年)。我们将所有数据集的学习率固定为0.01，丢失率固定为0.5，隐藏单元数固定为64，并基于验证集执行超参数搜索以调整其他超参数。全监督节点分类的所有模型的详细配置可以在补充资料中找到。除了前面提到的基线，我们还包括Geom-GCN的三个变体(Pei等人，2020年)，因为它们是这些数据集上最先进的模型。

表5报告了每个模型的平均分类精度。我们为GCN、GAT和Geom-GCN重用了(Pei等人，2020年)中报告的指标。我们观察到GCNII和GCNII在7个数据集中的6个上取得了新的最先进的结果，这表明了深度GCNII框架的优越性。值得注意的是，在威斯康星州的数据集上，GCNII的表现比APPNP高出12%以上。这一结果表明，通过在各层引入非线性，GCNII的预测能力强于线性模型APPNP。

6.3. Inductive Learning

对于归纳学习任务，我们在PPI数据集上应用了9层GCNII和 $GCNII^*$ 模型，有2048个隐藏单元。我们确定了以下超参数集：α‘=0.001.5，λ=1.0，学习率为0.001。由于训练数据量大，我们将丢失率设置为0.2，将权值衰减设置为零。继(VELIˇCckoviüc等人，2018年)之后，我们还增加了从GCNII和GCNII*的第‘层到第 $(\ell+1)$ 层的跳过连接，以加快训练过程的收敛。我们将GCNII与以下最先进的方法进行比较：GraphSAGE(Hamilton等人，2017年)、VR-GCN(Chen等人，2018b)、Gaan(Zhang等人，2018年)、GAT(VELIˇckovi‘c等人，2018年)、JKnet(Xu等人，2018年)、JKNet(Xu等人，2018年)、JKnet(Xu等人，2018年)、GeniePath(Liu等人，2019年)、Cluster-GCN(Chiang等人，2019年)。表4总结了这些指标。与我们的预期一致，结果显示GCNII和 $GCNII^*$ 在PPI上实现了新的最先进性能。特别地，GCNII采用9层模型，而所有基线模型的层数均小于或等于5层，这表明在归纳学习任务中，通过增加网络深度也可以利用更大的预测能力

6.4. Over-Smoothing Analysis for GCN

回想一下，猜想1表明阶数越高的节点越容易出现过度平滑。为了验证这一猜想，我们研究了在Cora、Citeseer和Pubmed上的半监督节点分类任务中，分类精度是如何随节点度的变化而变化的。更具体地说，我们根据度对每个图的节点进行分组。第i组由阶数在[2i，2i+1)(i=0，…，∞)范围内的节点组成。对于每一组，我们在图1中报告了具有与不同网络深度的剩余连接的GCN的平均分类精度。我们有以下观察结果。首先，我们注意到两层GCN模型的精度随着节点度的增加而提高。这与预期不谋而合，因为度数较高的节点通常会从邻居那里获得更多信息。但是，随着网络深度的扩大，高度节点的准确率比低度节点下降得更快。值得注意的是，具有64层的GCN无法对度数大于100的节点进行分类。这表明过度平滑确实会对阶数较高的节点产生更大的影响。

6.5. Ablation Study

图2显示了消融研究的结果，该研究评估了我们的两种技术的贡献：初始剩余连接和身份映射。我们从图2中观察到三点：1)直接将标识映射应用到普通GCN会略微延迟过度平滑的效果。2)直接将初始残差连接应用于香草GCN可显著缓解过平滑。但是，2层模型仍然实现了最佳性能。3)同时应用身份映射和初始剩余连接，保证了精度随网络深度的增加而提高。这一结果表明，这两种技术都需要解决过平滑问题。

7. Conclusion

我们提出了GCNII，这是一个简单而深入的GCN模型，它通过初始剩余连接和单位映射来防止过度平滑。理论分析表明，GCNII能够表示任意系数的K阶多项式滤波器。对于具有多层的香草GCN，我们提供了理论和经验证据，证明阶数越高的节点更容易遭受过平滑。实验表明，深度GCNII模型在各种半监督和全监督任务上都取得了新的研究成果。未来工作的有趣方向包括将GCNII与注意机制相结合，以及分析GCNII与RELU操作的行为。

你可能感兴趣的:(神经网络,pytorch,人工智能,机器学习,算法)

芯片的未来发展趋势 iccnewer
2024年，该行业将专注于AI/ML、RISC-V、量子、安全等发展趋势。今年年初，大多数人从未听说过生成式人工智能。现在整个世界都在竞相利用它，而这仅仅是个开始。量子计算、6G、智能基础设施等新市场领域专用处理正在加速对更快、更高效、更多数据的需求。与每隔几年等待下一个工艺节点的日子相比，未来几年的事件将与电话或汽车的引入一样重要。但可能不会只有一种创新技术，将会有很多技术一起以一种将让科技界惊
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
BM25S 项目安装和配置指南陆汝涓Marissa
BM25S项目安装和配置指南bm25sBM25Sisanultra-fastlexicalsearchlibrarythatimplementsBM25usingscipy项目地址:https://gitcode.com/gh_mirrors/bm/bm25s1.项目基础介绍和主要编程语言BM25S是一个快速实现BM25算法的开源项目，主要用于文本检索任务。BM25是一种广泛使用的排名函数，常用于
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
LLM：软件测试的颠覆性力量 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM：软件测试的颠覆性力量关键词：大语言模型（LLM）、软件测试、人工智能、测试自动化、测试效率、质量保证、测试革新1.背景介绍在当今快速发展的软件行业中，测试一直是确保产品质量的关键环节。随着人工智能技术的飞速进步，特别是大语言模型（LargeLanguageModels，简称LLM）的出现，软件测试领域正经历着前所未有的变革。LLM凭借其强大的自然语言处理能力和广泛的知识储备，正在重塑我们对
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
深入了解盘古大模型：技术、应用与未来 Hardess-god Literature review 人工智能
随着人工智能技术的迅猛发展，预训练大模型已成为AI领域最前沿、最热门的研究方向之一。近年来，中国自主研发的大模型之一——盘古模型（PanGuModel）逐渐进入公众视野，凭借其强大的性能和广泛的应用前景，引发了行业内外的广泛关注。什么是盘古大模型？盘古大模型是华为公司联合多家科研机构共同研发的超大规模预训练语言模型。该模型以中文数据为主进行训练，旨在推动中文自然语言处理（NLP）以及跨模态应用的技
【人工智能之大模型】阐述生成式语言模型的工作机理...（二） 985小水博一枚呀大大大模型知识点人工智能语言模型自然语言处理机器学习神经网络
【人工智能之大模型】阐述生成式语言模型的工作机理…（二）【人工智能之大模型】阐述生成式语言模型的工作机理…（二）文章目录【人工智能之大模型】阐述生成式语言模型的工作机理...（二）前言4.代码逐行解释TransformerBlock类初始化前向传播GenerativeLM类初始化前向传播推理示例测试生成5.总结欢迎宝子们点赞、关注、收藏！欢迎宝子们批评指正！祝所有的硕博生都能遇到好的导师！好的审稿
人工智能 - 通用 AI Agent 之 LangManus、Manus、OpenManus 和 OWL 技术选型天机️灵韵具身智能人工智能人工智能具身智能智能体
一、核心项目概览1.Manus（闭源通用AIAgent）定位：全球首个全流程自动化通用AIAgent，GAIA基准测试SOTA水平。核心能力：全流程自动化：从任务规划（如撰写报告）到执行（代码生成、表格制作）的端到端处理。智能纠错机制：基于沙箱环境的实时错误反思与调整（类似CodeAct技术）。云端依赖：需联网运行，集成浏览器操作、信息检索等工具。局限性：闭源且采用邀请制，二手市场邀请码溢价至数万
c++算法赛万能模板个人笔记适用蓝桥杯，天梯赛，acm等赛事 a东方青个人笔记 c++算法笔记
算法笔记-更新与2025-3-22点赞收藏+关注持续更新算法基础二分整数二分//在一个单调区间里面去找答案boolcheck(intx){/*...*/}//检查x是否满足某种性质//区间[l,r]被划分成[l,mid]和[mid+1,r]时使用：intbsearch_1(intl,intr){while(l>1;if(check(mid))r=mid;//check()判断mid是否满足性质el
一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列） AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
文章目录一切皆是映射：实现神经网络的硬件加速技术：GPU、ASIC（专用集成电路）和FPGA（现场可编程门阵列）1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.2.1GPU加速3.2.2ASIC加速3.2.3FPGA加速3.3算法优缺点GPUASICFPGA3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过
知识图谱中NLP新技术魔王阿卡纳兹知识图谱入门大数据治理与分析知识图谱自然语言处理人工智能
知识图谱与自然语言处理（NLP）的结合是当前人工智能领域的前沿方向，其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面，系统梳理知识图谱中NLP的最新进展：一、核心技术突破基于预训练模型的图谱构建与增强预训练语言模型与知识嵌入融合：以BERT、KEPLER为代表的模型通过联合优化知识嵌入（KE）和语言建模目标，将知识图谱中的结构化知识融入预训练过程，显著提
掌握ChatGPT写代码的秘诀：开发者的完整指南酷酷的崽798 机器学习 chatgpt
文章目录前言：如何利用ChatGPT来写代码：一个深度指南1.ChatGPT的基本功能概述2.利用ChatGPT辅助代码编写的好处3.ChatGPT支持的编程语言4.如何向ChatGPT提问以获取最佳结果5.实际应用案例6.ChatGPT的局限性及其解决方法7.关于隐私和安全性的注意事项8.未来展望结论前言：如何利用ChatGPT来写代码：一个深度指南近年来，人工智能技术取得了飞跃性的进展，尤其是
堆数据结构：从基础原理到高效算法实现的技术探讨 Everyrt 课程设计
摘要堆作为一种特殊的树形数据结构，在多种算法场景中发挥着核心作用。本文深入剖析堆的基础原理，详细阐述堆的构建、插入、删除等操作的实现细节，并探讨其在优先队列、堆排序等高效算法中的应用，助力读者全面掌握堆数据结构及其应用技术。一、引言堆数据结构以其独特的特性，能够高效地获取集合中的最大（或最小）元素。无论是操作系统中的进程调度，还是搜索算法中的最优解筛选，堆都扮演着不可或缺的角色。理解堆的原理与实现
蓝桥大使【算法赛】----贪心算法 wyshh119 算法学习贪心算法
这里比较的难点在于sort排序的根据是什么，为什么是两人的报酬差，我的理解是当两人报酬差越大，那么总报酬的损失就越大，其实是缺少具体的证明的，但是通过就说明确实是这样。也就不深究证明了。#include#includeusingnamespacestd;longlongans=0;constintN=100005;structnode{//结构体inta;intb;};nodea[N];intma
算法设计与分析4（变治法） songx_99 算法设计与分析算法
变治法将问题转化为一个或数个有一定关联当形式上不同的更加简单或更加好解决的子问题。变治法的应用：预排序思想用预排序可以简化许多问题，如检查元素唯一性，检查出现次数最多的元素等堆算法堆的定义首先它是一个完全二叉树，完全二叉树表明树的每一层都是满的，只有最后一层最右边的元素有可能缺位。且父结点的值大于它的两个子节点，则称是一个大根堆，若值小于两个子节点，称小根堆堆化有向下调整，向上调整两种，大致思路相
动态规划算法--找零方式大王算法数据结构和算法实战宝典算法动态规划 c++
一、问题介绍给定数组arr，arr中所有的值都为正数且不重复。每个值代表一种面值的货币，每种面值的货币可以使用任意张，再给定一个整数aim，代表要找的钱数，求所有的找零方法有多少种。二、算法思路枚举法，列出使用某张钞票n次的所有可能。1、暴力递归intprocess1(intn,intarr[],intindex,intrest){if(index==n)returnrest==0?1:0;int
位图思想详解：用一个小小的比特征服整个世界 Joseit 优选算法 java 算法
位图思想详解：用一个小小的比特征服整个世界一、什么是位图？二、位图的形象理解三、位图的Java实现四、位图的算法原理剖析五、实际应用案例：网站用户活跃度统计五、真实的应用场景：布隆过滤器的基础六、算法题：判断字符是否唯一（easy）一、什么是位图？位图是一种超级节省空间的数据结构，他利用二进制位（0/1）来表示某个元素是否存在或某种状态是否为真。想象一下，用一个小小的比特位就能记录一个信息，这简直
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
PCL基础：pcl::SACSegmentation＜PointXYZRGBN＞函数全面说明，一遍文章精通平面分割算法多宝Kim #PCL点云库使用笔记 c++算法 windows visual studio
创作不易，如果本篇文章能够给你提供帮助，请点赞鼓励+收藏备查+关注获取最新技术动态，支持作者输出高质量干货！（一般在周末更新技术干货）`pcl::SACSegmentation`是PointCloudLibrary(PCL)中用于进行随机抽样一致性（RandomSampleConsensus，RANSAC）平面分割的类模板，模板参数`PointXYZRGBN`表示点云中点的类型，该类型包含三维坐标
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
算法及数据结构系列 - 动态规划诺亚凹凸曼算法及数据结构算法数据结构动态规划
系列文章目录算法及数据结构系列-二分查找算法及数据结构系列-BFS算法文章目录框架思路子序列问题解题模板一维dp数组二维dp数组经典题型322.零钱兑换暴力递归带备忘录的暴力递归动态规划300.最长上升子序列1143.最长公共子序列72.编辑距离框架思路动态规划问题的一般形式就是求最值。动态规划其实是运筹学的一种最优化方法，只不过在计算机问题上应用比较多，比如说求最长递增子序列，最小编辑距离等等。
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
PyTorch数据归一化处理：transforms 2401_87555420 pytorch 人工智能 python
##1.数据归一化处理：transforms.Normalize###1.1理解torchvision*torchvision.transforms：常用的图像预处理方法*torchvision.datasets：常用的数据集Dataset实现*torchvision.models：常用的CV（预训练）模型实现torchvision.transforms:常用的数据预处理方法，提升泛化能力，包括：
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多