yyl424525

PGE - A Representation Learning Framework for Property Graphs 属性图表示学习框架 KDD 2019

文章目录

1 相关介绍

1.1 背景
1.2 现有方法的局限性
1.3 contributions

2 相关工作

矩阵分解
随机游走
图神经网络中的邻接聚合

3 PGE框架

3.1 符号定义
3.2 问题定义
3.3 PGE三步骤

步骤1：基于节点属性的聚类
步骤2：基于邻居的采样
步骤3：邻居聚合

3.4 边的方向和属性的支持
3.5 算法

4 PGE的分析

4.1 bias策略的效率
4.2 bias值的影响
4.3 合并边的属性

5 实验评估

5.1 节点分类
5.2 链接预测
5.3 参数敏感性测试

Epoch数量的影响
bias和cluster数量的影响

论文：A Representation Learning Framework for Property Graphs
属性图表示学习框架PGE

作者：Yifan Hou, Hongzhi Chen, Changji Li, James Cheng, Ming-Chang Yang 香港中文大学计算机科学与工程系

来源：KDD 2019

论文链接：http://www.cse.cuhk.edu.hk/~jcheng/papers/pge_kdd19.pdf

github链接：https://github.com/yifan-h/PGE

图表示学习，又称graph embedding，在分类、预测、推荐等一系列机器学习应用中发挥了重要作用。然而，现有的工作在很大程度上忽略了在现代应用中的节点和边的属性中包含的丰富的信息，例如，属性图中就存在大量丰富的信息。迄今为止，大多数现有的graph embedding方法要么集中于仅具有图拓扑的图，要么仅考虑节点上的属性。文中提出了一个图表示学习框架PGE，它在graph embedding过程中同时包含了节点和边的属性。PGE利用节点聚类的方法来分配bias来区分节点的邻居，并利用多个数据矩阵来聚合基于bias策略采样的邻居的属性信息。PGE采用主流的inductive模型进行邻居聚集。最后实验中对该方法的有效性进行了详细的分析，并通过在实际数据集上的节点分类和链路预测等benchmark应用中，展示了PGE如何比最新的graph embedding方法获得更好的embedding结果，从而验证了PGE的性能。

1 相关介绍

1.1 背景

此文处理的图是属性图。因为目前的一些GNN的方法都没有考虑将节点和边所携带的丰富信息加入到 graph embedding过程中。对属性图的研究目前存在两个挑战：

每个节点可能有许多属性，很难找到哪个属性对在特定应用中对此节点的影响更大。例如，在一个引用图中，考虑将论文分成不同的主题，其中节点表示论文，边表示引用关系。假设每个节点有两个属性，“year”和“title”。显然，属性“title”在论文分类中可能比属性“year”更重要。因此，需要考虑如何度量在不同应用中节点属性对每个节点的影响。
对于每个节点，它的邻居节点以及连接的边可能具有不同的属性。如何在不同的应用中度量邻接和连接的边对节点的影响又是一个挑战。在上面的例子中，对于引用目标论文的论文，引用次数高的论文比引用次数低的论文对目标论文的意义更大。

1.2 现有方法的局限性

现有的工作中，GCN利用节点属性信息生成节点embedding，而GraphSAGE将GCN从谱域扩展到空间中。在给定的应用中，GraphSAGE在信息聚集之前先训练一个权重矩阵，然后用训练好的矩阵将每个节点的邻居的属性信息聚合起来，计算节点的embedding。但是，GraphSAGE并没有对每个节点的属性不同的邻居进行区分，而是在聚合其属性信息时对所有邻居一视同仁。此外，GraphSAGE只考虑节点信息，而忽略边的方向和属性。除了节点或边的属性外，真实世界的图还有特殊的结构特征。例如，在社交网络中，节点往往以社区的形式组织起来，相似的节点要么是由于同质性（homophily）(The role of social networks in information diffusion,WWW 2012)特征而形成的邻居，要么虽然没有直接直接邻接，但是由于结构等价性特征而形成的结构相似的邻居[Community detection in graphs，2010；Structural role extraction & mining in large graphs，KDD 2012]。因此，考虑结构特征也很重要。为此，node2vec结合广度优先随机游走和深度优先随机游走两种策略来学习节点embedding，考虑同质性特征和结构等价特征。然而，node2vec只利用了这两个结构特性，没有考虑任何属性信息。

1.3 contributions

针对现有方法的局限性，文中提出了一种新的属性图embedding框架PGE。PGE将拓扑和属性信息结合到图的embedding过程中，采用有bias的方法来区分邻居和相应的连接的边的影响。该框架主要包括三个步骤:

基于属性的节点聚类，根据一个节点的属性与该节点的属性相似度，将该节点的邻居划分为相似和不相似的邻居;
bias邻居采样，根据bias参数(根据聚类结果设置)进行采样，得到更小的邻居，使embedding过程更具可扩展性;
利用神经网络训练的权重矩阵对采样的邻居的属性信息进行聚集，计算最终的低维节点embedding。
还详细分析了这三个步骤是如何协同工作以实现更好的图embedding的，以及为什么bias方法(合并节点信息和边信息)能够比现有方法获得更好的embedding结果。

实验的benchmark测试应用程序:节点分类和链接预测。结果表明，与现有的方法DeepWalk、node2vec、GCN和基于权重矩阵进行邻居聚合的GraphSAGE相比，PGE实现了显著的性能改进。实验验证了在图embedding中加入节点和边的属性信息以及拓扑信息的重要性。也证明了bias策略的有效性，该策略通过区分邻居来获得更好的embedding结果。

2 相关工作

图的embedding方法主要有三种:矩阵分解、随机游走和邻居聚合。

矩阵分解

Laplacian Eigenmap (LE)：Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering，NIPS 2001
Graph Factorization (GF) algorithm：Distributed Large-scale Natural Graph Factorization，WWW 2013
GraRep：GraRep: Learning Graph Representations with Global Structural Information,2015
HOPE：Asymmetric Transitivity Preserving Graph Embedding，SIGKDD 2016
Distributed large-scale natural graph factorization，WWW 2013;Grarep: Learning graph representations with global structural information,CIKM 2018 利用邻接矩阵定义和度量节点间的相似度，进行图embedding
(HOPE，KDD 2016)进一步保留高阶近似，得到有向图的非对称传递性。另一组作品利用随机游走统计信息学习embedding和跳跃图模型[26]，它应用向量表示来捕获单词关系

随机游走

随机游走的关键思想是，如果节点具有相似的embedding，那么这些节点通常倾向于出在短的随机游走上。

DeepWalk，DeepWalk是第一个将随机游走路径输入到用于学习节点embedding的skip-gram模型中的
node2vec，node2vec进一步利用有偏随机游走改进将节点embedding变换到低维空间的映射，同时结合广度优先游走和深度优先游走来考虑图的同质性和结构等价性
LINE
Walklets，为了获得更大的关系，Walklets使用偏移offset，以允许在随机游走期间有更长的步长
HARP，HARP利用将一些节点压缩成一个super-node的图数据预处理来改进随机游走

根据Representation learning on graphs: Methods and applications 2017：矩阵分解法和随机游走法是较浅的embedding方法，存在以下缺点

首先，由于节点embedding是独立的，并且没有参数或函数的共享，所以这些方法对于处理大型图不是很有效。
其次，它们不考虑节点或边的属性。
第三，由于embedding是transductive的，只能在训练阶段生成，所以到目前为止，不可见的节点无法通过正在学习的模型计算embedding。

图神经网络中的邻接聚合

为了解决上述问题，一些方法是使用基于图的神经网络来学习节点embedding，这种方法通过压缩邻居信息将节点编码成向量（Deep neural networks for learning graph representations，AAAI 2016;Reducing the dimensionality of data with neural networks,science 2006； Structural deep network embedding KDD 2016）。然而，尽管这类方法可以共享参数，但严格地说，它们仍然是transductive的，并且由于自动编码器的输入维数等于节点数，因此在处理大型图数据时仍然存在性能瓶颈。

最近的一些工作, 如GCN、GraphSAGE、GAE等试图仅使用局部邻居而不是整个图来通过邻居聚合来学习节点embedding，这些方法考虑了节点上的属性信息。然而，现有的邻居聚合方法对邻居属性信息的处理是平等的，无法区分具有不同属性的邻居(和相连的边)的影响。

注：提取非欧氏距离的图数据的特征的一些方法还有：
（1）传统的机器学习核方法：

Graph Kernels
Weisfeiler-Lehman Graph Kernels

3 PGE框架

3.1 符号定义

$\mathcal{G}=\{\mathcal{V}, \mathcal{E}, \mathcal{P}, \mathcal{L}\}$ 定义为一个属性图。其中 $\mathcal{V}$ 代表节点集， $\mathcal{E}$ 代表边集。
$\mathcal{P}$ 是所有属性的集合， $\mathcal{P}=\mathcal{P}_{\mathcal{V}} \cup \mathcal{P}_{\mathcal{E}}$ 。其中， $\mathcal{P}_{\mathcal{V}}=\bigcup_{v \in \mathcal{V}}\left\{p_{\mathcal{v}}\right\}$ ， $p_{\mathcal{v}}$ 表示节点 $v$ 的属性集。 $\mathcal{P}_{\mathcal{E}}=\bigcup_{e \in \mathcal{E}}\left\{p_{\mathcal{e}}\right\}$ ， $p_{\mathcal{e}}$ 表示边 $e$ 的属性集。
$\mathcal{L}$ 是所有标签的集合， $\mathcal{L}=\mathcal{L}_{\mathcal{V}} \cup \mathcal{L}_{\mathcal{E}}$ 。其中， $\mathcal{L}_{\mathcal{V}}$ 表示所有节点的标签集合， $\mathcal{L}_{\mathcal{E}}$ 表示所有边的标签集合。
$\mathcal{N}_{v}$ 定义为节点 $v$ 的邻居集，即 $\mathcal{N}_{v}=\left\{v^{\prime}:\left(v, v^{\prime}\right) \in \mathcal{E}\right\}$ 。如果 $\mathcal{G}$ 是有向图，则 $\mathcal{N}_{v}$ 定义为节点的 $\mathcal{N}_{v}^{in}$ 和 $\mathcal{N}_{v}^{out}$ 邻居构成的集合。

属性图模型具有通用性，可以表示其他常用的图模型：

如果令 $\mathcal{P}=\emptyset,\mathcal{L}=\emptyset$ ，则 $\mathcal{G}$ 就是一个plain graph，即一个只有拓扑结构的图。
如果令 $\mathcal{P}_{\mathcal{V}}=\mathcal{A},\mathcal{P}_{\mathcal{E}}=\emptyset，\mathcal{L}=\emptyset$ ，其中 $\mathcal{A}$ 表示节点属性集，那么 $\mathcal{G}$ 就是一个属性图。
如果令 $\mathcal{L}=\mathcal{L}_{\mathcal{V}},\mathcal{P}=\emptyset$ ，那么 $\mathcal{G}$ 就是一个标签图。

3.2 问题定义

节点相似性：给定一个属性图 $\mathcal{G}=\{\mathcal{V}, \mathcal{E}, \mathcal{P}, \mathcal{L}\}$ ，定义两个节点 $v_i$ 和 $v_j$ 之间的相似性为 $s_{\mathcal{G}}\left(v_{i}, v_{j}\right)$ 。节点相似性可以表示成两个部分， $s_{\mathcal{G}}\left(v_{i}, v_{j}\right)=l\left(s_{\mathcal{P}}\left(v_{i}, v_{j}\right), s_{\mathcal{T}}\left(v_{i}, v_{j}\right)\right)$ 。其中， $s_{\mathcal{P}}\left(v_{i}, v_{j}\right)$ 表示属性相似性， $s_{\mathcal{T}}\left(v_{i}, v_{j}\right)$ 表示拓扑结构相似性。 $l(\cdot,\cdot)$ 是一个非负映射。
embedding：节点 $v$ 的embedding为 $\mathbf{z}_{v}$ ，这个向量可以通过一个编码器 $\text{ENC}(v)=\mathbf{z}_{v}$ 得到。目标是通过最小化下式，找到一个最优的 $\text{ENC}(v)$ 。

$\sum_{v_{i}, v_{j} \in \mathcal{V}} \| s_{\mathcal{G}}\left(v_{i}, v_{j}\right)-\mathbf{z}_{v_{i}}^{\top} \mathbf{z}_{v_{j}}\|=\sum_{v_{i}, v_{j} \in \mathcal{V}} \| l \left(s_{\mathcal{P}}\left(v_{i}, v_{j}\right), s_{\mathcal{T}}\left(v_{i}, v_{j}\right)\right)-\mathbf{z}_{v_{i}}^{\top} \mathbf{z}_{v_{j}} \|$

对于上述问题，很显然，对于像传统方法一样只考虑拓扑相似性 $s_{\mathcal{T}}\left(v_{i}, v_{j}\right)$ 不能收敛到全局最优解。给定一个节点 $v$ 和它的邻居 $v_i$ 和 $v_j$ ，属性相似性 $s_{\mathcal{P}}\left(v, v_{i}\right)$ 可能非常不同于 $s_{\mathcal{P}}\left(v, v_{j}\right)$ 。因此，PGE框架同时使用拓扑相似性和属性相似性去学习节点的embedding。

3.3 PGE三步骤

PGE主要由三个步骤组成：

步骤1：基于节点属性的聚类。把 $\mathcal{G}$ 中的节点根据节点属性使用标准的聚类算法，例如K-Means、DBSCAN生成 $k$ 个cluster： $C=\left\{C_{1}, C_{2}, \ldots, C_{k}\right\}$ 。这一步只考虑属性信息，不考虑拓扑信息。
步骤2：基于邻居的采样。为了通过 $l(\cdot,\cdot)$ 结合属性信息和图的拓扑信息的影响，基于步骤1执行一个有bias的邻居采样：
（1）如果邻居 $v^{\prime} \in \mathcal{N}_{v}$ 和 $v$ 属于同一个cluster，那么分配一个bias $b_s$ 给 $v^{\prime}$ ，表示它们是相似的。若不属于同一个cluster，分配一个bias $b_d$ 给 $v^{\prime}$ ，表示它们是不相似的。
（2）归一化 $\mathcal{N}_{v}$ 的偏差bias，然后根据归一化的bias采样 $\mathcal{N}_{v}$ 得到一个固定size的邻居 $\mathcal{N}_{v}^s$ 。
步骤3：邻居聚合。基于步骤2中采样的 $\mathcal{N}_{v}^s$ 通过乘以在网络中已经训练好的权重矩阵得到节点 $v$ 的embedding $\mathbf{z}_{v}$ 。

步骤1：基于节点属性的聚类

步骤1的目的是根据节点 $v$ 的节点属性信息将邻居 $\mathcal{N}_{v}$ 分成和节点 $v$ 相似和不相似两个类。

由于属性的高维和稀疏性(例如，属性值通常是文本,但也可以是数字和其他类型)，在保持一个统一的全局标准对所有节点的邻居进行分类的同时,将节点的邻居分成相似组和不相似组是不容易的。例如，对于所有 $\in \mathcal{V}$ ，可以尝试计算 $v$ 与每个邻居之间的属性相似度，然后设置阈值，将邻居划分为相似组和不相似组。然而，不同的节点可能需要不同的阈值，并且它们的相似度范围可能非常不同。此外，每个节点的邻居的分类方法可能是不同的，PGE框架实际上使用了2-hop邻居，而前面的例子只考虑了1-hop邻居。因此，需要一个统一的全局分类标准。为此，根据节点的属性对节点进行cluster，可以使得对节点邻居进行分类满足这个统一的全局分类标准。例如，根据节点 $v$ 的1-hop邻居和2-hop邻居是否位于与 $v$ 相同的cluster中，对它们进行相同方式的分类。

步骤2：基于邻居的采样

许多真实世界中的图的节点有很大的度，即邻居节点很多。因此没有必须考虑所有的节点进行信息聚合，否则内存和效率都面临很大的挑战。因此，文中使用bias $b_s$ 和 $b_d$ 采样一个固定size的邻居 $\mathcal{N}_{v}^s$ ，于是就得到了一个采样图 $\mathcal{G}^{s}=\left\{\mathcal{V}, \mathcal{E}^{s}\right\}$ ，其中 $\mathcal{E}^{s}=\left\{\left(v, v^{\prime}\right): v^{\prime} \in \mathcal{N}_{v}^{s}\right\}$ 。由于是基于节点属性聚类后才进行采样的，因此采样图 $\mathcal{G}^{s}=\left\{\mathcal{V}, \mathcal{E}^{s}\right\}$ 最终包含了节点的属性信息和拓扑结构信息。所有，步骤2本质上是一个融合了属性相似性 $s_{\mathcal{P}}\left(v, v_{i}\right)$ 和拓扑相似性 $s_{\mathcal{P}}\left(v, v_{j}\right)$ 的映射 $l(\cdot,\cdot)$ 。

偏差 $b_s$ 和 $b_d$ 分别是指从不同的和相似的cluster中选择邻居的非标准化的可能性值。 $b_s$ 的值被设置为1，而 $b_d$ 可以根据在 $\mathcal{G}^{s}$ 中选择不同邻居的概率（较大的bd意味着较高的概率）而改变。在GraphSAGE中，size=25是一个很好的平衡点，因为较大的size将显著增加模型的计算时间。使用PGE中区分邻居时，使用采样邻居的方式比使用全部邻居可以获得质量更好的embedding。

步骤3：邻居聚合

最后一个步骤是学习函数 $\text{ENC}(\cdot)$ 进行邻居聚合从而生成节点的embeddings。对于每一个节点，使用2-hop邻居生成 $\mathbf{z}_{v}$ ：

$\begin{array}{c}{\mathbf{z}_{v}=\sigma\left(W^{1} \cdot \mathrm{A}\left(\mathbf{z}_{v}^{1}, \sum_{v^{\prime} \in N_{v}^{s}} \mathbf{z}_{v^{\prime}}^{1} /\left|N_{v}^{s}\right|\right)\right)} \\ {\mathbf{z}_{v^{\prime}}^{1}=\sigma\left(W^{2} \cdot \mathrm{A}\left(p_{v^{\prime}}, \sum_{v^{\prime \prime} \in \mathcal{N}_{v^{\prime}}^{s}} p_{v^{\prime \prime}} /\left|N_{v^{\prime}}^{s}\right|\right)\right)}\end{array}$

$p_v$ 是节点 $v$ 的元素属性向量
$A(\cdot)$ 是concatenate连接操作
使用两个权重矩阵 $W^{1}$ 和 $W^{2}$ 聚合节点的1-hop和2-hop邻居的节点信息

利用矩阵 $W^{i}$ 可以对不同属性赋予不同的权重，因为直接聚合(如取均值)节点属性向量不能捕获属性之间的差异，不同属性对embedding有不同程度的贡献。权重矩阵是数据驱动的，应该针对不同的数据集和应用分别进行训练，因为不同图数据中的节点具有不同类型的属性。权重矩阵可以使用Adam SGD优化器进行预训练，并为特定的应用定义损失函数，例如，对于节点分类，使用二进制交叉熵损失(多标记);对于链路预测，使用负采样的交叉熵损失。

3.4 边的方向和属性的支持

接下来，对采样的图 $\mathcal{G}^{s}$ 考虑边的方向和边的属性，使用和节点属性处理相同的策略。如果边是有向边，则分别考虑in-edges和out-edges。将边分成 $k^e$ 个cluster， $C^{e}=\left\{C_{1}^{e}, C_{2}^{e}, \ldots, C_{k^{e}}^{e}\right\}$ 。然后训练 $2\times k^e$ 个矩阵， $\left\{W_{1}^{1}, W_{2}^{1}, \ldots, W_{k^{e}}^{1}\right\}$ 和 $\left\{W_{1}^{2}, W_{2}^{2}, \ldots, W_{k^{e}}^{2}\right\}$ 在2-hop邻居中为 $k^e$ 种不同类型的边聚合节点属性。最后，根据下式计算 $\mathbf{z}_{v}$ ：

$\tag{1} \mathbf{z}_{v}=\sigma \left( \mathrm{A} \left(W_{0}^{1} \cdot \mathbf{z}_{v}^{1}, \mathrm{A}_{C_{i}^{e}\in C^{e}} (W_{i}^{1} \cdot \mathbb{E}_{v^{\prime} \in N_{v}^{\mathrm{s}} \& (v, v^{\prime}) \in C_{i}^{e}[\mathbf{z}_{v^{\prime}}^{1}]})\right)\right)$

$\tag{2} \mathbf{z}_{v^{\prime}}^{1}=\sigma \left( \mathrm{A} \left( W_{0}^{2} \cdot p_{v^{\prime}}, \mathrm{A}_{C_{i}^{e} \in C^{e}}(W_{i}^{2} \cdot \mathbb{E}_{v^{\prime \prime} \in N_{v^{\prime}}^{s} \&(v^{\prime}, v^{\prime \prime}) \in C_{i}^{e}[p_{v^{\prime \prime}}]})\right)\right)$

$C^{e}|$ 不应该太大，以避免高维向量操作。 $C^{e}|$ 如果太大，一些clusters中的元素可能很少，导致训练的权重矩阵欠拟合。因此，设置 $C^{e}|$ 为一个固定的比较小的数。

3.5 算法

PGE - A Representation Learning Framework for Property Graphs 属性图表示学习框架 KDD 2019_第1张图片

算法1描述了为所有节点生成embedding向量 $\mathbf{z}_{v}$ 的过程，遵循三步骤

4 PGE的分析

4.1 bias策略的效率

PGE和GraphSAGE的区别：

在PGE的邻居采样是有偏差的，即邻居的采样是根据基于偏差 $b_s$ 和 $b_d$ 定义的概率值选择的
GraphSAGE的邻居采样是无偏的，也就是所有邻居被采样的概率都相等

接下来讨论这种有偏和无偏采样策略的不同。

文中认为邻居采样是随机游走的一个特例。例如，如果将步行长度设置为1，并执行10次步行，则可以将该策略视为固定大小为10的1-hop邻居采样。考虑到每一步的随机游走过程对所有节点都是一个独立同分布(i.i.d.)的过程，将有偏策略定义为一个 $|\mathcal{V}| \times|\mathcal{V}|$ 的矩阵 $\mathbf{P}$ ，其中 $P_{i,j}$ 是节点 $v_i$ 在随机游走中选择其邻居 $v_j$ 的概率。如果两个节点 $v_i$ 和 $v_j$ 不相连，则 $P_{i,j}=0$ 。类似地，定义无偏策略 $\mathbf{Q}$ ，其中任意节点的所有邻居都有相同的选择概率。假设存在一个最优策略 $\mathbf{B}$ ，它为一个给定的应用提供了最佳的embedding结果。

一些工作（HARP，2018；node2vec；Walklets）已经表明，在随机游走过程中对相似和不相似的邻居添加preference可以提高embedding结果，基于此得到如下结论:
对于一个有偏策略 $\mathbf{P}$ ，如果 $\|\mathbf{B}-\mathbf{P}\|_{1} < \|\mathbf{B}-\mathbf{Q}\|_{1}$ 且 $\mathbf{B} \neq \mathbf{Q}$ ，那么有偏策略 $\mathbf{P}$ 对于提高embedding结果有积极的影响。

因此，为了证明PGE的有偏策略的有效性，需要使策略 $\mathbf{P}$ 满足 $\|\mathbf{B}-\mathbf{P}\|_{1} \leq\|\mathbf{B}-\mathbf{Q}\|_{1}$ 。文中证明了 $b_s$ 和 $b_d$ 可以用来调整策略 $\mathbf{P}$ 更接近 $\mathbf{B}$ (而不是 $\mathbf{Q}$ )。

假设节点基于节点属性信息 $\mathcal{P}_{\mathcal{V}}$ 被分类成为了 $k$ 个cluster： $C=\left\{C_{1}, C_{2}, \ldots, C_{k}\right\}$ 。
对于无偏策略，两个节点在每个随机游走step中相似度的期望为：

$\mathbb{E}\left[s_{\mathcal{G}\left(v, v^{\prime}\right)}\right]=\frac{\sum_{v \in \mathcal{V}} \sum_{v_{i} \in \mathcal{N}_{v}} s_{\mathcal{G}}\left(v, v_{i}\right)}{|\mathcal{E}|}$
对于文中的有偏策略，两个节点在每个随机游走step中相似度的期望为：

$\tag{3} \mathbb{E}\left[s_{\mathcal{G}\left(v, v^{\prime}\right)}\right]=\frac{\sum_{v \in \mathcal{V}} \sum_{v_{i} \in \mathcal{N}_{v} \cap C_{v}} n_{s}(v) \cdot s_{\mathcal{G}}\left(v, v_{i}\right)}{\frac{|\mathcal{E}|}{k}} +\frac{\sum_{v \in \mathcal{V}} \sum_{v_{j} \in \mathcal{N}_{v} \cap\left(C_{v}\right)^{c}} n_{d}(v) \cdot s_{\mathcal{G}}\left(v, v_{j}\right)}{\frac{|\mathcal{E}| \cdot(k-1)}{k}}$

$n_{s}(v)$ 和 $n_{d}(v)$ 分别表示节点 $v$ 归一化了的bias $b_s$ 和 $b_d$
$C_v$ 表示包含节点 $v$ 的cluster
$\ { C v } \left(C_{v}\right)^{c}=C \backslash \{C_v\}$

由于在一个随机游走step中，只有连接的节点才被选择，因此归一化了的bias $n_{s}(v)$ 和 $n_{d}(v)$ 可以使用下式推导得到：

$n_{s}(v)=\frac{b_{s}}{b_{d} \cdot \sum_{v^{\prime} \in \mathcal{N}_{v}} \mathbb{I}\left\{v^{\prime} \in C_{v}\right\}+b_{s} \cdot \sum_{v^{\prime} \in \mathcal{N}_{v}} \mathbb{I}\left\{v^{\prime} \in\left(C_{v}\right)^{c}\right\}}$

$n_{d}(v)=n_{s}(v) \times \frac{b_{d}}{b_{s}}$
对于公式（3），如果令 $n_{d}(v)=n_{s}(v)$ ，那么就退化为无偏随机游走策略。
如果令 $n_{d}(v) \neq n_{s}(v)$ ，可以通过赋值 $b_d > b_s$ 调整偏策略使用公式（1）来选择更多不相似的邻居，通过赋值 $b_s > b_d$ 来调整有偏策略使用（2）来选择更多相似的邻居。

假设聚类结果是不重要的，可以至少得到一个cluster，那么可以推导得到：

$\frac{\sum_{C_{i} \in C} \sum_{v, v^{\prime} \in C_{i}} s_{\mathcal{P}}\left(v, v^{\prime}\right)}{\frac{1}{2} \sum_{C_{i} \in C}\left|C_{i}\right| \cdot\left(\left|C_{i}\right|-1\right)}>\frac{\sum_{v, v^{\prime} \in \mathcal{V}} s_{\mathcal{P}}\left(v, v^{\prime}\right)}{\frac{1}{2}|V| \cdot(|V|-1)}$
由于 $l(\cdot,\cdot)$ 是一个关于 $s_{\mathcal{P}}\left(v, v^{\prime}\right)$ 的非负映射。于是有

$\tag{4} \frac{\sum_{C_{i} \in C} \sum_{v, v^{\prime} \in C_{i}} s_{\mathcal{G}}\left(v, v^{\prime}\right)}{\frac{1}{2} \sum_{C_{i} \in C}\left|C_{i}\right| \cdot\left(\left|C_{i}\right|-1\right)}>\frac{\sum_{v, v^{\prime} \in \mathcal{V}} s_{\mathcal{G}}\left(v, v^{\prime}\right)}{\frac{1}{2}|V| \cdot(|V|-1)}$
从公式（4）可以看出，如果节点 $v$ 和节点 $v^{\prime}$ 属于相同的cluster，那么相似度 $s_{\mathcal{G}}\left(v, v^{\prime}\right)$ 更高。因此，根据公式（3）和公式（4），可以得出结论：参数 $b_s$ 和 $b_d$ 能够用于选择相似和不相似的邻居。

接下来，考虑1-hop邻居的最优化的策略 $\mathbf{B}$ ，其中 $\mathbf{B}_{i, j}=\mathbb{I}\left\{v_{j} \in \mathcal{N}_{v_{i}}\right\} \cdot b_{v_{i}, v_{j}}^{*}$ , $b_{v_{i}, v_{j}}^{*}$ 是 $\mathbf{B}_{i,j}$ 归一化的最优的bias值。相似地，无偏策略 $\mathbf{Q}_{i,j}=\mathbb{I}\left\{v_{j} \in \mathcal{N}_{v_{i}}\right\} \cdot \frac{1}{\left|N_{v_{i}}\right|}$ 。因此，有

$\|\mathbf{B}-\mathbf{Q}\|_{1}=\sum_{v_{i} \in \mathcal{V}} \sum_{v_{j} \in \mathcal{V}}\left|b_{v_{i}, v_{j}}^{*}-\frac{1}{\left|\mathcal{N}_{v_{i}}\right|}\right|$
对于文中的有偏策略

$\mathbf{P}_{i, j}=\mathbb{I}\left\{v_{j} \in \mathcal{N}_{v_{i}} \cap C_{v_{i}}\right\} \cdot n_{s}(v)+ \mathbb{I}\left\{v_{j} \in \mathcal{N}_{v_{i}} \cap\left(C_{v_{i}}\right)^{c}\right\} \cdot n_{d}(v)$

$b_s$ 和 $b_d$ 满足

$\sum_{v_{i} \in \mathcal{V}} \sum_{v_{j} \in \mathcal{V}}\left|b_{v_{i}, v_{j}}^{*}-\frac{1}{\left|N_{v_{i}}\right|}\right| \geq \sum_{v_{i} \in \mathcal{V}} \sum_{v_{j} \in \mathcal{V}} \left| b_{v_{i}, v_{j}}^{*}-\mathbb{I}\left\{v_{j} \in\right. \left.\mathcal{N}_{v_{i}} \cap C_{v_{i}}\right\} \cdot n_{s}(v)-\mathbb{I}\left\{v_{j} \in \mathcal{N}_{v_{i}} \cap\left(C_{v_{i}}\right)^{c}\right\} \cdot n_{d}(v) \right|$

如果 $b_s \neq b_d$ ，则可以严格推导出不等式

因此，如果为 $b_s$ 和 $b_d$ 赋合适的值（下一节讨论），那么 $\|\mathbf{B}-\mathbf{P}\|_{1} < \|\mathbf{B}-\mathbf{Q}\|_{1}$ 。上述分析可以推广到多跳邻居的情况。

4.2 bias值的影响

接下来讨论如何为邻居采样的偏差 $b_s$ 和 $b_d$ 设置适当的值，并分析cluster数对PGE性能的影响。

对于PGE的步骤3中的邻居聚集，一个精确的embedding应该通过覆盖包含节点 $v$ 的整个连通分量来获得，其中k跳（k是最大可达hop）中的所有邻居都应该聚合。然而，对于一个大型图，邻居聚集的执行时间在2-hop以上迅速增加（特别是对于幂律图更具有挑战性）。因此，只考虑2-hop邻居。为了减少精度的下降，可以通过在2-hop中选择不同的邻居来扩大邻居对embedding $\mathbf{z}_{v}$ 的贡献。

对于一个节点 $v$ 和它的两个邻居 $v_i$ 和 $v_j$ ，假设 $\mathcal{N}_{v_{i}}=N_{v_{j}}$ 但是 $\left|p_{v}-p_{v_{i}}\right|<\left|p_{v}-p_{v_{j}}\right|$ 。因此，有 $s_{\mathcal{T}}\left(v, v_{i}\right)=s_{\mathcal{T}}\left(v, v_{j}\right)$ ， $s_{\mathcal{P}}\left(v, v_{i}\right)>s_{\mathcal{P}}\left(v, v_{j}\right)$ 。由于 $l(\cdot,\cdot)$ 是一个非负映射，因此有 $s_{\mathcal{G}}\left(v, v_{i}\right)>s_{\mathcal{G}}\left(v, v_{j}\right)$ 。基于 $\mathbf{z}_{v}$ 和 $\mathbf{z}_{v^{\prime}}^{1}$ 的定义，通过扩展 $\mathbf{z}_{v}$ 和 $\mathbf{z}_{v^{\prime}}^{1}$ ，可以得到

$\tag{5} \mathbf{z}_{v}=\sigma\left(W^{1} \cdot \mathrm{A}\left(\mathbf{z}_{v}^{1}, \sum_{v^{\prime} \in \mathcal{N}_{v}^{s}} \sigma\left(W^{2} \cdot \mathrm{A}\left(p_{v^{\prime}}, \sum_{v^{\prime \prime} \in \mathcal{N}_{v^{\prime}}^{s}} p_{v^{\prime \prime}} /\left|\boldsymbol{N}_{v^{\prime}}^{s}\right|\right)\right) /\left|\boldsymbol{N}_{v}^{s}\right|\right)\right)$

公式（5）聚合了节点的属性向量 $p_v$ (在 $\mathbf{z}_{v^{\prime}}^{1}$ 中表示)和节点的2-hop邻居的属性向量，最后得到embedding $\mathbf{z}_{v}$ 。这个过程可以理解为一个由 $s_{\mathcal{P}}\left(v, v^{\prime}\right)$ 到 $s_{\mathcal{G}}\left(v, v^{\prime}\right)$ 的转换。因此，一个越小的 $s_{\mathcal{P}}\left(v, v^{\prime}\right)$ 可能对 $\mathbf{z}_{v}$ 贡献一个越大的改变。

对于公式（5），如果 $\left|p_{v}-p_{v_{i}}\right|<\left|p_{v}-p_{v_{j}}\right|$ ，则可以得到 $\left\|\mathbf{z}_{v}^{1}-\mathbf{z}_{v_{i}}^{1}\right\|_{1}<\left\|\mathbf{z}_{v}^{1}-\mathbf{z}_{v_{j}}^{1}\right\|_{1}$ 。因此，对于embeddings，有 $\left\|\mathbf{z}_{v}-\mathbf{z}_{v_{i}}\right\|_{1}<\left\|\mathbf{z}_{v}-\mathbf{z}_{v_{j}}\right\|_{1}$ 。由于 $v$ 和 $v_i$ 以及 $v$ 和 $v_j$ 相互影响，可以得出结论：对于固定跳的邻居聚集，不相似度越大的邻居对节点embedding的负影响更大。也就是说，对于固定跳邻居的聚集，需要设置 $b_d > b_s$ 来获得更好的embedding结果，最后的实验也验证了这一点。

除了 $b_s$ 和 $b_d$ 的值外，PGE第1步得到的cluster的数量也会影响节点embedding的质量。考虑一个平均度为 $|\mathcal{E}| /|\mathcal{V}|$ 的随机图 $\mathcal{G}=\{\mathcal{V}, \mathcal{E}, \mathcal{P}\}$ 。假设在步骤1中从 $\mathcal{G}$ 中获得 $k$ 个cluster，那么与节点 $v$ 处于同一个cluster邻居的平均数量为 $\left|\mathcal{N}_{v}\right| / k=(|\mathcal{E}| /|\mathcal{V}|) / k$ 。如果 $k$ 很大,大多数邻居将被聚类于和节点 $v$ 不同的cluster。相反，一个小的 $k$ 意味着邻居更有可能和节点 $v$ 在同一个cluster。因此，对于有偏策略的节点embedding， $k$ 的值太大太小都不合适，因为这种情况下的所有邻居要么是相似的，要么是不相似的，这本质上使得邻居不可区分（in-differentiable）。因此，为了保证有偏策略的有效性， $k$ 值不应该落在两个极端中。根据实验结果，发现 $k$ 值接近平均度数是一个不错的选择。

4.3 合并边的属性

除了bias的值、cluster的数量，边的属性对embedding结果也有巨大的提升。现实世界中的图，例如设计网络图，边都有类似“positive”和“negative”的属性。考虑一个社交网络图 $\mathcal{G}=\{\mathcal{V}, \mathcal{E}, \mathcal{P}\}$ ，它有两种类型的边， $\mathcal{E}=\mathcal{E}^{+} \cup \mathcal{E}^{-}$ 。假设有一个节点 $v$ 有两个邻居 $v_i$ 和 $v_j$ ，这些邻居有相同的属性 $p_{v_i}=p_{v_j}$ ，并且拓扑信息相同 $\mathcal{N}_{v_{i}}=\mathcal{N}_{v_{j}}$ ，但是这两个节点和 $v$ 所连的边的类型不同，也就是 $\left(v, v_{i}\right) \in \mathcal{E}^{+} ,\left(v, v_{j}\right) \in \mathcal{E}^{-}$ 。如果只用公式（5），不区分边的信息，那么就不能区分节点 $v_i$ 和 $v_j$ 的embedding。为了能考虑到边的信息，为每一个属性引入一个额外的矩阵。例如，前面的例子中，为属性“positive”和“negative”引入两个额外的矩阵，即此时 $k^e=2$ 。对于有向图，进一步用不同的权重矩阵分别考虑in/out-neighbors。

5 实验评估

two benchmark applications：

node classification
link prediction

Baseline Methods

DeepWalk
node2vec
GCN
GraphSAGE

Datasets

PubMed
PubMed是一组文章(即与PubMed数据库中的糖尿病相关，这里的边表示引用关系。节点属性是TF/IDF-weighted单词频率，节点标签是文章中提到的糖尿病类型。
PPI
PPI由24个蛋白-蛋白相互作用图组成，每个图代表一个人体组织。这里的节点是蛋白质，边是它们的相互作用。节点属性包括位置基因集、motif基因集和免疫标记。节点标签为基因本体集。文中使用的是经过处理的版本（GraphSAGE）。
BlogCatalog
BlogCatalog是一个用户选择类别进行注册的社交网络。节点是博客，边是它们之间的关系(例如，朋友)。节点属性包含用户名、id、博客和博客类别。节点标签是user tags。
Reddit
Reddit是一个在线论坛。这张图是由Reddit上的帖子构成的。这里的节点是帖子，如果相同的用户评论它们，它们就会被连接。属性信息包括文章标题、评论和分数。节点标签代表社区。使用在（GraphSAGE）中处理的稀疏版本。

PGE - A Representation Learning Framework for Property Graphs 属性图表示学习框架 KDD 2019_第2张图片

PPI和BlogCatalog是多标签图
PubMed和Reddit是单标签图
平均度数可以根据 $|\mathcal{E}| /|\mathcal{V}|$ 计算，可见PubMed度数最低
对于无向图，每条边存储为两条无向边
节点的标签被视为classes

5.1 节点分类

PPI数据集按GraphSAGE中的，80%（即22张图）用于训练，剩下2张子图用于验证和测试
其余数据集按照70% for training, 10% for validation and 20% for test划分
所有数据集，bias默认值为 $b_{s}=1$ ， $b_{d}=1000$
最终embedding维度为 $\mathbf{z}_{v} \in \mathbb{R}^{d_{l}}$ ，其中 $d_{l}$ 是表1中列出的classes
向量 $\mathbf{z}_{v}$ 中值最大的索引就是单类数据集的分类结果。对于多个类，利用舍入函数对 $\mathbf{z}_{v}$ 进行处理，得到分类结果
使用F1-score这一常用的多标签分类指标来评价分类的性能

PGE - A Representation Learning Framework for Property Graphs 属性图表示学习框架 KDD 2019_第3张图片

表2左表表示F1-Micro值，右表表示F1-Macro值
对于所有数据集，PGE在F1-Micro和F1-Macro方面的得分都高于其他所有方法，特别是对于PPI和BlogCatalog，它们的性能都有显著的提高
通常，使用节点属性信息的方法(即， PGE, GraphSAGE和GCN)比使用跳跃图模型获取结构关系的方法(即， DeepWalk和node2vec)有更高的得分。这是因为前一种方法比后一种只使用纯图拓扑的方法使用更丰富的属性信息。
与GraphSAGE和GCN相比，PGE通过引入偏差bias对邻居进行区分以进行邻居聚合，从而进一步提高了分类的准确性，这验证了前面对bias策略重要性的分析。
为了对PubMed中的文章进行分类，由于图中节点数量不多，使用了步骤1中的DBSCAN聚类方法，得到 $k = 4$ 个cluster。由于图中的平均度很低，只有2.25。因此，区分邻居并没有带来显著的积极影响。因此，对于这个数据集，PGE的F1-scores并不明显高于GraphSAGE。
为了对PPI蛋白质的功能进行分类，由于这个图不是很大，也使用了DBSCAN进行聚类，得到了 $k = 39$ 个cluster。对于这个数据集，PGE相对于其他方法的改进很大，这可以解释为，在蛋白-蛋白相互作用图中，邻居扮演着非常不同的角色，因此区分它们可能会为节点分类带来显著的好处。事实上，虽然GraphSAGE也使用节点属性信息，但由于GraphSAGE不区分邻居，所以它与DeepWalk和node2vec(仅使用结构信息)相比并没有显著的改进。GraphSAGE的小改进与PGE的大改进证明了文中bias邻居采样策略的有效性。对于GCN来说，由于它不考虑多标记分类，因此将它与其他方法进行比较是不公平的，而且对于这个数据集(也适用于BlogCatalog)没有意义。
BlogCatalog具有较高的特征维度。原始的BlogCatalog数据集将multi-hot向量作为特征向量(具有5413维)。文中使用Truncate-SVD来获得低维特征向量(1000维)。由于节点的数量并不多，步骤1使用了DBSCAN，它为这个数据集生成了 $k = 18$ 个cluster。与DeepWalk和node2vec相比，PGE在分类精度上的提高是非常显著的，说明了利用属性信息进行图embedding的重要性。对于这个数据集来说，PGE相对于GraphSAGE的改进也很明显，这是由于区分了邻居的不同并且考虑了边的方向。
Reddit图比其他图大得多，因此使用k-means ( $k = 40$ )来对Reddit进行聚类，而不是使用DBSCAN, 因为DBSCAN要慢得多。文中没有对比DeepWalk和node2vec的结果，因为它们的训练过程超过10小时才能完成，而GraphSAGE和PGE在几分钟内完成。也没有和GCN对比，因为GCN需要加载完整的图矩阵到每个GPU，这使得耗尽了GPU的内存(每个12GB内存)。PGE的F1-scores比GraphSAGE高出约1%，文中认为这是一个显著的进步，因为GraphSAGE的准确率已经很高了(94.93%和92.30%)。

5.2 链接预测

给定两个节点embedding $\mathbf{z}_{v}$ 和 $\mathbf{z}_{v^{\prime}}$ ，链接预测的任务是预测这两个节点之间是否存在一条潜在的边。
使用MRR (mean reciprocal rank,平均倒数排名)评估链接预测的性能
对于一个节点 $v$ 和 $∣ Q ∣$ 个待预测节点集，可以用 $\frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{r a n k_{i}}$ 在 $Q$ 的prediction queries/lists集计算MRR得分
由于在DeepWalk、node2vec和GCN中没有找到链接预测的评估方法，文中将PGE与GraphSAGE进行了比较。对于稀疏引用图PubMed，epoch设置为10，以避免数据不足的问题。对于其他数据集，epoch被设置为1。
其他bias，聚类方法等和节点分类设置一样。

PGE - A Representation Learning Framework for Property Graphs 属性图表示学习框架 KDD 2019_第4张图片

表3报告了PGE和GraphSAGE在四个数据集的MRR评分
PGE (no edge info)表示只考虑bias，未使用边的信息。结果表明，在不考虑边的信息的情况下，除PPI外，PGE的MRR评分低于GraphSAGE。然而，当加入边的信息时，PGE在所有情况下都明显优于GraphSAGE,PGE的MRR评分比GraphSAGE至少高出37%。根据MRR评分定义，PGE的正确预测比GraphSAGE提前1-3 positions。
与PGE对节点分类的改进相比，其对链路预测的改进更具说服力。区分相邻节点对预测两个节点之间的链接可能没有直接影响;相反，与GraphSAGE和PGE的变体PGE (no edge info)相比，PGE对边的信息的使用起着显著的作用。

5.3 参数敏感性测试

Epoch数量的影响

为了测试训练epoch数量的影响，将PGE与GraphSAGE进行比较，将epoch数量由10改为100。
报告了图1中四个数据集的F1-Micro和F1-Macro节点分类得分。
结果表明，PGE和GraphSAGE在F1-Micro和F1-Marco有相似的趋势，但PGE的表现总是优于GraphSAGE。
训练时间随epoch数量线性增加，但是100个epoch的训练时间对于小型数据集PubMed也只有几十秒，对于最大的数据集Reddit不到5分钟。

PGE - A Representation Learning Framework for Property Graphs 属性图表示学习框架 KDD 2019_第5张图片

bias和cluster数量的影响

还测试了不同bias值和cluster数的影响
在PPI数据集上运行1000次进行节点分类任务，其中，使用不同的 $k$ 和不同的 $b_d$ 值（固定 $b_s=1$ ）
步骤1使用可以灵活改变 $k$ 值的K-Means聚类算法
每一次PGE运行，选了的epochs数设置为10
所有其他参数都使用默认值

PGE - A Representation Learning Framework for Property Graphs 属性图表示学习框架 KDD 2019_第6张图片

图2是bias和cluster数量的影响的实验结果
Y轴是 $b_d$ 的对数值，Z轴是F1-Micro score，F1-Macro score相同所以省略了

bias数量的影响

结果表明，取较大bias $b_d$ (即， $Y > 0$ )可以对F1-score带来正的影响，并且随着 $b_d$ 的增大，性能提高。当 $b_d$ 小于1时，即 $b_d < b_s$ 时，其性能并没有优于均匀近邻抽样(即 $b_d = b_s$ 或 $Y = 0$ )，这表明选择更多的不相似的邻居( $b_d$ 越大，将不相似的邻居包含到 $\mathcal{G}_s$ 中的概率越大)有助于提高节点embedding的质量，这与前面的分析是一致的。

cluster数量的影响

对于cluster $k$ 的数量，由于PPI图的平均度为14.38，当cluster数量大于50时，F1-score波动到 $k$ (即这种现象是由于聚类算法的局限性造成的，因为k-means对噪声比较敏感，较大的 $k$ 更容易受到噪声的影响。注意,当cluster数量并不大(不到50),一个小的bias $b_d$ (小于1)也可能提高F1-score,这也可能被解释成图中有同质性和结构等效特性, $b_d < 1$ 时表明节点倾向于选择相似的邻居聚合。
一般情况下，较大的 $b_d$ 和较小的cluster数 $k$ (接近平均度)更有可能提高邻居聚合方法的性能。

你可能感兴趣的:(GNN&GCN论文笔记)

论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
A survey on instance segmentation: state of the art——论文笔记栀子清茶 1024程序员节论文阅读计算机视觉人工智能笔记学习
摘要这篇论文综述了实例分割的研究进展，定义其为同时解决对象检测和语义分割的问题。论文讨论了实例分割的背景、面临的挑战、技术演变、常用数据集，并总结了相关领域的最新成果和未来研究方向。实例分割的发展从粗略的对象分类逐步演变为更精细的像素级别推理，广泛应用于自动驾驶、机器人等领域。论文为研究人员提供了对实例分割领域的全面了解和有价值的参考。一、简介第一部分“简介”主要介绍了实例分割的背景、定义和挑战。
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning Zhouqi_Hua 大模型论文阅读人工智能 chatgpt 论文阅读机器学习深度学习语言模型
Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo
[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比心心喵论文笔记论文阅读深度学习人工智能
https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告：https://ai.meta.com/blog/meta-llama-3-1/
LLM时代的小模型思考：《What is the Role of Small Models in the LLM Era: A Survey》论文笔记 FrancisQiu learning nlp paper reading 论文阅读
论文：WhatistheRoleofSmallModelsintheLLMEra:ASurvey作者：LihuChenetal.单位：ImperialCollegeLondonAbstract问题：扩大模型大小会导致计算成本和能耗呈指数级增长，这使得这些模型对于学术研究人员和资源有限的企业来说不切实际小型模型（SMs）经常用于实际环境中，引发了关于小模型在LLM时代的作用的重要问题，且关注有限方法
【论文笔记】3DGS压缩相关工作2篇 AndrewHZ 深度学习新浪潮论文阅读 3DGS 计算机图形学算法三维高斯飞溅压缩方法
1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期
[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案心心喵论文笔记剪枝算法机器学习
https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记 Im Bug 3d 论文阅读
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对
论文笔记（七十二）Reward Centering（一）墨绿色的摆渡人文章论文阅读
RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202
论文笔记：Enhancing Sentence Embeddings in Generative Language Models UQI-LIUWJ 论文阅读语言模型人工智能
2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理深度学习笔记
Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加
多模态论文笔记——DiT（Diffusion Transformer）好评笔记多模态论文笔记深度学习 transformer DiT 人工智能机器学习 aigc stable diffusion
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化心心喵论文笔记论文阅读语言模型人工智能
成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：[email protected]）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》 I_dyllic 深度学习论文阅读深度学习人工智能
基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过
TC-LLaVA论文笔记 0yumiwawa0 计算机视觉论文阅读
RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q
CNN-day5-经典神经网络LeNets5 谢眠深度学习深度学习计算机视觉人工智能
经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN博客1网络模型结构整体结构解读：输入图像：32×32×1三个卷积层：C1：输入图片32×32，6个5×5卷积核，输出特征图大小28×28（3
[论文笔记] llama3.2 蒸馏心心喵论文笔记论文阅读
参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
[论文笔记] Deepseek技术报告心心喵论文笔记论文阅读人工智能
1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。介绍了两代模型：DeepSeek-R1-Zero（纯RL，无SFT冷启动数据）和DeepSeek-R1（在RL前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。核心思路直接在基础模型上应用大规模强化学习，利用
【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记 phy12321 相机重定位
GRNet:LearningMulti-viewCameraRelocalizationwithGraphNeuralNetworks驭势科技,北京大学机器感知重点实验室,北京长城航空测控技术研究所本文提出了一种使用多视角图像进行相机重定位的图神经网络。该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
[论文总结] 深度学习在农业领域应用论文笔记14 落痕的寒假论文总结深度学习论文阅读人工智能
当下，深度学习在农业领域的研究热度持续攀升，相关论文发表量呈现出迅猛增长的态势。但繁荣背后，质量却不尽人意。相当一部分论文内容空洞无物，缺乏能够落地转化的实际价值，“凑数”的痕迹十分明显。在农业信息化领域的顶刊《ComputersandElectronicsinAgriculture》中也大面积存在。众多论文在研究方法上存在严重缺陷，过于简单粗放。只是机械地把深度学习方法生硬地套用到特定农业问题中
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑心心喵论文笔记深度学习人工智能
一、bug1、pre-tokenize的时候,会OOM解决：在yaml文件中添加streaming参数#tokenizestreaming:Truemax_steps:10000https://github.com/hiyouga/LLaMA-Factory/blob/3a023bca2a502810a436cfba7708df164754ea62/src/llamafactory/hparams
[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）心心喵论文笔记论文阅读
pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
【论文笔记】：DuBox: No-Prior Box Objection Detection via Residual Dual Scale Detectors Activewaste #Anchor-free #特征层面 #小目标检测 DuBox anchor-free
&Title:DuBox:No-PriorBoxObjectionDetectionviaResidualDualScaleDetectorsGithubaddrNone&Summary介绍了一种新的一阶段检测方法Dubox，它可以在没有先验框的情况下检测物体。设计的双尺度残差单元具有多尺度特性，使双尺度检测器不再独立运行。高层检测器学习低层检测器的残差。Dubox增强了启发式引导的能力，进一步使
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi