Eastmount

[论文阅读] (25) 向量表征经典之DeepWalk：从Word2vec到DeepWalk，再到Asm2vec和Log2vec（二）

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座，并分享给大家，希望您喜欢。由于作者的英文水平和学术能力不高，需要不断提升，所以还请大家批评指正，非常欢迎大家给我留言评论，学术路上期待与您前行，加油。

这是向量表征系列文章，从Word2vec和Doc2vec到Deepwalk和Graph2vec，再到Asm2vec和Log2vec。前文介绍了谷歌的Word2vec和Doc2vec，它们开启了NLP的飞跃发展。这篇文章将详细讲解DeepWalk，通过随机游走的方式对网络化数据做一个表示学习，它是图神经网络的开山之作，借鉴了Word2vec的思想，值得大家学习。同时，本文参考了B站同济大学子豪老师的视频，强烈推荐大家去学习DeepWalk原文和子豪老师的视频。下一篇文章逐渐进入安全领域，介绍两个安全领域二进制和日志的向量表征。通过类似的梳理，让读者看看这些大佬是如何创新及应用到新领域的，希望能帮助到大家。这六篇都是非常经典的论文，希望您喜欢。一方面自己英文太差，只能通过最土的办法慢慢提升，另一方面是自己的个人学习笔记，并分享出来希望大家批评和指正。希望这篇文章对您有所帮助，这些大佬是真的值得我们去学习，献上小弟的膝盖~fighting！

文章目录

一.图神经网络发展历程
二.Word2vec：NLP经典工作（谷歌）
三.Doc2vec
四.DeepWalk：网络化数据经典工作（KDD2014）
- (一).论文阅读
- - 1.摘要
  - 2.引言和贡献
  - 3.问题定义
  - 4.网络连接的特征表示
  - 5.本文方法
  - 6.对比实验
  - 7.个人感受
- (二). 原文PPT分享
- - 1.Introduction：Graphs as Features
  - 2.Language Modeling
  - 3.DeepWalk
  - 4.Evaluation：Network Classification
  - 5.Conclusion & Future Work
- (三).代码实战：学习同济子豪兄视频
五.Asm2vec：安全领域经典工作（S&P2019）
六.Log2vec：安全领域经典工作（CCS2019）
七.总结

前文赏析：

[论文阅读] (01) 拿什么来拯救我的拖延症？初学者如何提升编程兴趣及LATEX入门详解
[论文阅读] (02) SP2019-Neural Cleanse: Identifying and Mitigating Backdoor Attacks in DNN
[论文阅读] (03) 清华张超老师 - GreyOne: Discover Vulnerabilities with Data Flow Sensitive Fuzzing
[论文阅读] (04) 人工智能真的安全吗？浙大团队外滩大会分享AI对抗样本技术
[论文阅读] (05) NLP知识总结及NLP论文撰写之道——Pvop老师
[论文阅读] (06) 万字详解什么是生成对抗网络GAN？经典论文及案例普及
[论文阅读] (07) RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
[论文阅读] (08) NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
[论文阅读] (09)S&P2019 HOLMES Real-time APT Detection through Correlation of Suspicious Information Flow
[论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结
[论文阅读] (11)ACE算法和暗通道先验图像去雾算法（Rizzi | 何恺明老师）
[论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例
[论文阅读] (13)英文论文模型设计（Model Design）如何撰写及精句摘抄——以入侵检测系统(IDS)为例
[论文阅读] (14)英文论文实验评估（Evaluation）如何撰写及精句摘抄（上）——以入侵检测系统(IDS)为例
[论文阅读] (15)英文SCI论文审稿意见及应对策略学习笔记总结
[论文阅读] (16)Powershell恶意代码检测论文总结及抽象语法树（AST）提取
[论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测
[论文阅读] (18)英文论文Model Design和Overview如何撰写及精句摘抄——以系统AI安全顶会为例
[论文阅读] (19)英文论文Evaluation（实验数据集、指标和环境）如何描述及精句摘抄——以系统AI安全顶会为例
[论文阅读] (20)USENIXSec21 DeepReflect：通过二进制重构发现恶意功能（恶意代码ROI分析经典）
[论文阅读] (21)S&P21 Survivalism: Systematic Analysis of Windows Malware Living-Off-The-Land (经典离地攻击)
[论文阅读] (22)图神经网络及认知推理总结和普及-清华唐杰老师
[论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读：二进制和源代码对比
[论文阅读] (24)向量表征：从Word2vec和Doc2vec到Deepwalk和Graph2vec，再到Asm2vec和Log2vec（一）
[论文阅读] (25)向量表征经典之DeepWalk：从Word2vec到DeepWalk，再到Asm2vec和Log2vec（二）

一.图神经网络发展历程

在介绍向量表征之前，作者先结合清华大学唐杰老师的分享，带大家看看图神经网络的发展历程，这其中也见证了向量表征的发展历程，包括从Word2vec到Deepwalk发展的缘由。

图神经网络的发展历程如下图所示：

(1) Hinton早期（1986年）
图神经网络最早也不是这样的，从最早期 Hinton 做了相关的思路，并给出了很多的ideas，他说“一个样本可以分类成不同的representation，换句话，一个样本我们不应该去关注它的分类结果是什么，而更应该关注它的representation，并且它有很多不同的representation，每个表达的意思可能不同” ，distributed representation 后接着产生了很多相关的研究。

(2) 扩展（Bengio到Word2Vec）
Andrew Ng 将它扩展到网络结构上（结构化数据），另一个图灵奖获得者Yoshua Bengio将它拓展到了自然语言处理上，即NLP领域如何做distributed representation，起初你可能是对一个样本representation，但对自然语言处理来讲，它是sequence，需要表示sequence，并且单词之间的依赖关系如何表示，因此2003年Bengio提出了 Nerual Probabilistic Language Model，这也是他获得图灵奖的一个重要工作。其思路是：每个单词都有一个或多个表示，我就把sequence两个单词之间的关联关系也考虑进去。

Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research (JMLR), 3:1137–1155, 2003.
原文地址：https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf

但是，当时做出来后由于其计算复杂度比较高，很多人无法fellow。直到谷歌2013年提出 Word2Vec，基本上做出来一个场景化算法，之后就爆发了，包括将其扩展到paragraph、文档（Doc2Vec）。补充一句，Word2Vec是非常经典的工作或应用，包括我们安全领域也有相关扩展，比如二进制、审计日志、恶意代码分析的Asm2Vec、Log2Vec、Token2Vec等等。

Efficient Estimation of Word Representations in Vector Space
原文地址：https://arxiv.org/abs/1301.3781v3

(3) 网络化数据时期（Deepwalk）
此后，有人将其扩展到网络化的数据上，2014年Bryan做了 Deepwalk 工作。其原理非常建立，即：原来大家都在自然语言处理或抽象的机器学习样本空间上做，那能不能针对网络化的数据，将网络化数据转换成一个类似于自然语言处理的sequence，因为网络非常复杂，网络也能表示成一个邻接矩阵，但严格意义上没有上下左右概念，只有我们俩的距离是多少，而且周围的点可多可少。如果这时候在网络上直接做很难，那怎么办呢？

通过 随机游走 从一个节点随机到另一个节点，此时就变成了一个序列Sequence，并且和NLP问题很像，接下来就能处理了。

原文地址：https://dl.acm.org/doi/10.1145/2623330.2623732

随后又有了LINE（2015）、Node2Vec（2016）、NetMF（2018）、NetSMF（2019）等工作，它们扩展到社交网络领域。唐老师们的工作也给了证明，这些网络本质上是一个Model。

(4) 图卷积神经网络（GCN）时期
2005年，Marco Gori 实现了 Graph Neural Networks。2014年，Yann Lecun 提出了图卷积神经网络 Graph Convolutional Networks。2017年，Max Welling将图卷积神经网络和图数据结合在一起，完成了 GCN for semi-supervised classification，这篇文章引起了很大关注。还有很多不做卷积工作，因此有很多Graph Neural Networks和Neural Message Passing（一个节点的分布传播过去）的工作。Jure针对节点和Transductive Learning又完成了 Node2vec 和 grahpSAGE 两个经典工作。唐老师他们最近也做了一些工作，包括 Graph Attention Network。

GraphSAGE 是 2017 年提出的一种图神经网络算法，解决了 GCN 网络的局限性: GCN 训练时需要用到整个图的邻接矩阵，依赖于具体的图结构，一般只能用在直推式学习 Transductive Learning。GraphSAGE 使用多层聚合函数，每一层聚合函数会将节点及其邻居的信息聚合在一起得到下一层的特征向量，GraphSAGE 采用了节点的邻域信息，不依赖于全局的图结构。

Hamilton, Will, Zhitao Ying, and Jure Leskovec. “Inductive representation learning on large graphs.” Advances in neural information processing systems. 2017.

原文地址：https://proceedings.neurips.cc/paper/2017/file/5dd9db5e033da9c6fb5ba83c7a7ebea9-Paper.pdf

Data Mining over Networks

DM tasks in networks:
– Modeling individual behavior
– Modeling group behavioral patterns
– Reveal anomaly patterns
– Deal with big scale

第一部分花费大量时间介绍了研究背景，接下来我们正式介绍这六个工作。

二.Word2vec：NLP经典工作（谷歌）

（详见前文）

Word2vec是一个用于生成词向量(word vectors)并预测相似词汇的高效预测框架，Word2vec是Google公司在2013年开发。

Tomás Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. ICLR, 2013.

三.Doc2vec

（详见前文）

在Word2Vec方法的基础上，谷歌两位大佬Quoc Le和Tomas Mikolov又给出了Doc2Vec的训练方法，也被称为Paragraph Vector，其目标是将文档向量化。

Quoc V. Le, Tomás Mikolov. Distributed Representations of Sentences and Documents. ICML, 2014: 1188-1196.

四.DeepWalk：网络化数据经典工作（KDD2014）

(一).论文阅读

原文标题：Deepwalk: Online learning of social representations
原文作者：Perozzi B, Al-Rfou R, Skiena S
原文链接：https://dl.acm.org/doi/abs/10.1145/2623330.2623732
发表会议：2014 KDD，Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining
参考资料：强推B站同济子豪兄 - https://www.bilibili.com/video/BV1o94y197vf

DeepWalk是图嵌入（Graph Embedding）的开山之作，于2014年被Bryan Perozzi等提出，旨在将图中的每一个节点编码为一个D维向量，为后续节点分类等下游任务提供支撑。DeepWalk通过随机游走算法从一个节点随机到另一个节点，从而将网络化数据转换成一个序列（Sequence），再利用类似于NLP的方法处理。DeepWalk将图当作语言，节点当作单词来生成Embedding。

1.摘要

本文提出了DeepWalk，一种新颖的（novel）用于学习网络节点的隐式表征（latent representations）的方法。这些隐式表征能够把节点在图中的连接关系进行编码，编码为一个稠密低维连续的向量空间（vector space），再通过该向量很容易地完成后续的统计机器学习分类。DeepWalk对现有的语言模型和无监督特征学习（或深度学习）的最新进展进行了概括，将原本用于NLP领域对文本或单词序列进行建模的方法（如Word2Vec）用至图中，对节点进行嵌入。

DeepWalk使用有截断的 随机游走（random walks） 序列去学习局部信息的隐层表示，并将随机游走序列当作是句子。我们演示了DeepWalk在社交网络的一些多类别网络分类任务上的隐式表示，比如BlogCatalog（博客）、Flickr（图片）和YouTube（视频）。实验结果表明DeepWalk的表现优于现有的同类（基线）算法，后者拥有一个网络的全局视图，特别是在信息缺失（标注稀疏）的场景下。当标记数据稀疏（sparse）时，DeepWalk的表示可以提供比竞争方法高出10%的F1值。在一些实验中，DeepWalk的表示优于所有基线方法，并且少使用60%的训练数据。

DeepWalk也是可扩展的（scalable）。它是一个在线学习算法，可以迭代有用的增量学习结果，并且是并行的。这些特性使得它可以适用于广泛的现实世界的应用中，如网络分类（network classification）和异常检测（anomaly detection）。

2.引言和贡献

由于引言至关重要，因此该部分会全文介绍，学习这些经典文章如何介绍背景、引出问题及本文的贡献及动机。

网络表示的稀疏性（sparsity）既是优点也是缺点。稀疏性使得设计有效的离散算法成为可能，但如果使用统计机器学习模型去分类或回归就会很困难。网络中的机器学习应用（如网络分类、内容推荐、异常检测和缺失链路预测）必须能够处理这种稀疏性，才能生存下来（或工作）。

在本文中，我们介绍了深度学习（无监督特征学习）技术 [3]，即Word2Vec，该技术在自然语言处理中已被证明是成功的，并首次将其引入到网络分析中。

[3] Y. Bengio, A. Courville, and P. Vincent. Representation learning: A review and new perspectives. 2013.

我们提出了DeepWalk算法，通过建模一连串的随机游走序列来学习一个图的顶点的网络连接表示（social representations，即连接结构信息）。连接结构信息是捕获邻域相似性和社群成员信息的顶点的隐式特征。这些隐式表示编码连接关系成一个连续低维稠密的向量空间。DeepWalk是神经语言模型的推广，通过随机游走序列去类比一个个句子。神经语言模型（Word2Vec）已被证明在捕获人类语言的语义和句法结构上非常成功，甚至是逻辑类比问题中。

DeepWalk将一个图作为输入，并产生一个隐式表示（向量）作为输出。本文方法应用于经典的空手道网络数据集的结果如图1所示。图1(a)是由人工排版的，图1(b)显示了我们方法所生成的2维向量（输出）。除了原图中的节点都惊人的相似外，我们注意到在图1(b)中出现了线性可分的边界，图1(b)的聚类结果对应于输入图1(a)中模块最大化的集群（用顶点颜色显示）。

图1的补充内容：
(1) 图1(a)表示34个人组建的空手道俱乐部的无向图，连接表示两个人相互认识，后续分成了不同颜色的派系；图1(b)是经过DeepWalk编码后的D维向量（二维），它会将graph的每一个节点编码为一个D维向量（二维节点），绘制直角坐标系中会发现，原图中相近的节点嵌入后依然相近。该结果说明DeepWalk生成的Embedding隐式包含了graph中的社群、连接、结构信息。
(2) DeepWalk会将复杂的图转换成一个Embedding向量，然后下游任务再对该向量进行分类或聚类。此外，DeepWalk编码和嵌入属于无监督过程，没有用到任何的标记信息，只用到了网络的连接、结构、社群属性的信息，因为随机游走不会考虑节点的特征和类别信息，它只会采样图节点之间的顺序、结构信息。
(3) Karate Graph（空手道图）是经典的数据集，类似于机器学习中的鸢尾花数据集。

为了验证（demonstrate）DeepWalk在真实场景中的潜力，我们评估了它在大型异质图（heterogeneous graphs）中具有挑战性的多标签网络分类问题上的性能。在关系分类问题中，特征向量之间的链接违反了传统的独立同分布假设（i.i.d.）。解决这个问题的技术通常使用近似推理（approximate inference）技术来利用依赖信息以改进分类结果。我们跳出这些传统的方法（we distance ourselves），通过学习图的标签无关的表示来将每个节点表示为一个向量。我们的表示质量不受标记顶点选择的影响（无监督学习），因此它们可以在任务之间共享。

关系分类问题（relational classification）：在图中标注一些节点，用已有节点去预测未标注节点的类别，如攻击者识别。
独立同分布假设：在鸢尾花或MNIST图谱数据集中，每个样本（花）之间或数字之间是无关的，彼此互不影响，但它们都是鸢尾花或手写数字图像，因此叫独立同分布，适用于传统的机器学习。然而，在图中，比如标注已有的攻击者去预测未知的攻击者，图之间是存在联系的，因此既不独立也不一定满足同分布，没法直接用传统的LR、SVM、DT算法解决。

DeepWalk在创建连接维度方面优于其它的隐式表示方法，特别是在标记节点稀疏的情况下。我们的表示具有很强的性能，能够使用非常简单的线性分类器（如逻辑回归）完成相关实验。此外，我们的表示方法是通用的，并且可以与任何分类方法（包括传统的迭代推理方法）相结合。DeepWalk同时也是一个在线学习算法，并且能并行加速。

本文的贡献如下：

我们引入深度学习作为图嵌入的工具，以建立适用于统计机器学习建模且鲁棒的向量表示。DeepWalk能够通过随机游走序列学习图的结构规律。
我们在多个社交网络的多标签分类任务上评估了本文的表示方法。特别在标注稀疏的场景下，DeepWalk显著提高了分类的性能，Micro F1值提高了5%到10%。在某些情况下，即使减少了60%的训练数据，DeepWalk的表现也可以超过竞争算法。
我们通过并行加速将DeepWalk扩展到互联网级别的图（如YouTube）上来证明我们算法的可扩展性。此外，我们还进行了一些变种改进，通过构建streaming version所需的最小变化来生成图嵌入。

3.问题定义

首先需要解决节点分类问题。我们考虑将一个社交网络的成员划分为一个或多个类别的问题。

G = (V,E)：V表示网络的节点，E表示连接关系。
E ⊆ (V×V)：E可以表示成一个V行V列的邻接矩阵，表明第i个节点和第j个节点存在联系。
G_L = (V,E,X,Y)：X表示特征（每个节点有S维特征），Y表示类别，|V|表示节点个数，|y|表示类别个数，G_L为被标注的社交网络。

在传统机器学习算法中，通常需要拟合一个映射H，它将X的元素映射到标签集y中。在本文的示例中，由于是图数据，因此需要利用图G结构中的依赖重要信息来获得优越的性能。在本文中，这种称为关系分类（relational classification）或集体分类（collective classification）问题。

传统关系分类解决方法：无向马尔科夫网络推理，通过迭代近似推理算法（如迭代分类算法、Gibbs采样、Label relaxation）计算标签给定网络结构的后验概率分布。
本文关系分类解决方法：提出一种新颖的方法来捕获网络拓扑信息。该方法不将标签和连接特征混合，而是通过随机游走序列来采样连接信息，即仅在Embedding中通过随机游走来编码连接信息，这是一种无监督的学习方法。

该方法的好处是将网络的连接结构信息（结构表征）和标签信息分开，从而避免误差累积（cascading errors）。此外，相同的表示方法（即图嵌入）可以用于各种网络相关的多分类问题。

本文的目标是学习到一个X_E矩阵，如下所示：比如将10个节点（|V|），每个节点压缩成128维度（d）的向量。其中，d可以是一个低维分布的向量，通过该低维连续稠密的向量（每个元素不为0）的每个元素来表达整个网络。

利用这些结构特征，我们将反映连接信息的Embedding和反映节点本身的特征连接，用来帮助分类决策。这些特征是通用的，可以用于任何分类算法（包括迭代方法）。然而，我们认为这些特性的最大优势是它们很容易与简单的机器学习算法集成。它们在现实世界的网络中能够被有效地扩展，我们将在第6节中展示。

4.网络连接的特征表示

该部分主要是描述Embedding。我们希望DeepWalk学到的Embedding（特征表示）具有下列特性：

适应性（Adaptabilty）：真实网络在持续地演化，新的节点和关系出现时不需要再重新训练整个网络，而是能够增量或在线训练。换句话说，网络的拓扑结构随着网络新的节点和连接动态变化。
社区意识（Community aware）：应该反映社群的聚类信息，如图1所示，属于同一个社区的节点有着相似的表示，网络中会出现一些特征相似的点构成的团状结构，这些节点表示成向量后也必须相似。这允许在具有同质性的网络中进行泛化。
低维（Low dimensional）：当标记数据稀缺时，低维模型可以更好地扩展并加速收敛和推理（防止过拟合）。即每个顶点的向量维度不能过高。
连续（Continuous）：低维向量应该是连续的，每个元素的细微变化都会对结果有影响，并且能拟合平滑的决策边界，从而实现鲁棒性更强的分类任务。

DeepWalk是通过一连串随机游走序列来对节点进行嵌入（或表示）的，并是有最初的语义模型（Word2Vec）进行优化。接下来，我们将简单回顾随机游走和语言模型的知识。

(1) Random Walks

假设将一个起始点v(i)的随机游走表示为W(vi)，对应的随机过程（stochastic process）定义为：

其中，k表示随机游走的第k步，v(i)表示起始点，之后的第k+1节点是从第k个节点的邻居节点中随机选择一个，属于均匀的随机游走。

随机游走已被应用于内容推荐和社区检测领域中的各种相似性度量问题。通过该方法将离得近且容易走动（或连通）的节点聚集。随机游走也是输出敏感类算法的基础，这些算法利用随机游走来计算与输入图大小相关的局部社区结构信息。

Random Walk：假设相邻节点具有相似性
Word2Vec：假设相邻单词具有相似性

这种局部结构信息可以促使我们利用一连串的随机游走来提取网络的信息。除了捕获社群信息外，随机游走还有其它两个比较好的优点。

并行采样
在线增量学习（迭代学习不需要全局重新计算）

(2) Connection: Power laws（幂律分布）

选择在线随机游走算法作为捕获图结构的雏形后，我们现在需要一种合适的方法来捕获这些信息。如果连通图的度（degree）分布遵循幂律分布（即无标度图，重要节点），我们观察到顶点在随机游走中出现的频率也将遵循幂律分布。

随机网络：节点的度服从正态分布
真实世界网络：属于无标度网络，比如社交网络存在大V、银行客户存在富翁等，存在大型中枢节点，此时服从幂律分布（长尾分布或二八分布）

图2中展示了幂律分布现象，图2(a)是一个无标度图一系列随机游走的分布图，图2(b)是英文维基百科上的10万篇文章的单词幂律分布图。

图2(a)的横轴表示被媒体提及次数，纵轴表示节点个数（UP主数量）
图2(b)的横轴表示某个单词被采样到的次数，纵轴表示单词数，比如the\an\we出现较多

幂律分布参考我的前文：

[python数据分析] 简述幂率定律及绘制Power-law函数 - Eastmount

为什么介绍这部分内容呢？
我们工作的一个核心贡献是将用于自然语言模型（幂律分布或Zipf定律）的技术可以用在图结构中建模（图数据挖掘）。换句话说，真实世界中，只有极少部分的单词被经常使用，或极少部分的节点被经常使用。

(3) Language Modeling

语言模型的目标是估计一个特定的单词序列出现在一个语料中的似然概率（likelihood）。换句话说，给定一系列单词W，通过上文的前n-1个词来预测第n个词。最近的表示学习研究就聚焦于利用神经网络语言模型来实现词的表示。

语言模型能反映一句话是否自然、高频或真实存在。

在本文中，我们提出了一种语言模型的推广，通过一系列的随机游走路径来进行建模。随机游走可以被看作是一种特殊语言的短句或短语，节点类比成单词，通过前i-1个节点来预测第i个节点（预测访问顶点vi的可能性）。公式如下如下：

然而，本文希望利用的是节点的Embedding，而不是节点本身，如何解决呢？
我们的目标是学习一个隐式表示，因此引入一个映射函数Φ，即取出对应节点的Embedding。

接着我们就可以用公式(2)完成计算，通过前i-1个节点的Embedding来预测第i个节点。该问题是要估计它的似然概率。

然而，随着随机游走长度的增加，计算这个条件概率就变得不可行了（n个概率连续相乘结果太小）。

最近语言模型[27,28]（Word2Vec）很好地解决了这个问题。它可以利用周围上下文来预测中间缺失的单词（CBOW），也可以利用中心词去预测上下文单词（Skip-gram），从而构建自监督场景。

[27] T. Mikolov, K. Chen, G. Corrado, and J. Dean. Efficient estimation of word representations in vector space. CoRR, abs/1301.3781, 2013.

Word2Vec将单词编码成向量如下图所示：

其次，上下文是由同时出现在给定单词的左右两侧的单词组成的。最后，它消除了问题的顺序约束，而是要求模型在不知道单词与给定单词之间的情况下，最大化上下文中任何单词出现的偏移的概率。

DeepWalk(Skip-gram)的损失函数定义如下（优化问题），最大化似然概率：

我们期待通过大量的随机游走序列训练，迭代地去优化Φ中的每一个元素，直到这个函数收敛或损失函数最小化，此时的Φ就是每个节点的Embedding。

该方法对于图嵌入（表示学习）非常适用。

随机游走生成的顺序没有意义，符合当前场景，能很好地捕获邻近信息。
模型较小能加快训练时间。

方程3的优化问题：

具有相同邻居节点将获得相似的表示（编码共引相似）

总而言之，本文提出一种图嵌入的表示方法，通过结合随机游走和语言模型，能将图的每个节点编码为一个连续、稠密、低维的向量（Embedding），其包含了社群的语义特征，适用于各种变化的网络拓扑结构。==

5.本文方法

该部分将详细介绍该算法的主要组件及变体。同各种语言模型算法一样，需要构建语料库和词汇表。在DeepWalk中，语料库就是一系列的随机游走序列，词汇表就是节点集合本身（V）。

(1) Algorithm: DeepWalk
该算法的详细描述如下图所示：

a) SkipGram
SkipGram是一种语言模型，旨在利用中心词去预测上下文单词，它能反映词和词的共现关系，即使句子中出现在窗口w中的单词共现概率最大化。它使用一个独立假设来近似方程3中的条件概率，SkipGram计算Pr的算法如下：

通过中心节点的Embedding和上下文的某个节点的Embedding做向量的数量积。

算法2是SkipGram的具体流程。给定vj表示，我们希望在随机游走中最大化它邻居的概率（算法第3行）。此外，它也会遇到和Word2Vec相同的问题。当节点较多时，会有数以万亿的分类预测，其分母会很大。因此，为加快训练时间，我们使用分层Softmax来近似概率分布。

b) Hierarchical Softmax
分层Softmax计算如下，它会将顶点分配给二叉树的叶子节点，将预测问题转化为层次结构中特定路径的概率最大化。

时间复杂度从O(n)降至O(log(n))

前一篇Word2Vec论文中已详细介绍：

Hierarchical Softmax：Huffman树将较短的二进制代码分配给频繁出现的单词，减少需要评估的输出单元的数量。

如图3c所示，原来的八分类问题转换成了3个二分类（log2(8)=3）。图中，最上层为叶子节点（8个），第二层和第三次的灰色方块为非叶子节点，即逻辑回归二分类器（7个），其参数量和Embedding维度一致。V3和V5是标签，两条红色先为对应的路径，会按照公式计算对应的损失函数并更新Embedding。

接着详细分析图3。

首先，图3(a)表示从图中随机游走采样出一个节点序列（红色标注）；
然后生成图3(b)所示的映射关系，v4表示4号节点，输入中心节点（v1）来预测上文和下文的节点，每侧窗口宽度w=1，通过查表得到中心节点v1映射对应的表示Φ(v1)；
最后，将该中心词的向量输入到分层Softmax中（图3c），由于v3和v5都是标签，两条路径回各自计算损失函数，再各自优化更新，这里存在两套权重，分别是：N个节点的D维向量，N-1个逻辑回归（每个有D个权重），这两套权重会被同时优化。

Pr(bl | Φ(vj)) 可以通过一个二分类器来建模，该分类器被分配给节点bl的父节点，如式6所示：

公式的指数表示词的Embedding和逻辑回归的权重的乘积，再通过Sigmod函数输出一个后验概率。

总之，我们通过在随机游走中分配更短的路径来加快训练过程（Hierarchical Softmax），霍夫曼编码可以减少树中频繁元素的访问时间。

c) Optimization（优化）

(2) Parallelizability
可以通过多线程异步并行（集群）来实现DeepWalk，ASGD梯度通过MapReduce实现。实验结果如图4所示，证明了加速的有效性（性能不变&加速）。

(3) Algorithm Variants
变种算法主要包括：

Streaming
在未知全图时，直接通过采样出的随机游走训练Embedding，新的节点会增量对应的Embedding
Non-random walks
不随机的自然游走

6.对比实验

(1) 数据集和Baseline方法
实验包括三个数据集。

BlogCatalog：博客作者提供的社会关系网络，标签代表作者提供的主题类别。
Flickr：照片分享网站，作者之间的联系网络，标签代表用户的兴趣组。
YouTube：视频分享网站，用户之间的社交网络，标签代表喜欢视频类型（如动漫和摔跤）的观众群体。

对比方法如下：

SpectralClustering（谱聚类）
Modularity（模块化）
EdgeCluster
wvRN
Majority

(2) 实验结果
评估指标包括：

T_R：标注的节点比例
Macro-F1
Micro-F1

实验参数：

γ =80：每个节点被采样的次数
w = 10：滑动窗口
d = 128：向量的维度
t = 40：游走的节点长度

通过one-vs-rest逻辑回归分类器解决多分类问题（构建多个二分类实现多分类预测）。整个实验结果如下所示：

DeepWalk预测效果优于其它算法
当标注节点比例越小，DeepWalk效果表现越好，甚至只用20%的数据比其他算法用90%的数据更强

参数敏感性对比实验如下图所示：

TR会影响最优d，TR越大效果越好
γ越大，效果越好，但边际效果逐渐降低

7.个人感受

首先，本文在相关工作中进一步突出DeepWalk的优势，具体如下：

DeepWalk是通过机器学习得到的隐式表示（Embedding），而非人工统计构造。
DeepWalk不考虑节点的标注和特征信息，只考虑Graph的连接信息，属于无监督学习。后续可以利用无监督的Embedding和标注信息训练有监督的分类模型。
DeepWalk是一种只使用Graph的局部信息且可扩展的在线学习方法，先前的方法都需要全局信息且是离线的。
本文将无监督表示学习思路应用于图中。

综上所述，本文提出了DeepWalk，一种用来学习隐式网络表征的新颖方法。通过随机游走序列捕捉网络的局部信息，再将每个节点编码成向量Embedding，能有效表征原图的结构规律。通过实验证明了DeepWalk多分类的有效性。

下图是子豪老师的总结：

个人感受：
DeepWalk是图嵌入（Graph Embedding）的开山之作，图神经网络领域非常重要的一篇论文。其核心思想是将Word2vec应用在图中，语言模型和图网络的转换非常精妙，DeepWalk将图当作语言，节点当作单词来生成Embedding。在DeepWalk中，它通过随机游走算法从一个节点随机到另一个节点，从而将网络化数据转换成一个序列（Sequence），再无监督地生成对应的Embedding，其扩展性、性能和并行性都表现良好，且支持在线学习。此外，上一篇文章我们介绍了Word2Vec，推荐大家结合阅读。

最后，好文章就是好文章，真心值得我们学习。同时，本文除了作者阅读原文外，也学习了B站同济子豪老师的视频，强烈推荐大家去学习和关注。在此表示感谢，他也说到，本文可能存在一些语法错误，但最重要的是Idea，大家写论文也优先把握好的Idea和贡献，花更多精力在那方面。

(二). 原文PPT分享

接着我们给出原作者的PPT，非常不错的内容，真心值得我们学习。因为前面已经介绍了论文，这里不再叙述，仅给出图片。

https://docs.google.com/presentation/d/1TKRfbtZg_EJFnnzFsnYOsUiyFS0SbNi0X3Qg9OtfDSo/edit

1.Introduction：Graphs as Features

2.Language Modeling

3.DeepWalk

4.Evaluation：Network Classification

5.Conclusion & Future Work

(三).代码实战：学习同济子豪兄视频

这是同济子豪老师分享的DeepWalk代码实战内容，我简单复现下，仅当学习笔记。后续的Python人工智能系列，会撰写代码实现DeepWalk并应用于我们的真实案例中。

参考资料：强推B站同济子豪兄 - https://www.bilibili.com/video/BV1o94y197vf
B站子豪老师的地址：https://space.bilibili.com/1900783

首先分享两章图神经网络的技术路线图。

图神经网络或许是最容易发顶会论文的领域之一。
推荐：斯坦福CS224W公开课
Neo4j能非常方便地构建图数据库和知识图谱

其次是维基百科的实战案例。

网址：https://densitydesign.github.io/strumentalia-seealsology/

输入下列内容点击开始捕获即可。

https://en.wikipedia.org/wiki/Computer_vision

https://en.wikipedia.org/wiki/Deep_learning

https://en.wikipedia.org/wiki/Convolutional_neural_network

https://en.wikipedia.org/wiki/Decision_tree

https://en.wikipedia.org/wiki/Support-vector_machine

生成的维基百科关联词条的DeepWalk词嵌入如下图所示，词条作为节点，词条之间的相互关联或引用关系作为图的边。然后，在该图上实现DeepWalk算法，将每个词条编码转换为D维向量。

此外，向量之间的关系和原始图中词条的关系是一致的，原图中相关联或相似的词条，降维可视化的相似词条聚集在一起。

https://github.com/prateekjoshi565/DeepWalk
https://www.analyticsvidhya.com/blog/2019/11/graph-feature-extraction-deepwalk

该示例的关键代码：

# function to generate random walk sequences of nodes
def get_randomwalk(node, path_length):
    
    random_walk = [node]
    
    for i in range(path_length-1):
        temp = list(G.neighbors(node))
        temp = list(set(temp) - set(random_walk))    
        if len(temp) == 0:
            break

        random_node = random.choice(temp)
        random_walk.append(random_node)
        node = random_node
        
    return random_walk
get_randomwalk('space exploration', 10)

from gensim.models import Word2Vec
# train word2vec model
model = Word2Vec(window = 4, sg = 1, hs = 0,
                 negative = 10, # for negative sampling
                 alpha=0.03, min_alpha=0.0007,
                 seed = 14)

model.build_vocab(random_walks, progress_per=2)
model.train(random_walks, total_examples = model.corpus_count, epochs=20, report_delay=1)
# find top n similar nodes
model.similar_by_word('astronaut training')

五.Asm2vec：安全领域经典工作（S&P2019）

(待续见后)

六.Log2vec：安全领域经典工作（CCS2019）

(待续见后)

七.总结

写到这里，这篇文章就分享结束了，再次感谢论文作者及引文的老师们。由于是在线论文读书笔记，仅代表个人观点，写得不好的地方，还请各位老师和博友批评指正。下面简单总结下：

这篇文章我从向量表征角度介绍了6个经典的工作，前文介绍了谷歌的Word2vec和Doc2vec，它们开启了NLP的飞跃发展；这篇文章将介绍DeepWalk，通过随机游走的方式对网络化数据做一个表示学习，它是图神经网络的开山之作，借鉴了Word2vec的思想（Graph2vec推荐大家阅读）。接下来，我们将介绍Asm2vec和Log2vec，它们是安全领域二进制和日志向量表征的两个经典工作，借鉴了前面论文的思想，并优化且取得了较好的效果，分别发表在S&P19和CCS19。挺有趣的六个工作，希望您喜欢。其实啊，写博客其实可以从很多个视角写，科研也是，人生更是。

最后祝大家在读博和科研的路上不断前行。项目学习再忙，也要花点时间读论文和思考，这些大佬真心值得我们学习，加油！这篇文章就写到这里，希望对您有所帮助。由于作者英语实在太差，论文的水平也很低，写得不好的地方还请海涵和批评。同时，也欢迎大家讨论，继续努力！感恩遇见，且看且珍惜。

(By:Eastmount 2022-11-30 周一夜于武汉 http://blog.csdn.net/eastmount/ )

参考文献如下，感谢这些大佬！也推荐大家阅读原文。

[1] 唐杰老师网站：http://keg.cs.tsinghua.edu.cn/jietang
[2] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations. KDD, 2014.
[3] Narayanan A, Chandramohan M, Venkatesan R, et al. graph2vec: Learning distributed representations of graphs[J]. arXiv preprint arXiv:1707.05005, 2017.
[4] 强推B站同济子豪兄 - https://www.bilibili.com/video/BV1o94y197vf
[5] https://densitydesign.github.io/strumentalia-seealsology/
[6] Tomás Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. ICLR, 2013.
[7] Quoc V. Le, Tomás Mikolov. Distributed Representations of Sentences and Documents. ICML, 2014: 1188-1196.
[8] Eastmount. word2vec词向量训练及中文文本相似度计算. https://blog.csdn.net/Eastmount/article/details/50637476
[9] https://github.com/prateekjoshi565/DeepWalk
[10] 斯坦福CS224W公开课
[11] B站子豪老师的地址：https://space.bilibili.com/1900783
[12] https://docs.google.com/presentation/d/1TKRfbtZg_EJFnnzFsnYOsUiyFS0SbNi0X3Qg9OtfDSo/edit

你可能感兴趣的:(娜璋带你读论文,论文阅读,DeepWalk,图嵌入,图神经网络,深度学习)

REITs运营与资金流动关系图数据可视化
使用图形天下提供的关系数据可视化工具。我们清晰地看到REITs（房地产投资信托）如何与投资者、房地产资产、物业管理公司及租户紧密相连。REITs作为资金池，投资于房地产，通过物业管理公司维护运营，产生租金收入并分配给投资者。图形天下的可视化技术，让这一复杂的关系数据变得直观易懂，展现了REITs生态的全貌。 REITs运作机制概览图 REITs通过集合投资者
PID控制器闭环系统工作原理数据可视化
关系图通过图形天下展示了PID控制器闭环系统的运作流程，实现了关系以数据可视化。从设定点到目标值的输入，再到传感器测量的实际输出值，整个系统通过比较器计算误差，并利用PID控制器（包含比例、积分和微分项）生成控制动作。执行器根据这些动作调整被控对象的状态，新状态再次被传感器测量并反馈，形成闭环控制。这一图形化的描述清晰地展现了闭环系统中各组件之间的互动关系。
android wifi 流程图_实现双wifi的方法及Android终端与流程 weixin_39719427 android wifi 流程图
本发明涉及无线通信技术领域，尤其涉及一种实现双wifi的方法及Android终端。背景技术：在楼宇对讲产品中，楼宇对讲的家庭设备，如平板，需要连接到楼宇对讲的局域网络，以实现与楼宇内的相关设备进行对讲等。然而楼宇对讲所在的局域网络通常为内网，加上现有的基于Android系统的平板仅支持一路wifi热点连接功能，导致已连接了内网的平板无法再同时连接公网，即互联网，进而也就无法在通过平板使用需要连接公
中医津液代谢过程关系图解数据可视化
关系图通过图形天下展现了复杂的关系以数据可视化，清晰地呈现了人体内津液代谢的关键环节及其相互作用，涵盖了从饮食入口直至废物排出的全过程。它不仅突显了胃、脾、肺、肾等主要器官在津液生成与分配中的协作关系，同时也强调了身体如何通过排汗和排泄来维持内部平衡。使得抽象的生命科学概念变得易于理解。津液代谢过程这张关系图展示了津液从食物和饮料进入人体后的代谢过程，包
生态系统中磷循环的关系图数据可视化
关系图通过图形天下展示了磷循环的关键过程，清晰地呈现了磷在岩石、土壤、水体及生物体之间的流动。利用关系数据可视化技术，详细描绘了磷通过风化、吸收、摄取、排泄、分解等环节在不同环境介质中的转化，揭示了生态系统中磷元素动态平衡的重要性。这一可视化工具使复杂的磷循环变得直观易懂。磷循环关系图磷循环展示了磷在岩石、土壤、水体及生物体之间的流动过程，反映了生态系统
STM32 FreeRTOS 事件标志组雁过留声花欲落 STM32 FreeRTOS stm32 嵌入式硬件单片机
目录事件标志组简介基本概念1、事件位（事件标志）2、事件组事件组和事件位数据类型事件标志组和信号量的区别事件标志组相关API函数介绍事件标志组简介基本概念当在嵌入式系统中运行多个任务时，这些任务可能需要相互通信，协调其操作。FreeRTOS中的事件标志组（EventFlagsGroup）提供了一种轻量级的机制，用于在任务之间传递信息和同步操作。事件标志组就像是一个共享的标志牌集合，每个标志位都代表
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
读零信任网络：在不可信网络中构建安全系统14流量信任躺柒网络安全网络安全计算机安全系统安全零信任
1.流量信任1.1.网络流的验证和授权是零信任网络至关重要的机制1.2.零信任并非完全偏离已知的安全机制，传统的网络过滤机制在零信任网络中仍然扮演着重要的角色2.加密和认证2.1.加密和认证通常是紧密相关的，尽管其目的截然不同2.1.1.加密提供机密性，用于确保只有接收者才能读取发送的数据2.1.2.认证则用于确保接收者可以验证消息确实是由所声称的对象发送的2.2.认证还有另外一个有趣的特性，为了
MySQL 核心知识全面解析：从事务到索引的深度探索 guihong004 java面试题 mysql 数据库
1.事务隔离级别有哪些?MySQL的默认隔离级别是?事务隔离级别是数据库系统中用于控制不同事务之间的交互和可见性的机制。SQL标准定义了四个隔离级别，按照从低到高的顺序分别是：读未提交（ReadUncommitted）：在这个级别，一个事务可以读取另一个尚未提交的事务的数据更改。这会导致脏读（DirtyRead），即读取到未提交的数据。读已提交（ReadCommitted）：这个级别确保一个事务只
配置基于VLAN的VLAN Mapping示例（2 to 1）数字化信息化智能化解决方案网络
此举例是2to1VLANMapping中的N:1场景，因为外层和内层VLANTag不同的业务报文，外层映射到了同一个VLAN。如图10-7所示，用户通过家庭网关、楼道交换机和小区交换机接入汇聚层网络，为了节省运营商网络VLAN资源，及实现不同用户相同业务在传输过程中相互隔离，可以在楼道交换机上部署QinQ功能，在小区交换机上部署VLANMapping功能。图10-72:1VLANMapping组网
JavaWeb 开发入门：从基础到应用大梦百万秋知识学爆 java
JavaWeb是基于Java技术构建的Web应用开发体系。得益于Java的跨平台性和强大的生态系统，JavaWeb长期以来一直是企业级开发的首选方案之一。本篇博客将从JavaWeb的基本概念、核心技术到实际项目开发，带你全面了解如何利用JavaWeb构建一个动态网站。什么是JavaWeb？JavaWeb是使用Java技术开发Web应用程序的总称，通常包括动态网页、交互式功能和后端逻辑。它支持开发以
AI大模型引领医疗变革：十大创新应用场景塑造智慧医疗新时代和老莫一起学AI 人工智能自动化数据库学习语言模型大模型
前言在人工智能技术的迅猛发展中，AI大模型以其无与伦比的数据处理能力和深度学习能力，正逐步成为医疗健康领域变革的引领者。本文旨在深入探讨AI大模型在医疗领域的十大创新应用场景，展示其如何显著提升医疗服务效率、赋能临床决策，并推动整个行业向智能化转型。一、智能化诊疗：精准辅助，提升诊断效率AI大模型凭借对海量医疗数据的深度分析，能够协助医生进行更为精准的诊断。例如，百度灵医大模型凭借强大的数据处理能
Android应用开发入门：从Android Studio环境设置到Java编程基础 Python爬虫项目移动开发精通教程 android android studio java gitee ide
目录介绍步骤一：设置AndroidStudio环境步骤二：了解AndroidStudio界面步骤三：学习Java编程基础变量和数据类型数组和集合控制流类和方法结论介绍Android应用开发是一个令人兴奋和有趣的领域。如果你对移动应用程序开发感兴趣，并且想要学习如何开始构建自己的Android应用，那么你来对地方了！本篇博客将带你从头开始，介绍如何设置AndroidStudio环境，学习Java编程
技术文档的精髓：规划布局、语言表达与更新维护重庆钢铁侠经验分享
本文将从技术文档的规划布局、语言表达以及更新与维护三个方面入手，探讨如何打造一份出色的技术文档，确保信息的系统性、连贯性以及时效性。一：技术文档的规划布局1.1确定文档的整体架构技术文档的规划布局是确保信息呈现系统性和连贯性的关键。首先，需要确定文档的整体架构，这包括章节设置和逻辑顺序。一个好的架构应该能够清晰地指导读者从入门到精通。章节设置：根据文档的目的和受众，合理设置章节。例如，对于深度学习
Elasticsearch 中的节点（比如共 20 个），其中的10 个选了一个 master，另外 10 个选了另一个 master，怎么办？思维导图代码示例（java 架构) 用心去追梦 elasticsearch java 架构
在Elasticsearch中，如果出现集群分裂（Split-brain）的情况，即一部分节点选举了一个Master节点，而另一部分节点选举了另一个Master节点，这会导致数据不一致和集群不可用。Elasticsearch通过配置discovery.seed_hosts和cluster.initial_master_nodes参数来避免这种情况，并确保有足够的节点参与选举以达成共识。为了防止Sp
基于深度学习的推荐系统构建：Movielens 数据集 fresh的转码之路深度学习人工智能机器学习推荐算法
基于深度学习的推荐系统构建：Movielens数据集依赖环境代码语言：python3.11.5开发平台：pycharmtensorflow版本：2.18.0MovieLen1M数据及简介MovieLens1M数据集包含包含6000个用户在近4000部电影上的100万条评分，也包括电影元数据信息和用户属性信息。下载地址为：http://files.grouplens.org/datasets/mov
深入剖析：Unix 系统管理的高级实践与技巧 Echo_Wish 让你快速入坑运维运维探秘 unix 服务器
深入剖析：Unix系统管理的高级实践与技巧作为一名系统管理员，掌握Unix系统的基础操作只是起点。高级实践要求你不仅能够高效处理复杂任务，还需优化系统性能、自动化日常操作，并确保系统的安全性与可靠性。本文将带你探讨Unix系统管理的一些高级实践，结合实际案例与代码，帮助你提升技能。一、系统性能优化：从监控到调优1.性能监控：识别瓶颈性能优化的第一步是监控系统，找出瓶颈所在。Unix提供了一些强大的
Easysearch Rollup 使用指南数据库搜索引擎
背景在现代数据驱动的世界中，时序数据的处理变得越来越重要。无论是监控系统、日志分析，还是物联网设备的数据收集，时序数据都占据了大量的存储空间。随着时间的推移，这些数据的存储成本和管理复杂度也在不断增加。为了解决这一问题，Rollup技术应运而生。本文将带你深入了解Rollup的概念、优势以及如何在Easysearch中使用Rollup来优化时序数据的存储和查询。什么是Rollup？Rollup是一
leetcode:37. 解数独关东老樊 leetcode leetcode 算法数据结构
题目链接：37.解数独文章目录题目描述思路代码题目描述编写一个程序，通过填充空格来解决数独问题。数独的解法需遵循如下规则：数字1-9在每一行只能出现一次。数字1-9在每一列只能出现一次。数字1-9在每一个以粗实线分隔的3x3宫内只能出现一次。（请参考示例图）数独部分空格内已填入了数字，空白格用‘.’表示。示例1：输入：board=[[“5”,“3”,“.”,“.”,“7”,“.”,“.”,“.”,
GaussDB lanlingxueyu 数据库 gaussdb
HCIA-GaussDB思维导图https://download.csdn.net/download/lanlingxueyu/88797517数据库介绍数据库技术概述数据库技术数据Data记录Record数据库DatabaseDB数据库是存放数据的仓库，是大量数据的集合。存放在数据库中数据的特点永久存储有组织可共享数据库管理系统DBMS数据库管理系统是一个能够科学地组织和存储数据，高效地获
探索SQL数据库架构比较工具：详解及应用焦虑中
本文还有配套的精品资源，点击获取简介：随着信息化的发展，SQL数据库在企业数据管理中扮演核心角色。面对不断更新的数据库架构，比较和管理不同数据库之间的差异变得至关重要。本文介绍了一种开源的SQL数据库架构比较工具，详述了其功能和应用价值。该工具可比较SQL数据库架构中的表结构、索引、触发器等元素，支持数据库迁移、版本控制和同步等任务。工具的源代码文件、架构设计图、使用文档和流程图等组件，为开发者提
linux进程状态 DW,c - 诊断进程陷入D状态（不间断睡眠/阻塞IO） - SO中文参考 - www.soinside.com... 咔咔鲁斯 linux进程状态 DW
我们正在开发一个嵌入式Linux系统，使用Live555WIS-Streamer通过网络在RTSP上传输视频。在一个特定的系统中，我们看到WIS-Streamer卡在TASK_UNINTERRUPTIBLE状态;从命令行：进程的ps状态显示为DW，WIS进程的子进程都列为Zombie状态。一旦我们处于这种状态，看起来我们无能为力，除了重启(不可取)。然而，我们真的很想找到这个的根本原因-我怀疑在流
揭秘Fluss核心功能 - 底层存储和查询大圣数据星球大数据 Flink 设计模式
大家好，我是大圣。Fluss提供了可靠的底层存储设计与灵活的查询更新机制。然而，这一切听起来似乎很复杂，里面有太多看似晦涩的技术名词——比如日志表（LogTablet）、键值表（KvTablet）、Tablet、TabletServer等等。那么，Fluss的存储到底是怎么运作的？本文将从一个具体的数据例子出发，带你逐步了解Fluss的底层存储逻辑，以及查询和更新数据时，系统背后的变化过程。从一个
SD ComfyUI工作流平面模型房屋3D渲染 Mr数据杨 Stable Diffusion AI绘画 ComfyUI AI绘画
文章目录平面模型房屋3D渲染SD模型Node节点工作流程开发与应用效果展示平面模型房屋3D渲染此工作流是为将平面模型房屋图转换为3D渲染而设计，利用先进的模型和节点处理图像，增加细节和色彩，以及通过超分辨率技术增强最终图像的清晰度。流程从加载图像开始，经过一系列的处理步骤，包括图像缩放、条件编码、模型加载，最终通过高级放大技术提高图像分辨率，以达到高清的视觉效果。SD模型模型名称说明majicMI
基于Damo-YOLO和DyHead检测头的YOLOv8优化：多尺度目标检测的创新方案【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测人工智能 YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Damo-YOLO和DyHead检测头的YOLOv8优化：多尺度目标检测的创新方案【YOLOv8
提升YOLOv8性能：用Swin Transformer替换Backbone的详细实现与分析【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLOv8 YOLO 目标跟踪
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录YOLOv8改进|主干篇|SwinTransformer替换Backbone（附代码+详细修改步骤+
如何学懂C++语言：C++从入门到精通的全面指南（完整C++学习笔记）猿享天开 c++学习笔记
数字人助手猿小美带你一起学编程一、引言作为一名拥有多年开发经验的技术人员，我的职业生涯涵盖了多种编程语言，包括C语言、C++、C#和JavaScript等。在我多年的编程生涯中，这些语言不仅丰富了我的知识储备，还极大地拓展了我的视野和技能。出于对编程的热爱，以及希望帮助更多编程爱好者的目的，我决定利用业余时间整理一套全面的C++语言学习指南。这套指南旨在为C++语言编程爱好者提供一个清晰的学习路线
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
HarmonyOS 开发实战 —— 模块化架构组件（使用系统路由表+注解+hvigor插件自动配置项目模块化） CTrup 鸿蒙开发 HarmonyOS 移动开发 harmonyos 架构 ui ArkUI 组件化插件化 hvigor
往期笔录记录：鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……@satis/oh-router简介@sati
HarmonyOS 开发实践——模块化架构组件（使用系统路由表+注解+hvigor插件自动配置项目模块化）我是你叶 HarmonyOS 鸿蒙开发移动开发 harmonyos 架构鸿蒙开发 ui Arkui 移动开发组件化
往期推文看点鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……@satis/oh-router简介@satis
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方