算法全栈之路

一文揭开图机器学习的面纱，你确定不来看看吗

近年来，由于图数据结构对实体间关系建模的强大表征能力和可解释性，在图上运行一些传统机器学习算法或深度学习算法已成为人工智能领域的 焦点分支。

在现实生活中，我们有很多不规则的数据，例如：在社交、电商、交通，甚至在生物学、高能物理学等领域以及日常社会经济生活中，我们用到的大都是实体间的关系数据，而这些关系数据中 隐含了大量可挖掘 的信息。

马克思主义唯物辩证法曾说：世界上的事物都不是孤立存在的，而是 普遍联系 和 永恒发展 的。因为 万物互联 ，这些事物通过庞大的 结点和彼此间复杂的交互关系 ，形成了特有的 图结构，而事物之间存在关系则可以 建模成图 ，我们就可以使用图这种数据结构来灵活的建模并且学习应用它们。

注意：本文这里所说的图机器学习算法涵盖了图深度学习部分，图深度学习部分第三小节有讲解。

通常，我们会在图数据结构上 跑一些机器学习/深度学习的任务，一般来说，主要包括 节点和边 的 分类和回归任务以及整图预测。

(1) 节点的分类与回归：
一般用于预测给定节点的类型。例如：一个用户为异常用户的可能性，以及某个人的消费能力预测。

(2) 边的分类和回归：
我们一般用于预测某2节点之间是否有边以及边的权重大小。例如：预测抖音上一个人是否会评论某条抖音以及他评论的情感的正负，或则京东上一个人购买某个商品的可能性以及会买几件等。

(3) 整图预测:
我们一般可以把用于给定2个图，分析两者的相似性质，或则预测生物大分子的特性。

本来只打算写一个 图算法综述，后来发现越写越多，一些内容分开又嫌少，还是挤一挤到当前文章吧，不管了，就这样吧。

仅对图的 Graph Embeding 感兴趣的同学，可以直接阅读第三小节哦。万字长文，可以点赞收藏把作为基础知识回顾与图知识的综述使用哦～

本文是作者开始写的关于 图机器学习 的第一篇小作文，以后会陆续的记录一些在 图上使用机器学习与深度学习 进行一些分类与回归 任务的相关文章和知识点，欢迎关注我的公众号：算法全栈之路 了解后续吧。

下面让我们开始本文的阅读吧～

(1) 图基础简介

首先，对于 图结构 ，相信我们很多学过计算机课 数据结构 的同学都不会陌生。它和我们在数据结构书上学到的队列、栈、树结构等一样，就是一种普通的数据结构，他们都是建模 item 之间关系的数据结构，不过队列、栈甚至树等对数据的 组织形式 做了一些基础性限制，而图相对于队列等这些基础数据结构，只是更加复杂而已，但是依然摆脱不了 基础数据结构 的特性。

这里这样说，主要是希望我们读者 不要把 图数据结构想象的非常复杂和高不可攀，以至于 “谈图色变” 。就算是图是一个 魅力十足 的大美女，也让我们先揭开她的 神秘面纱 一睹它的芳容，并在接下来一段时间里，逐步分析她、了解她，直到最后征服她！ so , let us go !!!

(1.1) 图的结构特性

书接上文，我们知道：图也是数据结构的一种，并且它是一组对象(节点) 及其关系(边) 进行建模所形成的一种多对多 的数据结构。

在计算机科学中，图是有节点(顶点) 和 节点之间的边 所组成的，它通常表示为 G(V,E) 。其中 G 表示一个图，V是图G中节点的集合，E是图G中边的集合。图可以长这样：

(1.2) 图的分类

现实中事物之间的关系是 复杂且种类繁多 的，图也是如此。我们可以根据图的各种特性，进行简单的分类。

(1) 图上边有无方向，分为有向图和无向图。

有向图意味着这种关系是单方面的，类似于微博的关注关系和航站之间是否有航班的关系。

无向图这种关系则是相互的，类似于彼此是朋友关系。描述对称与非对称关系。

（2) 节点和边类型是否只有一种，分为同构图和异构图

同构图(Homogeneous Graph) , 类似于简单社交网络中，表示唯一类型节点和边的用户和用户是否相似的图则为同构图。

异构图 (Heterogeneous Graph), 图中节点类型和边类型超过两种的图称为异构图。

（3）多重图

在多重图中，同一对节点之间可以有多条（有向）边，包括自循环的边。

例如：两名作者可以在不同年份共同署名文章，这就带来了具有不同特征的多条边。

(4) 属性图

图的 节点和边是否带有属性 特征。在我们的图中，节点和边均可以带有多个不同类型的属性。

假设图中有一个用户节点，则该节点可以带有年龄、性别、图片、群体、消费能力，兴趣等属性，可以是标量，也可以是向量, 甚至可以是图片和音乐这种比较复杂的数据。

假设图中有一条用户指向商品的边，则这个边上可以携带用户点击该商品的点击率，购买率，用户购买该商品提供的gmv 以及兴趣等属性。

同样，这些属性也可以是标量或向量。带权图和标签图只是属性图的一种简单形式。

以上各种图分类之间是可以混乱组合的，好比我们同时组合出 有向异构属性多重图，那这个图可以拟合关系的能力是非常全面并且强大的。

(1.3) 图的属性

这里，我们只简单列出常用的几个属性，如下：

(1) 度(Degree)

连接顶点的边的数量称为该 顶点的度 D(v)。无向图只有度，有向图有入度和出度之区分。属性图又有基于某种关系的度，例如用户登录关系的度，包括用户用ip登录，设备登录，邮箱登录多种关系的度的和。

（2）路径(Path)与简单路径

依次有序遍历顶点序列形成的轨迹称为路径。没有重复顶点的路径称为简单路径，包含相同顶点相同的路径2次以及以上的顶点称为环。这里又可以分为有环/无环图。

注意：添加自环可以有效缓解图关系的稀疏性。

（3）连通性与强连通性
无向图中若每一对不同的顶点之间都存在路径，则该无向图是连通的。若这个条件在有向图里也成立，那么就是强连通的。

(1.4) 图的存储

从上文中，我们知道：图是一种比较复杂的数据结构。为适应图数据的CRUD，采用的存储结构有：邻接矩阵、邻接表、十字链表等。

(1) 邻接矩阵

存储了顶点与顶点之间是否有边存在，附带顶点数组和边数组。无向图的邻矩阵是对称阵，行和列的和是即为顶点的度。有向图的邻矩阵是非对称阵，行为出度和列为入度。邻接矩阵可以推出度矩阵。

(2) 邻接表和逆邻接表

为了方便邻接点个数的增减，多采用链表存储。顶点用专用数组存储，指针指向链表的起始地址。有向图的邻接表只存储了出度顶点。逆邻接表存储了入度顶点。临接表对于无向图是非常完美的数据结构。

(3) 十字链表
也叫正交链表, 为了存储有向图专门设计的一种数据结构，整合了邻接表和逆邻接表。每个顶点设置2个指针域，即顶点表数组的每个顶点有指向入边表的指针也有指向出边表的指针。

假如说图太大单机存不下的话 (例如百度跑所有网页的pageRank算法)，对图的结点和边进行分区存储，然后用spark开发整个图的存储与消息传递计算的过程。例如: 腾讯的spark on angel 框架, 百度的spark on paddle 框架。

中间又涉及到到图分区策略，边切分还是顶点切分。其中，边分区要求同一个顶点出去的边在同一个分区，顶点分区要求同一个边的2个顶点在同一个分区。

到这里我们图基础简介就说完了，下面开始图上传统机器学习算法的阐述吧～

(2) 图上传统机器学习算法

我们在图数据结构上，可以开发整个图的存储与消息传递计算的过程，实现一些传统的机器学习类算法。下面简单列举一些在spark GraphX里包含的算法。

(2.1) PageRank算法

该算法可以在任何有向图中进行每个顶点权值的计算，也可以使用该算法进行 网页排名 ，找出重要的图节点。Pagerank专利属于斯坦福，商标属于Google。

算法描述：

(1) 用 1/N的页面排名值初始化每个顶点，N是图中顶点总数。

(2) 循环：

每个顶点沿着出发边发送PR值1/M，M为当前顶点的出度。
当每个顶点从相邻顶点收到其发送的PR值后，合计这些PR值后作为当前顶点的新PR。
图中顶点的PR与上一个迭代相比没有显著的变化，则退出迭代。

算法变种引入了抑制因子(resetProb), 随机访问页面，而不是当前访问页面链接出去的。

图上消息传递原理关键字： 顶点发送消息、相邻点收到消息、合计收到的值更新自己的值。

(2.2) 衡量连通性：三角形数

我们不光可以使用 pagerank 度量单个顶点的影响力，我们也可以通过计算三角形数以衡量图或则子图的连通性，也就是顶点如何共同相互影响。

三个顶点均有边相互联系。图和子图有越多的三角形则连通性越好，这个性质可以用于确定小圈子(图中有很多相互关联的部分)。可以用于推荐，也可以识别垃圾邮件。

假如说一个人对很多有边，但是这很多人之间却没边，则不会形成三角关系。

(2.3) 查找最少的跳跃：最短路径（ShortestPaths)

我们可以使用图上内置的最短路径算法来计算跳跃数，并以及跳跃顺序返回距离。我们可以得到图上任意两个节点之间的最短距离，没有连通的点距离为无穷大。

(2.4) 找到孤岛人群：联通组件 (ConnectedComponents)

连通组件能在社交网络图中找到一些孤立的小圈子，并把他们在数据中心网络中区分开。连通组件算法与有向图与无向图都有关联。

(2.5) 标签传播算法(LabelPropagation Algorithm)

在 LPA 算法中，节点的标签完全由它的直接邻居决定。标签传播算法是一种基于标签传播的局部社区发现算法，其基本思想是节点的标签（community）依赖其邻居节点的标签信息，影响程度由节点相似度决定，并通过传播迭代更新达到稳定。

(2.6) Louvain算法

Louvain算法是社区发现领域中经典的基于模块度最优化的方法，且是目前市场上最常用的社区发现算法。社区发现旨在发现图结构中存在的类簇。

综上所述： 图上的传统机器学习算法大致可以分为 路径搜索算法、中心性算法以及社群发现算法等。其中路径搜索算法包括 DFS & BFS、最短路径、最小生成树、随机游走等；而中心性算法包括 DegreeCentrality、 Closeness Centrality、BetweennessCentrality、PageRank 等; 社群发现算法: Measuring、Components、Label Propagation , Louvain Modularity 等。

我们可以灵活选择各种算法，建模自己业务中遇到的问题。

如果发现上述这些问题都没有办法把问题解决或则解决问题的效果不够好，可以接着试试下面的 graph embeding 相关的算法 呢！！！

(3) Graph Based-on Embeding 的若干算法

继 Goole 于 2013年在 word2vec 论文中提出 Embeding 思想之后，各种Embeding技术层出不穷，其中涵盖用于自然语言处理( Natural Language Processing, NLP)、计算机视觉 (Computer Vision, CV ) 以及搜索推荐广告算法(简称为：搜广推算法 )等。

在以前的一篇文章深入浅出理解word2vec模型 (理论与源码分析) 中我们已经知道： embedding 可以把理解为用一个一维度的浮点数组 (tensor) 来表示某一个item对象(单词或则用户等)，两个item之间的语义关系计算可以用 他们的embeding 计算来代替。

这种基于Graph 产生 Embeding 的设计思想不仅可以直接用来做图上节点与边的分类回归预测任务外，其导出的 图节点embeding 也可作为训练该任务的中间产出为别的下游任务服务。

而图算法最近几年最新的发展，都是围绕在 Graph Embedding 进行研究的，也称为 图表示学习(Graph Representation Learning ,GRL)。

图表示学习, 顾名思义，是从图上学习到各个节点或则边的嵌入(Embeding)表示, 是表示学习和图结构数据相结合产生的方法，其目的是：将高维稀疏的图结构数据映射到低维稠密向量，同时来捕获网络拓扑结构及网络中节点的内在特征。

在这里，我们必须要插入很重要的一点就是：
目前我们日常能接触到 传统机器学习/深度学习 和 图机器学习 以及 强化学习 的样本是有一些明显差别的。我们知道传统的机器学习/深度学习，例如前面一些文章提到的 点击率预估等模型用到的样本，都是基于一个强假设，即：IID原则。三者的对比关系如下：

传统机器学习：样本独立同分布（Independent Identically Distribution,IID）,是指样本是从同一个数据分布里多次随机且独立的重复采样得到。

图机器学习：样本不独立，样本间相互关联，依一定方式构建了图结构。

强化学习：样本不独立，样本之间有时序上的前后关联。上一步的action产生的reward和下一步的action与reward在最初的数据集假设上有相互关联。

而进两年的图表示学习，从分类上又可以大致把分成2类： 基于游走的图结构表示学习 和 基于卷积的图深度表示学习。

(3.1) 基于游走的图结构表示学习

应该知道，我们这里所说 基于游走 是指在已经建好的 逻辑图 上面去以 某种方式遍历某些节点而得到一些节点序列 的方式。基于随机游走采样节点的图表示学习比较经典的实现有以下几种，分别是：Deepwalk 、 Node2Vector 以及 LINE。

再此之前我们需要明确一点就是： 基于游走的图结构表示算法 是一种基于邻域相似假设的算法，受启发于 word2vector 来学习节点的向量表示。

(3.1.1) Deepwalk 算法

Deepwalk 算法，又称为 深度游走算法。它通过随机游走的方式提取顶点序列，根据序列中顶点和顶点之间的共现关系(Co-occurrences) 来学习向量表示, 可以说随机游走是整个Deepwalk 最重要也最具有开创性的一部分算法。

随机游走是一种可重复访问已访问节点的深度优先遍历算法。对于给定图中的某个节点，随机从邻居节点中抽取一个节点作为下一个访问点，直到访问序列达到预设长度。

阿里巴巴的论文 Graph Embedding with Side Information（GES) 在 deepwalk 算法的基础上，引入了 item 的附属信息 来训练图嵌入, 可以解决商品冷启的问题，也是一种 deepwalk 算法很经典且有效的拓展应用。

综上所述: Deepwalk 使用随机游走算法在图上获得序列，使用 Word2Vec 中的 Skip-Gram 算法来学习节点的Embedding, 是一种很经典的 Walk + Skip-Gram Loss 的架构。

(3.1.2) Node2Vecter 算法

我们知道，图和其他如队列、栈、树等基础数据结构一样，也具有 可遍历 的性质。我们在图上有目的的遍历算法又可以两种： 深度优先(DFS) 与 广度优先(BFS) 。

广度优先(DFS) 可以获得每个节点的所有邻居，强调的是 局部微观视图; 而 深度优先(BFS) 则倾向于探索更大的网络结构，只有从更高的角度才能观察到更大的集群, 具有 全局视野 的潜质。

Node2Vector 在游走方式上对随机游走算法进行了改进，设计了一种灵活的邻居节点抽样策略，它允许用户在BFS 和DFS之间进行平衡。其具体公式如下图所示：

其中：P 为返回参数，q为进出参数。p,q 分别控制着当时在邻居节点中采样的概率。

我们从上述公式也能看出：Node2Vec 算法引入了两步随机游走算法：第一步从节点t 走到节点v, 第二步从节点v游走到其邻居节点，如 x1,x2,t 等。节点v 跳转到其邻居节点的概率不再是随机分布的，而是根据节点t 和节点x 共同决定，可以表示为 f( vt+1 / vt, vt-1 ) , 这里是根据节点 t 与节点 x 的最短路径来确定。

我们可以想象一下，我们处于节点v 的位置，x 表示下一个节点，t表示上一个节点。x到t的距离有三种：0、1和2。0表示回到来的节点，1表示停留在当前节点，2表示去向当前位置下一个和来的节点不同的邻居节点。这里需要结合上面的公式以及公式成立的条件，仔细想清楚采样逻辑。

综上所述：对于 node2vec算法来说，也是基于上面提到的 Walk + Skip-Gram Loss 的架构。其中&&改进的采样方式决定着在图上得到的行走序列，近一步决定着训练的嵌入的重点**。

(3.1.3) LINE 算法

LINE 算法的全称是：Large-scale Information Network Embedding ，其是对于上述两种算法的更进一步的改进。

书接上文，上文介绍的 Deepwalk 和 Node2Vector 算法均只考虑了成边的顶点之间的相似度，并未对不成边顶点之间关系的建模。而本小节介绍的 LINE算法即考虑了成边顶点对之间的关系(称为局域相似度)，也考虑了未成边顶点对之间的相似度(称为全局相似度)。

LINE算法为图的局域相似度和全局相似度设计了专门的度量函数，适用于无向图与有向图。

在line算法的建模过程中，该算法的局域相似度用 一阶相似度(First-order Promimity ) 描述, 表示图中直接相连的节点之间的相似度。其建模公式如下图所示：

其中：公式表示的是 Vi 、Vj 之间的一阶联合概率。

该算法的 全局相似度 用 二阶相似度(Second-order Proximity) 来衡量 2个节点的邻居之间的相似度。二阶相似度假设那些具有相同邻居节点的节点在特征上较为相似，直观来说，就是拥有共享邻居的节点更为相似。其建模公式如下图所示：

对上面的公式，我们可以这样来通俗理解：对某个节点，另一个节点有多大概率是它的邻居(条件概率分布)以及是否真实数据集中是它的邻居(经验分布)，这2个分布要距离尽可能的小。其实就是学习的假如他们的邻居相似的话，让他们本身的embeding也尽可能的相似。

综上所述： LINE算法通过合并一阶和二阶相似的优化目标完成最终的模型的优化，而并不紧紧基于有边存在的节点对。

(3.1.4) 异构图 Metapath 学习

上面所说的算法，通常都是在同构图上进行采样节点的算法，当然我们也可以直接把 异构图转成同构图 用同样的方法来学习各个节点之间的关系，但是这样也就失去了构建异构图时更细腻的不同节点类别本身带有的信息。例如：把用户和商品用一样的建模方式，总归是不合理的。

在具体实践中，为了分辨异构图特点，引入了 元路径(meta-path) 的概念。元路径是在异构图G上按照元路径模式 N1 -R1-> N2 -R2->N3 来游走产生路径。其中 N表示节点类型，R表示边关系类型。具体如下图所示：

我们知道：元路径游走是一种有偏游走。而基于元路径游走也产生了2种相关的算法，分别是： MetaPath2Vector 算法和 MetaPath2Vector++ 算法。

MetaPath2Vector 算法是基于 Metapath + Skip-Gram Loss 架构。 MetaPath2Vector 在 SoftMax 环节中没有分辨顶点类型，而是将所有顶点视作统一类型的顶点，也就是说在负采样环节采样的负样本并没有考虑顶点的类型。

而 MetaPath2Vector++ 则在softmax环节中，根据不同类型的顶点的上下文进行了归一化，也就是说给 Skip- Gram模型每种节点类型制定特定的负采样集合，进行了更细粒度的负采样控制。

(3.2) 基于卷积的图深度表示学习

说到 图卷积 (Graph Convolutional Network , GCN) 算法，不得不提到 卷积算法的应用场景 与 使用图算法的数据特性。

(3.2.1) 图卷积基础知识准备

(1) 欧几里得数据和非欧几里得空间数据的概念

现实生活中有很多不规则的数据，例如在社交，电商，交通等领域中，用到的大都是实体之间的关系数据。这些数据通过庞大的结点和负责的交互关系，形成了特有的图结构，这种结构是非欧几里得空间数据。

这里我们需要区分下 欧几里得数据 和 非欧几里得空间数据的概念。

欧几里得数据：它是一类具有很好的平移不变性的数据。对于这类数据以其中一个像素为节点，其邻居节点的数量相同。所以可以很好的定义一个全局共享的卷积核来提取图像中相同的结构。常见这类数据有图像、语言等。

而 非欧几里得数据，它是一类不具有平移不变性的数据。这类数据以其中的一个为节点，其邻居节点的数量可能不同。常见这类数据有知识图谱、社交网络、化学分子结构等等。

当然，我们也可以用CV 中填充图片的 pading方法来对节点邻居进行填充，但是假如说每个节点都需要不同粒度的填充的话，那实际实现是基本不可行的, 并且也没必要。

这里我们可以看到：图并不像图像中有着固定的邻居，图像上的卷积方法并不能在图上直接套用。
现实中，算法工程师们的创新总是无穷无尽的。所以该问题就有了以下的解决思路：把非欧空间转换成欧式空间, 找出一种可处理变长邻居节点的卷积核。

(2) 图与拉普拉斯矩阵

拉普拉斯算子 是 n维欧式空间中的一个二阶算子，但如果将算子退化到离散二维图像空间，变成了 边缘检测算子。

拉普拉斯算子描述 中心像素与局部上下左右四邻居像素 的差异，这个性质可以用作图像上边缘检测算子。在图信号中，拉普拉斯算子也被用来描述中心节点与邻居节点之间的信号差异。

在N个节点的图G=(V,E) 中，拉普拉斯定义为 L= D – A 。其中D为图G的度对角矩阵，D = diag(d(v1),…d(vn))

A(G)=(aij)是图的邻接矩阵。拉普拉奇定义为：度对角矩阵减去邻接矩阵。

我们可以知道: 拉普拉斯矩阵含有图的结构信息，作用可以理解为把非欧几里得空间数据用可以类似于欧几里得空间的处理方法进行处理。

(3) 谱域卷积与空域卷积

传统意义上的 傅立叶变换 是 时域到频域 的变换，而这种变化是通过一组 特殊的正交基 实现。结合上文所说的拉普拉斯矩阵，我们用拉普拉斯矩阵表示图 , 它有一个很好的性质是：傅里叶变换需要基底ewit, 这个用拉普拉斯矩阵的特征分解函数就完成了两者的结合。

谱卷积神经网络 就是直接根据 全图傅立叶卷积定义 的，其有一个缺点就是难以从卷积形式中保证节点的信息更新由近处邻居贡献，即无法保证局部性，且训练计算度大。

这里，我们又要引入 切比雪夫网络 的概念，它与谱卷积神经网络最大的不同就是： 不需要在对拉普拉斯矩阵进行特征分解，不用做全图的卷积计算，而且它的卷积核具有严格的空间局部性，仅仅考虑了中心节点的K阶邻居作为邻域节点。

而下文要说到的 图卷积(CCN) 则是只考虑一阶切比雪夫多项式的算法。**空域卷积(spatial Convolution)**则是从邻居节点信息聚合的角度出发，更加关注节点的局域环境。

图卷积算法中，我们将 邻接矩阵 与 节点的特征向量 相乘，本身具有聚合邻居节点信息的属性，已经同时具有 空域与谱域 的意义。

(3.2.2) 图卷积介绍

书接上文，我们先来说说最简单的 图卷积网络(GCN）,

我们知道：空域卷积与卷积神经网络的设计理念相似，其核心在于聚合邻居节点的信息，直接将卷积操作定义在每个节点的链接关系上。

通俗点理解，GCN实际上跟CNN的作用一样，就是一个 特征提取器，只不过它的特征提取对象是图数据。

其中，D负责提供权值的矩阵，邻接A矩阵控制应该融合哪些点, H表示上一层的embedding参数。
当然，我们在训练完成模型之后，拿到embeding之后可以灵活运用，进行下游的分类和回归任务。

这里我们需要注意: GCN正常层数只需要2–5层即可。因为节点每更新一次，感受野就变大一些，如果网络太深，那么每个节点就会受无关节点的影响，有些节点的学习会有趋同的趋势，引起 过平滑 问题，导致最终目标效果反而下降。

(3.2.3) Graph Sage介绍

Graph Sage 全称为：Graph Sample And AGGregate, 就是 图采样与聚合。

在图神经网络中，节点扮演着样本的角色。

从前文我们已经了解到：在传统深度学习中，样本是 IID 的，这使得 损失可以拆分为独立的样本贡献，可以采用小批量的优化算法来并行处理总的损失函数。

但是图的样本之间是有着关系的，早期的GCN等网络都是采用全批次梯度下降方法进行训练，这种方式需要存储整个图的邻接矩阵。

2017 年提出的 Graph Sage 算法，基于GCN 邻居聚合的思想，但并不是把全部邻居聚合在内，而是聚合部分邻居，随机采样邻居K跳的节点。全邻居采样中给出了节点的抽取1跳和2跳的形式，而GraphSage只用抽取固定个数的近邻。如下图所示：

该算法的核心步骤是：Sample 和 Aggregate

sample : 采样，从内到外，选择固定个数的近邻，不够就重复采样

aggregate：聚合，从外到内 ，聚合被采样到的那些节点的embedding , 因为邻居节点也构成了一个embeding 序列，不光可以直接Sum求和，可以使用各种聚合方式，例如：max ,mean , lstm , transform 等。

注意： Graph Sage 算法本质上是 采样生成一个个小的子图 进行训练，局部更新，也可以对未出现节点的预测。

(3.2.4) 异构图的卷积(RGCN)

前文所说的GCN均是针对 同构图 的算法，而为了 捕捉不同节点的不同的关系 情况，工程师们又设计了基于异构图关系的卷积算法RGCN，全称是： Relation Graph Convolution Neural Networks。

其中：R 的个数也就是边类型的个数，论文中称为relation-specific。其区别在于RGCN中，通往一个节点的不同边可以代表不同的关系。

在普通的GCN中，所有边共享相同的权重W。在R-GCN中，不同类型的边只有同一种关系才会使用同一个权重。

在上面公式中，我们可以看到：公式使用了 权重矩阵用于融合异构图中节点不同的邻居关系 。既然邻居节点又很多，可以构成一个序列，那我们是否可以学习出 不同类型的邻居占据有不同的权重贡献程度 呢？类似于起到一个 Attention 的作用？这就与下文我们提到的 GAT算法 与 HAN算法 有关了。

(3.2.5) Attention相关算法 GAT 与 HAN

从上文我们可以知道： GCN 首次提出了 卷积的方式融合图结构 特征，提供一个全新的视角。

但是，它也有一些显而易见的主要缺点：

(1) 融合时 边权值固定 的，不够灵活。(2) 可扩展性差，因为它是全图卷积融合，全图做梯度更新，当图比较大时，这样的方式就太慢了，不合适。(3) 层数加深时，结果会 极容易过平滑 ，每个点的特征结果都十分相似。

针对上面提出的不足，GAT 可以解决问题1 ，GraphSAGE 可以解决问题2，DeepGCN等一系列文章则是为了缓解问题3做出了不懈努力。

首先说说GAT，我们知道 GCN每次做卷积时，边上的权重每次融合都是固定的，可以加个 Attention，让模型自己学习边的权重，这就是GAT网络了，下面是 核心Attention 的定义公式：

同理，HAN 针对异构图的不同类型权重融合进行了更进一步的精心设计，如下图所示：

从上图可以看到：HAN是一个 两层的attention架构，分别是 节点级别的attention 和 语义级别的attention。

前面我们已经介绍过 metapath 的概念，这里我们不在赘述，不明白的同学可以翻看本文章前面的内容。

Node Attention: 在同一个metapath的多个邻居上有不同的重要性。

Semantic Attention: 多个meta path有不同的重要性。

在进行 图传播计算 的过程中，首先 固定metapath的类别 Φi ，通过 节点级别的attention 将中心节点的基于 Φi 的邻居节点进行聚合，得到每个metapath的特征向量 ZΦi ，然后再通过 语义级别的attention 将特征向量 ZΦ 进行聚合，得到最终的特征向量 Z 。最后通过一个MLP得到这个节点的预测值 yi 。

(3.3) 图上消息传元语 MPNN

我们在实现图算法实现的时候，必不可少的就是要弄明白图上消息传播的计算逻辑，这里介绍一下 MPNN ，全称是：Massage Passing Neural Network 。

我们都知道 tensorflow 或则 pytorch 是 DNN深度学习框架，而实现 Graph Embeding 算法则需要使用 图深度学习/机器学习框架。基于 tensorflow 的图深度学习框架，这里推荐阿里巴巴 GraphLearn, 以前也叫AliGraph, 能够基于docker 进行环境搭建，容易上手。而基于 pytorch 的图深度学习框架，这里则推荐亚马逊的 DGL ( Deep Graph Library ), 其完善而又通俗易懂的中文官方文档，简直是我的最爱，强烈推荐！！！

后面我们的图机器学习/深度学习代码也基于 dgl 来实现。首先这的消息传递元语说明，也是基于dgl。

dgl的消息传递范式如下：

图上已经说的非常详细，我就不在赘述了。

同时，我们可以使用dgl的基础消息范式进行我们自己网络特征处理流程里消息传递过程的定义，举个栗子如下：

@ 欢迎关注微信公众号：算法全栈之路

def message_func(edges):
     return {'he': edges.src['hu'] + edges.dst['hv’]}

# 推荐: dgl.function.u_add_v('hu', 'hv', 'he')
def reduce_func(nodes):
     return {'h': torch.sum(nodes.mailbox['m'], dim=1)}
     
# 推荐：dgl.function.sum('m', ’h‘)
# 单独调用逐边计算:
graph.apply_edges(fn.u_add_v('el', 'er', 'e’))

# 综合函数,推荐:
graph.update_all(fn.u_mul_e('ft', 'a', 'm'), fn.sum('m', 'ft'))

如上文所示：Update_all() 参数是一个消息函数、一个聚合函数和一个更新函数。
更新函数update() 是一个可选择的参数，用户也可以不使用它，而是在 update_all 执行完后直接对节点特征进行操作。

由于更新函数通常可以用纯张量操作实现，所以DGL不推荐在 update_all 中指定更新函数。

到这里，一文揭开图机器学习的面纱，你确定不来看看吗 ? 的全文就写结束了，后面会针对更详细的图上任务结合进行讲解～

码字不易，觉得有收获就点赞、分享、再看三连吧~

算法全栈之路

你可能感兴趣的:(机器学习模型之理论与实践,人工智能,深度学习,算法)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
山东大学小树林支教调研团青青仓木队——翟晓楠山东大学青青仓木队
过了半年，又一次启程，又一次回到支教的初心之地。比起上一次的试探与不安，我更多了一丝稳重与熟练。心境、处境也都随着半个学期的过去而变得不同，半个学期中，身体上的，心理上的，太多的逆境让我变得步履维艰，曲曲折折，弯弯绕绕，我仿佛打不起精神，没有胃口，没有动力。感觉走的不顺畅的时候，支教这个旅程，给了我力量。自告奋勇承担起队长这一职务的我，从组织时的复杂和困难的经历，协调各种问题，从无到有，和校长和队
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟