Necther

转载 | 认知推理：从图表示学习和图神经网络的最新理论看AI的未来

近年来，图表示学习（Graph Embedding）和图神经网络（Graph Neural Network, GNN）成为网络数据分析与应用的热点研究问题，其特点是将深度神经网络技术用于网络结构的建模与计算，诞生了以 DeepWalk、LINE 和 node2vec 为代表的图表示学习技术，以 GCN 为代表的图神经网络，能够利用分布式表示方案实现对网络中的节点、边及其附带的标签、属性和文本等信息的建模，从而更好地利用网络结构进行精细建模和深度推理，相关技术已经被广泛用于数据挖掘、社会网络分析、推荐系统、自然语言处理、知识图谱等领域。

为了推进国内在该领域的发展，由中国中文信息学会社会媒体处理专委会和北京智源人工智能研究院联合主办的“图神经网络在线研讨会 2020”于 3 月 29 日下午召开，邀请了宋国杰、沈华伟、唐杰、石川四位国内著名学者介绍图表示学习和图神经网络的最新理论进展和应用探索。

清华大学计算机系教授、系副主任，中国中文信息学会社会媒体处理专委会常务副主任，智源研究院学术副院长唐杰老师进行了主题为“图表示学习和图神经网络的最新理论进展”的分享，主要介绍了图神经网络及其在认知推理方向的一些进展。

唐杰老师主要研究兴趣包括人工智能、认知图谱、数据挖掘、社交网络和机器学习，主持研发研究者社交网络挖掘系统 AMiner 等。

以下内容是根据唐杰老师的演讲进行的总结。本文分为引言、回顾网络表示学习、现在是GNN时代、GNN+推理会产生什么、GNN的挑战与未来五部分。

一、引言

我们正在经历第三次人工智能浪潮，世界上很多国家都推出了相应的战略和发展规划。但也有人说第三次人工智能浪潮已经接近尾声，马上就要到达“冰点”，第四次浪潮已经在酝酿之中。关于下一次浪潮的具体内容，今天暂时不做过多的讨论，我们先剖析一下这次浪潮的具体情况。

AI 这几年发展很快，其中一个重要原因是产业界的很多研究者、资源加入进来，一起推动 AI 的发展，如谷歌的 AlphaGo 和无人驾驶汽车。国内的相关企业也在蓬勃发展，从我的角度来说，我们做的事和硬件的关联没那么紧密，很多的是偏软件的东西，比如在图片识别过程中，我们更关注怎么将其中的语义信息抽取、识别出来，怎么把文本的语义信息和图片的语义信息混合起来做计算等。比如下图，通过将一张狗的图片减去关键词“dog”，再加上关键词“cat”，从而将猫的图片识别出来。

这就是一个典型的多媒体的数据，在两个方面怎么做处理是我们当下最关心的一些的问题。人工智能在这方面快速发展，总结一下：这个时代是一个感知的时代，AI 到目前为止基本上解决了所有的感知问题。如果回顾过去的话，会发现计算机主要是做一些存储和计算的工作；如果展望未来的话，我们想倡导的应该是在认知方面怎么把计算、推理做到神经网络中。

现在这个感知时代最大的特点是算法。下面这张图汇总了最近几十年 AI 算法的一些进展。

这张图最上面的浅紫色的部分大致梳理了卷积神经网络的发展历史。1953 年，感知机（Perceptron）被提出来。1986 年，多层感知机（Multi-Layer Perception，MLP）开始出现。1998 年，Yann Le Cun 提出手写字体识别模型 LeNet 及卷积神经网络（CNN），但是当时 CNN 并没有大规模被人关注，因为当时大火的支持向量机（SVM）压住了 CNN 的风头。直到 2012 年，Geoffrey Hinton 的学生在 LeNet 的基础上加上了 ReLU、Dropout 等内容，实现了 AlexNet，把 CNN 的效率大规模提高，才推动了这个方向的发展。

第二部分淡绿色部分的内容表示自编码（AutoEncoder），这部分不是今天的重点，不再展开。

第三层浅黄色的部分可以被称为循环神经网络（Recurrent Neural Network, RNN）的发展。放大来看，它的理论和上面的一样优美，它其实就是一个概率统计模型，即把神经网络用图的方式连接起来，虽然最早期的时候大家做的都是序列化的模型，如 RNN，或者是在语言模型（Language Model）上面做一些相关的工作，甚至是Seq2Seq，但是最近更多的工作是在图上，如唐建他们有一篇文章就是把图模型(Graphical Model)加上神经网络，一起连接起来，于是就变成一个基于图模型的神经网络(Graphical Model based Neural Network)。

如果结合最上面浅紫色的内容和浅黄色的内容，即把卷积神经网络加上图模型，这形成我们今天经常说的图神经网络的基本思想。

可以看出来，图神经网络有很长的历史，是一个非常简单的机器学习算法在图上的一个自然地延伸。为什么现在大家觉得图神经网络火得不行？好像所有的人都在研究图神经网络？也有些人说这个东西是简单地把某些东西用在另一个数据集上？其实机器学习所有的发展历史都有这样一个过程，它最早期都是从一个简单的单样本分析开始，然后逐步复杂化，最后再把样本与样本之间的关联关系考虑进来，如图神经网络就是用一个简单的思路把它结合起来。最早的线性条件随机场（Conditional Random field，CRF）、最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）等模型的思路都是在原来的思路上扩展的。GNN就是神经网络在图上的一个自然地延伸。当然，这一波自然延伸的结果是必然有下一波阶跃。如原来在图模型上有了 CRF、MEMM 以后，概率统计模型基本到了一个极致，后续延伸自然就到了下一个阶段。

最下面是一个强化学习（Reinforcement Learning），这里也不再多讲。

回到我们的背景。既然有 CNN、有大量网络化的数据，就可以做很多相关的研究。

首先，这些数据的规模非常大。如阿里巴巴、Facebook、新浪微博等积累了超大规模的社交网络数据，如果泛化来看，我们还有经济方面的网络（Economic networks）、生物医学方面的网络（Biomedical networks）……甚至还有大脑中神经元的网络（Networks of neurons），这里面有很多相关的应用，如果从机器学习的角度归纳一下相关的应用，可以发现以下几个核心的任务。

下面详细展开介绍一下。

（1）点分类，做一个点的表示，然后做预测它的类型是什么。

（2）两个点的链接生成，如两个点之间有没有可能生成一条边，或者再放大来看，看有没有可能找到一个子图，或者找网络相似度。这个方面在过去有很多相关的研究，今天我们会大概涉猎这些东西。这方面最早的研究可以追溯到 Geoffrey Hinton 研究的分布式表示（Distributed representation），但是这个概念在当时被 SVM 压制，一直没有火起来，直到 2013 年 Tomas Mikolov 提出了非常快速的算法 Word2vec，才迅速让深度学习算法在文本分析领域快速落地。到了 2014 年，Bryan Perozzi 很巧妙地将 Word2vec 直接用到了神经网络中，开启了在网络中做表示学习的浪潮，后来唐建、Yann Le Cun、Max Welling 等都做出了大量的工作，最后整个这方面的研究形成了我们今天看到的 GNN，如果放到更高的层面去看，就是网络表示学习这么一个领域。

二、回顾网络表示学习

首先回归一下网络表示学习。网络表示学习在本质上就是给定一个网络，我们要学习里面每一个节点在低维空间上的一个表示。我们希望当网络在低维空间时，如果两个节点之间的距离很近，它们就一定比较相似，如果它们不是同一个类型的节点，距离就应该比较远。

这个问题为什么比较难呢？这是因为：（1）如果我们用 CNN 或者相关的算法在图片上做学习，由于图片是典型的二维的、有上下之分，每个点上、下、前、后、左、右是什么很清楚，但是在网络中，它是一个复杂的拓扑结构，甚至没办法用上、下描述，只能用拓扑结构来说明，或者说两个节点的距离有多远，而没有一个严格的空间的概念。（2）节点之间没有文本那样的先后关系；（3）整个网络是非常动态的，并且可能有一些相关的信息、相关的属性。比如做一个人的行为分析的话，某个节点可能有很多的属性信息，还有很多网络结构的属性和信息，我们可以把网络结构的表示学出来，还可以把网络属性的表示学出来，这就有两种不同的表示。有时候人们可能还发出一些图片、语音等其他媒体的信息，怎么把这些表示都学出来非常困难。

最早在网络上做表示学习是把整个研究规约到一个很简单的 Word2vec 问题上，就是我说的 DeepWalk 的思路，即用 word2vec 的思路来做网络的表示学习。这个思路非常简单，即 word2vec 就是上下位，如果上下位相同的单词，他的意思就比较相似，于是学出来的表示也比较相似，如下图所示。

在网络表示学习中，DeepWalk 的思路是：既然节点没有先后关系，就做一个先后关系。从任意一个节点开始，在上面跑一个随机游走（Random Walk），跑完了以后可以形成了一个序列，形成一个和 DeepWalk 处理文本一样的上下位信息，于是 v1 这个节点就由 v3、v4、v5、v6 作为它的上下位，剩下给一个随机的低维表示，然后在上面进行 SkipGram with Hierarchical softmax 的一个学习，最后就可以得到一个希望的表示结果，如下图所示。

这里做 SkipGram with Hierarchical softmax 是为了提高计算速度，不再详细说明。最后的参数学习可以用一个基于梯度的学习很快做到。

这篇文章最初在当时并没有引起大规模的关注，但是它开启了一个在网络中做表示学习的新纪元。最初大家觉得在网络中做表示学习是一件很麻烦的事，后来发现神经网络可以用在网络中，可以学习每个节点的表示，并且学到的表示可能可以用于不同的网络，如 Blog Catalog，使得它的效果还不错。后来又试了其他的网络，如 Youtube 中的网络，发现效果也不错。后来就引起了大规模的相关的研究，讨论怎么来提高在网络上做表学习的效果。于是大家就分析 DeepWalk 的一些缺点。

首先它的上下文是固定的，而它的随机游走并没有考虑到网络的特性，于是后面一大堆的研究，如 LINE 等。下图中 5 和 6 这两个节点根据我们人的行为来看是很相似的。5 和 6 有四个相近节点（1、2、3、4），但是 6 和 7 是直连的。如果用刚才的 DeepWalk，即 RandomWalk 在上面随机游走，6 和 7 可能距离反而更近，它的相似度反而更高。

但是根据人的直觉，5 和 6 显然更相似，于是 LINE 就加上了一个二阶的相似度，有一阶有二阶。后来研究者又把它扩展到一个异构网络（PTE）上，即这个网络不是单纯的一个网络，而是一个异构网络。后来有人又给它加上了社交的属性（Social Information）。在 RandomWalk 中，左边三角形 x1vt 是一个闭合三角形，而右边是一个开合的三角形，开合的三角形和闭合的三角形的相似度或者 RandomWalk 的度应该不一样，于是就加上了这么一个 biased RandomWalk。把 Performance 在社交的数据又进一步提高。

刚才给大家讲了这么多 Natural in Bedding 的一些很基本的算法都是感知的，它们本质上到底是什么呢？沈华伟（中国科学院计算技术研究所研究员）老师讲的图神经网络给出了一个很好的解释，其实它们在本质上都是在做信通的处理。

通过数学分析我们发现最简单的网络表示学习在本质上都是在做一个矩阵分解，在做一个奇异值分解（SingularValueDecomposition，SVD），只是分解的形式不一样，如下图所示。DeepWalk 分解的是第 1 个式子，LINE 分解的是第 2 个式子，PTE 分解了一个异构的网络，node2vec 分解了一个更复杂的网络，因为它里面考虑到了三个节点形成的矩阵。

这样的话我们就可以把刚才给大家看的 DeepWalk 的过程给定网络，找到这种随机游走的 Context，然后再做 Skip Graphs，直接把这两步组合在一起就变成一个矩阵分解，通过这个矩阵分解可以直接得到最后的结果。这里面我们给出了一个严格的数学分析，最后就发现这个 DeepWalk 在本质上就在分析下图下方的东西。

更有意思的 LINE 也是在分解一个矩阵，而且这个矩阵和 DeepWalk 随机游走的矩阵比起来，两个式子非常相似，但又不一样。仔细看一下会发现，如果把 DeepWalk（其实就是 Windows Size，也就是我们的上下文的长度）设成 1，它在本质上一下子就等于 LINE 了。于是从这个角度上来说，LINE 就变成 DeepWalk 的一个特例。我刚才讲到 PTE 是把 LINE 扩展到了异构网络，从某种角度上来说，你把异构网络变成一个同构网络，变成一个超级大的同构网络。于是 PTE 又可以变成一个 LINE 的特例，从某种角度上来说，PTE 又变成了一个 DeepWalk 的一个特例。

此外，node2vec 是一个 Biased Random Walks。原来我们是说随机游走从u这个节点往任何节点的随机游走都是一样的，如下图所示。但是现在 node2vec 给出了另外一个思路：让宽度优先的随机游走，可能跟深度优先的随机游走的概率不要一样。或者简单说，闭合三角形跟开合三角形的随机游走的概率不一样，于是在本质上就相当于做了两件事：一个是 local 的随机游走，一个是 global 的随机游走。因为开合的它更容易游走到其他的那些子领域，你比如说左边是个子领域，右边是另一个子领域，于是它相当于开合的就游走到两个子领域里面去了，而闭合的就更容易在同样一个子领域里面流走。这就是 node2vec 很巧妙的地方。node2vec 的思路非常简单，优美的地方是我们同样可以通过一个数据分析，把它归约到一个矩阵分解上。

这样就把刚才的矩阵分解统一起来了。我们可以说所有的这种网络表示学习或者说很多表示学习算法都可以归约到一个简单的矩阵分解，或者说 SVD 的一个过程。

但是这样又出现了新的问题：我们现在怎么来做 GNN 或者图神经网络呢？毕竟在图神经网络中要结合网络化的信息，如刚才提到的网络表示学习结合的是一个上下文信息，用上下文信息做这种网络表示学习，怎么真的把这种网络结构化的信息利用上，而且要让他速度特别快呢?

我们首先做了一个很巧妙的事情，我们做了一个被称为 ProNE 的算法，如下图所示。

这个算法是什么呢？首先，构造一个非常稀疏的矩阵；然后，在这个稀疏矩阵里面用刚才的方法做一个矩阵分解，做一个 SVD 分解；最后，在 SVD 分解的基础上做普传播，也就是说我们来做传播，于是每一个节点传播的东西就变成了表示学习学到的结果，而不是传播本身。于是就相当于把表示学习学到的低维表示在图上做传播。

大家可以想象一下，如果我们做一个特别快速的 SVD 分解（如做一个线性的算法，基本做到点和边成线性关系），同时，把刚才学到的低维表示在所有的边上做传播，事实上跟这个边又呈线性关系，于是整个算法可以做成一个跟网络节点和边呈线性关系的一个算法，这样的话整个算法的模型会就可以做得非常快。有人提到说这个可能复杂度很高，对此我要再解释一下，如果我们做一个非常快速的 SVD 分解，我们可以做一个线性算法，比原来传统的 SVD 算法快两个数量级，它基本上是个线性关系。举一个例子。下图是我们跑出来的一个结果。我们是 ProNE 加上普传播得到的一个结果，可以看到结果比原来最快的LINE快一个数量级，比 node2vec 快两个数量级。而且我们最近还发现另外一个算法，它可以比原来 randomize 的 TSVD 分解还要再快一个数量级，甚至加上谱传播都可以比其他两个速度还要快。

而且在超大规模的网络中，比如说百万级的网络上，我们基本上几分钟就可以把它全部跑完，把网络表示的结果全部跑完。更有意思的是效果还可以做的非常好。大家可以看一下下面这个效果，我们基本上不用任何的普传播，只用 SMF 时，即只用稀疏矩阵分解的时候，就可以做到跟原来的算法得到的效果差不多。如果用了的话，就比原来的算法明显好得多。这样就很优美。我们可以在拥有上亿的点的图上，用单机花 29 个小时跑出一个结果，比原来的结果的精度还要好、速度还比较快。

以上就是快速回顾了一下网络表示学习的一些东西。这里主要是讲的 NetMF（也就是矩阵分解）及传播的一些东西，如下图所示。下图中间这一部分没有讲，大家有兴趣也可以去看一下。我们主要是把 NetMF 做了稀疏化，做了一个理论分析，给大家可以在理论上做了一个保证。

三、现在是 GNN 的时代

今天想跟大家分享一下更重要的是：现在其实是在一个 GNN 的时代。GNN 从 2017 年 Max Welling 的论文发表出来以后，已经越来越火，越来越多人提出了很多问题，说现在已经进入一个 GNN 的“坑”。那么，GNN 的本质是什么呢？核心、简单来讲，GNN希望把原来的浅层的这种网络变得更加深层。

这个问题现在其实是个悖论。首先，很多人说我们要把原来的 Shallow 的神经网络变成深度的神经网络，这样可能会提高效果，但是这导致了两个严重的问题。

第一个严重的问题是网络到底要多深才算深？比如说在网络中，假如我们真的做了很多深层次的话，如果每一次深层次的都是在做一个邻居节点的传播，这时候深层次、很深的网络会导致这个信息就扩散整个网络了，这个时候就导致一个过平滑（over-smooth）的问题，而不是过拟合 (Overfitting)。另外一个问题就是整个网络的深度学习假如都像刚才都是矩阵分解，如果没有一个非线性的变化，所有的矩阵分解就让它深度下去，它其实本质上还是一个矩阵分解。这个到底是怎么回事呢？我们在这里做一定的分析。在 GNN 中我们其实分解的就是下图这样一个简单的矩阵。这是一个邻接矩阵，H 是上一层的隐变量，W 是权重，激活函数是非线性的。其实之前有研究已经证明了，GCN 如果没有这个激活函数的话，整个 GCN 其实可以退化成一个非常简单的矩阵，而且效果还有可能更好。所以这也是一个悖论，等一下我们也在后面再探讨一下。

在探讨之前，我们先快速说明一下 GCN 的本质。GCN 的本质其实就是在一个网络中把邻居节点的表示信息放到自己当前节点上。比如说对于下图中 v 节点来讲，它有邻居节点 a、b、c、d、e，每一个节点可能都有一个表示（从 ha 到 he）。

怎么把邻居节点的引表示通过某种方法或某种函数（如 f 函数可能是线性变化，也可能是个非线性变化），把它 Aggregate 到当前节点，得到 hv。当然，从下图所示的内容里表示我们就可以看出一个结果：左边给出了一个在邻居节点身上做的卷积，得到对当前节点进行卷积的结果。

我们可以构造出一个加上了非线性的激活函数的函数，如下图所示。是权重，是邻居节点。是当前节点的表示， v 是当前节点，另外还有一个非线性的激活函数。

基于这样的思想，后来在最早的 GCN 相关的论文上也有很多的延续，如 GraphSage。GraphSage 的思想非常简单，它把原来单纯的当前节点和其他所有节点的聚合整合到一起了，变成当前节点的表示和其他所有节点的表示连接在一起，如下图所示。这样的话效果反而提高了。

这个思路后来又被 GAT 给打败了，GAT 是什么？我们现在 aggregate 的时候，也就是每个节点信息往中间节点传的时候，它的权重不一样。从 Social network 的角度来说，它的本质就是影响力不一样，就相当于某个节点对其他的不同的节点的影响是不一样的。怎么把这种影响力在网络中度量，是社交网络区别于其他很多网络一个非常重要的方面。当然，从数学上可以把 GCN 看作是下图上方的式子，而 GAT 是下图下方的式子，可以看到唯一的变化就是加上了一个 Attention 参数，这样的话可以看一些初步的结果，加上 Attention 参数的效果确实比原有算法的效果要好。

我们现在再次问自己一个问题：所有的这些卷积网络的本质是什么？刚才说了，网络表示学习的本质是一个矩阵分解，那卷积网络的本质是什么？而且卷积网络面临着很多问题，除了我们经常说的机器学习普遍存在的过拟合问题，这里还存在更重要的问题——过平滑及不健壮的问题。因为在网络中可能存在链接，甚至很多噪声链接，这些链接可能会大幅影响效果，这个时候该怎么办？

我们先来看一看下图的分析。GCN 每一层的传播在本质上都是一个矩阵分解，从前面的分析可以看到，对矩阵分解其实可以进一步做一定的分析，把矩阵分解变成一个信通问题。而借助信通的思路其实还有一个很有意思的扩展，我们可以把网络中的邻接矩阵 A 做一定的变换，我们可以在前面做一定的信通的变换，在后面也可以做信通的变换。这样的话整个网络其实可以变成一个 Signal Rescaling 的一个思路。

这样的好处是可以把原来的每一层都做一个矩阵分解直接变换成相关的一些变化，我们可以把网络中的节点的 status，或者网络中的影响力全部嵌入卷积神经网络。这样的话对每一层的卷积层都可以做一定的变换，它可以是多层的，甚至是可以做 Multi-head Propagation mechanism，还可以做 Multi-hop variants。如果我们去掉每一层的非线性函数，事实上 Multi-hop variants 就和单纯的 GCN 等价了。这样一个分析的思路就把前面所有的注意力机制，如 Node attention、Edge attention、K-hop edge attention 或 Path attention 全部归一化了起来。更优美的是基于这样的思想，其实我们在以后就可以不用研究刻意去研究 GCN 的这种结构、架构，而是去研究在 GCN 里的不同的操作。我们可以基于刚才的函数对里面的 P、Q 做变换，或者对 L 值直接做变换。这样的话我们就可以对整个 GCN 做三种操作：Rescale，Re-normalize、Propagate，如下图所示。

前面是前者，我们可以做加在 pre 上，也就是说我们在做拉普拉斯分解之前，可以先做一个 Rescale 把 P 升上去，也可以在做完拉普拉斯分解以后做 Re-normalize，还可以进一步再做一个 Post Propagation。于是我们自然就把 P、L、Q 给分解了。分解完了最大的好处是GCN就是一个简单的拉普拉斯矩阵的分解，而 GAT 既包括分解，也包括 normalization，还包括 Rescaling。而 ASGCN 同样可以被归约成一个 normalization，加上一个 propagation。大家可以看到这三个操作在不同的方法中，事实上都相当于这三个原子操作的一个组合。

我们还可以进一步看，GraphSAGE 就相当于构造了一个 L，它没有做 Rescaling，而是先做了一个 normalization，再做了一个 propagation。而 FastGCN 先做了 normalization，再做了一个 propagation，如下图所示。

甚至我们可以把所有的这些卷积网络的方法全部用 signal Rescaling 的方法把它统一起来，而统一的思想就是以上的三个操作，就用三个 operation 把所有的操作都给归一化起来，如下图所示。从这个角度上大家可以看到，在网络表示学习方面，我们把它归一化到矩阵分解，用矩阵分解把网络表示学习都给归一化起来了。而在卷积网络中或者是叫图神经网络（当然更多的是卷积网络）中，我们就用三个操作+矩阵分解，用矩阵分解把形式化统一，然后用三个操作把不同的方法全部给统一起来。于是这个时候我们有了一个统一的框架，基本上都是矩阵分解加不同的一个操作（这里更多的是 signal Rescaling）这么一个思路，再把它统一起来。

我们还做了一些实验。我们发现结果也比以前确实要好，如下图所示。

我们加上不同的操作以后，前面有 rescaling，post 叫 propagation，还有 normalization，我们用不同的操作加在上面可以组合成不同的方法。而这些不同的方法可以用一个 AutoML 的方法来做 Tune，这样就比原来归一化表示的其他方法的效果都要好。从效果上我们可以得到更好的一个结果。这样就可能解决“在数学上的分析很漂亮，我们都说是一个 signal Rescaling 的问题，但是我们怎么让结果真的比原来好很多，这个时候就有很大的一个麻烦”这个问题。关于这一部分的很多细节沈华伟老师讲了很多，所以我在这里跳过一些，有兴趣的可以查看相关的视频。

接下来我们来看一下最近的一些思路。最近大家都知道自然语言处理及很多其他领域中，预训练已经变成一个标配了，BERT 从 2018 年底出现到现在已经打败了很多相关的一些方法，甚至已经出现了关于 BERT 的一系列相关的方法（BERTology），如 XLNet, Roberta, ALBert, TinyBERT 等。在计算机视觉（CV）方向也有很多相关的研究，最近一个很重要的进展就是 Contrastive Learning，即利用无监督学习（Unsupervised Learning）的方法或者是一个非常简单的 Contrastive Learning 的思路来做的效果更好。MoCo 在 2019 年年底出来，基本上一下子就做到无监督学习的结果基本上就可以跟监督学习（Supervised learning）的结果差不了太多。后来 Geoffrey Hinton 团队的 SimCLR 又打败了 MoCo，最近 MoCo2 又把效果进一步提高，打败了 SimCLR。它们的核心思想都 Contrastive Learning，本质上都是在用 self learning 来做表示学习，类似于做一个预训练。

我认为这方面是一个可能的方向，未来在这方面可能会有一些发展。但是怎么跟网络化的数据、跟图挂钩，就是把图跟预训练挂钩，这方面其实还是一个很大的挑战。所以总体来讲，在 GNN 时代，如果光从算法的来考虑，我觉得值得考虑的其实有两大核心的挑战：（1）怎么把预训练思路，包括刚才的 Contrastive Learning 和图结合起来。其实现在还没有一个特别里程碑式的进展。（2）我们在这里面怎么解决它过平滑、过拟合、不健壮的问题。这几个问题怎么解决是很难的问题。

四、GNN+推理会产生什么

我们现在再来看一看 GNN 怎么和推理结合起来。说到推理，可能有些人说这个问题太大了，所以我们先从一个非常简单的问题（Multi-hop Question Answering，QA）来说。

这个问题是个自然语言处理的问题。假如我们要解决一个问题“找到一个 2003 年在洛杉矶的 Quality 咖啡馆拍过电影的导演（Who is the director of the 2003 film which has scenes in it filmed at The Quality Cafe in Los Angeles）”。如果是人来解决这个问题的话，可能是先追溯相关的文档，如 Quality 咖啡馆的介绍文档，洛杉矶的维基百科页面等，我们可能会从中找到相关的电影，如 Old School，在这个电影的介绍文档里面，我们可能会进一步找到该电影的导演 Todd Phillips，经过比对电影的拍摄时间 2003 年，最终确定答案是 Todd Phillips，具体流程如下图所示。

但是计算机会怎么做？计算机不像人，计算机没有这么聪明。如果我们用一个简单的方法，也就是说我们用卷积神经网络的方法来做的话，应该怎么做？我们可以用 BERT 或 XLNet，BERT 可以做到 512 的 Context 了，我们现在甚至可以做到 1024、2048 的 Context，当然训练要求就更高了，甚至没有足够的机器来完成。但是这里面核心的一个问题不是说它能不能解的问题（当然第 1 个方面是它能不能解），而是像人那样解决这个问题，即需要人的推理过程，但 BERT 可能根本就解决不了。

第 2 个更难的是缺乏知识层面上的一个推理能力，尤其是缺乏可解释性。我们到最后得到的一个可能的结果：BERT 给出了一个和真实结果比较相似的结果，说这就是答案，然后就结束了。要想完美解决这个问题，需要有一个推理路径或者一个子图，我们怎么在这方面来做这样的事情？这很难。怎么办呢？我们来看一看人的推理过程。人的推理过程是：人在拿到这个问题以后，首先可能找到 Quality 咖啡馆相关的文档，这是最好的一个文档（因为洛杉矶市的相关文档不是一个好的初始文档）。找到 Quality 咖啡馆相关的文档以后，我们可以从里面找到 old school 的相关文档，然后从 old school 的文档中可以找到 Todd Phillips。整个过程有好几个步骤，如下图所示。

我们怎么把步骤形式化成一个计算机或者说机器学习能做的事情就是我们下一步要探讨的。

我们把这个问题跟认知科学中的一个很重要的理论——双通道理论（Dual Process Theory）结合起来。为什么和双通道理论结合起来呢？人在做推理的时候，我们发现有两个系统：System 1 和 System 2。System 1 被叫作直觉系统，直觉系统是说给定某个关系以后，只要算出相似度，就立马把相似度给出来。比如当大家听到 3 月 29 号下午有一个图神经网络的研讨会时，大家觉得有兴趣，决定要听一下。System 2 会做进一步的推理、逻辑思考、决策。它可能会想下午还要带小孩出去玩，或者下午还有另外一门课，这个课不能翘，于是你最后说算了，下午不去了，最后你就不参加了。所以 System 2 它是带有逻辑思考的。

以上就是人思考问题的过程。AI 怎么跟人来结合？我们在去年探讨这个问题的时候，正好 Yoshua Bengio 他们也在聊这个问题，他在去年的 NIPS 上更直接地讲了：“深度学习应该直接从 System 1 做到 System 2。现在 System 1 主要是在做直觉式（Intuitive）的思考。而 System 2 应该做一些逻辑加上一些推理，再加上一些 planning 的思考”如下图所示。

他直接说的是说要做System 2的深度学习。我们当时其实还没有直接提 System 2 的深度学习。我们讲的是“机器学习跟人的逻辑思考，甚至加上常识知识图谱，两者结合起来”。在这个基础上，我们在去年其实跟 Yoshua Bengio 他们同时发了两篇文章。

我们当时做了什么？我们就用 System 1 来做知识扩展，来做直觉的知识扩展；用 System 2 来做决策，我们就把它叫作认知图谱（Cognitive Graph）。这个思想用刚才那个例子来说大概是下面这样。

首先，回到刚才那个问题，我们可以很快找到这个问题中的实体，这个很简单，可以用实体识别或者用自然语言处理做到。System 1 可以利用知识图谱或 BERT、通过 Quality 咖啡馆自动做扩展，如说我们可以找到old school和Gone in 60 seconds这两部电影。然后 System 2 在这上面来做决策。old school是我们要的答案吗？Gone in 60 seconds是我们要的答案吗？如果不是，System 2 就考虑要不要把信息回放到 System 1 中，给 System 1 做扩展。System 1 可能继续做扩展，比如old school是 Todd Phillips 导演的，System 2 对此进一步做决策说 Todd Phillips 就是要找的，于是分析就停止了。这就是一个基本的认知图谱的思想。

最后怎么实现呢？对于 System 1，我们刚才说做扩展，如果我们回到深度学习，这就跟 Yoshua Bengio 的思路基本上结合起来了。System 1 还可以用表示学习的各种方法，如可以用 BERT、ProNE、NetFM 甚至 DeepWalk 等方法。我们可以做一个简单的相似度的扩展，于是我们就有了 System 1。System 1 是做知识的扩展，System 2 是做决策和推理的。对 System 2 该怎处理呢？我们把 System 2 做成下图所示的样子。System 2 里面核心的东西有一个推理和决策功能，于是我们就用卷积神经网络或者图神经网络来实现。这里面相当于汇聚了所有的信息，它把 System 1 中的拿出来的各种信息汇聚过来，判断这个是不是我需要的答案，最后做决策。于是我们就把两个神经网络系统给整合到一起了，我们把它叫做认知图谱（Cognitive Graph）。

在具体实现方面，System 1 可以用 BERT 做几个 top-k 的 negative threshold 的相似度的查找，如下图所示。

找到以后，我们把它作为 Cognitive Graph 拿给 System 2 来做决策。System 2 就相当于做直接做一个 prediction，相当于学一个 prediction 的模型。用 GNN 直接来做预测。如果是答案就结束，如果不是答案，但是有用，就把它交给 System 1 来接着做。具体结构如下图所示。

以上就是一个基本的思后来我们在去年的时候去参加了 SQuAD 的 HotpotQA 的一个多跳的竞赛。就在这个竞赛中，当时我们一下子拿到了第 1 名，而且在第 1 名的位置上保持了三个月。大家可以看一下下图这个结果可以发现更有意思的事：CogQA（CogGraph）的结果比当时的 BERT 好 50%。CogQA 可以做到 49%，而当时的 BERT 在F1 值上最好的结果是 31%。更优美的是它给出了一个很强的可解释性，我前面介绍了可解释性非常重要，尤其是在多跳的情况下。首先，对多跳的效果的提升是很明显的，如 hop 跳得如果越高的话，即跳出越多的话，CogQA 的结果就明显的比原来的方法要好得多。其次，它的可解释性非常强。比如我给你一个答案，这个答案是 40，如下图左下角所示。这个事实大家可以看到，而我可以告诉你为什么能拿到 40。我是先找到这 Ken Pruitt，然后再找到 Florida Senate，最后找到 40。这里有一个可解释、可追溯的这么一个结果，一下就把可解释性大幅提高。它甚至可以从本质上帮助机器学习。

机器学习原来是依靠某个信息做预测，这个时候可能没有扩展的信息，而依靠认知图谱，可以用 system 1 扩展出来新的信息，如果拓展的信息精度不够高，还可以通过做一层推理给出更多的信息，这个时候机器学习系统可以结合更多的信息再来做预测，这可能又进一步提高了效果。当机器学习系统做了一个错误的预测以后，认知图谱还可以回溯错误是怎么产生的。这个方面有很多相关的应用。

有人可能会说，这个是不是只能做问答？不是的，它既可以做问答，也可以做知识图谱的补齐，下图左边是一个知识图谱，右边是基于刚才的模型来做知识图谱的一个补齐，这是一个基本的一个思路。

这就是认知图谱怎么和推理结合在一起。

五、GNN 的挑战与未来

未来我们有很多挑战，但是也有很多机遇。张钹院士在 2015 年提出人工智能基本上在做两件事。

第一件事：做知识的表示和知识的推理。其实知识表示和知识推理在 20 世纪 50 年代第一个人工智能时代就已经有了。当时的推理就已经很先进了。但是一直没有发展起来，一个原因就是规模小，另一个原因是固定、死板，不能自学习。这跟当时的计算机计算能力差、缺乏大规模的数据有关系。

第二件事：第二波人工智能浪潮的兴起是机器学习驱动的，第三波人工智能浪潮（也就是这一次人工智能浪潮）是依靠深度学习把整个基于学习的人工智能推向了一个顶峰，所以我说这是一个感知时代的顶峰。现在人工智能最大的问题缺乏可解释性，而且缺乏健壮性。我刚才讲了，存在一个噪声可能就会导致整个网络的表示学习的结果就不行了，甚至缺乏这种可信的结果和可扩展的结果。这些方面都需要我们做进一步的研究，所以当时张院士就提出要做第三代人工智能。DARPA 在 2017 年也做了 XAI 项目，提出一定要做可解释性的机器学习。

2018 年，清华大学正式提出第三代人工智能的理论框架体系：（1）建立可解释、健壮性的人工智能理论和方法。（2）发展安全、可靠、可信及可扩展的人工智能技术。（3）推动人工智能创新应用。

结合刚才讲到的内容，我认为：（1）数据和知识的融合是非常关键的，我们要考虑怎么把知识融合到数据里面。（2）我们怎么跟脑科学、脑启发、脑认知的方法结合起来。所以刚才我抛砖引玉给了一个思想，即我们用认知图谱这种思想，可能可以把人的常识知识和一些推理逻辑结合到深度学习中，甚至可以把一些知识的表示也结合到里面。这样的话“认知+推理”就是未来。这里面还有一个核心的基石：要建造万亿级的常识知识图谱，这是我们必须要做的。这里面路还非常远，我也非常欢迎大家一起加入来做这方面的研究和探讨。

这里面再次抛砖引玉，提一下几个相关的研究。（1）在推理方面有几个相关的工作，如 DeepMind 的 graph_net 就把关系融合到网络表示中，在网络表示学习中发挥一定的作用。（2）最近的一篇文章把知识图谱融合到了 BERT 中，这样的话知识图谱中就有了与 BERT 相关的一些东西，可以用这种知识图谱来帮助 BERT 的预训练。当然，我不是说它是最好的，但它们都提出了一个思路，讲到了怎么把表示学习和 GNN 结合起来，这是很重要的一些事情。

下图列出了一些相关的论文，还有一两篇是我们没有发表的文章，包括刚才说的 Signal Rescaling，其实我们在那篇文章里面做了很多数学分析。

总的来讲，未来的GNN一定是面向推理、面向认知的。我们在感知时代、网络时代里面做了很多网络表示，如 GCN、GNN 等，还有一些把知识结合了起来，但是下一步我们怎么做推理（reasoning）、规划（planning）、逻辑（logical）的这种表示，甚至人的这种表示？这是一个很大的问题。人工智能终极目的就是让计算机能够像人一样互相的表示，所以这也是未来非常重要的研究方向。

你可能感兴趣的:(人工智能,神经网络,学习)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发