GX_Liu

GraphSAGE论文总结及源码解读

论文总结

论文地址，源码
本文只对论文做简单的总结分析，不详细介绍，GraphSAGE(即SAmple and aggreGatE)的主要贡献是引入了Inductive和Sample。

Inductive：它把Aggregate function拆分出来，训练Aggregator让其学会聚合其邻居节点的feature，因此在训练时是看不到test节点的。而GCN采用全图的计算方式，学习到的参数很大程度是跟图结构有关，因此是transductive的（很大程度上是由于图拉普拉斯矩阵导致的。而GraphSAGE的聚合方式为：
$a_v^{(k)}=AGGREGATE(\{h_u^{(k-1)},u\in N(v)\})\\ h_v^{(k)}=\sigma(W^{(k)}[h_v^{(k-1)}||a_v^{(k)}])$ 可以看到它采用逐点计算方式，学习到的参数与图结构无关，因此可以处理新节点任务。
Sample：这篇论文的另一个亮点是对邻居进行了采样，采样思想也很简单。它主要是为了解决大图训练中内存溢出的问题，实际上这种采样比较繁琐（个人观点），在一些小图上时间反而比GCN还慢。这种方法的缺点是仍会造成内存溢出问题，例如计算第K层的一个顶点的embedding时需要第K-1层的邻居节点，同理计算第K-1层的邻居节点时又需要它在第K-2层的邻居节点，这种递归展开的现象称为neighborhood expansion problem，因此当GNN的层数很深时或节点的度很大时（节点的度符合幂律分布power-law distribution，即少数节点的度十分大）仍然会造成内存溢出。因此作者提出在抽样时固定邻居节点个数来缓解这个问题，假设一个batch的大小为b，为每个顶点固定抽样邻居的数量为r，GNN的层数为K，F为输入特征大小，其空间复杂度为 $O(br^KF+KF^2)$ ，其中 $br^K$ 代表一共需要用到的节点数（ $r^K$ 为递归邻域展开导致的）， $br^KF$ 为所有节点需要存储的embedding， $F^2$ 为K个聚合器参数 $W^{(k)}$ )的大小，这里假设了每一层的embedding都是F。

此外它还提出了3种聚合函数：Mean aggregator、Pooling aggregator、LSTM aggregator，值得一提的是，采样LSTM聚合方式更加复杂，所以有更强的表达能力，但实际上LSTM要求的是一种序列的输入，作者提出将邻居节点的特征向量随机排序得到一个序列并将其输入LSTM中，因此不同输入顺序会使得输出结果也不同，所以这种聚合器并不是对称的，也即不满足排列不变性permutation invariant，而Mean aggregator和Pooling aggregator都满足排列不变性，即改变输入节点的顺序，聚合函数的输出结果也不改变。

源码解读

GraphSAGE的源码中提供了两种训练方式的入口，supervised_train.py和unsupervised_train.py两种方式，本文只介绍有监督部分，本文从supervised_train.py开始逐步介绍GraphSAGE的思想，旨在讲懂代码中比较繁琐较难理解的地方并将其与论文中的公式对应，一些方法的使用示例会在代码中注释，文中只讲解重要的方法（其它细节可以参考另外一篇博客，这篇文章分析了无监督训练和一些其它方法，本文可以看作是它的补充，两篇文章一起读相信会起到更好的作用），希望对读者有所帮助。首先从下图大致明确代码的框架，各文件直接的调用层次。

从supervised_train.py的train()函数开始，假设数据已经加载，load_data的具体操作放在文末代码注释中，我们可以获得：G图结构，features每个节点的特征(已经标准化)，该例中ppi的特征大小是50，节点个数是14755，因此features的shape是(14755，50)，id_map是一个字典，对应了每个节点的编号，例如{‘1’:1}，表示节点’1’的编号是1，class_map是一个字典，对应了每个节点所属的类，表示为one-hot编码，ppi数据集一共有121类，因此每个节点对应一个121维的向量。

"""supervised_train.py """
G = train_data[0]
features = train_data[1]
id_map = train_data[2]  # 每个节点对应的编号
class_map = train_data[4]  # labels

为了实现mini-batch SGD，需要将节点划分，下面简单介绍一下minibatch.py

"""supervised_train.py """
minibatch = NodeMinibatchIterator(G,
                                  id_map,
                                  placeholders,
                                  class_map,
                                  num_classes,
                                  batch_size=FLAGS.batch_size,
                                  max_degree=FLAGS.max_degree,
                                  context_pairs=context_pairs)

进入minibatch.py，这个文件主要是实现mini-batch。这里讲一个比较重要的函数construct_adj，函数返回adj、deg，分别是邻接表以及每个顶点的度，adj的shape是(14757,128)，这里假设max_degree=128，即adj的每一行是每个顶点的128个邻居，如果顶点邻居不足128个则用有返回抽样补满128个，deg是14757大小的list，存储了每个节点在补齐邻居前实际邻居数。

"""minibatch.py """
def construct_adj(self):
    # len(self.id2idx) => 14756  max_degree => 128
    adj = len(self.id2idx)*np.ones((len(self.id2idx)+1, self.max_degree))
    """print(adj)
    >>> [[14756. 14756. 14756. ... 14756. 14756. 14756.]
            [14756. 14756. 14756. ... 14756. 14756. 14756.]
            [14756. 14756. 14756. ... 14756. 14756. 14756.]
            ...
            [14756. 14756. 14756. ... 14756. 14756. 14756.]
            [14756. 14756. 14756. ... 14756. 14756. 14756.]
            [14756. 14756. 14756. ... 14756. 14756. 14756.]] 
        adj.shape
    >>> (14757,128)  """
    deg = np.zeros((len(self.id2idx),))

    for nodeid in self.G.nodes():
        # 如果是test/val节点则循环下一个节点
        if self.G.node[nodeid]['test'] or self.G.node[nodeid]['val']:
            continue
        """ 获取nodeid的邻居集合 val/test节点不被包括在内
        neighbors = []
        for neighbor in self.G.neighbors(nodeid):
            if not self.G[nodeid][neighbor]['train_removed']:
                neighbors.append(self.id2idx[neighbor]) 
        neighbors=np.array(neighbors)"""
        neighbors = np.array([self.id2idx[neighbor]
                                for neighbor in self.G.neighbors(nodeid)
                                if (not self.G[nodeid][neighbor]['train_removed'])])
        deg[self.id2idx[nodeid]] = len(neighbors)  # nodeid的度
        if len(neighbors) == 0:
            continue
        """若度大于maxdegree 则无放回抽样max_degree个节点,否则有放回抽样max_degree个节点
        保证邻居个数相同. """
        if len(neighbors) > self.max_degree:
            neighbors = np.random.choice(
                neighbors, self.max_degree, replace=False)
        elif len(neighbors) < self.max_degree:
            neighbors = np.random.choice(
                neighbors, self.max_degree, replace=True)
        adj[self.id2idx[nodeid], :] = neighbors  # nodeid的邻居为neighbors
    """adj:第i行是顶点i的max_degree个邻居的编号 就是一个邻接表
        deg: 第i个元素是顶点i的度 """
    return adj, deg

我们只需知道上面是划分batch并且得到了邻接表adj和度deg，回到上一层supervised_train.py，假设使用graphsage_mean则进入第一个if，并且假设samples_1=25，samples_2=10。首先构造一个邻居采样器sampler(只是定义了，并没开始采样)，layer_infos是一个列表包含每一层的信息，列表中每个位置是一个自定义的元组，元组包含四个信息，每一层的名字、采样器、邻居采样个数(第一层是25，第二层是10)、输出维度。

"""supervised_train.py """
if FLAGS.model == 'graphsage_mean':
    # Create model
    sampler = UniformNeighborSampler(adj_info)
    """samples_1,2,3分别是三层GCN的采用个数,其中samples_3只有mean_model才有. """
    layer_infos = [SAGEInfo("node", sampler,
                            FLAGS.samples_1,  # 25
                            FLAGS.dim_1),
                   SAGEInfo("node", sampler,
                            FLAGS.samples_2,  # 10
                            FLAGS.dim_2)]

接下来看看采样器sampler是如何进行采样的，进入neigh_samplers.py，UniformNeighborSampler继承了Layer，因此只需要重新实现_call()函数即可，再进行采样时输入inputs，它包含两个元素，ids是需要进行邻居采样的节点编号，num_samples是这一层采样的邻居个数，具体如何操作看下面的注释应该十分清楚，最后返回adj_lists的shape是(需要采样的节点个数，num_samples)，每一行是每个节点采样得到的num_samples个邻居。

"""neigh_samplers.py """
def _call(self, inputs):
    """sample num_samples个节点邻居. ids是需要进行邻居采样的节点编号. """
    ids, num_samples = inputs
    """tf.nn.embedding_lookup: https://vimsky.com/article/4298.html
    embedding_lookup函数检索张量的行,类似于对numpy中的数组使用索引.
    ids是下标, 即取出adj_info中对应的行 即需要采样节点的邻接表. """
    adj_lists = tf.nn.embedding_lookup(self.adj_info, ids)
    """tf.random_shuffle: https://www.cnblogs.com/tsdblogs/p/10405030.html
    张量沿着维度0(按行打乱)重新打乱.
    例如,一个 3x2 张量可能出现的映射是:
        [[1, 2],       [[5, 6],
         [3, 4],  ==>   [1, 2],
         [5, 6]]        [3, 4]]
    这里要打乱邻居的顺序,即按列打乱,因此先transpose后再shuffle. """
    adj_lists = tf.transpose(tf.random_shuffle(tf.transpose(adj_lists)))
    """函数：tf.slice(inputs, begin, size, name)
    作用：从列表、数组、张量等对象中抽取一部分数据
    begin和size是两个多维列表,他们共同决定了要抽取的数据的开始和结束位置
    begin表示从inputs的哪几个维度上的哪个元素开始抽取 
    size表示在inputs的各个维度上抽取的元素个数
    若begin[]或size[]中出现-1,表示抽取对应维度上的所有元素.
    eg. 
    a = tf.constant([[1, 2, 3],
                     [4, 5, 6]])
    # 从第一个维度(行)的0开始,即第0行开始,第二个维度(列)的0开始,即第0列开始
    begin = [0, 0] 
    # 第一个维度划分大小为2,即两行,第二个维度划分大小为1 即1列
    size = [2, 1]
    print(tf.slice(a, begin, size))
    >>> [[1]
         [4]] """
    """这里即所有节点都被划分进来, 取前num_samples列,即num_samples个邻居. """
    adj_lists = tf.slice(adj_lists, [0, 0], [-1, num_samples])
    # shape(节点个数, num_samples)
    return adj_lists

回到supervised_train.py，接下来是构造模型

"""supervised_train.py """
model = SupervisedGraphsage(num_classes,
                            placeholders,
                            features,
                            adj_info,
                            minibatch.deg,
                            layer_infos,
                            model_size=FLAGS.model_size,
                            sigmoid_loss=FLAGS.sigmoid,
                            identity_dim=FLAGS.identity_dim,
                            logging=True)

进入supervised_models.py具体GNN模型如何构造。SupervisedGraphsage继承了SampleAndAggregate模型，往后我们会看SampleAndAggregate中的一些函数，有些函数在Supervise时是不会用到的就先不介绍了，以免太乱。下面是进行参数初始化，比较重要的是self.features，在网上看到了一个解释得比较好的图，贴在下面。另外一个是self.dims，它是一个list，长度比GNN层数多1，每个位置的值代表每一层的输入维度，例如self.dims[0]是features.shape[1],即输入特征的维度，在示例中GNN两层的output_dim都是128，因此self.dims=[50，128，128]。在初始化参数后self.build()进入了模型的构造。

"""supervised_models.py """
''' self.features: https://www.cnblogs.com/shiyublog/p/9879875.html
        para: features    tf.get_variable()-> identity features
           |                   |
        self.features     self.embeds   --> At least one is not None
            \                 /         --> Concat if both are not None 
             \               /
              \             /
               self.features
'''
# 构造self.features
if identity_dim > 0:
    self.embeds = tf.get_variable(
        "node_embeddings", [adj.get_shape().as_list()[0], identity_dim])
else:
    self.embeds = None
if features is None:
    if identity_dim == 0:
        raise Exception(
            "Must have a positive value for identity feature dimension if no input features given.")
    self.features = self.embeds
else:
    self.features = tf.Variable(tf.constant(
        features, dtype=tf.float32), trainable=False)
    if not self.embeds is None:
        self.features = tf.concat([self.embeds, self.features], axis=1)

self.dims = [
    (0 if features is None else features.shape[1]) + identity_dim]
self.dims.extend(
    [layer_infos[i].output_dim for i in range(len(layer_infos))])
self.build()

注意这里重写了SampleAndAggregate中的bulid()方法，所以我们只看这里的build()方法就好了，贸然去看SampleAndAggregate里的build()方法会有点懵。这里构造了GNN模型，首先是利用self.sample对self.inputs1(即需要嵌入的batch)进行邻居采样，也即调用了父类中的sample方法进行采样(等会会介绍)，采样结果samples1是一个list，长度是GNN层数加1，例如一个2层的GNN，则samples1[0]是需要嵌入的batch节点，samples1[1]是根据batch进行采样的邻居节点，samples1[2]是根据samples1[1]中节点进行采样的邻居节点，support_sizes1也是一个list，长度是GNN层数加1，它包含了每一个节点在每一层需要的邻居数(邻域扩张)，如果不懂没关系，下文讲sample函数是会详细介绍。num_samples是一个list，长度是GNN层数，例如对于2层GNN，num_samples =[25，10]，往下是根据采样得到的samples1等信息进行邻域聚合，聚合后得到batch中每个节点的嵌入self.outputs1，然后进行l2_normalize，最后再加一个全连接层(Dense)，输出维度是类标个数50，往后是loss等等一些不太重要的东西…

def build(self):
    """self.inputs1即需要嵌入的batch
    samples1[0]=self.inputs1 即最后一层需要嵌入的batch
    samples1[1]是根据batch采样的邻居 所以samples1是一个包含了每一层采样结果的list
    support_sizes1是一个包含了 `每一层与下一层累计的节点总数(由于邻域扩张,所以是乘以下一层)` 的list """
    samples1, support_sizes1 = self.sample(self.inputs1, self.layer_infos)
    
    """num_samples包含了每一层采样的邻居个数 """
    num_samples = [
        layer_info.num_samples for layer_info in self.layer_infos]
    self.outputs1, self.aggregators = self.aggregate(samples1,
                                                        [self.features],
                                                        self.dims,
                                                        num_samples,
                                                        support_sizes1,
                                                        concat=self.concat,
                                                        model_size=self.model_size)
    dim_mult = 2 if self.concat else 1

    self.outputs1 = tf.nn.l2_normalize(self.outputs1, 1)

    dim_mult = 2 if self.concat else 1
    # 最后再加一个全连接层
    self.node_pred = layers.Dense(dim_mult*self.dims[-1],
                                    self.num_classes,
                                    dropout=self.placeholders['dropout'],
                                    act=lambda x: x)
    # TF graph management
    self.node_preds = self.node_pred(self.outputs1)

    self._loss()
    grads_and_vars = self.optimizer.compute_gradients(self.loss)
    clipped_grads_and_vars = [(tf.clip_by_value(grad, -5.0, 5.0) if grad is not None else None, var)
                                for grad, var in grads_and_vars]
    self.grad, _ = clipped_grads_and_vars[0]
    self.opt_op = self.optimizer.apply_gradients(clipped_grads_and_vars)
    self.preds = self.predict()

接下来讲GraphSAGE核心的两个操作sample和aggregate函数。
首先是sample函数，进入父类中的sample函数，输入：

inputs：需要嵌入的batch节点编号
layer_infos：每一层的信息，实际会用到采样器、采样邻居数目两个重要信息

每一层的采样器用到neigh_samplers.py中UniformNeighborSampler的_call方法进行邻居采样，上面已经介绍了如何采样，sample函数返回samples, support_sizes，用一张图来解释这个采样过程。

"""models.py """
def sample(self, inputs, layer_infos, batch_size=None):
    """ Sample neighbors to be the supportive fields for multi-layer convolutions.
    Args:
        inputs: batch inputs
        batch_size: the number of inputs (different for batch inputs and negative samples).
    """
    """读懂这部分代码需要理解论文中算法2的采样思想, 它是递归采样的 即从最后一层开始根据inputs采样,
        第i-1层根据第i层采样到的节点进行采样. """

    if batch_size is None:
        batch_size = self.batch_size
    """inputs是需要嵌入的节点(batch) samples[i]是倒数第i层采样到的节点, samples[0]=inputs就是需要嵌入的节点."""
    samples = [inputs]
    # size of convolution support at each layer per node
    support_size = 1
    """support_sizes[i]是倒数第i层采样的节点个数 support_sizes[0]=1代表inputs不采样,是需要嵌入的一批节点"""
    support_sizes = [support_size]
    """len(layer_infos)=2 (2层GNN)
        layer_infos[t].num_samples 第t层每个节点采样的邻居数,不足的用放回抽样补齐.
        sampler第t层的邻居采样器, 注意samples和support_sizes的顺序和层数是逆序的关系
        samples[0]代表最后一层需要嵌入的batch节点. 所以这里是递归采样
        最先输入的samples[0]是需要嵌入的batch, layer_infos[1].num_samples是第二层需要采样的邻居节点数(10)
        得到的node是一个邻接表,shape是(batch_size,10),每一行代表batch中每个节点的邻居.
        随后将其reshape成1维添加到samples中,在下一层就对这些节点的邻居进行采样, 可以看到这是指数级放大的. """
    for k in range(len(layer_infos)):
        t = len(layer_infos) - k - 1
        support_size *= layer_infos[t].num_samples
        sampler = layer_infos[t].neigh_sampler
        node = sampler((samples[k], layer_infos[t].num_samples))
        samples.append(tf.reshape(node, [support_size * batch_size, ]))
        support_sizes.append(support_size)
    return samples, support_sizes

假设有如下图，橙色节点是当前需要嵌入的batch。

采样过程就是一颗递归树，见下图，假设每一层固定采样的邻居数目都是2，则batch中每一个节点需要support_sizes[1]=2个节点来获得其第一跳邻居的信息(即递归树的第二层)，需要support_sizes[2]=4个节点来获取其第二跳邻居的信息(即递归树的第三层)。如果看懂了这个过程应该就明白了GraphSAGE的递归采样思想，且应该能看懂以上代码了。

接下来是aggregate函数，输入

samples：采样得到的samples列表
input_features：输入特征
dims：列表，存储每一层的输入维度，长度是层数加1，例如[50，128，128]
num_samples：列表，存储每一层采样的邻居节点的数目，长度是层时，例如[25，10]
support_sizes：不太好解释是什么意思，看上面吧…

返回聚合结果hidden[0]是batch节点的嵌入向量，aggregators貌似没什么用。下面以2层GNN为例，首先划分每一跳节点的输入特征，得到hidden是一个列表，hidden[0]代表batch节点的输入特征，看下图的递归树应该就能明白。

"""models.py """
def aggregate(self, samples, input_features, dims, num_samples, support_sizes, batch_size=None,
                aggregators=None, name=None, concat=False, model_size="small"):
    # length: number of layers + 1
    """2层GNN, len(samples)=3
    hidden是一个列表, 列表中每一个元素是每一层节点的输入特征.
    hidden[0]对应samples[0]即batch的输入特征. 
    hidden[1]是根据batch采样的邻居节点的特征. """
    hidden = [tf.nn.embedding_lookup(
        input_features, node_samples) for node_samples in samples]

然后是构造聚合器，aggregator_cls是一个聚合器，例如MeanAggregator，如果是最后一层则不添加非线性函数。

for layer in range(len(num_samples)):
    dim_mult = 2 if concat and (layer != 0) else 1
    # aggregator at current layer
    if layer == len(num_samples) - 1:  # last layer
        aggregator = self.aggregator_cls(dim_mult*dims[layer], dims[layer+1], act=lambda x: x,
                                            dropout=self.placeholders['dropout'],
                                            name=name, concat=concat, model_size=model_size)
    else:
        aggregator = self.aggregator_cls(dim_mult*dims[layer], dims[layer+1],
                                            dropout=self.placeholders['dropout'],
                                            name=name, concat=concat, model_size=model_size)
    aggregators.append(aggregator)

接着上面构造好当前层的聚合器后进行邻域聚合，对于内层循环的解释在注释中详细分析了。

    # hidden representation at current layer for all support nodes that are various hops away
    next_hidden = []
    # as layer increases, the number of support nodes needed decreases
    """
    batch               1           2            3
    samples[1]       4    0       5    0      8    6
    samples[2]     1 0   2 3     2 2  6 8    3 6  7 0
    假设2层GNN,则len(num_samples)=2.假设concat=True
    layer=0时即第一层GNN, hop从[0,2): 
        hop=0时,batch的第一跳邻居将信息传递给batch,即hidden[0]和hidden[1]输入到aggregator中
        此时(按照PPT画的图)neigh_dims=(3,2,F1) 即3个batch节点每个batch节点有2个邻居向量(大小为F1)
        hop=1时,batch的第二跳邻居将信息传递给batch的第一跳邻居,即hidden[1]和hidden[2]输入到aggregator中
        此时neigh_dims=(3x2,2,F2)=(6,2,F2) 即3个batch节点的6邻居节点,每个节点有2个邻居向量(大小为F2)
        注意layer=0时,batch还没有获得第二跳邻居的信息.
        此时layer=0循环结束, hidden=next_hidden,每个节点更新了其第一跳邻居的信息
    layer=1时即第二层GNN, hop从[0,1):
        hop=0时,batch的第一跳邻居将信息传递给batch,即hidden[0]和hidden[1]输入到aggregator中
        neigh_dims同上(3,2,F1),此时hidden[0]包含了layer=0时第一跳的信息,
        hidden[1]则包含了batch的第二跳邻居的信息,聚合后batch就收集了第一跳邻居和第二跳邻居的信息了.
    最后hidden[0]就是收集了第一跳邻居和第二跳邻居信息的batch节点的向量,即batch的output """
    for hop in range(len(num_samples) - layer):
        dim_mult = 2 if concat and (layer != 0) else 1  # 第一层不需要concat
        neigh_dims = [batch_size * support_sizes[hop],
                        num_samples[len(num_samples) - hop - 1],
                        dim_mult*dims[layer]]
        """传给_call(inputs): hidden[hop]是self_vecs(batch), hidden[hop+1]是neigh_vecs(batch的邻居节点). """
        h = aggregator((hidden[hop],
                        tf.reshape(hidden[hop + 1], neigh_dims)))
        next_hidden.append(h)
    hidden = next_hidden

接着我们来简单看看聚合器是如何聚合的，以MeanAggregator为例，打开aggregators.py文件，我们只需关系_call()函数是如何实现的。inputs包含两个元素，self_vecs和neigh_vecs，self_vecs是中心节点的向量，neigh_vecs是它们的邻居节点向量，且是一个三维的tensor，假设中心节点数量是N，该层每个节点的采样邻居数是S，特征大小是F，则neigh_vecs的shape是(N，S，F)，即每个中心节点有S个邻居，每个邻居的向量大小是F，往下看代码就能理解了。

def _call(self, inputs):
    """self_vecs: h_v^(k-1) 
    neigh_vecs: h_u(k-1), u in N(v), 
    self_vecs是一个二维张量(supportsize*batchsize,F)
    neigh_vecs是一个三维张量(supportsize*batchsize,第i层采样邻居数目,F) 
    先对neigh_vecs求平均得到neigh_means=(supportsize*batchsize,F) 
    然后concat或add self_vecs,neigh_means """
    self_vecs, neigh_vecs = inputs

    neigh_vecs = tf.nn.dropout(neigh_vecs, 1-self.dropout)
    self_vecs = tf.nn.dropout(self_vecs, 1-self.dropout)

    """neigh_means是一个三维张量,看以下例子
    x = tf.Variable([
                    [[1, 2],
                     [1, 2]],
                    [[4, 5],
                     [4, 5]],
                    [[7, 8],
                     [7, 8]]], dtype=tf.float32)
    y = tf.reduce_mean(x, axis=1)
    print(y)
    >>> tf.Tensor([[1. 2.]
                   [4. 5.]
                   [7. 8.]], shape=(3, 2), dtype=float32)
    """
    neigh_means = tf.reduce_mean(
        neigh_vecs, axis=1)  # shape(supportsize*batchsize,F)

    # [nodes] x [out_dim]
    from_neighs = tf.matmul(neigh_means, self.vars['neigh_weights'])

    from_self = tf.matmul(self_vecs, self.vars["self_weights"])

    if not self.concat:
        output = tf.add_n([from_self, from_neighs])
    else:
        output = tf.concat([from_self, from_neighs], axis=1)

    # bias
    if self.bias:
        output += self.vars['bias']

    return self.act(output)

----------------------------------------------------------------------------------------------------------------------------------
以上是个人认为一些比较重要的方法，最后贴上load_data的注释。错误之处还请不吝指出。

def load_data(prefix, normalize=True, load_walks=False):
    """load graph.  ./example_data/toy-ppi """
    G_data = json.load(open(prefix + "-G.json"))
    # type(G): 
    G = json_graph.node_link_graph(G_data)
    # len(G.nodes()) => 14755
    """ print(G.nodes()[0])
    每个节点有4个属性 是否为test或val节点, feature, label是onehot    
    {'test': False, 
     'feature': [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0], 
     'val': False, 
     'label': [1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
               0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0]} 
    查看每个属性 
    print G.nodes()[0]['test'] 
    >>> False     """
    # 定义conversion函数(转换)
    if isinstance(G.nodes()[0], int):
        def conversion(n): return int(n)
    else:
        def conversion(n): return n
    """ type() 与 isinstance() 区别:
        type() 不会认为子类是一种父类类型 不考虑继承关系.
        isinstance() 会认为子类是一种父类类型 考虑继承关系.
        如果要判断两个类型是否相同推荐使用 isinstance()
        这里是进入else中.
    eg. a = {'1': 'a'}
        print(isinstance(a, int))
        >>> False """

    """load features. """
    if os.path.exists(prefix + "-feats.npy"):
        feats = np.load(prefix + "-feats.npy")  # shape (14755, 50)
    else:
        print("No features present.. Only identity features will be used.")
        feats = None
    """dict.items(): 返回一个列表,列表中每个元素是一个(键,值)元组
    dict = {'Google': 'www.google.com', 'Runoob': 'www.runoob.com', 'taobao': 'www.taobao.com'}
    print ("字典值 : %s" %  dict.items())
    >>> 字典值 : [('Google', 'www.google.com'), ('taobao', 'www.taobao.com'), ('Runoob', 'www.runoob.com')]
    #遍历字典列表
    for key,values in  dict.items():
        print (key,values) 
    >>> Google www.google.com
        taobao www.taobao.com
        Runoob www.runoob.com """
    id_map = json.load(open(prefix + "-id_map.json"))
    id_map = {conversion(k): int(v) for k, v in id_map.items()}
    """print id_map.items():
    [('0', 0), ('1', 1), ('2', 2), ('3', 3), ('4', 4),....]"""

    walks = []
    class_map = json.load(open(prefix + "-class_map.json"))
    """
    classmaps=list(class_map.values())
    print(len(classmaps), len(classmaps[0])) # 14755个节点的label 一共有121个类别(one-hot的维度) 
    >>> 14755 121  """
    if isinstance(list(class_map.values())[0], list):
        def lab_conversion(n): return n  # 进入这里
    else:
        def lab_conversion(n): return int(n)
    """items()返回(键,值)元组, k是键v是值 """
    class_map = {conversion(k): lab_conversion(v)
                 for k, v in class_map.items()}
    """print class_map.items()[0] # 节点id: [one-hot label]
    >>> ('0', [1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0,
               0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 
               0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 
               0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 
               0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 
               1, 1, 1, 1, 1, 0]) """

    # Remove all nodes that do not have val/test annotations
    # (necessary because of networkx weirdness with the Reddit data)
    """Reddit 数据中有些节点没有val/test标注 把这些节点移除.
    并不是移除val或test为False的节点 而是没有该属性的点"""
    broken_count = 0
    for node in G.nodes():
        if not 'val' in G.nodes[node] or not 'test' in G.nodes[node]:
            G.remove_node(node)
            broken_count += 1
    print("Removed {:d} nodes that lacked proper annotations due to networkx versioning issues".format(
        broken_count))

    # Make sure the graph has edge train_removed annotations
    # (some datasets might already have this..)
    print("Loaded data.. now preprocessing..")
    """对edge进行迭代 如果有一端为val或test 则该边标为tran_removed. 这是为了实现inductive."""
    for edge in G.edges():
        if (G.node[edge[0]]['val'] or G.node[edge[1]]['val'] or G.node[edge[0]]['test'] or G.node[edge[1]]['test']):
            G[edge[0]][edge[1]]['train_removed'] = True
        else:
            G[edge[0]][edge[1]]['train_removed'] = False

    if normalize and not feats is None:
        from sklearn.preprocessing import StandardScaler
        # 将val和test均为None的node选为训练集通过id_map获取其在feature表中的索引值 添加到train_ids数组中
        train_ids = np.array([id_map[n] for n in G.nodes(
        ) if not G.node[n]['val'] and not G.node[n]['test']])  # 获取训练节点(val test 为False)下标
        train_feats = feats[train_ids]
        scaler = StandardScaler()
        scaler.fit(train_feats)
        feats = scaler.transform(feats)

    """unsupervised_train """
    if load_walks:
        with open(prefix + "-walks.txt") as fp:
            for line in fp:
                walks.append(map(conversion, line.split()))

    return G, feats, id_map, walks, class_map

你可能感兴趣的:(图神经网络GNN)

图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
基于图神经网络的ALS候选药物预测模型设计与实现神经网络15044 MATLAB专栏神经网络深度学习神经网络人工智能深度学习机器学习
基于图神经网络的ALS候选药物预测模型设计与实现一、任务背景与意义肌萎缩侧索硬化症（ALS）是一种致命的神经退行性疾病，目前尚无有效治愈方法。传统药物发现流程耗时长、成本高，而人工智能技术为加速药物发现提供了新途径。本文设计并实现了一个基于图神经网络（GNN）的ALS候选药物预测模型，通过整合分子图结构信息和生物活性数据，实现对潜在治疗ALS化合物的高效筛选。二、系统架构设计
NeighborGeo：基于邻居的IP地理定位（一）路由跳变 IP geolocation tcp/ip 网络协议网络
NeighborGeo：基于neighbors的IP地理定位X.Wang,D.Zhao,X.Liu,Z.Zhang,T.Zhao,NeighborGeo:IPgeolocationbasedonneighbors,Comput.Netw.257(2025)110896,AbstractIP地址定位在网络安全、电子商务、社交媒体等领域至关重要。当前主流的图神经网络方法通过将IP定位任务重构为属性图中
百度7天GNN学习-图与图学习中静静喜欢大白 pgl
目录1链接预测分析图学习的主要任务链接预测（Linkprediction）1.相似度分数2.性能指标(Performancemetrics)完整代码输出2节点标记预测分析完整代码输出3图嵌入图嵌入（GraphEmbedding）1.节点嵌入(NodeEmbedding)2.边嵌入(EdgeEmbedding)3.图嵌入(GraphEmbedding)完整代码输出小结小结参考1链接预测分析图学习的
GNN多任务预测模型实现（二）：将EXCEL数据转换为图数据走的远一些神经网络知识分享知识备份人工智能深度学习
目录一.引言二.加载和检查数据三.提取特征和标签四.标准化特征五.构建节点索引六.构建边及其特征七.总结八.结语一.引言在图神经网络（GraphNeuralNetworks,GNNs）的多任务学习场景中，数据预处理是至关重要的一步。尤其是当我们的数据存储在表格格式（如Excel文件）中时，如何有效地将其转换为图数据格式，是搭建GNN模型的基础。二.加载和检查数据第一步是加载数据并检查其格式。我们通
顶会新方向！14篇图神经网络（GNN）最新顶会论文汇总！（含2024） AI科研技术派神经网络人工智能深度学习
图神经网络（GNN）是深度学习领域中备受关注的前沿课题，它在处理图结构数据方面展现出了强大的潜力，随着研究的不断深入，越来越多的优秀论文在顶级学术会议上涌现。今天就给大家整理了14篇顶会中发表的图神经网络优质论文，一起看看这方面的最新研究成果吧！AAAI20241、Fine-tuningGraphNeuralNetworksbyPreservingGraphGenerativePatterns通过
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
搜索领域知识图谱的知识推理算法研究搜索引擎技术知识图谱算法人工智能 ai
搜索领域知识图谱的知识推理算法研究关键词：知识图谱、知识推理、搜索算法、图神经网络、路径推理、规则推理、表示学习摘要：本文深入探讨搜索领域中知识图谱的知识推理算法。我们将从知识图谱的基本概念出发，分析不同类型的知识推理算法原理，包括基于规则的推理、基于表示的推理和基于路径的推理。通过实际案例和代码实现，展示这些算法如何提升搜索效果，最后讨论该领域的未来发展趋势和挑战。背景介绍目的和范围本文旨在系统
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
动态图神经网络在社交网络演化分析中的应用 AI大模型应用实战神经网络网络 php ai
动态图神经网络在社交网络演化分析中的应用关键词：动态图神经网络、社交网络演化分析、图深度学习、时间序列分析、网络动力学摘要：本文深入探讨了动态图神经网络在社交网络演化分析中的应用。首先介绍了相关背景知识，包括目的范围、预期读者等。接着详细阐述了核心概念，如动态图神经网络的原理和架构，并通过示意图和流程图进行直观展示。对核心算法原理进行了深入讲解，结合Python代码给出具体操作步骤。同时，介绍了相
AAAI2022国际顶会Workshop将会讨论些什么？ AINLPer 国际会议自然语言处理深度学习自然语言处理人工智能机器学习神经网络
来源:AINLPer微信公众号（每日论文干货分享！！）编辑:ShuYini校稿:ShuYini时间:2021-12-091、引言目前关于AAAI2022的论文List还没有贴出来，但是目前的WorkShop的日程已经出来了，今天整理了一下给大家分享。本次AAAI2022研讨会计划于2022年2月28日至3月1日，共有39个。其中在技术研究领域涉及：强化学习、图神经网络、交互式机器学习、模型
图神经网络(GNN)模型的基本原理 xiaocai_6666 神经网络人工智能深度学习
一、概述在人工智能领域，数据的多样性促使研究人员不断探索新的模型与算法。传统的神经网络在处理像图像、文本这类具有固定结构的数据时表现出色，但面对具有不规则拓扑结构的图数据，如社交网络、化学分子结构、知识图谱等，却显得力不从心。图神经网络（GraphNeuralNetworks,GNN）是一种直接在图结构数据上运行的神经网络，用于处理节点、边或整个图的特征信息。其核心思想是通过聚合邻域节点的
《A Gentle Introduction to Graph Neural Networks》欧先生^_^ 人工智能
这篇《AGentleIntroductiontoGraphNeuralNetworks》是一篇非常经典且对新手友好的图神经网络入门文章。我将为你深入浅出地解读它的核心思想、关键概念和重要性。这篇论文（更像是一篇博客文章或教程）的主要目的不是提出新的模型，而是系统性地、直观地解释GNN到底是什么，为什么需要它，以及它是如何工作的。我会将解读分为以下几个部分：核心动机：为什么我们需要GNN？核心思想：
图注意力卷积神经网络GAT在无线通信网络拓扑推理中的应用 zzc921 无线通信网络拓扑推理 cnn 人工智能神经网络无线通信网络拓扑推理 WCNA GCN GAT
如果已经编写好了GCN的程序，改写GAT的程序是很方便的，torch_geometric.nn下既有一般图神经网络GCNConv包,也有图注意力神经网络GATConv包程序：#作者：zhouzhichao#创建时间：25年6月10日#内容：比较GAT和GCN在无线通信网络拓扑推理中的效果importwarningswarnings.simplefilter(action='ignore',cate
AI推荐系统演进史：从协同过滤到图神经网络与强化学习的融合万米商云人工智能神经网络深度学习
每一次滑动手机屏幕，电商平台向你推荐心仪商品的背后，是超过百亿量级的浮点运算。从早期的“猜你喜欢”到如今的“比你更懂你”，商品推荐引擎已悄然完成从简单规则到深度智能的技术跃迁。一、协同过滤：推荐系统的基石与演进协同过滤（CollaborativeFiltering）作为推荐系统的“古典方法”，其核心思想朴素却有力：相似的人喜欢相似的东西。早期的矩阵分解技术（如2009年的SVD算法）将用户-物品交
深度解析六大AI爬虫工具：crawl4ai、FireCrawl、Scrapegraph-ai、Jina、SearXNG、Tavily技术对比与实战指南
一、引言在AI大模型时代，数据获取与处理是构建智能应用的核心环节。传统爬虫面临技术门槛高、反爬应对复杂、动态内容处理困难等挑战，而AI驱动的爬虫工具通过融合大语言模型（LLM）、图神经网络、自动化解析等技术，正在重塑数据抓取范式。本文将深度测评6款主流AI爬虫工具，从技术原理、核心功能、实战场景到性能对比，为开发者提供一站式选型指南。二、六大AI爬虫工具深度解析1.FireCrawl：LLM就绪数
基于图神经网络的自然语言处理：融合LangGraph与大型概念模型的情感分析实践人工智能深度学习llm神经网络
在企业数字化转型进程中，非结构化文本数据的处理与分析已成为核心技术挑战。传统自然语言处理方法在处理客户反馈、社交媒体内容和内部文档等复杂数据集时，往往难以有效捕获文本间的深层语义关联和结构化关系。大型概念模型（LargeConceptModels,LCMs）与图神经网络的融合为这一挑战提供了创新解决方案，通过构建基于LangGraph的混合符号-语义处理管道，实现了更精准的情感分析、实体识别和主题
论文研读 | 解耦动态时空图神经网络交通预测时空大数据小组深度学习交通物流时序数据库
DecoupledDynamicSpatial-TemporalGraphNeuralNetworkforTrafficForecasting本文是由中科院大学2022年发表于VLDB会议的一篇文章，作者创新地提出了一种解耦时空框架——DSTF，提升了模型在交通流预测任务中的性能，并在两个真实数据集上进行了验证。作者通过将先验知识融合进模型结构中，从而提升模型性能的思路值得借鉴，以下对论文进行分享
【时空图神经网络 & 交通】相关模型2：STSGCN | 时空同步图卷积网络 | 空间相关性，时间相关性，空间-时间异质性追光者♂ 百题千解计划(项目实战案例）STSGCN 空间-时间同步图卷积模块 STSGCM 深度学习人工智能 Traffic 空间-时间异质性
注：仅学习使用~前情提要：【时空图神经网络&交通】相关模型1：STGCN|完全卷积结构，高效的图卷积近似，瓶颈策略|时间门控卷积层：GLU（GatedLinearUnit），一种特殊的非线性门控单元目录STSGCN-2020年1.1背景1.2模型1.2.1问题背景：现有模型存在的问题1.2.2模型1.3问答Q1：STSGCM补充：构造局部时空图的方式（LocalizedSpatial-Tempor
一文解析13大神经网络算法模型架构攻城狮7号 AI前沿技术要闻深度学习神经网络人工智能机器学习
目录一、引言：神经网络的演进脉络二、基础架构：深度学习的基石2.1人工神经网络（ANN）2.2深度神经网络（DNN）三、专项任务架构：领域定制化突破3.1卷积神经网络（CNN）3.2循环神经网络（RNN）3.3图神经网络（GNN）四、生成模型：从数据到创造4.1生成对抗网络（GAN）4.2变分自编码器（VAE）4.3扩散模型（DiffusionModels）五、现代架构：大模型的核心引擎5.1Tr
基于知识图谱的智能推荐系统实现 AGI大模型与大数据研究院 AI大模型应用开发实战知识图谱人工智能 ai
基于知识图谱的智能推荐系统实现：从"猜你喜欢"到"懂你所想"的进化之旅关键词：知识图谱、智能推荐系统、实体关系、冷启动、可解释性、图神经网络、路径排序算法摘要：你是否好奇过，为什么电商平台总能精准推荐你想买的商品？为什么视频软件总能猜到你喜欢的剧情？传统推荐系统依赖用户行为数据，但面对新用户/新商品时会"抓瞎"，且无法解释"为什么推荐这个"。本文将带你走进"基于知识图谱的智能推荐系统"，用超市导购
探讨推荐系统中的上下文关联性的建模和建模方法——从信息处理的角度 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介在很多推荐系统中，如电影推荐、购物推荐等，根据用户的行为记录、设备信息、上下文环境等进行推荐是很重要的。在复杂多样的推荐场景下，如何同时考虑用户对不同时间段的兴趣以及上下文环境之间的关联性？如何捕获到用户当前的多维信息，而不仅仅局限于单一的主题或品牌？此次论文通过结合时间因素、图神经网络（GraphNeuralNetwork）及上下文关联性，提出一种基于上下文环
十大机器学习算法：理论与实战 Android洋芋人工智能机器学习算法深度学习实战 Kubernetes部署 AI模型优化图神经网络决策树分析
简介机器学习技术持续演进，算法应用场景不断扩展。在众多算法中，有十种算法因其广泛的适用性和强大的表现力被公认为机器学习领域的核心力量。本文将从零开始，系统讲解这些算法的数学原理、应用场景和企业级开发实战，帮助初学者和工程师快速掌握这些算法，并能够将其应用于实际项目中。关键词：机器学习算法、集成学习、图神经网络、逻辑回归、决策树、支持向量机、KNN、k-means、PCA、强化学习一、集成学习算法（
基于连接感知的实时困倦分类图神经网络是Dream呀计算机视觉神经网络分类神经网络数据挖掘
疲劳驾驶是导致交通事故的主要原因之一。脑电图(EEG)是一种直接从大脑活动中检测睡意的方法，已广泛用于实时检测驾驶员的睡意。最近的研究表明，使用基于脑电图数据构建的大脑连接图来预测困倦状态的巨大潜力。然而，传统的脑连接网络与下游预测任务无关。本文提出了一种使用自注意机制的连接感知图神经网络(CAGNN)，该网络可以通过端到端训练生成与任务相关的连接网络。研究方法研究方法基于实时监测驾驶员的脑电活动
【人工智能】图神经网络（GNN）的推理方法 meisongqing 人工智能神经网络
图神经网络（GNN）的推理方法是指利用训练好的模型对图结构数据（如节点、边或整个图）进行预测或决策的过程。其核心在于如何通过图的拓扑结构和节点/边特征，传播和聚合信息以实现目标任务的推理。以下是GNN的主要推理方法分类及其关键技术：1.按推理任务分类(1)节点级推理（Node-LevelInference）任务：预测单个节点的属性（如节点分类、回归）。方法：消息传递（MessagePassing）
图神经网络实战（3）——基于DeepWalk创建节点表示盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战（3）——基于DeepWalk创建节点表示0.前言1.Word2Vec1.1CBOW与skip-gram1.2构建skip-gram模型1.3skip-gram模型1.4实现Word2Vec模型2.DeepWalk和随机行走3.实现DeepWalk小结系列链接0.前言DeepWalk是机器学习(machinelearning,ML)技术在图数据中的成功应用之一，其引入了嵌入等重要概念
Dijkstra算法对比图神经网络（GNN）爱吃青菜的大力水手算法神经网络人工智能自动化调度算法机器学习
什么是AI模型？AI模型（人工智能模型）是一类模仿人类智能行为的数学模型或算法。它们通过从大量数据中学习，识别模式、做出预测或决策。常见的AI模型包括机器学习模型（如决策树、神经网络、支持向量机）和深度学习模型（如卷积神经网络CNN、循环神经网络RNN）。简单来说，AI模型就像一个“智能大脑”，通过训练数据来掌握某种技能，比如分类、预测或规划。AI模型如何使用到机器人调度算法中？机器人调度是指规划
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f