wufeil

图神经网络预训练 (4) - 节点属性预测 Attribute Prediction + 监督学习代码

我们继续剖析Strategies for Pre-training Graph Neural Networks一文。

上一文中介绍了子结构预测的预训练方法（Context Prediction）。对于一个多层的深度学习模型，在分子图上训练主模型，在子图上训练层数较少的子模型，限制（损失是）主模型上与子模型的嵌入向量相似，保证子结构环境相似的节点在随着模型的层数增加时仍能保持相似的嵌入向量，意味着化学环境相似的结构具有相似的嵌入向量，即模型学会了分子图的子结构。由此，该多层深度学习模型具有更好的泛化能力。

接下来，介绍另一种节点层面的预训练方法，节点属性预测的预训练方法（Attribute Prediction）及其随后的监督学习部分。代码下载，请见文末。

一、Attribute prediction预训练介绍

属性掩码的示意图如下：

主要思路是：希望深度模型根据不同节点类型给出不同的节点嵌入向量（表示），即模型能学习到节点信息。

这就避免了：模型为了完成某一图层面的任务，完全不考虑节点之间差别，让性质完全不同的两个节点都表示成相似的向量，在另外一个图层面的任务上，该训练好模型，实际上是没有意义的，甚至起反效果。更不要提，在任务过程中，节点嵌入向量的有效性、重要性、解释性等。

具体流程：

（1）首先，将所有分子由SMILES转化成图，获得每个节点的特征和边的特征，包括，原子的类型和边的类型，同时随机选择一些节点及其相邻的边进行mask，属性值都归置为0，这些被mask的节点和边称之为mask节点/边；

（2）然后，通过一个图神经网络模型model，例如GAT，输入的分子每一个节点的属性嵌入embeding，生成每一个节点的特征，特征向量维度为：embeding_dim；

（3）将mask节点/边的特征，输入到一个简单的线性层linear_pred_node_model，linear_pred_edge_model分别去预测被掩盖节点、边的类型。

（4）由于线性层linear_pred_node_model非常简单，所以模型训练的时候，关于节点类型的预测的损失，都是来自于深度学习模型本身，使深度学习模型要对不同类型的节点输出不同的嵌入向量。

这样子模型就学会了节点层面上表征，具有更好的泛化能力。

损失函数：

linear_pred_node_model，linear_pred_edge_model预测的节点和边的类型与真实节点/边的类型的交叉熵

难点：

在由随机mask的情况下，在批次中，知道哪些些原子被mask，哪些边被mask，同时记录他们的原来的真实的类型。原来真实的类型作为模型的标签，用于计算损失。

注意：

图神经网络模型model可以是GAT，也可以是Transformer等其他模型

源代码中有很多其他的数据集，例如BBBP等，为了简单起见，这里仅仅使用zinc数据集。

由于，attribute prediction与context prediction有较多的模块可以共用，都在context prediction中已经介绍过了。这里直接挑重点来介绍。

二、数据预处理

使用MoleculeDataset类加载zinc数据集，每一个分子都生成PYG的Data类型，组成Dataset，并使用MaskAtom类对每一个分子的Data进行掩码转化。掩码转化指的是，掩盖部分的节点和相应边的特征，指定为新的类型，并记录原来真实的类型的过程。

dataset = MoleculeDataset(root="zinc_standard_agent", dataset='zinc_standard_agent',
                          transform = MaskAtom(num_atom_type = 119, 
                                        num_edge_type = 4, mask_rate = 0.2,
                                        mask_edge=True))

注意，zinc数据集名称为zinc_standard_agent，保存在dataset/zinc_standard_agent/raw目录下。根据MoleculeDataset的要求，zinc数据集为压缩格式(.csv.gz)。运行完以后，会自动生成processed目录及其内容。再次运行上述部分时，会自动跳过，而直接调取*.pt文件。这一点要注意，如果你是直接从context prediction部分的dataset直接迁移过来，要删除*.pt文件，要不会报错的。dataset文件目录如下：

关于MaskAtom类要注意，比较关键，类似于context prediction中ExtractSubstructureContextPair类，不同的是，MaskAtom类是对于一个分子图，随机的掩盖部分的节点及其相连接的边，且记录真实节点和边的属性。属性主要是类别。

主要体现在对边和节点的处理上。对mask的节点和边：

for atom_idx in masked_atom_indices:
            mask_node_labels_list.append(data.x[atom_idx].view(1, -1))
        data.mask_node_label = torch.cat(mask_node_labels_list, dim=0) # 被mask节点的特征，即标签
        data.masked_atom_indices = torch.tensor(masked_atom_indices) # 被mask的节点序号

for bond_idx in connected_edge_indices:
                    data.edge_attr[bond_idx] = torch.tensor(
                        [self.num_edge_type, 0]) # 被mask边的特征修改成特定类型
 
                data.connected_edge_indices = torch.tensor(
                    connected_edge_indices[::2]) #被mask边的序号

MaskAtom类代码如下。注意我们将masking的节点和边，算作是另一种类别，而不是简单的所有特征置0。

class MaskAtom:
    def __init__(self, num_atom_type, num_edge_type, mask_rate, mask_edge=True):
        """
        :param num_atom_type: 原子类型个数
        :param num_edge_type: 边类型个数
        :param mask_rate: % of atoms to be masked 随机mask的比例
        :param mask_edge: If True, also mask the edges that connect to the 是否mask边
        masked atoms
        """
        self.num_atom_type = num_atom_type
        self.num_edge_type = num_edge_type
        self.mask_rate = mask_rate
        self.mask_edge = mask_edge

    def __call__(self, data, masked_atom_indices=None):
        """
        生成的是图层面的属性
        data.mask_node_idx 被mask的节点序号
        data.mask_node_label 被mask节点的特征，即标签
        data.mask_edge_idx 被mask边，与mask节点相连
        data.mask_edge_label 被mask边的特征
        """

        if masked_atom_indices == None:
            num_atoms = data.x.size()[0]
            sample_size = int(num_atoms * self.mask_rate + 1)
            masked_atom_indices = random.sample(range(num_atoms), sample_size) #随机抽取mask节点的序号
        mask_node_labels_list = []
        for atom_idx in masked_atom_indices:
            mask_node_labels_list.append(data.x[atom_idx].view(1, -1))
        data.mask_node_label = torch.cat(mask_node_labels_list, dim=0) # 被mask节点的特征，即标签
        data.masked_atom_indices = torch.tensor(masked_atom_indices) # 被mask的节点序号

        for atom_idx in masked_atom_indices:
            data.x[atom_idx] = torch.tensor([self.num_atom_type, 0]) #把mask节点的特征改为特定类型

        if self.mask_edge:
            connected_edge_indices = []
            for bond_idx, (u, v) in enumerate(data.edge_index.cpu().numpy().T):
                for atom_idx in masked_atom_indices:
                    if atom_idx in set((u, v)) and \
                        bond_idx not in connected_edge_indices:
                        connected_edge_indices.append(bond_idx) #记录与mask节点相邻的边

            if len(connected_edge_indices) > 0:
                mask_edge_labels_list = []
                for bond_idx in connected_edge_indices[::2]:
                    mask_edge_labels_list.append(
                        data.edge_attr[bond_idx].view(1, -1))

                data.mask_edge_label = torch.cat(mask_edge_labels_list, dim=0) #被mask边的特征/标签
                for bond_idx in connected_edge_indices:
                    data.edge_attr[bond_idx] = torch.tensor(
                        [self.num_edge_type, 0]) # 被mask边的特征修改成特定类型

                data.connected_edge_indices = torch.tensor(
                    connected_edge_indices[::2]) #被mask边的序号
            else:
                #如果没有mask的边，例如mask的节点是单节点，没有边就会出现这个情况
                data.mask_edge_label = torch.empty((0, 2)).to(torch.int64)
                data.connected_edge_indices = torch.tensor(
                    connected_edge_indices).to(torch.int64)
        return data

    def __repr__(self):
        return '{}(num_atom_type={}, num_edge_type={}, mask_rate={}, mask_edge={})'.format(
            self.__class__.__name__, self.num_atom_type, self.num_edge_type,
            self.mask_rate, self.mask_edge)

三、数据加载器

生词批次数据的难点在于，分子图中的mask_edge_label、mask_node_label两个标签，以及标签的位置索引masked_atom_indices和connected_edge_indices。

特别是后面两个标签位置索引。每个分子，被掩盖的原子和边数量不同，所以长度不一。然后，两个标签位置索引是数字，当分子图组成批次以后，原子的坐标被从新编码，所以原来的两个标签位置索引需要重新标记。

所以，需要专门有一个类，来处理。

loader = DataLoaderMasking(
    dataset, batch_size=64, 
    shuffle=True, num_workers = 6) #加载数据集成dataloader,带批次

这里用的是DataLoaderMasking继承于torch.utils.data.DataLoader，如下：

class DataLoaderMasking(torch.utils.data.DataLoader):
    """
    将PYG的数据类型的一个个分子组装成dataloader,生成批次数据，
    主要利用BatchMasking进行
    """
    def __init__(self, dataset, batch_size=1, shuffle=True, **kwargs):
        super(DataLoaderMasking, self).__init__(
            dataset,
            batch_size,
            shuffle,
            collate_fn = lambda data_list: BatchMasking.from_data_list(data_list),
            **kwargs)

在DataLoaderMasking中，使用BatchMasking函数/类，实现对pyg分子图（小图）组成的list，加载成为批次（大图）。重点在于，于索引相关的特征，都要加上cumsum_node 或cumsum_edge 累计数值。如果是，与索引无关的，则不需要，直接叠加即可。其实就是为了处理：'edge_index', 'face', 'masked_atom_indices', 'connected_edge_indices'几个与索引相关的特征。如下：

class BatchMasking(Data):

    def __init__(self, batch=None, **kwargs):
        super(BatchMasking, self).__init__(**kwargs)
        self.batch = batch

    @staticmethod
    def from_data_list(data_list):
        
        keys = [set(data.keys) for data in data_list]
        keys = list(set.union(*keys)) #每一张图的属性
        assert 'batch' not in keys

        batch = BatchMasking()

        for key in keys:
            batch[key] = []
        #记录批次中每一个节点所属于的哪一个分子，[1,1,1,1,2,2,2,2,2,3,3,3,3,3]
        #有4个节点属于1号分子，位置在1~4，有5个节点属于2号分子，位置在5~9.
        #相当于节点的位置索引
        batch.batch = [] 
        #batch是一个Data类，用于保存批次中所有的数据

        cumsum_node = 0
        cumsum_edge = 0

        for i, data in enumerate(data_list):
            num_nodes = data.num_nodes #分子的节点数
            batch.batch.append(torch.full((num_nodes, ), 
                                          i, dtype=torch.long)) #添加节点索引,例如：5号分子有3个节点：[5，5，5]
            for key in data.keys: #分子的所有特征
                item = data[key] #特征
                if key in ['edge_index', 'masked_atom_indices']: #与节点序号相关的特征都要累加节点的序号
                    item = item + cumsum_node
                elif key  == 'connected_edge_indices': #被mask边的序号也要累加，累加的是边的序号
                    item = item + cumsum_edge
                batch[key].append(item) #分子特征添加到批次中

            cumsum_node += num_nodes
            cumsum_edge += data.edge_index.shape[1]

        #把每一个key的特征组合在batch里面
        for key in keys:
            batch[key] = torch.cat(
                batch[key], 
                dim=data_list[0].__cat_dim__(key, batch[key][0])) #返回创建小批量时将连接属性键的值的维度 
        batch.batch = torch.cat(batch.batch, dim=-1)
        return batch.contiguous() #确保所有属性连续的内存布局

    def cumsum(self, key, item):
        return key in ['edge_index', 'face', 'masked_atom_indices', 'connected_edge_indices']

    @property
    def num_graphs(self):
        """Returns the number of graphs in the batch."""
        return self.batch[-1].item() + 1

四、模型

三个模型，model进行节点和节点层面的特征、linear_pred_atoms根据mask节点的特征预测mask节点原来的类型，linear_pred_bonds根据组成mask边的节点进行预测边的类型。

4.1 model

model我们还是用的文章中的GIN模型，让其输出一个256维的节点的嵌入向量。

model = GNN(7,256)

关于model模型，可以替换成任何一个模型，例如GAT，transformer等。关于num_bond_type，是与MoleculeDataset中的num_edge_type等价的，MoleculeDataset已经设定为5种，里面包含：0~3是正常的键类型，5是mask类型，4是self-loop类型，所以，里面设定self-loop的键的类型为4。原来有119种原子，加上masking的类别那么就是120种。

class GINConv(MessagePassing):
    """
    文献中的GIN模型
    """
    def __init__(self, emb_dim, num_bond_type=5, num_bond_direction=3, aggr = "add"):
        super(GINConv, self).__init__(aggr = "add")
        #multi-layer perceptron
        self.mlp = torch.nn.Sequential(torch.nn.Linear(emb_dim, 2*emb_dim), torch.nn.ReLU(), torch.nn.Linear(2*emb_dim, emb_dim))
        self.edge_embedding1 = torch.nn.Embedding(num_bond_type, emb_dim)
        self.edge_embedding2 = torch.nn.Embedding(num_bond_direction, emb_dim)

        torch.nn.init.xavier_uniform_(self.edge_embedding1.weight.data)
        torch.nn.init.xavier_uniform_(self.edge_embedding2.weight.data)
        self.aggr = aggr

    def forward(self, x, edge_index, edge_attr):
        #add self loops in the edge space
        edge_index = add_self_loops(edge_index, num_nodes = x.size(0))[0]
        edge_index = edge_index.long()
        
        #add features corresponding to self-loop edges.
        self_loop_attr = torch.zeros(x.size(0), 2)
        self_loop_attr[:,0] = 4 #bond type for self-loop edge
        self_loop_attr = self_loop_attr.to(edge_attr.device).to(edge_attr.dtype)
        edge_attr = torch.cat((edge_attr, self_loop_attr), dim = 0)
        edge_embeddings = self.edge_embedding1(edge_attr[:,0]) + self.edge_embedding2(edge_attr[:,1])        
        return self.propagate(edge_index=edge_index, x=x, edge_attr=edge_embeddings)

    def message(self, x_j, edge_attr):
        return x_j + edge_attr

    def update(self, aggr_out):
        return self.mlp(aggr_out)

class GNN(torch.nn.Module):
    
    def __init__(self, num_layer, emb_dim, num_atom_type=120, num_chirality_tag=4, JK = "last", drop_ratio = 0.5):
        super(GNN, self).__init__()
        self.num_layer = num_layer
        self.drop_ratio = drop_ratio
        self.JK = JK

        if self.num_layer < 2:
            raise ValueError("Number of GNN layers must be greater than 1.")

        self.x_embedding1 = torch.nn.Embedding(num_atom_type, emb_dim)
        self.x_embedding2 = torch.nn.Embedding(num_chirality_tag, emb_dim)

        torch.nn.init.xavier_uniform_(self.x_embedding1.weight.data)
        torch.nn.init.xavier_uniform_(self.x_embedding2.weight.data)

        self.gnns = torch.nn.ModuleList()
        for layer in range(num_layer):
            self.gnns.append(GINConv(emb_dim, aggr = "add"))

        self.batch_norms = torch.nn.ModuleList()
        for layer in range(num_layer):
            self.batch_norms.append(torch.nn.BatchNorm1d(emb_dim))

    def forward(self, *argv):
        if len(argv) == 3:
            x, edge_index, edge_attr = argv[0], argv[1], argv[2]
        elif len(argv) == 1:
            data = argv[0]
            x, edge_index, edge_attr = data.x, data.edge_index, data.edge_attr
        else:
            raise ValueError("unmatched number of arguments.")

        x = self.x_embedding1(x[:,0]) + self.x_embedding2(x[:,1])

        h_list = [x]
        for layer in range(self.num_layer):
            h = self.gnns[layer](h_list[layer], edge_index, edge_attr)
            h = self.batch_norms[layer](h)
            #h = F.dropout(F.relu(h), self.drop_ratio, training = self.training)
            if layer == self.num_layer - 1:
                #remove relu for the last layer
                h = F.dropout(h, self.drop_ratio, training = self.training)
            else:
                h = F.dropout(F.relu(h), self.drop_ratio, training = self.training)
            h_list.append(h)

        if self.JK == "concat":
            node_representation = torch.cat(h_list, dim = 1)
        elif self.JK == "last":
            node_representation = h_list[-1]
        elif self.JK == "max":
            h_list = [h.unsqueeze_(0) for h in h_list]
            node_representation = torch.max(torch.cat(h_list, dim = 0), dim = 0)[0]
        elif self.JK == "sum":
            h_list = [h.unsqueeze_(0) for h in h_list]
            node_representation = torch.sum(torch.cat(h_list, dim = 0), dim = 0)[0]

        return node_representation

4.2 linear_pred_atoms

根据节点的256维嵌入向量预测节点的原子类别，使用简单的线性层。

linear_pred_atoms = torch.nn.Linear(256, 119) #预测原子属性
linear_pred_atoms = linear_pred_atoms.to(device)

4.3 linear_pred_bonds

根据边的256维嵌入向量预测边的类别，使用简单的线性层。

linear_pred_bonds = torch.nn.Linear(256, 4).to(device) #预测边属性
linear_pred_bonds = linear_pred_bonds.to(device)

需要再次说明的是，linear_pred_atoms和linear_pred_bonds预测节点和边的类别，我们都是用非常简单的单层线性层，是为了将整个网络的损失，都集中在主模型model上，逼迫model在输出节点和边的嵌入时，不同类型节点和边的嵌入向量不同。

五、训练过程

训练过程的代码与之前的context prediction很类似。也有不一样的地方，主要是：损失函数是交叉熵，因为我们要预测节点和边的类别。

训练过程代码如下：

model = GNN(7,256)
model = model.to(device)
linear_pred_atoms = torch.nn.Linear(256, 119) #预测原子属性
linear_pred_atoms = linear_pred_atoms.to(device)

linear_pred_bonds = torch.nn.Linear(256, 4).to(device) #预测边属性
linear_pred_bonds = linear_pred_bonds.to(device)

#优化器
optimizer_model = optim.Adam(model.parameters(), lr=0.001,  weight_decay=1e-5)
optimizer_linear_pred_atoms = optim.Adam(linear_pred_atoms.parameters(), lr=0.001, weight_decay=1e-5)
optimizer_linear_pred_bonds = optim.Adam(linear_pred_bonds.parameters(), lr=0.001, weight_decay=1e-5)

epochs = 100
criterion = torch.nn.CrossEntropyLoss()

log_loss = []
log_acc_node = []
log_acc_edge = []

for epoch in range(epochs):
    model.train()
    linear_pred_atoms.train()
    linear_pred_bonds.train()

    loss_accum = 0
    acc_node_accum = 0
    acc_edge_accum = 0

    for step, batch in enumerate(tqdm(loader, desc='Iteration')):
        batch = batch.to(device)
        # model输出每一个节点的嵌入向量
        node_pre = model(batch)
        
        # linear_pred_atoms预测掩码节点属性
        pred_node = linear_pred_atoms(node_pre[batch.masked_atom_indices])
        # 节点损失
        loss = criterion(pred_node.double(), batch.mask_node_label[:, 0])  # 根据原子类型判断损失，这里原子的类型太多了！！
        # 原子类型预测精度
        node_acc = compute_accuracy(pred_node, batch.mask_node_label[:, 0])
        # 精度累加
        acc_node_accum = acc_node_accum + node_acc
        # 边预测损失，用mask边相关的节点的特征来预测边的类型
        mask_edge_index = batch.edge_index[:,
                          batch.connected_edge_indices]  # 被mask边的edge_index([1,2,3], [3,1,2])
        edge_rep = node_pre[mask_edge_index[0]] + node_pre[mask_edge_index[1]]
        pred_edge = linear_pred_bonds(edge_rep)  # 预测边的类型
        # 预测边的损失
        loss += criterion(pred_edge, batch.mask_edge_label[:, 0])
        optimizer_model.zero_grad()
        optimizer_linear_pred_atoms.zero_grad()
        optimizer_linear_pred_bonds.zero_grad()
        loss.backward()
        optimizer_model.step()
        optimizer_linear_pred_atoms.step()
        optimizer_linear_pred_bonds.step()
        loss_accum = loss_accum + loss.cpu().item()
        acc_edge = compute_accuracy(pred_edge, batch.mask_edge_label[:, 0])  # 预测边准确性
        # 精度累加
        acc_edge_accum += acc_edge
        # 记录批次损失和指标
    log_loss.append(loss_accum / (step + 1))
    log_acc_edge.append(acc_edge_accum / (step + 1))
    log_acc_node.append(acc_node_accum / (step + 1))
    # 保存损失和指标
    np.save("log_loss.npy", log_loss)
    np.save("log_acc_edge.npy", log_acc_edge)
    np.save("log_acc_node.npy", log_acc_node)

    print('Epoch:{},loss:{}, acc_node:{}, acc_edge:{}'.format(
        epoch, loss_accum / (step + 1), acc_node_accum / (step + 1), acc_edge_accum / (step + 1)))
    # 保存模型,由于模型训练时长很长，所以每次都要保存一下
    torch.save(model.state_dict(), "Net_GIN_para.pth")
    torch.save(model, "Net_GIN.pth")
    torch.save(linear_pred_atoms, 'linear_pred_atoms.pth')
    torch.save(linear_pred_bonds, 'linear_pred_bonds.pth')

训练过程损失与精度曲线：

一个有趣的结果，边的特征训练结果比较好，种类准确率达到了98%，为节点的种类预测仅停留在92%以下。这很有可能是与节点的种类过多有关系的。因为节点种类有119种，而好多个种类其实并不会出现在数据集种的，例如什么镧系原子，自然结果准确率不高了。

再到过头一想，context prediction的准确率最后停留在80%左右，其实也不是很高。这很有可能是输入模型特征的问题。简单的通过添加深度学习模型的深度（层数）其实并不会有很大的改变，哪怕是全新的更有解释力的深度学习模型，例如transformer，效果估计也不会很好。也许，输入模型的特征的改进，是一个方法。

六、Attribute prediction预训练模型用于分子性质预测

masking预训练后监督学习训练的过程与context prediction类似，就略过了，直接给出代码和结论。

代码部分，要加载与训练好的GNN，使用相同结构，加载模型参数。然后使用接上一个简单的三层线性层，用于监督学习训练。训练整个模型的参数，包括预训练好的model部分。分别比较，加载预训练参数与不加载预训练参数的差别。迭代200次。主要训练代码如下：

if __name__ =='__main__':
    #训练次数
    epoches = 200
    # 划分数据集，训练集和测试集,要注意PYG的数据存储形式
    data = pd.read_csv('dataset/lipophilicity/raw/Lipophilicity.csv')
    data_train, data_test = train_test_split(data, test_size=0.25, random_state=88)
    data_train.to_csv('dataset/lipophilicity/raw/lipophilicity-train.csv',index=False)
    data_test.to_csv('dataset/lipophilicity/raw/lipophilicity-test.csv',index=False)
    #训练集
    dataset_train = MoleculeDataset(root="dataset/lipophilicity", dataset='lipophilicity-train')
    loader_train = DataLoader(dataset_train, batch_size=64, shuffle=True, num_workers = 8)
    #测试集
    dataset_test = MoleculeDataset(root="dataset/lipophilicity", dataset='lipophilicity-test')
    loader_test = DataLoader(dataset_test, batch_size=64, shuffle=True, num_workers = 8)

    '''
    有预训练条件下
    '''
    #定义使用预训练的GAT模型的模型
    pre_model = GNN(7,256) #主模型, 参数要和预训练的一致，模型结构先实例化一遍
    #线性层
    linear_model = Pred_linear(256, 128, 1)
    #连成新的预测模型
    model = GNN_graphpred(pre_model=pre_model, pre_model_files='Net_GIN.pth', graph_pred_linear=linear_model)
    model =  model.to(device)
    #优化器与损失函数
    optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4)  # 仅训练model的graph_pred_linear层单独设置参数范围
    criterion = torch.nn.MSELoss()
    #训练过程
    log_loss = []
    log_r2 = []
    log_corr = []
    log_loss_test = []
    log_r2_test = []
    log_corr_test = []
    for epoch in range(1, epoches):
        print("====epoch " + str(epoch))    
        loss, r2, corr, loss_test, r2_test, corr_test = train(model, device, loader_train, loader_test, optimizer, criterion)
        log_loss.append(loss)
        log_r2.append(r2)
        log_corr.append(corr)
        log_loss_test.append(loss_test)
        log_r2_test.append(r2_test)
        log_corr_test.append(corr_test)
        print('loss:{:.4f}, r2:{:.4f}, corr:{:.4f}, loss_test:{:.4f}, r2_test:{:.4f}, corr_test:{:.4f}'.format(loss, r2, corr, loss_test, r2_test, corr_test))
    #保存整个模型
    torch.save(model, "masking_pretrian_supervised.pth")
    torch.save(model.state_dict(), "masking_pretrian_supervised_para.pth")
    #保存训练过程
    np.save("Masking_Supervised_log_train_loss.npy", log_loss)
    np.save("Masking_Supervised_log_train_corr.npy", log_corr)
    np.save("Masking_Supervised_log_train_r2.npy", log_r2)
    np.save("Masking_Supervised_log_train_loss_test.npy", log_loss_test)
    np.save("Masking_Supervised_log_train_corr_test.npy", log_corr_test)
    np.save("Masking_Supervised_log_train_r2_test.npy", log_r2_test)
    #对测试集的预测
    y_all = []
    y_pred_all = []
    for step, batch in enumerate(loader_test):
        batch = batch.to(device)
        pred = model(batch)
        y = batch.y.view(pred.shape).to(torch.float64)
        pred = list(pred.detach().cpu().reshape(-1).numpy())
        y = list(y.detach().cpu().reshape(-1).numpy())
        y_all = y_all + y
        y_pred_all = y_pred_all + pred
    sns.regplot(y_all, y_pred_all, label='pretrain')
    plt.ylabel('y true')
    plt.xlabel('predicted')
    plt.legend()
    plt.savefig('Masking_Supervised_Test_curve.png') #保存图片
    plt.cla()
    plt.clf()

    '''
    没有预训练的条件下
    '''
    pre_model = GNN(7,256) #主模型, 参数要和预训练的一致，模型结构先实例化一遍
    #线性层
    linear_model = Pred_linear(256, 128, 1)
    #连成新的模型
    model = GNN_graphpred(pre_model=pre_model, pre_model_files='GIN.pth', 
                            graph_pred_linear=linear_model, if_pretrain=False) # if_pretrain控制不使用预训练的权重
    model =  model.to(device)
    optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=1e-4)  
    criterion = torch.nn.MSELoss()
    un_log_loss = []
    un_log_r2 = []
    un_log_corr = []
    un_log_loss_test = []
    un_log_r2_test = []
    un_log_corr_test = []

    for epoch in range(1, epoches):
        print("====epoch " + str(epoch))    
        loss, r2, corr, loss_test, r2_test, corr_test = train(model, device, loader_train, loader_test, optimizer, criterion)
        un_log_loss.append(loss)
        un_log_r2.append(r2)
        un_log_corr.append(corr)
        un_log_loss_test.append(loss_test)
        un_log_r2_test.append(r2_test)
        un_log_corr_test.append(corr_test)
        print('loss:{:.4f}, r2:{:.4f}, corr:{:.4f}, loss_test:{:.4f}, r2_test:{:.4f}, corr_test:{:.4f}'.format(loss, r2, corr, loss_test, r2_test, corr_test))
    #对测试集的预测
    y_all = []
    y_pred_all = []
    for step, batch in enumerate(loader_test):
        batch = batch.to(device)
        pred = model(batch)
        y = batch.y.view(pred.shape).to(torch.float64)
        pred = list(pred.detach().cpu().reshape(-1).numpy())
        y = list(y.detach().cpu().reshape(-1).numpy())
        y_all = y_all + y
        y_pred_all = y_pred_all + pred
    sns.regplot(y_all, y_pred_all, label='unpretrain')
    plt.ylabel('y true')
    plt.xlabel('predicted')
    plt.legend()
    plt.savefig('Derectly_Supervised_Test_curve.png') #保存图片
    plt.cla()
    plt.clf()
    '''
    保存图片,比较有预训练和没有预训练的差距
    '''
    plt.figure(figsize=(15,6))
    plt.subplot(1,3,1)
    plt.plot(log_loss, label='loss')
    plt.plot(log_loss_test, label='loss_test')
    plt.plot(un_log_loss, label='unpretrain_loss')
    plt.plot(un_log_loss_test, label='unpretrain_loss_test')
    plt.xlabel('Epoch')
    plt.ylabel('MSE Loss')
    plt.legend()
    plt.subplot(1,3,2)
    plt.plot(log_corr, label='corr')
    plt.plot(log_corr_test, label='corr_test')
    plt.plot(un_log_corr, label='unpretrain_corr')
    plt.plot(un_log_corr_test, label='unpretrain_corr_test')
    plt.xlabel('Epoch')
    plt.ylabel('Corr')
    plt.legend()
    plt.subplot(1,3,3)
    plt.plot(log_r2[1:], label='r2')
    plt.plot(log_r2_test[1:], label='r2_test')
    plt.plot(un_log_r2[1:], label='unpretrain_r2')
    plt.plot(un_log_r2_test[1:], label='unpretrain_r2_test')
    plt.ylim(0,1)
    plt.xlabel('Epoch')
    plt.ylabel('R2')
    plt.legend()
    plt.savefig('Comversion_Train_process.png')

结果如下图。下图是在Lipophilicity数据集上的结果。

200次迭代的训练结果差别还是很大的，预训练提供了很好的性能，相关系数(Corr)超过0.9，而没有预训练的相关系数只有0.8。其实，我也做过2000个迭代的结果，最终结果预训练和没有预训练是一样的。不管怎恶魔说，预训练过程对提升模型泛化能力，和减少训练次数，过拟合，是有帮助的。

七、Grapgh transformer用于Attribute prediction预训练

作为模型的改进，我也考虑过使用更为复杂的模型来进行Attribute prediction预训练，与训练过程就不展示了，直接给出，有预训练和没有预训练的差别。同样是在Lipophilicity数据集上。如下：

差距非常明显。对于复杂的Grapgh transformer模型，如果没有预训练，几乎是没有性能，或者性能非常差。这说明，对于复杂的图神经网络，需要预训练的，否则可能效果更差。

八、代码运行环境及其下载

运行目录结构：

.
├── Comversion_Train_process.png
├── Derectly_Supervised_Test_curve.png
├── Masking_Supervised_Test_curve.png
├── Masking_Supervised_log_train_corr.npy
├── Masking_Supervised_log_train_corr_test.npy
├── Masking_Supervised_log_train_loss.npy
├── Masking_Supervised_log_train_loss_test.npy
├── Masking_Supervised_log_train_r2.npy
├── Masking_Supervised_log_train_r2_test.npy
├── Net_GIN.pth
├── Net_GIN_para.pth
├── Pyg_pretrain.yml
├── dataset
├── linear_pred_atoms.pth
├── linear_pred_bonds.pth
├── log_acc_edge.npy
├── log_acc_node.npy
├── log_loss.npy
├── masking_pretrain.py
├── masking_pretrian_supervised.pth
├── masking_pretrian_supervised_para.pth
├── masking_supervised.py
└── pretrain_masking_预训练损失函数.ipynb

执行：python masking_pretrain.py即可进行预训练，随后python masking_supervised.py即可进行随后的图层面面监督学习。

项目的conda环境请见Pyg_pretrain.yml文件。

源代码下载：

链接：https://pan.baidu.com/s/1J9ghAuKpJIFxRz3kn4d5LQ
提取码：7xbi

你可能感兴趣的:(图神经网络,rdkit,药物设计,神经网络,深度学习,机器学习)

交易系统：退款单模型设计详解 java
大家好，我是汤师爷~和退款单作为整个交易逆向系统的核心，支撑着售后管理环节。售后域核心概念模型1、退款单退款单是记录和跟踪退款处理过程的核心业务单据，包含以下关键信息：租户ID：标识所属商户或组织退款单ID：退款单的唯一标识原订单ID：关联的原始订单业务类型：仅退款、退货退款等退款类型：如全额退款、部分退款、按商品退款等创建时间：退款单生成的时间退款状态：反映当前售后处理阶段退款原因：记录具体退款
macos的图标过大，这是因为有自己的设计规范 1024小神苹果开发设计规范
苹果官方链接：App图标|AppleDeveloperDocumentation这个在官方文档里有说明，并且提供了sketch和ps的模板。figma还提供了模板：Figma
K8S集群的高可用性（HA）架构如何设计 IT-民工21110 kubernetes 架构容器运维 linux
Kubernetes(K8S)高可用性（HighAvailability,HA）集群架构设计的目标是确保集群在发生组件或节点故障时，仍能提供持续的服务。以下是HA架构的设计要点和实现方式：1.高可用控制平面(ControlPlane)控制平面由kube-apiserver、etcd、kube-scheduler、kube-controller-manager等组件组成。要实现控制平面的高可用：1.
现代应用程序中基于 Cell 架构的安全防护之道优维科技EasyOps 架构安全
在飞速发展的软件开发领域，基于Cell的架构日益流行起来。其概念源自船舶舱壁的设计准则，即单独的水密舱室能允许故障孤立存在。通过将这个概念应用于软件，我们创建了一个架构，将应用程序划分为离散的、可管理的组件，称为单元（Cell）。各个单元能够独立运行，并借助定义清晰的接口与协议同其他单元展开通信。基于单元的技术备受青睐，原因是它能为我们带来模块化、灵活且具备可扩展性的架构。借助该技术，工程师们不仅
SSM火车订票管理系统火车票务管理系统的设计与开发基于SSM框架的火车票预订系统设计与实现月影_计算机毕设课程设计
计算机毕业设计SSM火车订票管理系统3y92w（配套有源码程序mysql数据库论文）本套源码可以先看具体功能演示视频领取，文末有联xi可分享随着信息技术和网络技术的飞速发展，人类已进入全新的信息化时代，传统的管理技术已无法高效、便捷地管理信息。为了迎合时代需求，优化管理效率，各种各样的管理系统应运而生，各行各业相继进入信息管理时代，火车订票管理系统就是信息时代变革中的产物之一。火车订票管理系统的开
Spring---Spring的两大特点淡写青春209 spring java 后端
Spring的两大特点Spring框架的两大核心特点是依赖注入(DependencyInjection,DI)和面向切面编程(AspectOrientedProgramming,AOP)。这两个特性极大地简化了Java应用程序的开发，并提高了软件的可维护性和可扩展性。1.依赖注入(DI)依赖注入是一种设计模式，它通过外部容器（在这里是Spring容器）来管理对象之间的依赖关系，而不是让对象自己负责
使用支持向量机（SVM）进行股票市场预测 m0_57781768 支持向量机算法机器学习
使用支持向量机（SVM）进行股票市场预测引言股票市场预测是金融领域的一个热门话题，也是一个充满挑战的研究领域。通过准确的市场预测，投资者可以做出更明智的决策，从而获得更高的回报。支持向量机（SVM）作为一种强大的机器学习算法，已被广泛应用于各种分类和回归问题。本文将详细介绍如何使用C++和支持向量机进行股票市场预测，并提供完整的代码示例。支持向量机简介支持向量机（SVM）是一种监督学习算法，最初用
运行megatron框架的运行环境 David's Code 自然语言处理机器学习
megatron是什么，为什么要用主要是在实现Yuan1.0大规模模型时，他们引用了Nvidia开发的megatron这个框架，因为这个框架就是为了分布式多卡环境而设计的，而要上大参数量的模型时要获得比较可观的速度就避免不了要上这个框架。此处github上的megatron官方介绍。配置使用megatron的注意要注意的是这个框架应用了Nvidia自己开发的Apex工具，于是要求你的其他工具都得给
DeepSeek：开启智能搜索与AI发展的新纪元 gs80140 AI 人工智能
在人工智能领域，DeepSeek正以其卓越的技术创新和强大的性能表现，成为全球瞩目的焦点。作为一款基于深度学习技术的智能搜索引擎和AI模型，DeepSeek不仅在技术上取得了重大突破，还在多个应用场景中展现了巨大的应用潜力，为用户带来了前所未有的智能体验。一、DeepSeek简介DeepSeek由杭州深度求索人工智能基础技术研究有限公司推出，是一款集自然语言处理（NLP）、计算机视觉（CV）、强化
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
我在京东工作已经来到第8个年头，从2016年的实习生到如今负责部门整体架构，这段职业旅程中充满了感悟。简单回顾我的个人成长里程碑：2017年正式加入京东后，从一名新人开始，逐步了解公司的业务、文化，毕设专业企业源码站2 架构
我在京东工作已经来到第8个年头，从2016年的实习生到如今负责部门整体架构，这段职业旅程中充满了感悟。简单回顾我的个人成长里程碑：2017年正式加入京东后，从一名新人开始，逐步了解公司的业务、文化，以及学习如何成为一名合格的职场人；19-21年，我开始负责一块完整的业务，并逐渐成长为小组负责人；2022年开始负责整个部门的架构，并且开始参与一些公司核心项目的设计与落地。这一路走来经历的挫折与收获也
Megatron：深度学习中的高性能模型架构 gs80140 基础知识科谱 AI 机器学习人工智能
Megatron：深度学习中的高性能模型架构Megatron是由NVIDIA推出的深度学习大规模预训练模型框架，主要针对大规模Transformer架构模型的高效训练与推理。Megatron大多用于GPT（生成式预训练模型）、BERT等Transformer模型的预训练，擅长在大规模数据集和高性能计算资源上进行训练。Megatron的主要特点1.超大模型的高效训练模型并行（ModelParalle
DDD 洋葱架构才是 yyds！阿里大牛手记（DDD）领域驱动设计应对之道肥肥技术宅 java 架构数据库
虽然身为架构师，设计一个高质量的架构依然是复杂与困难的。简单来说，动用大量的资源只为了一套优质的三高架构并不正确，而是该在了解当前业务现状的情况下，创造出灵活、可维护、健硕能成长的。就拿近两年程序员行业饱受争议的DDD（领域驱动设计）来说，事实上，领域驱动设计的思维可以很好的解决企业的大型架构所遇到的绝大部分难题（理论层面至少是这样），例如上下映射，就可以在本质上把业务的架构模块解耦，最高程度做到
对领域驱动设计(DDD)的学习成果 huaishu 架构
领域驱动设计之领域模型2004年EricEvans发表Domain-DrivenDesign–TacklingComplexityintheHeartofSoftware（领域驱动设计），简称EvansDDD。领域驱动设计分为两个阶段：以一种领域专家、设计人员、开发人员都能理解的“通用语言”作为相互交流的工具，在不断交流的过程中不断发现一些主要的领域概念，然后将这些概念设计成一个领域模型；由领域模
30秒知识快学插件指南瞿旺晟
30秒知识快学插件指南30_seconds_of_knowledgeGoogleChromeExtensionthatletsyougainnewdeveloperskills,everytimeyouopenaNewTab.项目地址:https://gitcode.com/gh_mirrors/30/30_seconds_of_knowledge项目介绍30秒知识快学是一款专为开发者设计的Goo
微信小程序视频点播在线视频学习系统毕业设计课程设计（1）首页_微信小程序视频功能设计流程图字节全栈_kYu 微信小程序学习课程设计
06-19关于违规会员处理的通知视频分类最新更新课程所有课程HTML入门到精通3651人报名免费HTML入门到精通3651人报名免费HTML入门到精通3651人报名免费HTML入门到精通3651人报名免费###wxss代码/*广告图片*/.ad01{width:100%;/*宽度100%*/}.qukuai{display:flex;align-items:center;background-co
AIGC的底层框架和技术模块五岔路口 AIGC
AIGC（ArtificialIntelligenceGeneratedContent，人工智能生成内容）的底层框架和技术模块是构建其强大自然语言处理能力的核心组成部分。以下是对AIGC底层框架和技术模块的详细解析：底层框架AIGC的底层框架主要基于深度学习的语言模型，特别是Transformer模型及其变种，如GPT（GenerativePre-trainedTransformer）等。这些模型
分布式系统架构设计原理与实战：分布式缓存的设计与实现 AI天才研究院计算计算大数据人工智能语言模型 AI 大模型 LLM Java Python 架构设计 Agent RPA
1.背景介绍分布式系统架构设计原理与实战：分布式缓存的设计与实现作者：禅与计算机程序设计艺术背景介绍1.1分布式系统的基本概念分布式系统是指由多个autonomouscomputer组成，这些computer通过网络相互协作来完成共同的task。它允许multiplecomputers在同一个时间访问sharedresources，同时保证systemconsistency。1.2什么是分布式缓存
Rust编程基础教程：嵌入式开发入门 AI天才研究院 AI大模型企业级应用开发实战编程实践一天一门编程语言大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍Rust是一款开源、安全的系统编程语言，它支持运行在Linux、Windows和macOS操作系统上。近年来，Rust受到了越来越多的人的关注和追捧，它可以用来编写可靠和高效的代码，同时还能保证程序的内存安全。而且，它也拥有强大的生态系统，其中包括大量成熟的crate（库）。因此，Rust在嵌入式系统领域得到了广泛应用。本文将教授Rust编程知识，让读者对R
详解python的单例模式 hunter206206 python python
单例模式是一种设计模式，它确保一个类只有一个实例，并提供一个全局访问点来获取这个实例。在Python中实现单例模式有多种方法，下面我将详细介绍几种常见的实现方式。1.使用模块Python的模块天然就是单例的，因为模块在第一次导入时会被加载到内存中，之后的导入都是直接使用内存中的模块对象。因此，你可以通过模块来实现单例模式。#singleton.pyclassSingletonClass:def__
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
深度学习：基础原理与实践阿尔法星球深度学习 python 人工智能
1.深度学习概述1.1定义与发展历程深度学习是机器学习的一个分支，它基于人工神经网络的学习算法，特别是那些具有多层（深层）结构的网络。深度学习模型能够自动从原始数据中提取复杂的特征，而不需要人为设计特征提取算法。定义：深度学习可以定义为使用深层神经网络进行学习的过程，这些网络由多个非线性的变换组成，能够学习数据的多层次表示。发展历程：深度学习的起源可以追溯到1943年WarrenSturgisMc
什么是MOE架构？哪些大模型使用了MOE？明哲AI AIGC 架构人工智能大模型 MOE
在人工智能快速发展的今天，大语言模型（LLM）的规模越来越大，参数量动辄上千亿甚至万亿。然而，更大的模型往往意味着更高的计算成本和更多的资源消耗。混合专家模型（MixtureofExperts，简称MoE）作为一种创新的架构设计，为解决这一难题提供了一个优雅的解决方案。什么是混合专家模型？想象一下，如果把一个大语言模型比作一所综合性大学，传统的模型就像是让所有教授（参数）都参与每一次教学活动。而M
JavaScript网页设计实战：微信登录 + 获取用户头像和昵称 James吖 javascript 微信前端开发语言目标检测 ecmascript 神经网络
引言在现代Web开发中，社交媒体登录已经成为提升用户体验的一个重要组成部分。微信登录因其广泛的用户基础和便捷的登录方式，深受开发者和用户的喜爱。本文将通过一个实战案例，介绍如何在JavaScript网页应用中集成微信登录功能，并获取用户的头像和昵称。前提条件在开始之前，请确保你已经具备以下条件：已经在微信开放平台上注册并创建了应用，获取到了AppID和AppSecret。了解基本的HTML、CSS
探索神经网络的奥秘：从基础理论到Python实践仲毓俏Alanna
探索神经网络的奥秘：从基础理论到Python实践【下载地址】第一章神经网络如何工作附Python神经网络编程.pdf分享本资源文件提供了关于神经网络基础知识的详细介绍，并附带了一个Python神经网络编程的PDF文件。通过学习本资源，您将能够理解神经网络的基本工作原理，并掌握如何使用Python进行神经网络编程项目地址:https://gitcode.com/Resource-Bundle-Col
什么是MoE？ CM莫问深度学习人工智能算法常见概念人工智能算法 python 深度学习 MoE 混合专家模型机器学习
一、概念MoE（MixtureofExperts）是一种深度学习架构，它结合了多个专家模型（Experts）和一个门控机制（GatingMechanism）来处理不同的输入数据或任务。MoE的核心思想是将复杂的任务分解为多个子任务，由不同的专家网络来处理，以此来提升整体模型的性能和效率。MOE通过集成多个专家来显著提高模型的容量和表达能力，每个专家可以专注于学习输入数据的不同方面或特征，使得整个模
TCP 真的存在“粘包”问题吗？计算机网络后端tcp
引言许多开发者都曾面对过这样一个的问题：明明分别调用两次send()发送了"Hello"和"World"，接收方却可能在一个recv()调用中读到完整的"HelloWorld"；或是发送了一个完整的JSON对象，接收端却需要多次读取才能拼凑出完整数据。这种现象被中文技术社区广泛称为“TCP粘包”然而，若我们深入TCP协议的设计本质，会发现一个令人困惑的矛盾——RFC文档中从未定义过“粘包”概念，国
西安电子科技大学07级计算机学院本科生毕业照.,西安电子科技大学本科生毕业设计（论文）撰写规范... 罗夕夕博士
一.毕业设计(论文)的总体要求：撰写论文应简明扼要，一般不少于15000字(外语专业可适当减少，但不得少于10000单词，且须全部用外语书写)。二.毕业设计(论文)的编写格式：每一章、节的格式和版面要求整齐划一、层次清楚。其中:1.论文用纸：统一用A4纸，与论文封皮，任务书，工作计划，成绩考核表一致。2.章的标题：如：“摘要”、“目录”、“第一章”、“附录”等，黑体，三号，居中排列。3.节的标题：
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
RESTful和RPC是什么，定义，关系，区别 G丶AEOM 普通学习区休闲知识区网络 rpc 信息与通信 java
RESTful和RPC是什么，定义，关系，区别一、RESTful的定义、特点及应用场景定义：RESTful是一种软件架构风格，用于设计网络应用程序的API（应用程序编程接口）。它基于HTTP协议，遵循一系列的约束条件和原则来构建可互操作的、分布式的超媒体系统。特点：资源导向：将系统中的一切都视为资源，每个资源都有一个唯一的URI（统一资源标识符），通过URI可以对资源进行访问、操作等。例如，在一个
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

图神经网络预训练 (4) - 节点属性预测 Attribute Prediction + 监督学习 代码