ALE.code

GNN在生化任务上的工程实现学习笔记

1. 预备知识

GNN Framework

2. GNN使用PyG(PyTorch第三方库)的实现

torch_geometric 官方文档

1. Message Passing

继承MessagePassing基类的GCNConv

2. 节点/边表征以及图表征

node /edge level：

graph level：节点嵌入——节点表征——图池化——图的表征——线性变换

【Zachary‘s karate club network数据集进行PyG小白入门实战】

1. 数据集

2. 数据集展示（使用networkx可视化展示）

3. Graph Neural Network网络定义

4. 输出特征展示

5. 训练模型（Semi-supervised）

【一些PyG的数据类型】

Data 类（PyG的数据结构）

Batch类【详情可参考】

batch属性说明

3. 生化任务的一些第三方包

rdkit 官方文档

1. 如何画分子&一些分子操作方法的引入

Drawing Molecules

Some Simple Calculation

2. 子结构搜索&分子指纹

4. 引用

️一些视频【强烈安利】

其他

1. 预备知识

GNN Framework

GNN可以被抽象为Aggregate和两个步骤，分为MPNN(Messege Passing Neural Networks)和NLNN(Non-local Neural Networks)

本文主要focus在MPNN上

(1)公式中h代表各个层中某个节点的隐向量，它是随机初始化的（或者加入原有节点特征）。a是某个节点i，对于他的邻居j们，通过某个聚合函数（sum、average...）aggregate获得的消息（在代码中可能会使用torch_scatter.scatter 做scatter_sum/scatter_mean运算）。

通过某个函数将(l-1)层的隐向量和(l)层的消息combine(消息传递框架中也叫做update)，就能够获得(l)层的隐向量。

此外，仅仅获得每个节点的隐向量还不足以表征整个图，所以需要一个图读出(Readout)函数来将很多节点的隐向量表征为一个统一长度的向量表示。

这个readout function可以是对各个节点的隐向量做max pooling、average pooling获得特征（graph pooling操作：在代码中可能会使用torch_scatter.scatter 做scatter_sum/scatter_mean运算）；也可以是引入一个上帝节点连接每个图中的节点，取最后一层中上帝节点的隐向量作为表征；还可以是differentiable hierarchical pooling、Edge Pooling、Set2Set等方法。

广义角度上的理解，可参考此文：图机器学习——5.5 广义 GNN 框架：消息传递与聚合_Kanny广小隶的博客-CSDN博客_gnn聚合5. 广义视角下的 GNN 框架GNN 层的本质为：消息（Message） + 聚合（Aggregation）。在这一视角下的有许多不同的实例：GCN，GraphSAGE，GAT等，下面我们将着重讲解这三个不同的实例。GNN 的总体框架分别包括：1）消息与 2）聚合，也就是一个网络层中的操作。3）层与层之间的连接4）图增广（Graph augmentation）与 5）学习目标（Learning Object）下面我们一部分一部分进行分析。1）消息（Message）图网络中的https://kanny.blog.csdn.net/article/details/124929624?spm=1001.2101.3001.6661.1&utm_medium=distribute.pc_relevant_t0.none-task-blog-2~default~CTRLIST~Rate-1-124929624-blog-118027083.pc_relevant_aa_2&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-2~default~CTRLIST~Rate-1-124929624-blog-118027083.pc_relevant_aa_2&utm_relevant_index=1

2. GNN使用PyG(PyTorch第三方库)的实现

torch_geometric 官方文档

torch_geometric — pytorch_geometric documentationhttps://pytorch-geometric.readthedocs.io/en/latest/modules/root.html

PyTorch Geometric，简称Pyg。Pyg库包含易用的小批量加载器（mini-batch loader）、多GPU支持、大量常见基准数据集和有用的变换，适用于任意图像、三维网格（3D mesh）和点云。基于PyTorch构建，用于处理不规则结构化输入数据（如图、点云、流形）。除了一般的图形数据结构和处理方法外，它还包含从关系学习到3D数据处理等领域中最新发布的多种方法。通过利用稀疏 GPU 加速、提供专用的 CUDA 内核以及为不同大小的输入样本引入高效的小批量处理，PyTorch Geometric 实现了很高的数据吞吐量。

安装踩坑过后的友情提示：建议严格参考官方GitHub安装说明！！！

（踩坑解决详情见4的其他部分）GitHub - pyg-team/pytorch_geometric: Graph Neural Network Library for PyTorchGraph Neural Network Library for PyTorch. Contribute to pyg-team/pytorch_geometric development by creating an account on GitHub.https://github.com/pyg-team/pytorch_geometric

1. Message Passing

消息传递范式是一种聚合邻接节点信息（称为邻域聚合，节点的邻居的消息聚合到节点本身）来更新中心节点信息的范式，它将卷积算子推广到了不规则数据领域，实现了图与神经网络的连接。消息传递的详情可参考，讲得很清晰：图神经网络task2——消息传递_Wmnyang的博客-CSDN博客这是目录1、消息传递范式2、MessagePassing基类2.1、MP类和基本方法3、MessagePassing实例3.1、三个函数的数学定义3.2、`GCNConv`实现步骤（1）向邻接矩阵添加自环边（2）对节点的特征矩阵进行线性变换（3）对变换后的节点特征进行标准化（4）归一化j中的节点特征（5）将节点特征求和参考文献1、消息传递范式消息传递是实现GNN的一种通用框架和编程范式。它从聚合与更新的角度归纳总结了多种GNN模型的实现，它的思路是：首先结合边的特征以及和边相连的两个节点的特征，得到 https://blog.csdn.net/Wmnyang/article/details/118048781

该范式包含这样三个步骤：

邻接节点信息变换
邻接节点信息聚合到中心节点
聚合信息变换

基于此范式，我们可以定义聚合邻接节点信息来生成中心节点表征的图神经网络。在PyG中，MessagePassing基类是所有基于消息传递范式的图神经网络的基类，它大大地方便了我们对图神经网络的构建。

【步骤】

首先导入必要的包（from from torch_geometric.nn import MessagePassing）

其次创建一个类，继承MessagePassing基类
class MessagePassing(aggr='add', flow='source_to_target', node_dim=0)
aggr: 定义要使用的聚合方案（“add”、“mean"或"max”）
flow: 定义消息传递的流向（“source_to_target"或"target_to_source”）
node_dim: 定义沿着哪个轴线传播

然后初始化__init()__，定义forward（）方法用于模型的表示

接着可以覆写这几个函数：

message()

aggregate()（查看MessagePassing的源码，可以看到其aggregate函数的定义（在PyG中是通过scatter函数来实现上述过程）PyG教程(7)：剖析邻域聚合-pudn.com）

message_and_aggregate()方法

update()方法

继承MessagePassing基类的GCNConv

数学定义以及PyG实现-GCNConv

数学定义

PyG实现

import torch
from torch_geometric.nn import MessagePassing
from torch_geometric.utils import add_self_loops, degree


class GCNConv(MessagePassing):
    def __init__(self, in_channels, out_channels):
        super(GCNConv, self).__init__(aggr='add', flow='source_to_target')
        # "Add" aggregation (Step 5).
        # flow='source_to_target' 表示消息从源节点传播到目标节点
        self.lin = torch.nn.Linear(in_channels, out_channels)

#所有逻辑在forward()方法中实现
    def forward(self, x, edge_index):
        # x has shape [N, in_channels]
        # edge_index has shape [2, E]

        # Step 1: Add self-loops to the adjacency matrix.
        # 使用torch_geometric.utils.add_self_loops() 给边索引添加自循环边【对应1. 向邻接矩阵添加自环边】
        edge_index, _ = add_self_loops(edge_index, num_nodes=x.size(0))

        # Step 2: Linearly transform node feature matrix.
        # torch.nn.Linear 线性变换【对应2. 对节点表征做线性变换】
        x = self.lin(x)

        # Step 3: Compute normalization.【对应3. 计算归一化系数】
        row, col = edge_index
        deg = degree(col, x.size(0), dtype=x.dtype)
        deg_inv_sqrt = deg.pow(-0.5)
        norm = deg_inv_sqrt[row] * deg_inv_sqrt[col]

        # Step 4-5: Start propagating messages.
        # progagate包含了(先调用message(),再aggregate，再update)
        return self.propagate(edge_index, x=x, norm=norm)
        #MessagePassing.propagate(edge_index, size=None, **kwargs):
        # 开始传播消息的起始调用。它以edge_index（边的端点的索引）和flow（消息的流向）以及一些额外的数据为参数,size=(N,M)设置对称邻接矩阵的形状。     

    def message(self, x_j, norm):
        # x_j has shape [E, out_channels]
        # Step 4: Normalize node features.
        return norm.view(-1, 1) * x_j

from torch_geometric.datasets import Planetoid
 
dataset = Planetoid(root='dataset/Cora', name='Cora')
data = dataset[0]
print(data.x)#node_feature
print(data.edge_index)#边索引
 
net = GCNConv(data.num_features, 64)
h_nodes = net(data.x, data.edge_index)
print(h_nodes.shape)

输出结果：

2. 节点/边表征以及图表征

node /edge level：

在图节点预测或边预测任务中，首先需要生成节点表征（Node Representation）。我们使用图神经网络来生成节点表征，并通过基于监督学习的对图神经网络的训练，使得图神经网络学会产生高质量的节点表征。高质量的节点表征能够用于衡量节点的相似性，同时高质量的节点表征也是准确分类节点的前提。

graph level：

图表征学习要求根据节点属性、边和边的属性（如果有的话）生成一个向量作为图的表征，基于图表征我们可以做图的预测.

基于图同构网络（Graph Isomorphism Network, GIN）的图表征网络是当前最经典的图表征学习网络，为了得到图表征首先需要做节点表征，然后做图读出。GIN中节点表征的计算遵循WL Test算法中节点标签的更新方法，因此它的上界是WL Test算法。在图读出中，我们对所有的节点表征（加权，如果用Attention的话）求和，这会造成节点分布信息的丢失。

详情可参考：https://blog.csdn.net/LuoMin2523/article/details/118464411?spm=1001.2014.3001.5502https://blog.csdn.net/LuoMin2523/article/details/118464411?spm=1001.2014.3001.5502

⚛️⚛️⚛️⚛️⚛️⚛️

基于图同构网络的图表征模块（GINGraphRepr Module）

此模块首先采用GINNodeEmbedding模块对图上每一个节点做节点嵌入（Node Embedding），得到节点表征；然后对节点表征做图池化得到图的表征；最后用一层线性变换对图表征转换为对图的预测。

- 节点嵌入——节点表征——图池化——图的表征——线性变换

基于图同构网络的节点嵌入模块（GINNodeEmbedding Module）

输入到此节点嵌入模块的节点属性为类别型向量。

步骤：

1）嵌入。用AtomEncoder对输入向量做嵌入得到第0层节点表征

2）计算节点表征。

从第1层开始到第num_layers层逐层计算节点表征。（每一层节点表征的计算都以上一层的节点表征h_list[layer]、边edge_index和边的属性edge_attr为输入）

注意事项：GINConv的层数越多，此节点嵌入模块的感受野（receptive field）越大，结点i的表征最远能捕获到结点i的距离为num_layers的邻接节点的信息。

- 输入的边属性（edge_attr为类别型），先将类别型边属性转换为边表征，GINConv模块遵循：“消息传递，消息聚合，消息更新”这一过程。

AtomEncoder和BondEncoder

节点（原子）和边（化学键）的属性都为离散值，属于不同的空间。

所以通过Embedding，将节点属性和边属性分别映射到一个新的空间，在这个新的空间中对节点和边进行消息聚合。

注：节点属性有多少维，就需要多少个嵌入函数（通过调用 torch.nn.Embedding(dim，emb_dim)）可以实例化一个嵌入函数

其中dim为：被嵌入数据可能取值的数量；emb_dim:要映射到的空间的维度。

得到的嵌入函数，接收一个x(0
在forward()函数中，我们对不同属性值得到的不同嵌入向量进行了相加操作，实现了节点不同属性融合在一起（消息聚合）。

【Zachary‘s karate club network数据集进行PyG小白入门实战】

数据集——数据集展示——GCN网络定义——输入特征展示——训练模型

1. 数据集

from torch_geometric.datasets import KarateClub

dataset = KarateClub()

print(f'Dataset:{dataset}:')
print('===================')
print(f'Number of graphs:{len(dataset)}')
print(f'Number of features:{dataset.num_features}')
print(f'Number of classes:{dataset.num_classes}')

'''
Dataset:KarateClub():
===================
Number of graphs:1 #只有一个图，对点做分类
Number of features:34 #每一个点有34个特征
Number of classes:4   #每个点做4分类
'''

dataset[0]
'''
Data(x=[34, 34], edge_index=[2, 156], y=[34], train_mask=[34])
'''

edge_index = dataset[0].edge_index
print(edge_index.t())

'''
tensor([[ 0,  1],
        [ 0,  2],
        [ 0,  3],
        [ 0,  4],
        [ 0,  5],
        [ 0,  6],
        [ 0,  7],
        [ 0,  8],
        [ 0, 10],
        [ 0, 11],
        [ 0, 12],
        [ 0, 13],
        [ 0, 17],
        [ 0, 19],
        [ 0, 21],
        [ 0, 31],
        [ 1,  0],
        [ 1,  2],
        [ 1,  3],
        [ 1,  7],
        [ 1, 13],
        [ 1, 17],
        [ 1, 19],
        [ 1, 21],
        [ 1, 30],
...
        [33, 29],
        [33, 30],
        [33, 31],
        [33, 32]])
'''

图的表示用Data格式

其中上述的 x=[34,34],34*34（M×F——M：为样本的个数；F：每个样本的特征维度）

edge_index=[2, 156] (edge_index：表示图的连接关系（start，end两个序列）)
edge_index 表示是稀疏的，可以看做邻接矩阵，但并不是传统意义上的n*n的邻接矩阵（而是[2,边的个数]）

y=[34] 标签（34个node）

train_mask=[34] 哪些点是有标签的，哪些点时无标签的（有的节点木有标签，用来表示哪些节点要计算损失）

torch_geometric.nn：是可以调用的一些层

torch_geometric.data：是可以调用的一些数据（数据结构）

torch_geometric.datasets：是可以调用的一些数据集

torch_geometric.utils：是可以调用的一些基本处理的函数

2. 数据集展示（使用networkx可视化展示）

import matplotlib.pyplot as plt
import networkx as nx

def visualize_graph(G,color):
    plt.figure(figsize=(7,7))
    plt.xticks([])
    plt.yticks([])
    nx.draw_networkx(G,pos=nx.spring_layout(G,seed=42),with_labels=False,node_color=color,cmap="Set2")
    plt.show()

from torch_geometric.utils import to_networkx

data = dataset[0]
G = to_networkx(data,to_undirected=True)
visualize_graph(G,color=data.y)

很明显classes=4，即有4个不同的类别

3. Graph Neural Network网络定义

GCN layer（与上述继承MessagePassing基类的GCNConv 略有不同）

import torch
from torch.nn import Linear
from torch_geometric.nn import GCNConv

class GCN(torch.nn.Module):
    def __init__(self):
        super().__init__()
        torch.manual_seed(1234)#设置随机种子是为了确保每次生成固定的随机数
        # 定义输入特征和输出特征即可

        self.conv1 = GCNConv(dataset.num_features,4)#dataset.num_features:34维向量，经过这一层得到4维向量
        self.conv2 = GCNConv(4,4)
        self.conv3 = GCNConv(4,2)

        #连接全连接
        self.classifier = Linear(2,dataset.num_classes)# 4个类别概率值

    def forward(self,x,edge_index):
        h = self.conv1(x,edge_index)#输入特征与邻接矩阵  x:图（有每个点的特征），edge_index(邻接矩阵)
        h = h.tanh()
        h = self.conv2(h,edge_index)
        h = h.tanh()
        h = self.conv3(h,edge_index)
        h = h.tanh()

        #分类层，即FC
        out = self.classifier(h)

        return out,h #out为输出结果，h为得到的中间结果【self.conv3 = GCNConv(4,2)】，即两维向量
model = GCN()
print(model)

'''
GCN(
  (conv1): GCNConv(34, 4)
  (conv2): GCNConv(4, 4)
  (conv3): GCNConv(4, 2)
  (classifier): Linear(in_features=2, out_features=4, bias=True)
)
'''

4. 输出特征展示

def visualize_embedding(h,color,epoch=None,loss=None):
    plt.figure(figsize=(7,7))
    plt.xticks([])
    plt.yticks([])
    #detach(): 返回一个新的Tensor，但返回的结果是没有梯度的。cpu():把gpu上的数据转到cpu上。numpy():将tensor格式转为numpy
    h = h.detach().cpu().numpy()
    plt.scatter(h[:,0],h[:,1],s=140,c=color,cmap="Set2")
    if epoch is not None and loss is not None:
        plt.xlabel(f"Epoch:{epoch},Loss:{loss.item():.4f}",fontsize=16)
    plt.show()


# 展示输出的两维特征（还未训练前）
model = GCN()
_, h = model(data.x,data.edge_index)
print(f'Embedding Shape:{list(h.shape)}') #Embedding Shape:[34, 2]
visualize_embedding(h,color=data.y)

上图为随机初始化的两维向量

5. 训练模型（Semi-supervised）

import time

model = GCN()
criterion = torch.nn.CrossEntropyLoss() #define loss criterion 分类损失函数
optimizer = torch.optim.Adam(model.parameters(),lr=0.01)#优化器

#train
def train(data):
    optimizer.zero_grad()#梯度清零
    out,h = model(data.x,data.edge_index)#h为两维向量主要是为了展示画图
    loss = criterion(out[data.train_mask],data.y[data.train_mask])#data.train_mask 即看train_mask为True的，即只看有标签的结点
    #semi-supervised：只关注有标签的那些
    loss.backward()#反向传播
    optimizer.step()#参数更新
    return loss,h

#迭代
for epoch in range(401):#1个epoch即1个图
    loss,h = train(data)
    #每10个epoch去画一个图
    if epoch%10 ==0:
        visualize_embedding(h,color=data.y,epoch=epoch,loss=loss)
        time.sleep(0.3) #让画停一下

向量聚堆的感觉，特征分类示意图

【一些PyG的数据类型】

Data 类（PyG的数据结构）

一些data的方法和属性补充：

data.keys：返回属性名列表。

data['x']：返回属性名为'x'的值。

for key, item in data: ...：按照字典的方法返回data属性和对应值。

'x' in data：判断某一属性是否在data中。

data.num_nodes：返回节点个数，相当于x.shape[0]。

data.num_edges：返回边的条数，相当于edge_index.shape[1]。

data.contains_isolated_nodes()：是否存在孤立的节点。

data.contains_self_loops()：是否存在自环。

data.is_directed()：是否是有向图。

data.to(torch.device('cuda'))：将数据对象转移到GPU。

Common Benchmark Datasets-PyG包含了很多公用的数据集，所有Planetoid数据集(Cora, Citeseer, Pubmed)。来自TUDataset | TUD Benchmark datasets的所有图分类数据集，和其简洁版，QM7和QM9数据集等等。

Batch类【详情可参考】

番外篇：PyG框架及Cora数据集简介 - 知乎由于GNN的输入是不规则的graph，所以在训练中无法方便地像image或text输入数据，该篇文章介绍PyG框架，介绍部分基本上来自于PyG的文档的前面两节。介绍Cora数据集是因为在该篇之后会单独再发一篇使用PyG框架及原生…https://zhuanlan.zhihu.com/p/78452993?from_voters_page=true

Mini-Batches（Batch类是继承Data的，是自动生成的）

神经网络通常以批量方式进行训练。 PyG 通过创建稀疏块对角邻接矩阵（由 edge_index 定义）并在节点维度上连接特征和目标矩阵来实现小批量的并行化。这种设计使得我们可以将不同规模的图放在同一个batch中。

PyTorch Geometric中采用的将多个图封装成批的方式是：将小图作为连通组件（connected component）的形式合并，构建一个大图。于是小图的邻接矩阵存储在大图邻接矩阵的对角线上。大图的邻接矩阵、属性矩阵、预测目标矩阵分别为：

注意，邻接矩阵没有额外的内存开销，因为它们是以稀疏的方式保存的，只保留非零项，即边。

通过torch_geometric.data.DataLoader类，多个小图被封装成一个大图。 torch_geometric.data.DataLoader是PyTorch的DataLoader的子类，它覆盖了collate()函数（该函数定义了一列表的样本是如何封装成批的）。因此，所有可以传递给PyTorch DataLoader的参数也可以传递给PyTorch Geometric的 DataLoader，例如，num_workers。

torch_geometric.data.Batch类继承自torch_geometric.data.Data，多出了一个batch属性。batch属性为一个用于标记每一个来自于哪张图的列向量。

ENZYMES数据集(包含600个图，分为6类)为例做介绍

ENZYMES数据集

注：上图黄字说明——第一个graph包含有37个节点，每个节点特征维度为3，有 1682=84 条无向边，并且该graph的标签(类别)的维度为1。

Batch

#加载ENZYMES数据集

from torch_geometric.datasets import TUDataset
from torch_geometric.loader import DataLoader

dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES', use_node_attr=True)
loader = DataLoader(dataset, batch_size=4, shuffle=True)

#获取一个batch
batch = loader.__iter__().next()
print(batch)

batch属性说明

1. ptr属性

如上图所示batch['ptr']的结果为：tensor([ 0, 20, 62, 81, 130])

for i in range(batch.num_graphs): #num_graphs:4
    print(batch[i])
#batch['ptr']:tensor([  0,  20,  62,  81, 130])
'''
Data(edge_index=[2, 82], x=[20, 21], y=[1])——batch[0]就是[0:20] 20-0=20
Data(edge_index=[2, 176], x=[42, 21], y=[1])——batch[1]就是[20:62] 62-20=42 
Data(edge_index=[2, 78], x=[19, 21], y=[1])——batch[2]就是[62:81] 81-62=19 
Data(edge_index=[2, 188], x=[49, 21], y=[1])——batch[3]就是[81:130] 130-81=49 
'''

2. batch属性

#加载ENZYMES数据集
from torch_geometric.datasets import TUDataset
from torch_geometric.loader import DataLoader

dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES', use_node_attr=True)
## 每次加载4个数据到内存中,loader = DataLoader(dataset, batch_size=4, shuffle=True)
loader = DataLoader(
    # 要加载的数据集
    dataset=dataset,
    # ENZYMES包含600个图
    # 每次加载4个
    batch_size=4,
    # 每次加入进来之后是否随机打乱数据（可以增加模型的泛化性）
    shuffle=True
)

batch = loader.__iter__().next()
print(batch)
print(batch['ptr'])
print(batch.batch)
print((batch.batch==0).sum())
print((batch.batch==1).sum())
# edge_index：连接的边
#x：整个batch的节点特征矩阵
#y：graph标签
#batch：列向量，用于指示每个节点属于batch中的第几个graph
#ptr: pointer record 第几个graph起始的指针位置
'''
DataBatch(edge_index=[2, 498], x=[124, 21], y=[4], batch=[124], ptr=[5])
tensor([  0,  27,  49, 108, 124])
tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
        3, 3, 3, 3])
tensor(27) #第一个graph graph0有27个图
tensor(22) #第二个graph graph1有49-27=22个图
'''

为什么要获取一个batch？

【Reminder】

parser.py 中的batch_size是决定从比如ENZYMES数据集中抽多少个graph出来

batch[0]的graph都一样(其SMILES分子式也是一样的)

3. 生化任务的一些第三方包

分子和蛋白质是可以用图来表示的结构化实体。原子或残基作为节点，化学键或链作为边。

rdkit 官方文档

RDKit Cookbook — The RDKit 2022.03.1 documentationhttps://www.rdkit.org/docs/Cookbook.html

RDKit是一个专门处理化学分子数据的包，可以用来读取分子文件smiles，提取分子的各种特征。（比如读取toxcast.csv文件里面的smiles，然后将smiles转成RDKit的molecules）

基于RDKit提取molecules的node和edge特征，最后得到一个Graph（这个Graph可以使用PyG来表示）

1. 如何画分子&一些分子操作方法的引入

Drawing Molecules

from rdkit import Chem
from rdkit.Chem.Draw import IPythonConsole
from rdkit.Chem import Draw

IPythonConsole.ipython_useSVG=False #如果想展示PNG请设置为FALSE

mol对象是RDKit的特殊的对象，专门用于保存化学分子的。

下面两幅图展示了如何画一个分子结构式以及对有原子编号的分子结构式

注：画的这个图是 a kinase inhibitor（激酶抑制剂）

【Code】
#将分子中的原子都标记上原子编号

def mol_with_atom_index(mol):
    for atom in mol.GetAtoms():#返回原子atom对象组成的列表
        atom.SetAtomMapNum(atom.GetIdx())#返回原子编号
    return mol

#Chem.MolFromSmiles()输入的字符串是SMILES（用于表示分子的一种方法），得到的是mol对象

mol = Chem.MolFromSmiles("C1CC2=C3C(=CC=C2)C(=CN3C1)[C@H]4[C@@H](C(=O)NC4=O)C5=CNC6=CC=CC=C65")

# With atom index
mol_with_atom_index(mol)

添加原子索引的更简单方法是调整 IPythonConsole 属性。这会产生与上面示例类似的图像，不同之处在于原子索引现在靠近原子，而不是原子位置。

【Code】

from rdkit import Chem
from rdkit.Chem.Draw import IPythonConsole
from rdkit.Chem import Draw

IPythonConsole.drawOptions.addAtomIndices = True
IPythonConsole.molSize = 300,300

mol = Chem.MolFromSmiles("C1CC2=C3C(=CC=C2)C(=CN3C1)[C@H]4[C@@H](C(=O)NC4=O)C5=CNC6=CC=CC=C65")
mol

from rdkit import Chem

mol = Chem.MolFromSmiles("C1CC2=C3C(=CC=C2)C(=CN3C1)[C@H]4[C@@H](C(=O)NC4=O)C5=CNC6=CC=CC=C65")

atom0 = mol.GetAtomWithIdx(0)

atom0 #返回结果：

- 注：分子分为原子和键

mol对象中获取原子的方法GetAtoms（），返回为一个list
mol对象中获取所有键的方法GetBonds（），返回为一个list
mol对象中根据原子编号获取键GetAtomWithIdx（）
mol对象中根据键的编号获取键GetBondWithIdx( )
如果导入的分子是有带有坐标信息的，可通过** mol.GetConformer().GetAtomPosition(n)** 获取坐标信息

更多关于操作分子的方法，详见 基础教程 — RDKit 中文教程 2020.09 文档

分子操作
1. 原子信息	得到了atom对象，其常用的内置方法为： ‘GetAtomMapNum’: map id 原子smarts形式冒号后面的数字，如[N:4], map id 就是4。 ‘GetAtomicNum’：获取原子对应的元素编号，如碳原子的AtomicNum就是6 ‘GetBonds’: 该原子参与形成的键的列表。 ‘GetFormalCharge’: 该原子的电荷 ‘GetChiralTag’:原子的手性信息 ‘GetDegree’：原子的度，这里的度指的是这个原子参与形成键的数目 ‘GetIsAromatic’: 判断原子是否是芳香性原子 ‘GetIdx’：获取原子的编号 ‘GetNeighbors’：获取相连的原子列表 ‘GetSmarts’：获取原子的Smarts形式 ‘GetSymbol’：获取原子的元素符号 IsInRing()：判断原子是否在环上 IsInRingSize(n): 判断原字是否在n-元环上
2. 键信息	得到键对象bond, 内置了大量的方法： GetBondType()：获取键的类型 ‘GetBeginAtom()’: 组成键的第一个原子 GetBeginAtomIdx()：键的第一个组成原子编号 GetEndAtomIdx()：键的第二个组成原子编号 ‘GetEndAtom()’: 组成键的第二个原子 ‘IsInRing()’: 判断是否在环上 ‘IsInRingSize(n)’：判断是否在n-元环上

Some Simple Calculation

计算原子电荷值 Gasteiger Charges

from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem.Draw import IPythonConsole
IPythonConsole.molSize = 250,250

m = Chem.MolFromSmiles('c1ncncc1C(=O)[O-]')
# Gasteiger Charges：原子电荷
# 计算一个分子的Gasteiger电荷。 使用称为_GasteigerCharge的属性为每个Atom对象存储计算出的值。 可以通过将此值传递给相似度图来绘制电荷图。 
AllChem.ComputeGasteigerCharges(m)#计算各原子的Gasteiger Charges
m

AllChem.ComputeGasteigerCharges(m)

已经将m中每个原子的Gasteiger Charges已经计算出来了并保存在每一个原子_GasteigerCharge中；然后对原子逐个使用atom.SetProp（添加原子的性质），同步可以实现直接显示。

【Code】

#设置原子电荷的属性
for atom in m.GetAtoms():
    value = '%.2f'%(atom.GetDoubleProp('_GasteigerCharge'))
    atom.SetProp('atomNote',value) #设置原子的属性，设置完以后，会在mol中直接显示
    #这里要注意，不能直接使用atom.SetAtomMapNum(value),因为matom.SetAtomMapNum()用于添加原子编号，只能添加整数

#遍历每个原子并调用其属性值
for atom in m.GetAtoms():
    print(atom.GetProp('atomNote'))

2. 子结构搜索&分子指纹

子结构的搜索可以使用SMARTS匹配符完成

Smiles 可以看成分子的1D形式，分子的平面结构可以看成分子的2D形式。

SMARTS 在子结构匹配、化学反应等方面发挥着重要作用。

（SMART编码是前面描述的SMILES语言的扩展，可以用来创建查询。可以将SMART模式看作类似于用于搜索文本的正则表达式(换一种说法就是，smart编码相当于对smiles编码的一种模糊搜索)）常用的SMARTS知识:

C c 大写小写C是不一样的，大写代表脂肪碳；小写代表芳香碳。
冒号后面的数字为Atom Map ID
羟基O的表示 []

判断是否有子结构m.HasSubstructMatch(patt)

获取第一个子结构对应的原子编号m.GetSubstructMatch(patt)——返回一个元组

m.GetSubstructMatches(patt) 获取所有子结构的原子编号——返回元组表（内含有多个元组...）

以甲氧基苯为例，查找是否含有-OCH3，若有则显示其对应的原子编号。：

【Code】
from rdkit import Chem
m = Chem.MolFromSmiles('c1ccccc1OC')
patt = Chem.MolFromSmarts('OC')
flag =m.HasSubstructMatch(patt)

if flag:
    print("molecu m contains group -OCH3")
    atomids = m.GetSubstructMatch(patt)
    print("matched atom id:",atomids)
else:
    print("molecu m don't contain group -OCH3")

分子指纹（Molecular Fingerprint）

分子指纹就是一种分子的抽象表征，它将分子转化（编码）为一系列比特串（即比特向量，bit vector .），然后可以很容易地在分子之间进行比较，比较分子的相似性等。典型的流程是将提取分子的结构特征、然后哈希(Hashing)生成比特向量。

使用rdkit中的 from rdkit.Chem.Fingerprints import FingerprintMols

详情可参考：

化合物相似性搜索_RDKit | 基于分子指纹的分子相似性_weixin_39999859的博客-CSDN博客分子相似性：相似性原理（similar property principle）指出，总体相似的分子应具有相似的生物活性。相似性评估化合物的指纹对于使用计算机考虑化合物的相似性是必需的。已经提出了各种评估方法，但是最常用的评估方法称为“ Tanimoto系数 ”。使用以下等式从两个分子A和B的位阵列指纹计算Tanimoto系数：导入库import pandas as p...https://blog.csdn.net/weixin_39999859/article/details/112354718?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-4-112354718-blog-97921745.pc_relevant_default&spm=1001.2101.3001.4242.3&utm_relevant_index=7

4. 引用

️一些视频【强烈安利】

神经网络（六）图神经网络 Graph Neural Network_哔哩哔哩_bilibili
带你一天搞定图神经网络GNN！学不会up直接下跪！图神经网络快速入门教程（绝对通俗易懂！）（GNN/GCN入门实战（附课程源码）_哔哩哔哩_bilibili
【从入门到精通】不愧是计算机博士唐宇迪带我半天就学会图神经网络PytorchGeometric实战_哔哩哔哩_bilibili
【RDKit】【教程】Introduction to RDKit, Jan Jensen_哔哩哔哩_bilibili
RDkit:SMILES命名绘图_哔哩哔哩_bilibili

其他

Chem和AllChem的区别：

Chem ：负责基础常用的化学功能（如：读写分子，子结构搜索，分子美化等）
AllChem: 负责高级但不常用的化学功能。

安装踩坑解决方案：

- torch_sparse安装问题

使用pip install torch_sparse有如下报错：

解决方案：

装了torch_geometric之后装不上sparse的参考文章：torch-sparse安装教程_机器不学习我学习的博客-CSDN博客_torch_sparse

失败原因：

应该是库和库之间依赖的问题，所以torch版本要和geometric还有sparse等module都要对应起来！

torch_geometric、 torch_sparse、 torch_scatter、 torch_cluster是一个大佬根据根据pytorch版本和一些bug修复持续更新的，因此依赖关系比较严重，根据发布的版本应该对应起来进行安装使用。

https://github.com/rusty1s/pytorch_cluster/releases
Releases · pyg-team/pytorch_geometric · GitHub
https://github.com/rusty1s/pytorch_sparse/releases
https://github.com/rusty1s/pytorch_scatter/releases

1. python——import torch 查看torch版本和the CUDA version PyTorch

2. 按照这个Installation — pytorch_geometric documentation安装

安装命令为下图蓝色highlight所示

你可能感兴趣的:(GNN,人工智能,神经网络,pytorch)

回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造” 耘瞳科技科技
在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作……作为南京市机器人产业“一核多翼”布局的“核”，江宁开发区当前聚集人工智能产业核心及上下游关联企业超百家。近日，《南京日报》走访了多家链条上的“明星企业”，耘瞳科技作为中国领先的智能检测与测量
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
编程行业必备！12个热门AI工具帮你写代码~ DevSecOps选型指南人工智能软件供应链安全工具代码安全开发助手 SAST 安全
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练 AI大模型探索者 pytorch 人工智能 python transformer 深度学习 ai 机器学习
前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。单机单卡训练前面我们已经介绍了一个完整的训练流程，但这里由于要介绍单机多卡和多机多卡训练的代码，为了能更好地理解它们之间的区别，这里先放一个单机单卡也就是一般情况下的代码流程。impo
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
用 pytorch 从零开始创建大语言模型（零）：汇总墨绿色的摆渡人用 pytorch 从零开始创建大语言模型 pytorch 语言模型人工智能
用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel(FromScratch)本系列文章：用pytorch从零开始创建大语言模型（一）：理解大型语言模型用pytorch从零开始创建大语言模型（二）：待更新用pytorch从
TensorFlow和Pytorch在功能上的区别以及优势 Honeysea_70 #算法 tensorflow pytorch 人工智能
功能上的区别1.计算图TensorFlow：使用静态计算图（StaticGraph）。在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。计算图是动态构建和执行的，每次迭代都会重新构建图。优点是调试方便，
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
树莓派4B arm平台aarch64 pip安装pytorch 纬领网络 pytorch arm 深度学习
比如你要安装torch1.7.1的版本，你执行下面这行命令pip3installtorch==1.7.1torchvision==0.8.2torchaudio==0.7.2-fhttps://torch.kmtea.eu/whl/stable-cn.html
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
Pytorch使用手册-DCGAN 指南（专题十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
1.Introduction本教程将通过一个示例介绍DCGANs（深度卷积生成对抗网络）。我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。这里的大部分代码来源于PyTorch官方示例中的DCGAN实现，而本文档将对该实现进行详细解释，并阐明这种模型的运行机制及其背后的原因。无需担心，你不需要事先了解GAN的知识，但初次接触的读者可能需要花一些时间来理
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

GNN在生化任务上的工程实现学习笔记

1. 预备知识

GNN Framework

2. GNN使用PyG(PyTorch第三方库)的实现

torch_geometric 官方文档

1. Message Passing

继承MessagePassing基类的GCNConv

2. 节点/边表征以及图表征

node /edge level：

graph level：

- 节点嵌入——节点表征——图池化——图的表征——线性变换

【Zachary‘s karate club network数据集进行PyG小白入门实战 】

1. 数据集

2. 数据集展示（使用networkx可视化展示）

3. Graph Neural Network网络定义

4. 输出特征展示

5. 训练模型（Semi-supervised）

【一些PyG的数据类型】

Data 类（PyG的数据结构）

Batch类【详情可参考】

batch属性说明

3. 生化任务的一些第三方包

rdkit 官方文档

1. 如何画分子&一些分子操作方法的引入

Drawing Molecules

Some Simple Calculation

2. 子结构搜索&分子指纹

4. 引用

️一些视频【强烈安利】

其他

你可能感兴趣的:(GNN,人工智能,神经网络,pytorch)

【Zachary‘s karate club network数据集进行PyG小白入门实战】