_Old_Summer

图神经网络框架-PyTorch Geometric(PyG)的使用

1.整体介绍

1.1 图的表示

1.2 常用的图神经网络数据集

1.3 如何加载数据集

2.空域图卷积神经网络的建立

2.1 GCN的实现

2.2 Edge Convolution的实现

3.自建图神经网络数据集

3.1 创建一个能够完全放入内存中的图数据集

3.2 创建无法完全放入内存的数据集

4.批处理

5.异质图的建立

6.异质图神经网络的建立

6.1 将简单图神经网络转换为异质图神经网

PyG(PyTorch Geometric)是一个基于PyTorch的图神经网络框架，建议先了解PyTorch的使用再学习PyG

PyG支持图神经网络训练中的数据集处理、多GPU训练、多个经典的图神经网络模型、多个常用的图神经网络训练数据集而且支持自建数据集，主要包含以下几个模块

torch_geometric:主模块
torch_geometric.nn：搭建图神经网络层
torch_geometric.data:图结构数据的表示
torch_geometric.loader:加载数据集
torch_geometric.datasets:常用的图神经网络数据集
torch_geometric.transforms:数据变换
torch_geometric.utils:常用工具
torch_geometric.graphgym:常用的图神经网络模型
torch_geometric.profile:监督模型的训练

1.整体介绍

1.1 图的表示

PyG用torch_geometric.data.Data保存图结构的数据，导入的data(这个data指的是你导入的具体数据，不是前面那个torch_geometric.data)在PyG中会包含以下属性

data.x：图节点的属性信息，比如社交网络中每个用户是一个节点，这个x可以表示用户的属性信息，维度为[num_nodes,num_node_features]
data.edge_index:COO格式的图节点连接信息，类型为torch.long,维度为[2,num_edges](具体包含两个列表，每个列表对应位置上的数字表示相应节点之间存在边连接）
data.edge_attr:图中边的属性信息，维度[num_edges,num_edge_features]
data.y:标签信息，根据具体任务，维度是不一样的，如果是在节点上的分类任务，维度为[num_edges,类别数],如果是在整个图上的分类任务，维度为[1,类别数]
data.pos:节点的位置信息（一般用于图结构数据的可视化）

除了以上属性，我们还可以通过data.face自定义属性。

下面看如何利用PyG表示下面这个图

import torch
from torch_geometric.data import Data

# 边的连接信息
# 注意，无向图的边要定义两次
edge_index = torch.tensor(
    [
        # 这里表示节点0和1有连接，因为是无向图
        # 那么1和0也有连接
        # 上下对应着看
        [0, 1, 1, 2],
        [1, 0, 2, 1],
    ],
    # 指定数据类型
    dtype=torch.long
)
# 节点的属性信息
x = torch.tensor(
    [
        # 三个节点
        # 每个节点的属性向量维度为1
        [-1],
        [0],
        [1],
    ]
)
# 实例化为一个图结构的数据
data = Data(x=x, edge_index=edge_index)
# 查看图数据
print(data)
# 图数据中包含什么信息
print(data.keys)
# 查看节点的属性信息
print(data['x'])
# 节点数
print(data.num_nodes)
# 边数
print(data.num_edges)
# 节点属性向量的维度
print(data.num_node_features)
# 图中是否有孤立节点
print(data.has_isolated_nodes())
# 图中是否有环
print(data.has_self_loops())
# 是否是有向图
print(data.is_directed())

1.2 常用的图神经网络数据集

PyG包含了一些常用的图深度学习公共数据集，如

Planetoid数据集（Cora、Citeseer、Pubmed）
一些来自于http://graphkernels.cs.tu-dortmund.de常用的图神经网络分类数据集
QM7、QM9
3D点云数据集，如FAUST、ModelNet10等

接下来拿ENZYMES数据集（包含600个图，每个图分为6个类别，图级别的分类）举例如何使用PyG的公共数据集

from torch_geometric.datasets import TUDataset

# 导入数据集
dataset = TUDataset(
    # 指定数据集的存储位置
    # 如果指定位置没有相应的数据集
    # PyG会自动下载
    root='../data/ENZYMES',
    # 要使用的数据集
    name='ENZYMES',
)
# 数据集的长度
print(len(dataset))
# 数据集的类别数
print(dataset.num_classes)
# 数据集中节点属性向量的维度
print(dataset.num_node_features)
# 600个图，我们可以根据索引选择要使用哪个图
data = dataset[0]
print(data)
# 随机打乱数据集
dataset = dataset.shuffle()

1.3 如何加载数据集

真正的图神经网络训练中我们一般是加载数据集中的一部分到内存中训练图神经网络，叫做一个batch,那么PyG如何加载一个batch呢，PyG会根据我们的数据集将其分割为我们指定的batch大小

举个例子

from torch_geometric.loader import DataLoader
from torch_geometric.datasets import TUDataset


# 数据集
dataset = TUDataset(
    root='../data/ENZYMES',
    name='ENZYMES',
    use_node_attr=True,
)
# 建立数据集加载器
# 每次加载32个数据到内存中
loader = DataLoader(
    # 要加载的数据集
    dataset=dataset,
    # ENZYMES包含600个图
    # 每次加载32个
    batch_size=32,
    # 每次加入进来之后是否随机打乱数据（可以增加模型的泛化性）
    shuffle=True
)
for batch in loader:
    print(batch)
    print(batch.num_graphs)

2.空域图卷积神经网络的建立

空域图卷积（注意，图神经网络里的‘卷积’一词，取得是‘特征提取’这个广义意义，跟卷积神经网络里的那个卷积核计算区别开）可以看作是相邻节点之间进行信息传递、融合的过程，计算公式可以一般化为

对于以上计算过程,PyG利用MessagePassing进行实现。接下来以两篇经典图神经网络论文为例，介绍MessagePassing的使用

https://arxiv.org/abs/1609.02907

https://arxiv.org/abs/1801.07829

2.1 GCN的实现

在第一篇论文中，作者提出的卷积计算公式为

mport torch
from torch_geometric.nn import MessagePassing
from torch_geometric.utils import add_self_loops, degree


# 定义GCN空域图卷积神经网络
class GCNConv(MessagePassing, ABC):
    # 网络初始化
    def __init__(self, in_channels, out_channels):
        """
        :param in_channels: 节点属性向量的维度
        :param out_channels: 经过图卷积之后，节点的特征表示维度
        """
        # 定义伽马函数为求和函数,aggr='add'
        super(GCNConv, self).__init__(aggr='add')
        # 定义最里面那个线性变换
        # 具体到实现中就是一个线性层
        self.linear_change = torch.nn.Linear(in_channels, out_channels)

    # 定义信息汇聚函数
    def message(self, x_j, norm):
        # 正则化
        # norm.view(-1,1)将norm变为一个列向量
        # x_j是节点的特征表示矩阵
        return norm.view(-1, 1) * x_j

    # 前向传递，进行图卷积
    def forward(self, x, edge_index):
        """
        :param x:图中的节点，维度为[节点数,节点属性相邻维度数]
        :param edge_index: 图中边的连接信息,维度为[2,边数]
        :return:
        """
        # 添加节点到自身的环
        # 因为节点最后面汇聚相邻节点信息时包含自身
        # add_self_loops会在edge_index边的连接信息表中，
        # 添加形如[i,i]这样的信息
        # 表示一个节点到自身的环
        # 函数返回[边的连接信息，边上的属性信息]
        edge_index, _ = add_self_loops(edge_index, num_nodes=x.size(0))
        # 进行线性变换
        x = self.linear_change(x)
        # 计算外面的正则化
        row, col = edge_index
        # 获取节点的度
        deg = degree(col, x.size(0), dtype=x.dtype)
        # 带入外面的正则化公式
        deg_inv_sqrt = deg.pow(-0.5)
        # 将未知的值设为0，避免下面计算出错
        deg_inv_sqrt[deg_inv_sqrt == float('inf')] = 0
        # 正则化部分
        norm = deg_inv_sqrt[row] * deg_inv_sqrt[col]
        # 进行信息传递和融合
        # propagate会自动调用self.message函数，并将参数传递给它
        return self.propagate(edge_index, x=x, norm=norm)


# 测试我们刚才定义的图卷积神经网络
if __name__ == '__main__':
    # 实例化一个图卷积神经网络
    # 并假设图节点属性向量的维度为16，图卷积出来的节点特征表示向量维度为32
    conv = GCNConv(16, 32)
    # 随机生成一个节点属性向量
    # 5个节点，属性向量为16维
    x = torch.randn(5, 16)
    # 随机生成边的连接信息
    # 假设有3条边
    edge_index = [
        [0, 1, 1, 2, 1, 3],
        [1, 0, 2, 1, 3, 1]
    ]
    edge_index = torch.tensor(edge_index, dtype=torch.long)
    # 进行图卷积
    output = conv(x, edge_index)
    # 输出卷积之后的特征表示矩阵
    print(output.data)

2.2 Edge Convolution的实现

在第二篇论文中，作者提出的卷积公式为

import torch
from torch.nn import Sequential as Seq
from torch.nn import Linear, ReLU
from torch_geometric.nn import MessagePassing


# 定义EdgeConv图卷积神经网络
class EdgeConv(MessagePassing):
    # 初始化图卷积神经网络
    def __init__(self, in_channels, out_channels):
        # 定义伽马函数为求最大值函数
        super().__init__(aggr='max')
        # 定义一个前馈神经网络
        self.mlp = Seq(
            # 线性层,后面信息汇聚函数之后的输入是2*in_channels
            Linear(2 * in_channels, out_channels),
            # 激活函数
            ReLU(),
            # 输出层
            Linear(out_channels, out_channels)
        )

    # 定义信息汇聚函数
    def message(self, x_i, x_j):
        tmp = torch.cat([x_i, x_j - x_i], dim=1)
        # cat之后tmp的维度为[边数,2*in_channels]
        return self.mlp(tmp)

    # 前向传递，进行图卷积
    def forward(self, x, edge_index):
        # x是节点属性向量矩阵
        # edge_index是边的连接信息
        # 进行信息的传递、融合
        return self.propagate(edge_index, x=x)

3.自建图神经网络数据集

PyG将自建数据集分为两个文件夹---raw_dir、processed_dir。row_dir是原始的数据集，processed_dir是PyG处理之后的数据集

对于数据集PyG有三种过滤方法---transform、pre_transform、pre_filter。

transform:读取数据，然后对其进行变换
pre_transform：对于整个数据集进行变换，然后将变换之后的数据进行存储，pre_filter同理

PyG将数据集分为两种类型

torch_geometric.data.InMemoryDataset：能够完全放入内存中的
torch_geometric.data.Dataset:不能够完全放入内存中的

3.1 创建一个能够完全放入内存中的图数据集

做4件事：

实现torch_geometric.data.InMemoryDataset.raw_file_names():告诉PyG数据集放在哪里
实现torch_geometric.data.InMemoryDataset.processed_file_names():告诉PyG数据集处理完之后放在哪里
实现torch_geometric.data.InMemoryDataset.download():告诉PyG从哪里获取数据集
实现torch_geometric.data.InMemoryDataset.process():告诉PyG如何处理你的数据集

一个通用模板是这样的

import torch
from torch_geometric.data import InMemoryDataset, download_url


# 实现In Memory Dataset的通用模板
class MyDataset(InMemoryDataset):
    # 初始化
    def __init__(self, root, transfrom=None, pre_transform=None):
        # root是数据集的根目录
        super(MyDataset, self).__init__(root, transfrom, pre_transform)
        # 加载数据集
        self.data, self.slices = torch.load(self.processed_paths[0])

    def raw_file_names(self) -> Union[str, List[str], Tuple]:
        return ['file_1', 'file_2', ...]

    def processed_file_names(self) -> Union[str, List[str], Tuple]:
        return ['data.pt']

    def download(self):
        # 将数据集下载到raw_dir文件夹中
        download_url(url, self.raw_dir)

    def process(self):
        data_list = [...]
        # 进行数据过滤
        if self.pre_filter is not None:
            data_list = [data for data in data_list if self.pre_filter(data)]
        if self.pre_transform is not None:
            data_list = [self.pre_transform(data) for data in data_list]
        # self.collate将所有数据组合在一起,加速存储
        # data是组合之后的数据
        # slices是分割方式，告诉PyG如何将data还原为原先的数据
        data, slices = self.collate(data_list)
        # 保存数据
        torch.save((data, slices), self.processed_paths[0])

3.2 创建无法完全放入内存的数据集

这种就类似于PyTorch中的Dataset了，在上面需要做的几件事的基础上还需要

实现torch_geometric.data.Dataset.len():告诉PyG数据集有多大
实现torch_geometric.data.Dataset.get():告诉PyG如何从数据集中获取一个数据

通用模板为

import os.path as osp
import torch
from torch_geometric.data import Dataset, download_url


class MyDataset(Dataset):
    # 初始化
    def __init__(self, root, transform=None, pre_transform=None):
        super(MyDataset, self).__init__(root, transform, pre_transform)

    def raw_file_names(self) -> Union[str, List[str], Tuple]:
        return ['file_1', 'file_2', ...]

    def processed_file_names(self) -> Union[str, List[str], Tuple]:
        return ['data_1.pt', ...]

    def download(self):
        path = download_url(url, self.raw_dir)

    def process(self):
        i = 0
        for raw_path in self.raw_paths:
            # 读取数据
            data = Data(...)
            # 过滤数据集
            if self.pre_filter is not None and not self.pre_filter(data):
                pass
            if self.pre_transform is not None:
                data = self.pre_transform(data)
            # 保存数据
            torch.save(data, osp.join(self.processed_dir, 'data_{}.pt'.format(i)))
            i += 1

    def len(self):
        return len(self.processed_file_names)

    def get(self,idx):
        data = torch.load(osp.join(self.processed_dir, 'data_{}.pt'.format(idx)))
        return data

4.批处理

来源于传统深度学习中批处理的思想---将数据分批，然后每批数据组合为一组，然后一组、一组的进行训练，每组数据的数据量叫做batch_size。PyG是将图数据集分为多组进行训练的

PyG会自动帮我们将图数据集按照我们定义的batch_size分割，然后将每个batch中的数据合并。

如果我们想要控制PyG如何组合一个batch中的数据，我们需要自己重写torch_geometric.data.Data.__inc__()

举两个具体的例子

假设我们的数据集中每个数据（注意是每个数据）包含两个图，每个数据像这样

对于这种数据集，如何控制PyG将多个数据合并成一个batch呢，以batch_size为2举例，batch_size=2意味着将数据集中每两个数据组成一组，形成一个图，每个batch中的数据是这样的

from typing import Any

import torch
from torch_geometric.data import Data
from torch_geometric.loader import DataLoader


# 定义图数据
class PairData(Data):
    def __init__(self, edge_index_s=None, x_s=None, edge_index_t=None, x_t=None):
        # 每个数据中包含两个图s,t
        """
        :param edge_index_s: 图s的连接关系
        :param x_s: 图s的节点属性矩阵
        :param edge_index_t: 图t的连接关系
        :param x_t: 图t的节点属性矩阵
        """
        super(PairData, self).__init__()
        self.edge_index_s = edge_index_s
        self.x_s = x_s
        self.edge_index_t = edge_index_t
        self.x_t = x_t

    def __inc__(self, key: str, value: Any, *args, **kwargs) -> Any:
        # 如果要合并的是图s
        # 那么告诉PyG图s的节点数
        if key == 'edge_index_s':
            return self.x_s.size(0)
        # 如果要合并的是图t
        # 那么告诉PyG图t的节点数
        if key == 'edge_index_t':
            return self.x_t.size(0)
        # 其它情况默认
        else:
            return super().__inc__(key, value, *args, **kwargs)


# 下面验证一下我们上面定义的合并方法
# 定义图s
edge_index_s = torch.tensor([
    [0, 0, 0, 0],
    [1, 2, 3, 4],
])
x_s = torch.randn(5, 16)
# 定义图t
edge_index_t = torch.tensor([
    [0, 0, 0],
    [1, 2, 3],
])
x_t = torch.randn(4, 16)  # 4 nodes.
# 验证，简单定义数据集包含两个数据
data = PairData(edge_index_s, x_s, edge_index_t, x_t)
data_list = [data, data]
# batch_size=2
# follow_batch描述节点信息
loader = DataLoader(data_list, batch_size=2, follow_batch=['x_s', 'x_t'])
# 验证PyG是否按照我们定义的方式有效的合并了一个batch的数据
batch = next(iter(loader))
# 查看合并为一个batch的数据
print(batch)
# 查看batch中的s(这个是两个原数据中s的组合，作为一个)
print(batch.edge_index_s)
# 查看batch中的t
print(batch.edge_index_t)

再举一个二分图的例子，假设我们数据集中每个数据是一个二分图，像这样

还是batch_size=2,我们想控制PyG让数据变成

import torch
from torch_geometric.data import Data
from torch_geometric.loader import DataLoader


# 定义二分图结构
class BipartiteData(Data):
    def __init__(self, edge_index=None, x_s=None, x_t=None):
        super().__init__()
        # 包含一组边
        # 两组节点
        self.edge_index = edge_index
        self.x_s = x_s
        self.x_t = x_t

    # 定义每个batch的合并方式
    def __inc__(self, key, value, *args, **kwargs):
        # 如果要合并两个图的边连接信息
        if key == 'edge_index':
            # 左边（边连接信息的第一行）按照第一组节点数合并
            # 右边（边连接信息的第二行）按照第二组节点数合并
            return torch.tensor([[self.x_s.size(0)], [self.x_t.size(0)]])
        else:
            return super().__inc__(key, value, *args, **kwargs)


edge_index = torch.tensor([
    [0, 0, 1, 1],
    [0, 1, 1, 2],
])
x_s = torch.randn(2, 16)
x_t = torch.randn(3, 16)
data = BipartiteData(edge_index, x_s, x_t)
data_list = [data, data]
loader = DataLoader(data_list, batch_size=2)
batch = next(iter(loader))
print(batch)
print(batch.edge_index)

5.异质图的建立

前面讨论的图可以归为简单图---只包含一种类型的节点以及一种类型的边。

然而在现实中需要对多种类型的节点以及这些节点之间多种类型的边进行处理，这就需要异质图的概念，在异质图中，不同类型的边描述不同类型节点之间不同的关系，异质图神经网络的任务就是在这种图结构上学习出节点或者整个异质图的特征表示。异质图准确定义如下：

接下来以一个电影评分数据集MovieLens举例如何构建异质图。

MovieLens包含了600个用户对于电影的评分，我们利用这个数据集构建一个二分图，包含电影、用户两种类型的节点，一种类型的边（含有多种类型节点，所以可以看作一个异质图）

MovieLens中的movies.csv文件描述了电影的信息，包括电影在数据集中唯一的ID，电影名，电影所属的类型

ratings.csv包含了用户对于电影的评分

接下来就根据这两个csv建立二分图数据集

import os.path as osp

import torch
import pandas as pd
from sentence_transformers import SentenceTransformer

from torch_geometric.data import HeteroData, download_url, extract_zip
from torch_geometric.transforms import ToUndirected, RandomLinkSplit

# 数据集下载地址
url = 'https://files.grouplens.org/datasets/movielens/ml-latest-small.zip'
# 数据集存放路径
root = osp.join(osp.dirname(osp.realpath(__file__)), '../data/MovieLens')
# 下载数据集并进行解压
extract_zip(download_url(url, root), root)
# 获取movies.csv，ratings.csv文件
movie_path = osp.join(root, 'ml-latest-small', 'movies.csv')
rating_path = osp.join(root, 'ml-latest-small', 'ratings.csv')
# 利用pandas查看数据集
print(pd.read_csv(movie_path).head())
print(pd.read_csv(rating_path).head())


# 将电影名那列
# 利用嵌入模型将每个电影名用向量表示(Embedding)
class SequenceEncoder(object):
    # 初始化
    # 指定我们使用的嵌入模型
    # 和使用的设备
    def __init__(self, model_name='all-MiniLM-L6-v2', device=None):
        # 使用的设备
        self.device = device
        # 使用的嵌入模型名
        self.model = SentenceTransformer(model_name, device=device)

    # 嵌入模型不参与后续图神经网络的训练
    @torch.no_grad()
    def __call__(self, df):
        x = self.model.encode(
            # 要进行嵌入的值
            df.values,
            # 显示处理进度
            show_progress_bar=True,
            # 转换为PyTorch的张量
            convert_to_tensor=True,
            # 使用的设备
            device=self.device
        )
        return x.cpu()


# 将电影类型那列进行嵌入表示
class GenresEncoder(object):

    # 分隔符
    def __init__(self, sep='|'):
        self.sep = sep

    def __call__(self, df):
        # 分割出所有的电影类型
        # 后面两个for的逻辑是：
        # for col in df.values取出每一行的值
        # for g in col.split(self.sep)将取出来的值用指定的分隔符进行分割
        # set(g)将分割之后的结果转换为集合,去重
        genres = set(g for col in df.values for g in col.split(self.sep))
        # 将电影类型用数字表示
        mapping = {genre: i for i, genre in enumerate(genres)}
        # 用multi-hot形式表示电影的类型
        x = torch.zeros(len(df), len(mapping))
        for i, col in enumerate(df.values):
            for genre in col.split(self.sep):
                x[i, mapping[genre]] = 1
        return x


# 从CSV文件中读取信息，建立二分图中节点的信息
def load_node_csv(path, index_col, encoders=None, **kwargs):
    """
    :param path: CSV文件路径
    :param index_col: 文件中的索引列，也就是节点所在的列
    :param encoders:节点嵌入器
    :param kwargs:
    :return:
    """
    df = pd.read_csv(path, index_col=index_col, **kwargs)
    # 将索引用数字表示
    mapping = {index: i for i, index in enumerate(df.index.unique())}
    # 节点属性向量矩阵
    x = None
    # 如果嵌入器非空
    if encoders is not None:
        # 对相应的列进行嵌入
        # 获取嵌入向量表示
        xs = [encoder(df[col]) for col, encoder in encoders.items()]
        x = torch.cat(xs, dim=-1)

    return x, mapping


# 获取节点信息
# 处理movies.csv表，将'电影名','电影类型'列转换为嵌入向量的表示形式
movie_x, movie_mapping = load_node_csv(
    movie_path, index_col='movieId', encoders={
        # 电影名列的嵌入器
        'title': SequenceEncoder(),
        # 电影类型列的嵌入器
        'genres': GenresEncoder()
    })
# 处理ratings.csv表,将用户ID用PyTorch中的张量表示
user_x, user_mapping = load_node_csv(rating_path, index_col='userId')
# 建立异质图（这里具体是一个二分图）
# HeteroData()是PyG中内置的一个表示异质图的数据结构
data = HeteroData()
# 加入不同类型节点的信息
# 加入用户信息，用户没有属性向量
# 只需要告诉PyG有多少个用户节点就可以
data['user'].num_nodes = len(user_mapping)
# 告诉PyG 电影的属性向量矩阵，PyG会根据x推断出电影节点的个数
data['movie'].x = movie_x
print(data)


# 建立用户和电影之间边的信息
# 将用户对电影的评分转换为PyTorch中的张量
# 方便后续模型的训练
class IdentityEncoder(object):

    def __init__(self, dtype=None):
        self.dtype = dtype

    def __call__(self, df):
        return torch.from_numpy(df.values).view(-1, 1).to(self.dtype)


# 建立二分图边的连接信息
def load_edge_csv(path, src_index_col, src_mapping, dst_index_col, dst_mapping,
                  encoders=None, **kwargs):
    """
    :param path: CSV表的路径
    :param src_index_col: 二分图左边节点来源于CSV表的哪一列，比如'user_id'这列
    :param src_mapping:将user_id映射为节点编号，我们前面定义的user_mapping
    :param dst_index_col:同理，二分图右边电影节点
    :param dst_mapping:
    :param encoders:边的嵌入器
    :param kwargs:
    :return:
    """
    df = pd.read_csv(path, **kwargs)
    # 建立连接信息
    src = [src_mapping[index] for index in df[src_index_col]]
    dst = [dst_mapping[index] for index in df[dst_index_col]]
    # 注意这里edge_index维度为[2,边数]
    edge_index = torch.tensor([src, dst])
    # 边的属性信息
    edge_attr = None
    # 如果嵌入器非空
    if encoders is not None:
        edge_attrs = [encoder(df[col]) for col, encoder in encoders.items()]
        edge_attr = torch.cat(edge_attrs, dim=-1)

    return edge_index, edge_attr


# 获取二分图边的信息
edge_index, edge_label = load_edge_csv(
    rating_path,
    # 二分图左边是用户
    src_index_col='userId',
    src_mapping=user_mapping,
    # 右边是电影
    dst_index_col='movieId',
    dst_mapping=movie_mapping,
    encoders={'rating': IdentityEncoder(dtype=torch.long)},
)
# 将二分图中的边命名为('user', 'rates', 'movie')
data['user', 'rates', 'movie'].edge_index = edge_index
data['user', 'rates', 'movie'].edge_label = edge_label
print(data)

# 到此我们的异质图(这里是一个二分图)数据集就构建完毕了
# 下面进一步将其转换为一个真正可以进行训练的数据集
# 转换为无向图
data = ToUndirected()(data)
# 删除相反方向边的属性信息，因为没有电影对用户的评分数据
del data['movie', 'rev_rates', 'user'].edge_label

# 按照一定比例分割数据集为训练集、测试集、验证集
transform = RandomLinkSplit(
    num_val=0.05,
    num_test=0.1,
    # 负采样比率
    # 不用负采样，全部输入进行训练
    neg_sampling_ratio=0.0,
    # 告诉PyG边的连接关系
    edge_types=[('user', 'rates', 'movie')],
    rev_edge_types=[('movie', 'rev_rates', 'user')],
)
# 分割数据集
train_data, val_data, test_data = transform(data)
print(train_data)
print(val_data)
print(test_data)

6.异质图神经网络的建立

拿OGB数据集举例

在OGB数据集中包含4种类型的节点

author
paper
institution
field of study

4种类型的边

writes:author和paper之间的连接关系
affiliated with:author和institution之间的连接关系
cites:paper和paper之间的关系
has topic:paper和field of study之间的关系

OGB数据集上的任务是预测论文在整个关系网中所属的位置

下面看如何表示这个异质图

from torch_geometric.data import HeteroData

# HeteroData是PyG自带的一个异质图数据结构
data = HeteroData()
# 添加节点的信息
data['paper'].x = ...
data['author'].x = ...
data['institution'].x = ...
data['field_of_study'].x = ...
# 添加边的连接信息
data['paper', 'cites', 'paper'].edge_index = ...  
data['author', 'writes', 'paper'].edge_index = ...  
data['author', 'affiliated_with', 'institution'].edge_index = ...  
data['author', 'has_topic', 'institution'].edge_index = ...  
# 添加边的属性信息
data['paper', 'cites', 'paper'].edge_attr = ...  
data['author', 'writes', 'paper'].edge_attr = ...  
data['author', 'affiliated_with', 'institution'].edge_attr = ...  
data['paper', 'has_topic', 'field_of_study'].edge_attr = ...

这样上面的异质图就建立完成了，我们可以将它输入到一个异质图神经网络中

# 异质图神经网络
model = HeteroGNN(...)
# 获取异质图神经网络网络的输出
# 注意异质图神经网络的输入是 ..._dict
output = model(data.x_dict, data.edge_index_dict, data.edge_attr_dict)

如果PyG中包含你想用的异质图，可以直接这样导入

from torch_geometric.datasets import OGB_MAG

# 导入数据集
dataset = OGB_MAG(
    root='../data',
    # 预处理方式
    # 转换为向量
    preprocess='metapath2vec',
)
print(dataset[0])

下面介绍一下HeteroData中常用的函数

#获取异质图中的某种节点或边
paper_node_data=data['paper']
cites_edge_data=data['paper','cites','paper']
#如果边的连接节点集合或者边的命名是唯一的还可以这样写
#使用连接端点获取边
cites_edge_data=data['paper','paper']
#使用边的名字获取
cites_edge_data=data['cites']
#给节点添加新属性
data['paper'].year=...
#删除节点的某些属性
def data['field_of_study']
#通过metadata获取异质图中所有类型的信息
node_types,edge_types=data.metadata()
#所有类型的节点
print(node_types)
#所有类型的边
print(edge_types)
#判断异质图自身的一些属性
print(data.has_isolated_nodes())
#如果不同类型信息之间维度匹配还可以将异质图融合为一个简单图
homogeneous_data=data.to_homogeneous()
import torch_geometric.transforms as T
#对异质图进行变换
#变为无向图
data=T.ToUndirected()(data)
#添加到自身的环
data=T.AddSelfLoops()(data)

下面介绍如何建立异质图神经网络

6.1 将简单图神经网络转换为异质图神经网络

PyG可以通过torch_geometric.nn.to_hetero(),或者torch_geometric.nn.to_hetero_with_bases()将一个简单图神经网络转换成异质图的形式

import torch
import torch_geometric.transforms as T
from torch_geometric.datasets import OGB_MAG
from torch_geometric.nn import SAGEConv, to_hetero

#导入数据集
data = OGB_MAG(
    root='./data', 
    preprocess='metapath2vec', 
    transform=T.ToUndirected())[0]

#定义一个普通的图神经网络
class GNN(torch.nn.Module):
    def __init__(self, hidden_channels, out_channels):
        super().__init__()
        self.conv1 = SAGEConv((-1, -1), hidden_channels)
        self.conv2 = SAGEConv((-1, -1), out_channels)

    def forward(self, x, edge_index):
        x = self.conv1(x, edge_index).relu()
        x = self.conv2(x, edge_index)
        return x

#实例化我们定义的图神经网络
model = GNN(hidden_channels=64, out_channels=dataset.num_classes)
#将其转换为异质图形式
model = to_hetero(model, data.metadata(), aggr='sum')

PyG的to_hetero具体工作方式是这样的

它根据我们的异质图数据结构，自动将我们定义的简单图神经网络结构中的层结构进行了复制，并添加了信息传递路径。

torch_geometric.nn.conv.HeteroConv卷积层同样起到类似的功能

from torch_geometric.nn import HeteroConv, GCNConv, SAGEConv, GATConv, Linear

class HeteroGNN(torch.nn.Module):
    def __init__(self, hidden_channels, out_channels, num_layers):
        super().__init__()

        self.convs = torch.nn.ModuleList()
        #定义图卷积层
        for _ in range(num_layers):
            #最外面用HeteroConv将里面的卷积层转换为异质图版本
            conv = HeteroConv(
                #要转换的卷积层
                {
                ('paper', 'cites', 'paper'): GCNConv(-1, hidden_channels),
                ('author', 'writes', 'paper'): GATConv((-1, -1), hidden_channels),
                ('author', 'affiliated_with', 'institution'): SAGEConv((-1, -1), hidden_channels),
                }, 
                aggr='sum')
            self.convs.append(conv)

        self.lin = Linear(hidden_channels, out_channels)

    def forward(self, x_dict, edge_index_dict):
        for conv in self.convs:
            x_dict = conv(x_dict, edge_index_dict)
            x_dict = {key: x.relu() for key, x in x_dict.items()}
        return self.lin(x_dict['author'])

model = HeteroGNN(hidden_channels=64, out_channels=dataset.num_classes,
                  num_layers=2)

你可能感兴趣的:(算法,神经网络,深度学习)

【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
打卡Day12 HAhhhiu python学习打卡 python 机器学习
@浙大疏锦行知识点：遗传算法：来源于自然界中的生物进化和基因遗传思想：模拟生物进化过程，通过“选择（保留优秀解）、交叉（组合解的特征）、变异（引入新特征）”迭代优化我想培养出一只超级泰迪犬？该怎么办呢？首先，我有一群泰迪犬，但是小泰迪们的各种基因不同，形态各色，我只想要一只高大、卷毛和聪明的泰迪。（这是初始解的集合，也是案例学习代码中，我们所设定的随机森林中的一堆的参数范围）接着，我开始挑选符合上
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
财富自由之路第三章可可_4b5e
读好书一定要慢。文字的出现，使人类与其他动物区分开来。人类也正是因为有了文字才与其它物种有了本质上的不同。而阅读，对于任何一个正常人类来说都具有非凡的意义。人类之外的物种只能依赖最落后但被称为神奇的方式积累经验：基因遗传。啄木鸟可以本能地采用最优算法获取食物——而一个MIT的数学博士面对同样的问题却不见得可以迅速解决；而啄木鸟的小脑袋在没有受过高等教育的情况下，是如何得到结果的呢？答案是：通过上百
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
【数据结构 | C语言】Dijkstra算法（迪杰斯特拉算法）竹一笔记 C 数据结构数据结构 c语言开发语言
文章目录一、Dijkstra算法介绍二、算法C语言三、完整代码四、示例一、Dijkstra算法介绍Dijkstra算法解决了单源点的最短路径Dijkstra算法是贪心算法步骤：从源点出发，找到已连通点与未连通点的最小代价边连接最小代价边，将该顶点归并到已连接顶点集将该顶点连通的边的代价与最小代价比较，若代价小于最小代价，则更新最小代价边重复操作，直到连通所有顶点为止Dijkstra算法与Prim算
lab2-2 Dijkstra算法求由顶点a到顶点h的最短路径西一安鲜算法
1.问题[描述算法问题，首选形式化方式（数学语言），其次才是非形式化方式（日常语言）]对于下图使用Dijkstra算法求由顶点a到顶点h的最短路径，按实验报告模板编写算法。2.解析Dijkstra算法（单源点路径算法，要求：图中不存在负权值边），Dijkstra算法使用了广度优先搜索解决赋权有向图或者无向图的单源最短路径问题，算法最终得到一个最短路径树。Dijkstra(迪杰斯特拉)算法是典型的
单源最短路之dijkstra 「維他檸檬茶」算法最短路
迪杰斯特拉算法主要用于解决单源最短路问题，主要有两种，朴素版和堆优化版，数据量较大时用堆优化版。迪杰斯特拉朴素版：#include#includeusingnamespacestd;#defineintlonglong//可能会超时#definePIIpairconstintINF=0x3f3f3f3f,mod=998244353;constintN=505;intn,m;intg[N][N],m
【初学数据结构】关于KMP算法的回退思考 Das1 算法数据结构
初学KMP算法时，理解next数组以及回退过程是一个超级劝退过程。如果实在理解不了的，可以直接背。虽然作为十大经典算法之一，但是并不是非常重要，也就考试会考到罢了。关键数据结构解释next数组：next[k]是t[0]~t[j-1]这个串的最大相同前缀的后一个地址，同时也表示最大相同前缀的数量。s串，t串：表示两个索引j,k在进行匹配时所指代的字串next数组是什么？求next数组实际上就是求对于
【算法-图论】图的定义与一些常用术语小蛋编程 C++c++算法
【算法-图论】图的定义图论编辑器1：https://csacademy.com/app/graph_editor/图论编辑器2：https://graphonline.top/ch/1.图是什么图（graph）由节点（node）和边（edge）组成。其中，节点集合记为VVV，边集合记为EEE。每条边连接两个节点，某些图的边可能具有方向性。集合元素的数量用该集合的绝对值来表示。通过对比可以看出，图比
【PTA数据结构 | C语言版】求图中关键活动
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现求带权的有向图中关键活动的算法。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。输出格式：按格式输出关键活动，其中u为起点编号，v为终点编号。按起点编号的
【PTA数据结构 | C语言版】最短路的交点
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目给定有向加权图G，和4个顶点u,v,s,t。假设图G中所有边的权值都非负。设计一个算法来判定“从u到v的最短路径”和“从s到t的最短路径”是否存在一个交点w。也即，顶点w是u到v的最短路径上的一个顶点，同时也是s到t的最短路径上的一个顶点。注意：最短路径包含两个端点；一对顶点间的最短路径可能不止一条，求交点时必须将所有最短路径考虑在内。输
【PTA数据结构 | C语言版】求单源最短路的Dijkstra算法
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现在带权的有向图中求单源最短路的Dijkstra算法。注意：当多个待收录顶点路径等长时，按编号升序进行收录。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
基于卷积神经网络与小波变换的医学图像超分辨率算法复现神经网络15044 python 算法 cnn 算法人工智能图像处理开发语言神经网络深度学习
基于卷积神经网络与小波变换的医学图像超分辨率算法复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言医学图像超分辨率技术在临床诊断和治疗规划中具有重要意义。高分辨率的医学图像能够提供更丰富的细节信息，帮助医生做出更准确的诊断。近年来，深度学习技术在图像超分辨率领域取得了显著进展。本文将复现一种结合卷积神经网络(CNN)、小波变
2023-08-03 yM_aad9
神经是一种社会资源！只要能和别的神经互动就行了！社会性的驯化离不开神经网络人与人之间的合作只能依赖感性理性心理生理事理物理跟蠢人谈情说爱免不了虚情假意它们最爱空头支票如果兑现不了那一定是别人欺骗了它！而不是自欺欺人的本能自欺欺人最容易受人欺骗最要命的是还持有了资料官有什么可怕？可怕的是贼呀！官可能互相约束贼只能互相伤害如果没有互相？那只有相护了！傻子坏人坏事见得少不知道什么叫坏处孬子好人好事见得少
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
深度学习系列-----＞环境搭建（Ubuntu）二师兄用飘柔深度学习历程深度学习 ubuntu 人工智能 pytorch python
1、前言电脑基础系统硬件情况：系统：ubuntu18.04、显卡：GTX1050Ti；后续的环境搭建都在此基础上进行。此次学习选择Pytorch作为深度学习的框架，选择的原因主要由于PyTorch在研究领域特别受欢迎，较多的论文框架也是基于其开发。2、anaconda+python3安装测试在学习深度学习的过程中会涉及到使用不同版本python包的问题，而anaconda可以便捷获取包且对包能够进
长篇科幻小说《黄茧》第33章发现 3 橙黄茧香
如果……如果那样下沉……那样穿越，就……就算最终能够完成，只怕……只怕我……我也会被这透明凝胶给窒息而亡。提取转化后的个体意识量子态信息数据，全需接受蜜云虚拟世界数理逻辑算法制约，必须在M蜜巢系统模式构架下运行，故环境数据对个体意识数据形成制约，如两者间发生数理冲突，个体意识信息数据必会被M蜜巢系统算法清除，个体意识也就将会在蜜云虚拟世界内消亡，窒息本质上对信息数据不构成损伤，但它执行是蜜云虚拟世
ROS和autosar区别和联系，以及AP/CP对比ROS Jaliang_ 汽车
ROS和autosar区别和联系ROS(RobotOperatingSystem)和AUTOSAR(AutomotiveOpenSystemArchitecture)是两个不同领域的开源软件框架。应用领域的不同:ROS主要面向机器人技术和相关的智能系统，它为机器人研发提供了一套完整的软件解决方案，包括通信、驱动、算法、模拟等各方面的支持。ROS适合用于机器人的控制、感知、规划、模拟等方面的开发，也
深度学习-常用环境配置瑶山 AI linux 人工智能 windows CUDA PyTorch
目录Miniconda安装安装NVIDIA显卡驱动安装CUDA和cnDNNCUDAcuDNNPyTorch安装手动下载测试Miniconda安装最新版Miniconda搭建Python环境_miniconda创建python虚拟环境-CSDN博客安装NVIDIA显卡驱动直接进NVIDIA官网：NVIDIAGeForce驱动程序-N卡驱动|NVIDIA在这里有GeForce驱动程序，立即下载，这是下
C#实现24种数据校验算法的综合指南及工具包.zip 语嫣凝冰
本文还有配套的精品资源，点击获取简介：在数据通信和网络编程中，数据的完整性和准确性是至关重要的。C#作为一种流行的开发语言，提供了强大的工具来实现各类数据校验算法。本压缩包包含了一个名为“WindowsFormsApp”的C#应用程序，用于展示和实验24种数据校验方法，涵盖从简单到复杂的各种算法。这包括CRC校验、MD5、SHA系列、Adler32、Checksum、ParityBit、LRC、H
《数据结构》学习笔记二：算法（二）小曼blog
继续上节的学习，我们在这一篇文章里把“算法”这一章内容学习完。本节解决问题：算法的好坏到底是如何评估的？知识点：1.函数的渐进增长2.算法的时间复杂度3.常见的时间复杂度4.算法的空间复杂度1.函数的渐进增长这一知识点与数学相关，不过没关系都是很容易理解的内容。问题：假如两个算法的输入规模都是n,A的执行次数是2n+3,B的执行次数是3n+1,那么这两个算法哪一个更好呢？我们来分析一下，用数学的折
向量数据库FAISS/Chromadb/ES/milvus简单概述
FAISSFAISS（FacebookAISimilaritySearch）是一种高性能的向量相似性搜索库，用于在大规模向量数据集中快速搜索最相似的向量。它是由FacebookAIResearch开发的，旨在解决大规模向量搜索的问题，广泛应用于各种领域，如图像搜索、文本搜索、推荐系统等。FAISS的主要特点和优势如下：高效的相似性搜索：FAISS使用了一系列高效的算法和数据结构，如倒排索引、局部敏
大语言模型：人像摄影的“达芬奇转世”？——从算法解析到光影重塑的智能摄影革命黑巧克力可减脂 AIGC 语言模型人工智能自然语言处理
导言在摄影术诞生之初，达芬奇或许无法想象，他对于光影、比例和解剖的严谨研究，会在数百年后以另一种形式重生。今天，当摄影师面对复杂的光线环境或苦苦寻找最佳构图时，一位由代码构筑的“光影军师”正悄然降临——大语言模型（LLM）正以前所未有的方式，重塑人像摄影的创作边界。解构经典：大语言模型如何“消化”百年摄影智慧大语言模型并非凭空创造建议，其根基在于对海量摄影知识体系的深度理解与结构化重组。理论内化：
集群技术笔记-HAProxy 与 Keepalived 高可用负载均衡实战
目录前言HAProxy一、HAProxy介绍（一）定义（二）核心优势（三）调度算法速查表（四）工作模式（五）配置文件结构（六）健康检查字段二、搭建负载均衡集群（一）准备基本环境（二）配置流程配置真实服务器配置代理服务器（三）客户端验证三、配置健康检查页面（一）修改配置文件追加配置内容（二）重启服务（三）浏览器访问验证Keepalived一、Keepalived介绍（一）定义（二）功能（三）工作原理
LVS调度算法等风来也chen 随笔 lvs lvs调度算法
LVS的十种调度算法一）静态调度：①RR（RoundRobin）:轮询调度轮询调度算法的原理是每一次把来自用户的请求轮流分配给内部中的服务器，从1开始，直到N(内部服务器个数)，然后重新开始循环。算法的优点是其简洁性，它无需记录当前所有连接的状态，所以它是一种无状态调度。【提示：这里是不考虑每台服务器的处理能力】②WRR：weight,加权轮询（以权重之间的比例实现在各主机之间进行调度）由于每台服
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb