torch_geometric.data.collate中collate()函数

在进行图数据集预处理过程中,我们将每一个图数据存为一个Data类型的数据,一个数据集涉及大量的图,将大量的Data数据分开存储是非常慢的使用也不方便,因此需要用到collate()

def collate(cls: {__ne__},
            data_list: List[BaseData],
            increment: bool = True,
            add_batch: bool = True,
            follow_batch: Optional[List[str]] = None,
            exclude_keys: Optional[List[str]] = None) -> Tuple[BaseData, Mapping, Mapping]

这是torch_geometric.data.collate中collate()方法的参数说明,需要传入的参数有cls和data_list,其中data_list为元素为Data类的列表,返回值为一个大的Data数据以及Data的字典索引。

以实验说明其用法

import torch
from torch_geometric.data.collate import collate
from torch_geometric.data import Data

我们以两个图数据为例:

A=Data(x=torch.tensor([[1,2],[3,4],[7,1]]),
       edge_index=torch.tensor([[1,2],[2,1]]),
       edge_attr=torch.tensor([1,1]))
B=Data(x=torch.tensor([[2,2],[4,4]]),
       edge_index=torch.tensor([[1,2],[2,1]]),
       edge_attr=torch.tensor([1,1]))
input=[A,B]

A,B为两个图数据,包含节点信息(x),边的连接信息 (edge_index)以及边的特征信息(edge_attr)

print(type(A),A.__class__)

data,slices,_=collate(A.__class__,input,increment=False,
            add_batch=False)
print(type(data),type(slices),"data:{}\nslices:{}\n-{}".format(data,slices,_))

查看输出结果

 
  data:Data(x=[5, 2], edge_index=[2, 4], edge_attr=[4])
slices:defaultdict(, {'x': tensor([0, 3, 5]), 'edge_index': tensor([0, 2, 4]), 'edge_attr': tensor([0, 2, 4])})
-defaultdict(, {'x': None, 'edge_index': None, 'edge_attr': None})

可见collate()返回的data为将input数据每一个特征进行聚合得到一个大的Data数据,用返回的索引slices区分不同的数据,其中,slices为字典类型,包含三个key值,对应着输入数据的三个特征,每个值是一个一维tensor,每个数字代表特征在data的开始位置。

最后,用节点数据验证

print(data["x"][0]) # tensor([1, 2])

你可能感兴趣的:(深度学习,人工智能)