数据集 | 来源 | #图 | #节点 | #边 | #特征 | #标签(y) |
---|---|---|---|---|---|---|
Cora | “Collective classification in network data,” AI magazine,2008 | 1 | 2708 | 5429 | 1433 | 7 |
Citeseer | “Collective classification in network data,” AI magazine,2008 | 1 | 3327 | 4732 | 3703 | 6 |
Pubmed | “Collective classification in network data,” AI magazine,2008 | 1 | 19717 | 44338 | 500 | 3 |
├── gcn
│ ├── data //图数据
│ │ ├── ind.citeseer.allx
│ │ ├── ind.citeseer.ally
│ │ ├── ind.citeseer.graph
│ │ ├── ind.citeseer.test.index
│ │ ├── ind.citeseer.tx
│ │ ├── ind.citeseer.ty
│ │ ├── ind.citeseer.x
│ │ ├── ind.citeseer.y
│ │ ├── ind.cora.allx
│ │ ├── ind.cora.ally
│ │ ├── ind.cora.graph
│ │ ├── ind.cora.test.index
│ │ ├── ind.cora.tx
│ │ ├── ind.cora.ty
│ │ ├── ind.cora.x
│ │ ├── ind.cora.y
│ │ ├── ind.pubmed.allx
│ │ ├── ind.pubmed.ally
│ │ ├── ind.pubmed.graph
│ │ ├── ind.pubmed.test.index
│ │ ├── ind.pubmed.tx
│ │ ├── ind.pubmed.ty
│ │ ├── ind.pubmed.x
│ │ └── ind.pubmed.y
│ ├── __init__.py
│ ├── inits.py //初始化的公用函数
│ ├── layers.py //GCN层定义
│ ├── metrics.py //评测指标的计算
│ ├── models.py //模型结构定义
│ ├── train.py //训练
│ └── utils.py //工具函数的定义
├── LICENCE
├── README.md
├── requirements.txt
└── setup.py
三种数据都由以下八个文件组成,存储格式类似:
ind.dataset_str.x => the feature vectors of the training instances as scipy.sparse.csr.csr_matrix object;
ind.dataset_str.tx => the feature vectors of the test instances as scipy.sparse.csr.csr_matrix object;
ind.dataset_str.allx => the feature vectors of both labeled and unlabeled training instances
(a superset of ind.dataset_str.x) as scipy.sparse.csr.csr_matrix object;
ind.dataset_str.y => the one-hot labels of the labeled training instances as numpy.ndarray object;
ind.dataset_str.ty => the one-hot labels of the test instances as numpy.ndarray object;
ind.dataset_str.ally => the labels for instances in ind.dataset_str.allx as numpy.ndarray object;
ind.dataset_str.graph => a dict in the format {index: [index_of_neighbor_nodes]} as collections.defaultdict object;
ind.dataset_str.test.index => the indices of test instances in graph, for the inductive setting as list object.
All objects above must be saved using python pickle module.
以cora为例:
ind.dataset_str.x => 训练实例的特征向量,是scipy.sparse.csr.csr_matrix类对象,shape:(140, 1433)
ind.dataset_str.tx => 测试实例的特征向量,shape:(1000, 1433)
ind.dataset_str.allx => 有标签的+无无标签训练实例的特征向量,是ind.dataset_str.x的超集,shape:(1708, 1433)
ind.dataset_str.y => 训练实例的标签,独热编码,numpy.ndarray类的实例,是numpy.ndarray对象,shape:(140, 7)
ind.dataset_str.ty => 测试实例的标签,独热编码,numpy.ndarray类的实例,shape:(1000, 7)
ind.dataset_str.ally => 对应于ind.dataset_str.allx的标签,独热编码,shape:(1708, 7)
ind.dataset_str.graph => 图数据,collections.defaultdict类的实例,格式为 {index:[index_of_neighbor_nodes]}
ind.dataset_str.test.index => 测试实例的id,2157行
上述文件必须都用python的pickle模块存储
原始数据集链接:http://linqs.cs.umd.edu/projects/projects/lbc/
数据集划分方式:https://github.com/kimiyoung/planetoid (Zhilin Yang, William W. Cohen, Ruslan Salakhutdinov, Revisiting Semi-Supervised Learning with Graph Embeddings, ICML 2016)
Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。在数据集中,论文分为以下七类之一:
论文的选择方式是,在最终语料库中,每篇论文引用或被至少一篇其他论文引用。整个语料库中有2708篇论文。
在词干堵塞和去除词尾后,只剩下1433个独特的单词。文档频率小于10的所有单词都被删除。cora数据集包含1433个独特单词,所以特征是1433维。0和1描述的是每个单词在paper中是否存在。
变量data是个scipy.sparse.csr.csr_matrix,类似稀疏矩阵,输出得到的是矩阵中非0的行列坐标及值
(1)--------------------------------------ind.cora.x
def load_cora():
names = ['x']
with open("data/ind.cora.x", 'rb') as f:
if sys.version_info > (3, 0):
print(f) # <_io.BufferedReader name='data/ind.cora.x'>
data = pkl.load(f, encoding='latin1')
print(type(data)) #
print(data.shape) #(140, 1433)-ind.cora.x是140行,1433列的
print(data.shape[0]) #row:140
print(data.shape[1]) #column:1433
print(data[1])
# 变量data是个scipy.sparse.csr.csr_matrix,类似稀疏矩阵,输出得到的是矩阵中非0的行列坐标及值
# (0, 19) 1.0
# (0, 88) 1.0
# (0, 149) 1.0
# (0, 212) 1.0
# (0, 233) 1.0
# (0, 332) 1.0
# (0, 336) 1.0
# (0, 359) 1.0
# (0, 472) 1.0
# (0, 507) 1.0
# (0, 548) 1.0
# ...
# print(data[100][1]) #IndexError: index (1) out of range
nonzero=data.nonzero()
print(nonzero) #输出非零元素对应的行坐标和列坐标
# (array([ 0, 0, 0, ..., 139, 139, 139], dtype=int32), array([ 19, 81, 146, ..., 1263, 1274, 1393], dtype=int32))
# nonzero是个tuple
print(type(nonzero)) #
print(nonzero[0]) #行:[ 0 0 0 ... 139 139 139]
print(nonzero[1]) #列:[ 19 81 146 ... 1263 1274 1393]
print(nonzero[1][0]) #19
print(data.toarray())
# [[0. 0. 0. ... 0. 0. 0.]
# [0. 0. 0. ... 0. 0. 0.]
# [0. 0. 0. ... 0. 0. 0.]
# ...
# [0. 0. 0. ... 0. 1. 0.]
# [0. 0. 0. ... 0. 0. 0.]
# [0. 1. 0. ... 0. 0. 0.]]
(2)--------------------------------------ind.cora.y
def load_cora():
with open("data/ind.cora.y", 'rb') as f:
if sys.version_info > (3, 0):
print(f) #<_io.BufferedReader name='data/ind.cora.y'>
data = pkl.load(f, encoding='latin1')
print(type(data)) #
print(data.shape) #(140, 7)
print(data.shape[0]) #row:140
print(data.shape[1]) #column:7
print(data[1]) #[0 0 0 0 1 0 0]
(3)--------------------------------------ind.cora.graph
def load_cora():
with open("data/ind.cora.graph", 'rb') as f:
if sys.version_info > (3, 0):
data = pkl.load(f, encoding='latin1')
print(type(data)) #
print(data)
# defaultdict(, {0: [633, 1862, 2582], 1: [2, 652, 654], 2: [1986, 332, 1666, 1, 1454],
# , ... ,
# 2706: [165, 2707, 1473, 169], 2707: [598, 165, 1473, 2706]})
(4)--------------------------------------ind.cora.test.index
test_idx_reorder = parse_index_file("data/ind.{}.test.index".format(dataset_str))
print("test index:",test_idx_reorder)
#test index: [2692, 2532, 2050, 1715, 2362, 2609, 2622, 1975, 2081, 1767, 2263,..]
print("min_index:",min(test_idx_reorder))
# min_index: 1708
(5)citeseer数据集中一些孤立点的特殊处理
#处理citeseer中一些孤立的点
if dataset_str == 'citeseer':
# Fix citeseer dataset (there are some isolated nodes in the graph)
# Find isolated nodes, add them as zero-vecs into the right position
test_idx_range_full = range(min(test_idx_reorder), max(test_idx_reorder)+1)
# print("test_idx_range_full.length",len(test_idx_range_full))
#test_idx_range_full.length 1015
#转化成LIL格式的稀疏矩阵,tx_extended.shape=(1015,1433)
tx_extended = sp.lil_matrix((len(test_idx_range_full), x.shape[1]))
# print(tx_extended)
#[2312 2313 2314 2315 2316 2317 2318 2319 2320 2321 2322 2323 2324 2325
# ....
# 3321 3322 3323 3324 3325 3326]
#test_idx_range-min(test_idx_range):列表中每个元素都减去min(test_idx_range),即将test_idx_range列表中的index值变为从0开始编号
tx_extended[test_idx_range-min(test_idx_range), :] = tx
# print(tx_extended.shape) #(1015, 3703)
# print(tx_extended)
# (0, 19) 1.0
# (0, 21) 1.0
# (0, 169) 1.0
# (0, 170) 1.0
# (0, 425) 1.0
# ...
# (1014, 3243) 1.0
# (1014, 3351) 1.0
# (1014, 3472) 1.0
tx = tx_extended
# print(tx.shape)
# (1015, 3703)
#997,994,993,980,938...等15行全为0
ty_extended = np.zeros((len(test_idx_range_full), y.shape[1]))
ty_extended[test_idx_range-min(test_idx_range), :] = ty
ty = ty_extended
# for i in range(ty.shape[0]):
# print(i," ",ty[i])
# # 980 [0. 0. 0. 0. 0. 0.]
# # 994 [0. 0. 0. 0. 0. 0.]
# # 993 [0. 0. 0. 0. 0. 0.]
A=np.array([[1,0,2,0],[0,0,0,0],[3,0,0,0],[1,0,0,4]])
AS=sp.lil_matrix(A)
print(AS)
# (0, 0) 1
# (0, 2) 2
# (2, 0) 3
# (3, 0) 1
# (3, 3) 4
此数据集来源于一个PubChem网站的一个2014年的竞赛:https://tripod.nih.gov/tox21/challenge/about.jsp
PubChem是美国国立卫生研究院(NIH)的开放化学数据库,是世界上最大的免费化学物信息集合。
PubChem的数据由数百个数据源提供,包括:政府机构,化学品供应商,期刊出版商等。
21世纪的毒理学(Tox21)计划是NIH,环境保护局和食品药品管理局的联邦合作计划,旨在开发更好的毒性评估方法。目标是快速有效地测试某些化合物是否有可能破坏人体中可能导致不良健康影响的过程。Tox21数据集是其中一个比赛用到的数据集,包含了12个毒理试验测定的化学合成物质的结构信息
每个毒理实验测试的都是PUBCHEM_SID从144203552-144214049共10486个化合物,包括环保化合物、一些上市药物等物质的活性结果。
例如,p53实验的测定结果可以在线查看。
数据集可在此下载:https://tripod.nih.gov/tox21/challenge/data.jsp#
训练集和测试集都是由多个分子结构构成的sdf格式的文件。
一个分子的信息存储格式如下:
下面是属性值,属性个数不定
训练集中一个分子的信息存储格式如下:
NCGC00255644-01
Marvin 07111412562D
26 27 0 0 1 0 999 V2000
4.5831 -4.3075 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
5.2840 -3.9061 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
5.9910 -4.3075 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
5.2840 -3.0973 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
1.4379 -1.6595 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.4379 -2.4863 0.0000 C 0 0 1 0 0 0 0 0 0 0 0 0
2.1508 -2.0609 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.4379 -3.3010 0.0000 C 0 0 2 0 0 0 0 0 0 0 0 0
0.7070 -2.0609 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.8577 -2.4863 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.1508 -1.2342 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.7070 -3.7084 0.0000 C 0 0 1 0 0 0 0 0 0 0 0 0
2.1508 -3.7084 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.0000 -2.4863 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.8577 -3.3010 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
3.5646 -2.0609 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2.8577 -0.8388 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.1323 -4.4273 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.3056 -4.4273 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.0000 -3.3010 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
3.5646 -1.2342 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.7189 -5.1463 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
4.2955 -0.8388 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
5.0085 -1.2342 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
4.2955 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.4379 -4.1338 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0 0 0 0
2 3 1 0 0 0 0
2 4 2 0 0 0 0
6 5 1 1 0 0 0
6 7 1 0 0 0 0
6 8 1 0 0 0 0
6 9 1 0 0 0 0
7 10 1 0 0 0 0
7 11 2 0 0 0 0
8 12 1 0 0 0 0
8 13 1 0 0 0 0
8 26 1 6 0 0 0
9 14 1 0 0 0 0
10 15 1 0 0 0 0
10 16 2 0 0 0 0
11 17 1 0 0 0 0
12 18 1 6 0 0 0
12 19 1 1 0 0 0
12 20 1 0 0 0 0
13 15 1 0 0 0 0
14 20 1 0 0 0 0
16 21 1 0 0 0 0
17 21 2 0 0 0 0
18 22 1 0 0 0 0
21 23 1 0 0 0 0
23 24 1 0 0 0 0
23 25 1 0 0 0 0
M END
>
C22H35NO2
>
345.5188 (60.0520+285.4668)
>
27102
>
0
$$$$
测试集中一个分子的信息存储格式如下:
NCGC00261443
Marvin 10161415332D
20 22 0 0 1 0 999 V2000
0.5185 2.9762 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.2330 2.5637 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
1.2330 1.7387 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.5185 1.3262 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-0.2661 1.5812 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
-0.7510 0.9137 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-0.2661 0.2463 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
-0.5210 -0.5383 0.0000 C 0 0 2 0 0 0 0 0 0 0 0 0
-1.3056 -0.7933 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
-1.3056 -1.6183 0.0000 C 0 0 2 0 0 0 0 0 0 0 0 0
-1.9731 -2.1032 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-2.7268 -1.7676 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
-0.5210 -1.8732 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-0.2661 -2.6578 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
-0.0361 -1.2058 0.0000 C 0 0 1 0 0 0 0 0 0 0 0 0
0.7889 -1.2058 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
0.5185 0.5012 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.2330 0.0887 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
1.9475 0.5012 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.9475 1.3262 0.0000 N 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0 0 0 0
2 3 1 0 0 0 0
3 4 2 0 0 0 0
4 5 1 0 0 0 0
5 6 2 0 0 0 0
6 7 1 0 0 0 0
7 8 1 0 0 0 0
8 9 1 1 0 0 0
9 10 1 0 0 0 0
10 11 1 1 0 0 0
11 12 1 0 0 0 0
10 13 1 0 0 0 0
13 14 1 0 0 0 0
13 15 1 0 0 0 0
8 15 1 0 0 0 0
15 16 1 6 0 0 0
7 17 1 0 0 0 0
4 17 1 0 0 0 0
17 18 2 0 0 0 0
18 19 1 0 0 0 0
19 20 2 0 0 0 0
3 20 1 0 0 0 0
M END
>
NCGC00261443
>
NCGC00261443-01
>
0
>
0
>
0
>
0
>
0
>
0
>
0
>
1
>
0
>
0
>
0
$$$$
目标应该就是根据训练集的分子结构信息和是否是活性的标签去预测测试集中的分子结构的活性。训练集中可能是一个分子构成一张图,里面的原子和健构成节点和边,但是没有找到关于数据集中原子和健部分的数据更具体介绍,不知道每一行数据的意义。
有错误的地方还望不吝指出,欢迎进群交流GNNs&GCNs(入群备注信息!!!,格式:姓名 -(学校或其他机构信息)- 研究方向)。