图数据处理入门

图数据入门课题记录

  • 任务描述
  • 数据集来源
  • 数据集整理

任务描述

按照(边,边特征,边标签),(节点,节点特征,节点标签)统一不同论文数据集

  • 熟练使用numpy, pandas工具,将不同格式图的边数据存储为带有时间戳的边csv文件
  • 提取图的节点信息,包括节点ID, 节点的reIndex, [节点度提取, 节点邻居个数, 节点三角形个数],节点标签
  • 针对包含文本、图像的数据,利用Word2Vec, Glove, ResNet等预训练框架,提取相关节点、边向量信息
  • 生成对不同图的描述,包括图的节点个数, 边个数, 时间戳跨度, 时间戳个数, 平均度数, 最大度数,测试集的新节点个数

数据集来源

  1. https://github.com/srijankr/jodie
  2. https://aminer.cn/aminernetwork
  3. https://aminer.cn/dynamic_coauthor

数据集整理

图数据处理入门_第1张图片
数据集梳理总结:

1、Coauthor数据集用于根据时间状态预测Researchers之间的合作关系,除Author_ID和时间戳以外无其他的节点特征和标签;
2、Academic Social Network数据集中包含两类节点——作者和文章,作者之间存在合作关系用带权边表示,文章之间存在引用关系用有向边表示,文章与作者之间用边表所属关系,作者节点特征为作者研究兴趣、所属机构、影响因子等,文章特征位题目、摘要、所属机构、地点等;
3、Last FM,MOOC,Reddit,Wikipedia四个数据集结构相同,均以users和items作为节点,带有时间戳和指定特征,节点状态为标签,用以预测节点状态变化,或者两个节点之间的是否有关联。

你可能感兴趣的:(入门学习,数据挖掘)