KDD基准系统描述

目录介绍

KDD_Benchmark:基准系统目录,根目录
1 data:数据目录,仅包含dataset
1.1 train_set:训练集文件夹
1.1.1 Train.authorIds.txt:训练集的所有作者列表,每一行为一个作者id
1.1.2 Train.csv:训练集。第一行为表头:AuthorId,ConfirmedPaperIds,DeletedPaperIds。后面每行为对应Train.authorIds.txt文件中对应作者id确认写了的论文和确认不是他写的论文
1.2 valid_set:验证集文件夹
1.2.1 Valid.authorIds.txt:验证集的所有作者列表,每一行一个作者id
1.2.2 Valid.csv:验证集。第一行为表头:AuthorId,PaperIds。后面每行为对应Valid.authorIds.txt文件中对应作者id需要检查是否是该作者的论文的论文id。
1.2.3 Valid.gold.csv:验证集的标准答案,第一行为表头,AuthorId,ConfirmedPaperIds,DeletedPaperIds。后面每行为该行第一列作者id关于写没写过Valid.csv中论文的标准答案。
1.3 test_set:测试集文件夹(各个小组不同的测试集)
1.3.1 Test.authorIds.txt:测试集的所有作者列表
1.3.2 Test.csv:测试集,如Test.01.csv 是第一小组的测试集
1.4 Author.csv:作者数据集。第一行为表头,Id,Name,Affiliation,后面每一行为该id的作者的姓名和所属机构。
1.5 coauthor.json: 共作者数据,记录某作者的合作频率前十位的合作者,记录格式如下:
"2097153": {"450241": 3, "2018277": 1, "829512": 3, "1954441": 3, "1482510": 1, "1422127": 2, "1835158": 3, "427611": 1},
2097153为某一作者id,450241为第一个合作者,3为合作次数。为两层key-value的形式。
1.6 Conference.csv:会议数据集。第一行为表头:Id,ShortName,FullName,HomePage,后面每行为该会议的id,缩写,全名和主页网址。
1.7 Journal.csv:期刊数据集。格式和Conference.csv文件相同。
1.8 Paper.csv:论文数据集。第一行为表头:Id,Title,Year,ConferenceId,JournalId,Keyword,后面每行记录论文id,标题,年份,会议id,期刊id,关键词。其中期刊和会议id只可能有一个,另一个为0。大部分数据没有keywords,keywords形式有KEY WORDS: LOAD; IDE; 或者"Keywords: neutrophil, macrophage inflammatory protein-1b, chemotaxis, dendritic cell, laminin." 或者其他的形式。关键词空缺情况严重。
1.9 PaperAuthor.csv:论文-作者数据集。第一行为表头PaperId,AuthorId,Name,Affiliation,后面每行为论文id,作者id,作者姓名和所属机构。所属机构空缺情况严重。
1.10 paperIdAuthorId_to_name_and_affiliation.json:包含论文-作者对 (paperId,AuthorId) 与 名字-单位的映射关系,格式如下"1801853|166237": {"affiliation": "", "name": "Z. A. Knight"}
2 feature:特征文件夹。
2.1 train.feature:存放训练数据集抽取得到的特征。每一行格式如下:1 1:1 2:84 3:36 4:36 5:38 6:29 7:29 9:1.0 10:1.0 12:1.0 13:1.0 # 1619880 1400685
2.2 test.feature: 存放测试数据集抽取得到的特征。格式和 train.feature文件相同。
3 model:模型文件夹
3.1 kdd.model:训练好的分类模型,内容如下:

solver_type L2R_LR
nr_class 2
label 1 0
nr_feature 1
bias -1
w
0.1662516632507375 

4 model_trainer:训练模型
4.1 coauthor.py:获取共作者。根据PaperAuthor.csv,获取每个作者的top k个共作者。函数为def get_top_k_coauthors(paper_author_path, k, to_file): 这里取k = 10。
4.2 data_loader.py:加载数据。将训练数据和测试数据读入,整理成单个(paperID,authorID,lable)对放在authorIdPaperIds 中。
4.3 evalution.py:包含两个函数,get_prediction(test_feature_path, test_result_path, to_file) 将预测结果整理为AuthorId,ConfirmedPaperIds,DeletedPaperIds 的形式。Evalution(gold_file_path, pred_file_path) 返回ConfusionMatrix类对象。
4.4 feature_functions.py:特征函数

你可能感兴趣的:(KDD知识分析)